بهبود تشخیص وبگاه های جعل شده با استفاده از طبقه بندی کننده شبکه عصبی مصنوعی چند لایه با الگوریتم بهینه سازی شیرمورچه
محورهای موضوعی : فناوری اطلاعات و ارتباطاتفرهنگ پدیداران مقدم 1 , مهشید صادقی باجگیران 2
1 - دانشگاه صنعتی اسفراین
2 - -موسسه آموزش عالی اشراق
کلید واژه: حملات فیشینگ, انتخاب ویژگي, الگوریتم بهینهسازي شیر مورچه, صفحات جعلي, لینکهاي جعلي,
چکیده مقاله :
در حملات فیشینگ یک وبگاه جعلي از روي وبگاه اصلي جعل ميگردد که ظاهر بسیار شبیه به وبگاه اصلي دارد. فیشر یا سارق آنلاین براي هدایت کاربران به این وبگاهها، معمولا لینکهاي جعلي را در ایمیل قرار داده و براي قربانیان خود ارسال نموده و با روشهاي مهندسي اجتماعي سعي در فریب کاربران و مجاب نمودن آنها براي کلیک روي لینکهاي جعلي دارد. حملات فیشینگ زیان مالي قابل توجهاي دارند و بیشتر روي بانکها و درگاههاي مالي متمرکز هستند. روشهاي یادگیري ماشین یک روش موثر براي تشخیص حملات فیشینگ است اما این مشروط به انتخاب بهینه ویژگي است. انتخاب ویژگي باعث ميشود فقط ویژگيهاي مهم به عنوان ورودي یادگیري در نظر گرفته شوند و خطاي تشخیص حملات فیشینگ کاهش داده شود. در روش پیشنهادي براي کاهش دادن خطاي تشخیص حملات فیشینگ یک طبقهبندي کننده شبکه عصبي مصنوعي چند لایه استفاده شده که فاز انتخاب ویژگي آن با الگوریتم بهینهسازي شیرمورچه انجام ميشود. ارزیابي و آزمایشها روي مجموعه داده Rami که مرتبط با فیشینگ است نشان ميدهد روش پیشنهادي داراي دقتي در حدود 98.53 % است و نسبت به شبکه عصبي مصنوعي چند لایه خطاي کمتري دارد. روش پیشنهادي در تشخیص حملات فیشینگ از روشهاي یادگیري BPNN ، SVM ، NB ، C4.5 ، RF و kNN با سازوکار انتخاب ویژگي توسط الگوریتم PSO دقت بیشتري دارد.
In phishing attacks, a fake site is forged from the main site, which looks very similar to the original one. To direct users to these sites, Phishers or online thieves usually put fake links in emails and send them to their victims, and try to deceive users with social engineering methods and persuade them to click on fake links. Phishing attacks have significant financial losses, and most attacks focus on banks and financial gateways. Machine learning methods are an effective way to detect phishing attacks, but this is subject to selecting the optimal feature. Feature selection allows only important features to be considered as learning input and reduces the detection error of phishing attacks. In the proposed method, a multilayer artificial neural network classifier is used to reduce the detection error of phishing attacks, the feature selection phase is performed by the ant lion optimization (ALO) algorithm. Evaluations and experiments on the Rami dataset, which is related to phishing, show that the proposed method has an accuracy of about 98.53% and has less error than the multilayer artificial neural network. The proposed method is more accurate in detecting phishing attacks than BPNN, SVM, NB, C4.5, RF, and kNN learning methods with feature selection mechanism by PSO algorithm.
[1] Verma, M. K., Yadav, S., Goyal, B. K., Prasad, B. R., & Agarawal, S. (2019). Phishing Website Detection Using Neural Network and Deep Belief Network. In Recent Findings in Intelligent Computing Techniques (pp. 293-300). Springer, Singapore.
[2] Tawhid, M. A., & Ibrahim, A. M. (2020). Hybrid Binary Particle Swarm Optimization and Flower Pollination Algorithm Based on Rough Set Approach for Feature Selection Problem. In Nature-Inspired Computation in Data Mining and Machine Learning (pp. 249-273). Springer, Cham.
[3] Rao, R. S., & Pais, A. R. (2017, December). An enhanced blacklist method to detect phishing websites. In International Conference on Information Systems Security (pp. 323-333). Springer, Cham.
[4] Rao, R. S., Pais, A. R., & Anand, P. (2021). A heuristic technique to detect phishing websites using TWSVM classifier. Neural Computing and Applications, 33(11), 5733-5752.
[5] Bohacik, J., Skula, I., & Zabovsky, M. (2020, September). Data Mining-Based Phishing Detection. In 2020 15th Conference on Computer Science and Information Systems (FedCSIS) (pp. 27-30). IEEE.
[6] Alhogail, A., & Alsabih, A. (2021). Applying Machine Learning and Natural Language Processing to Detect Phishing Email. Computers & Security, 102414.
[7] Lakshmi, L., Reddy, M. P., Santhaiah, C., & Reddy, U. J. (2021). Smart Phishing Detection in Web Pages using Supervised Deep Learning Classification and Optimization Technique ADAM. Wireless Personal Communications, 118(4), 3549-3564.
[8] Sahingoz, Ozgur Koray, Ebubekir Buber, Onder Demir, and Banu Diri. "Machine learning based phishing detection from URLs." Expert Systems with Applications 117 (2019): 345-357.
[9] Basit, A., Zafar, M., Liu, X., Javed, A. R., Jalil, Z., & Kifayat, K. (2021). A comprehensive survey of AI-enabled phishing attacks detection techniques. Telecommunication Systems, 76(1), 139-154.
[10] https://docs.apwg.org/reports/apwg_trends_report_q1_2021.pdf
[11] Sahingoz, O. K., Buber, E., Demir, O., & Diri, B. (2020). Machine learning based phishing detection from URLs. Expert Systems with Applications, 117, 345-357.
[12] Zabihimayvan, Mahdieh, and Derek Doran. "Fuzzy Rough Set Feature Selection to Enhance Phishing Attack Detection." arXiv preprint arXiv:1903.05675 (2019).
[13] Sahingoz, Ozgur Koray, Ebubekir Buber, Onder Demir, and Banu Diri. "Machine learning based phishing detection from URLs." Expert Systems with Applications 117 (2019): 345-357.
[14] Feng, Fang, Qingguo Zhou, Zebang Shen, Xuhui Yang, Lihong Han, and JinQiang Wang. "The application of a novel neural network in the detection of phishing websites." Journal of Ambient Intelligence and Humanized Computing (2018): 1-15
[15] Rao, R. S., & Pais, A. R. Detection of phishing websites using an efficient feature-based machine learning framework. Neural Computing and Applications, 1-23.
[16] Feng, F., Zhou, Q., Shen, Z., Yang, X., Han, L., & Wang, J. (2018). The application of a novel neural network in the detection of phishing websites. Journal of Ambient Intelligence and Humanized Computing, 1-15.
[17] Mirjalili, S. (2015). The ant lion optimizer. Advances in engineering software, 83, 80-98.
[18] Mohammad, R., Thabtah, F., & McCluskey, T. L. (2015). Phishing websites dataset.
[19] Ali, W., & Malebary, S. (2020). Particle swarm optimization-based feature weighting for improving intelligent phishing website detection. IEEE Access, 8, 116766-116780.
دو فصلنامه علمي فناوري اطلاعات و ارتباطات ایران | سال پانزدهم، شماره 55 و56 ، بهار و تابستان 1402 صفحات:299 الی310 |
|
Fake Websites Detection Improvement Using Multi-Layer Artificial Neural Network Classifier with Ant Lion Optimizer Algorithm
Farhang Padidaran Moghadam*, Mahshid Sadeghi Bajgiran**
*Assistant Professor, Computer Department, Esfarayen Higher Education Technical Complex, Esfarayen, Iran
Master's degree, Eshraq Institute of Higher Education, Bojnourd, Iran**
Abstract
In phishing attacks, a fake site is forged from the main site, which looks very similar to the original one. To direct users to these sites, Phishers or online thieves usually put fake links in emails and send them to their victims, and try to deceive users with social engineering methods and persuade them to click on fake links. Phishing attacks have significant financial losses, and most attacks focus on banks and financial gateways. Machine learning methods are an effective way to detect phishing attacks, but this is subject to selecting the optimal feature. Feature selection allows only important features to be considered as learning input and reduces the detection error of phishing attacks. In the proposed method, a multilayer artificial neural network classifier is used to reduce the detection error of phishing attacks, the feature selection phase is performed by the ant lion optimization (ALO) algorithm. Evaluations and experiments on the Rami dataset, which is related to phishing, show that the proposed method has an accuracy of about 98.53% and has less error than the multilayer artificial neural network. The proposed method is more accurate in detecting phishing attacks than BPNN, SVM, NB, C4.5, RF, and kNN learning methods with feature selection mechanism by PSO algorithm.
Keywords: Phishing Attacks, Feature Selection, Ant Lion Optimization Algorithm, Fake Pages, Fake Links
بهبود تشخیص وبگاه های جعل شده با استفاده از طبقه بندی کننده شبکه عصبی مصنوعی چند لایه با الگوریتم بهینهسازی شیرمورچه
فرهنگ پدیداران مقدم*×، مهشید صادقی باجگیران**
*استادیار گروه کامپیوتر ، مجتمع آموزش عالی فنی مهندسی اسفراین، اسفراین، ایران
**دانش آموخته کارشناسی ارشد، موسسه آموزش عالی اشراق، بجنورد، ایران
تاریخ دریافت:17/05/1401 تاریخ پذیرش:19/09/1401
نوع مقاله: پژوهشی
چکیده
در حملات فیشینگ یک وبگاه جعلی از روی وبگاه اصلی جعل میگردد که ظاهر بسیار شبیه به وبگاه اصلی دارد. فیشر یا سارق آنلاین برای هدایت کاربران به این وبگاهها، معمولا لینکهای جعلی را در ایمیل قرار داده و برای قربانیان خود ارسال نموده و با روشهای مهندسی اجتماعی سعی در فریب کاربران و مجاب نمودن آنها برای کلیک روی لینکهای جعلی دارد. حملات فیشینگ زیان مالی قابل توجهای دارند و بیشتر روی بانکها و درگاههای مالی متمرکز هستند. روشهای یادگیری ماشین یک روش موثر برای تشخیص حملات فیشینگ است اما این مشروط به انتخاب بهینه ویژگی است. انتخاب ویژگی باعث میشود فقط ویژگیهای مهم به عنوان ورودی یادگیری در نظر گرفته شوند و خطای تشخیص حملات فیشینگ کاهش داده شود. در روش پیشنهادی برای کاهش دادن خطای تشخیص حملات فیشینگ یک طبقهبندی کننده شبکه عصبی مصنوعی چند لایه استفاده شده که فاز انتخاب ویژگی آن با الگوریتم بهینهسازی شیرمورچه انجام میشود. ارزیابی و آزمایشها روی مجموعه داده Rami که مرتبط با فیشینگ است نشان میدهد روش پیشنهادی دارای دقتی در حدود 98.53% است و نسبت به شبکه عصبی مصنوعی چند لایه خطای کمتری دارد. روش پیشنهادی در تشخیص حملات فیشینگ از روشهای یادگیری BPNN، SVM، NB، C4.5، RF و kNN با سازوکار انتخاب ویژگی توسط الگوریتم PSO دقت بیشتری دارد.
واژگان کلیدی: حملات فیشینگ، انتخاب ویژگی، الگوریتم بهینهسازی شیر مورچه، صفحات جعلی، لینکهای جعلی
×نویسنده مسئول: فرهنگ پدیداران مقدم
padidaran@esfarayen.ac.ir
1. مقدمه
وبگاههای جعلی1 به عنوان یکی از تهدیدهای مهم در فناوری اطلاعات و تجارت الکترونیک به شمار میروند زیرا این صفحات بسیار شبیه
صفحات قانونی بوده و اطلاعات کاربران را مورد سرقت قرار میدهند. حملات فیشینگ2 با استفاده از صفحات جعلی فضای وب را برای کاربران اینترنت ناامن نموده است و در این نوع حملات که میتواند مبتنی بر مهندسی اجتماعی یا مبتنی بر فریب توسط بدافزار میباشد یک کاربر به صورت خودکار یا توسط لینکهای جعلی به سمت صفحات وب جعلی هدایت شده و اطلاعات خود را در این صفحات وارد مینماید. فیشر با دریافت اطلاعات کاربران میتواند از آنها برای سرقت اطلاعات استفاده نماید. صفحات جعلی در اینترنت و حملات فیشینگ دارای مجموعهای از ویژگیها است که میتواند برای تشخیص صفحات جعلی استفاده شود. در بیشتر صفحات جعلی عمر دامنه اندک است زیرا این صفحات با سرعت ایجاد و سریع نیز شناسایی و حذف میشوند پس میتوان از این ویژگی برای تشخیص صفحات جعلی و حملات فیشینگ استفاده نمود. اطلاعات مرتبط با دامنه فقط برای تشخیص حملات فیشینگ مهم نبوده بلکه اطلاعات مرتبط با لینک و آدرس نیز مهم میباشند و مشاهده میشود در بیشتر صفحات جعلی طول آدرس بیش از اندازه طولانی است]1[.
وجود کاراکترهای خاص در صفحات جعلی یا آدرس وبگاه میتواند نشانه فیشینگ باشد و به عنوان نمونه استفاده از کاراکتر @ در آدرس یک وبگاه یک نشانه مهم در تشخیص صفحات جعلی است زیرا هکر با این کاراکتر اطلاعات مهم کاربران را برای خود ایمیل مینماید. اطلاعات و ویژگیهای مرتبط با کد منبع وبگاه هم یک عامل مهم در تشخیص صفحات جعلی است به گونهای که وجود کدهای خاص جاوا اسکریپت مانند عدم کلیک راست میتواند نشانه مهم فیشینگ باشد. اطلاعات و اعتبار سنجی صفحات وب نیز توسط موتورهای جستجو مانند آلکسا و گوگل هم برای تشخیص صفحات جعلی مهم است زیرا در صفحات قانونی و معتبر به علت سابقه و تعداد لینکهای ورودی دارای اعتبار بیشتری بوده و توسط موتورهای جستجوگر مانند گوگل شاخصگذاری میشوند و دارای رتبه مناسبی میباشند.
مجموعه ویژگیهای بکار رفته برای تشخیص صفحات جعلی متنوع و زیاد است و نیاز است که برای تشخیص صفحات جعلی و حملات فیشینگ توسط روشهای کشف دانش مانند یادگیری ماشین از مرحله انتخاب ویژگی بخوبی استفاده شود تا فقط یادگیری بر روی ویژگیهای مهم انجام شود تا الگوی صفحات فیشینگ شناسایی شود. مسئله انتخاب ویژگی در تشخیص حملات فیشینگ یک مسئله بهینهسازی است که نیاز است بردار ویژگی با دقت بالایی انتخاب شود و میتوان برای حل آن از روشهای مبتنی و طبیعت و الگوریتمهای فراابتکاری استفاده نمود]2[. برای تشخیص حملات فیشینگ تاکنون روشهای مختلفی توسعه داده شده است که بیشتر آنها بر اساس سه استراتژی لیست سیاه]3[، روشهای اکتشافی3]4[ و روشهای کشف دانش]5[ متمرکز است. روشهای کشف دانش به دو دسته روشهای یادگیری ماشین ]6 [و یادگیری عمیق4]7[ طبقهبندی میشود. در روشهای یادگیری ماشین زمان پردازش به مراتب کمتر از روشهای یادگیری عمیق است اما فاقد مرحله انتخاب ویژگی میباشند از این جهت نیاز به سازوکار انتخاب ویژگی دارند تا با دقت بالا حملات فیشینگ را تشخیص دهند.
با توجه به اینکه حملات فیشینگ سالانه رو به افزایش است و تعداد زیادی از حملات در حوزه مالی انجام میشود لذا برآورد میشود که زیان آنها نیز قابل توجه است و از طرفی نیز تعداد حملات فیشینگ و چالش آن حتی از ویروسها بیشتر است و از این جهت شناسایی آنها اهمیت بالایی دارد.
اهداف این مقاله ، شناسایی صفحات جعلی و شناسایی صفحات فیشینگ در اینترنت با خطای حداقلی، مبارزه با سرقتهای آنلاین و فیشینگ در فضای مجازی و بهبود روشهای دادهکاوی برای تشخیص فیشینگ و لینکهای جعلی با استفاده از الگوریتمهای فراابتکاری هوشمند نظیر بهینهسازی شیرمورچه است.
روشهای یادگیری ماشین برای تشخیص حملات فیشینگ نیاز دارند تا ویژگیهای مهم صفحات وب را دریافت نموده و از این ویژگیها برای آموزش و یادگیری استفاده نمایند. به عبارت بهتر در برخی مطالعات فقط بر ویژگیهای زبانی و محتوی صفحات وب برای تشخیص فیشینگ تاکید شده است اما برای تشخیص دقیقتر صفحات فیشینگ نیاز است که ویژگیهای مهم این صفحات مورد بررسی قرار گرفته شود و ویژگیهای مهم آن انتخاب شود زیرا انتخاب ویژگی باعث میشود که یادگیری فقط بر روی ویژگیهای انجام شود که اهمیت بیشتری دارند و خروجی مدل را دقیقتر مینمایند و حال آنکه در پژوهشهای مانند پژوهش]8[، مسئله انتخاب ویژگی در ترکیب با روشهای دادهکاوی در نظر گرفته نشده است. در روش پیشنهادی برای تشخیص صفحات جعلی یک روش ترکیبی استفاده میشود و همزمان ویژگیهای مرتبط با دامنه صفحات وب، ویژگیهای مرتبط با آدرس وبگاه و ویژگیهای مرتبط با کد صفحات وب در نظر گرفته شده و به کمک انتخاب ویژگی، مهترین ویژگیها برای آموزش یک شبکه عصبی مصنوعی ارایه میگردد. این مقاله دارای چند بخش است در بخش دوم مقاله پیشینه تحقیق در مورد حملات فیشینگ ارایه میشود. در بخش سوم، روش پیشنهادی برای تشخیص حملات فیشینگ ارایه میگردد. در بخش چهارم نیز آزمایشها و تجزیه تحلیل و در نهایت در بخش پنجم نتیجهگیری تحقیق و پیشنهادات آتی بحث شده است.
2. پیشینه پژوهش
برآوردها نشان میدهد تعداد حملات فیشینگ در سال 2020 قابل توجه است و فقط در ماه ژولای حدود 100 هزار وبگاه فیشینگ در دنیا شناسایی شده است و این تعداد دارای یک روند صعودی است. برآوردها نشان میدهد که حملات فیشینگ در سال 2020 تا حدود 90 هزار حمله گزارش شده است اما این حملات به حدود 250 هزار مورد در سال 2021 رسیده است]9و10[. بررسیها نشان میدهد حدود 24.9% از صفحات فیشینگ و جعلی برای سرقتهای مالی ایجاد میشود و این موضوع باعث میشود زیان این حملات در این حوزه نیز قابل توجه شود. برآوردها نشان میدهد زیان حملات فیشینگ سالانه به میلیونها دلار بالغ میشود و یکی از دلایل آن وجود حملات بر علیه زیرساختهای مالی مانند درگاههای پرداخت اینترنتی است. اهمیت شناسایی حملات فیشینگ فقط به تعداد حملات یا زیان مالی آنها محدود نمیشود. برآوردها نشان میدهد حملات فیشینگ در صدر حملات به شبکههای کامپیوتری است و حتی سهم بیشتری از بدافزار و ویروس را به خود اختصاص میدهد.
در پژوهش]12[، برای انتخاب ویژگی در حملات فیشینگ یک روش مبتنی بر یادگیری و تئوری ریاضیات Rough ارائه نمودند. نتایج ارزیابی آنها نشان میدهد که شاخص F-measure در روش پیشنهادی آنها برای تشخیص فیشینگ در حدود 95٪ است. همچنین آنها نشان دادند که 9 ویژگی توسط روش پیشنهادی آنها یا FRS بر روی تمامی سه مجموعه داده بکار رفته در تشخیص فیشینگ مهم میباشند. چالشهای مهمی که در استفاده از روشهای ریاضی در دو بعد میتواند مطرح باشد این است که اولا این روشها از هوشمندی روشهای فراابتکاری برخوردار نبوده و از طرفی دیگر انعطافپذیری بالایی ندارند.
در پژوهش]13[، برای تشخیص لینکهای جعلی مبتنی بر فیشینگ از یک روش جدید مبتنی بر یادگیری ماشین استفاده نمودند. در این پژوهش یک مجموعه داده جدید ساخته میشود و نتایج آزمایش بر روی آن آزمایش میشود. با توجه به نتایج تجربی و مقایسهای میتوان دریافت الگوریتم Random Forest با ویژگیهای مبتنی بر NLP دارای دقتی بالا برای شناسایی URL های فیشینگ است.
در پژوهش]14[، برای تشخیص صفحات جعلی و حملات فیشینگ یک روش اکتشافی غیرخطی مبتنی بر رگرسیون را انتخاب نمودند. نتایج پیادهسازی آنها نشان میدهد رگرسیون غیرخطی براساس الگوریتم جستجوی هارمونی و ماشین بردار پشتیبان با دو فاز انتخاب ویژگی درخت تصمیمگیری و بستهبندی ویژگیها به ترتیب دارای دقت 94.13% و 92.80٪ در تشخیص حملات فیشینگ هستند در نتیجه، مطالعه نشان میدهد که الگوریتم جستجوی هارمونی مبتنی بر رگرسیون غیر خطی باعث عملکرد بهتر در مقایسه با ماشین بردار پشتیبان میشود.
در پژوهش]15[، برای تشخیص لینکهای جعلی و آدرسهای فیشینگ یک چارچوب مبتنی بر یادگیری ماشین با توجه به ویژگی بکار رفته در این صفحات ارایه نمودند. نتایج ارزیابی آنها نشان میدهد که تکنیک جنگل تصادفی نسبت به سایر روشها میزان خطای کمتری برای تشخیص وبگاههای جعلی دارد.
در پژوهش]16[، جهت تشخیص صفحات جعلی از یک رویکرد یادگیری مبتنی بر شبکه عصبی مصنوعی استفاده نمودند. در تکنیک پیشنهادی آنها خروجی مدل شبکه عصبی توسط تکنیک مونت کارلو بهبود داده میشود تا دقت آن افزایش یابد نتایج ارزیابی آنها بر روی صفحات اینترنتی فیشینگ و قانونی نشان داده که روش پیشنهادی نسبت به تکنیکهای رگرسیون، ماشین بردار پشتیبان خطی، شبکه بیزین، نزدیکترین همسایه و ماشین بردار پشتیبان شعاعی دقت بیشتری در شناسایی حملات فیشینگ دارد.
در پژوهش]17[، از یک سازوکار یادگیری مبتنی بر تجزیه و تحلیل لینک و پیوندهای موجود در سورس کد صفحات برای تشخیص جعلی بودن آنها و به عبارت بهتر اعتبار آنها استفاده نموند. در این تکنیک، یک صفحه اینترنتی در وب در نظر گرفته میشود و اطلاعات درون سورس کد آن نظیر پیوند و لینکها گردآوری شده تا بر اساس آنها اعتبار وبسایت مشخص شود. در این روش مجموعهای از ویژگیهای مرتبط با لینکها نظیر لینکهای داخلی و لینکهای خارجی بکار رفته در سورس کد، بردار ویژگی را ایجاد نموده و این بردار ویژگی برای یادگیری توسط تکنیک یادگیرنده مورد استفاده قرار گرفته میشود تا صفحات به دو دسته غیرقانونی و قانونی طبقهبندی شوند. در این روش 12 ویژگی مرتبط با لینکهای موجود در سورس کد صفحات، بردار ویژگی را ایجاد نموده و سپس این بردار ویژگی برای یادگیری تکنیکهای مختلف مانند رگرسیون، درخت تصمیمگیری و ماشین بردار پشتیبان بکار برده میشود. نتایج پیادهسازی آنها نشان میدهد تکنیک رگرسیون برای این روش بیشترین دقت ممکن و تکنیک ماشین بردار پشتیبان کمترین دقت ممکن را در بین این روشها دارد.
در پژوهش]18[، جهت تشخیص صفحات جعلی یک روش یادگیری ماشین مبتنی بر سه تکنیک ماشین بردار پشتیبان، آنترپی بیشینه و یادگیری عمیق ارائه نمودند. در روش پیشنهادی آنها اطلاعات مبتنی بر محتوی صفحات و کلمات کلیدی آنها برای آموزش و یادگیری مورد استفاده قرار گرفته شد. در این روش محتوی مورد نظر از صفحات وب استخراج شده و نرخ تکرار کلمات نیز به عنوان ویژگی در یادگیری این روشها استفاده شده است. نتایج آزمایشها آنها نشان میدهد دقت روش پیشنهادی توسط این تکنیک بالا بوده و چالش عمده این روشها، زمان اجرای آن در نظر گرفته میشود.
3. مراحل انجام طرح پیشنهادی
در روش پیشنهادی یک بردار ویژگی یک شیر مورچه یا مورچه است و یک عضو جمعیت الگوریتم بهینهسازی شیرمورچه فرض میشود. در مرتبه اول یک جمعیت تصادفی از بردارهای ویژگی در قالب جمعیت الگوریتم شیر مورچه ایجاد میشود که دارای مقادیر تصادفی صفر و یک میباشند. نقش بردارهای ویژگی آموزش دادن شبکه عصبی با انتخاب ویژگیهای ورودی است و نقش الگوریتم بهینهسازی شیرمورچه به روزرسانی ویژگیهای انتخاب شده و یافتن ویژگی مهم برای یادگیری در تشخیص فیشینگ است. در هر تکرار، الگوریتم بهینهسازی شیر مورچه بر روی بردارهای ویژگی یا جمعیت بردارهای ویژگی اعمال شده و آنها را به روزرسانی مینماید.
یک بردار ویژگی برای ارزیابی به دو عامل مهم ذیل نیاز دارد تا شایستگی آن مشخص شود:
§ کاهش یافتن خطای تشخیص صفحات جعلی از اصلی
§ کاهش دادن تعداد ویژگی انتخاب شده
هر بردار ویژگی که بتواند این مقادیر را کمینهتر نماید به عنوان بردار ویژگی بهینه در نظر گرفته میشود. در تکرار آخر تلاش میشود بهینهترین بردار ویژگی برای آموزش شبکه عصبی مصنوعی انتخاب و بر اساس آن حملات فیشینگ تشخیص داده شود. در هر مرحله ارزیابی میتوان کیفیت خروجی شبکه عصبی را با خطای طبقهبندی صفحات جعلی از اصلی تشخیص داد.
در شکل(1)، سازوکار ترکیب الگوریتم شیر مورچه و شبکه عصبی مصنوعی چند لایه برای تشخیص حملات فیشینگ نمایش داده شده است. با توجه به شکل مورد نظر در ابتدا یک مجموعه داده با همه ویژگیها در نظر گرفته میشود و یک بردار ویژگی با الگوی صفر و یک با D ویژگی به عنوان یک عضو الگوریتم شیر مورچه تعیین و کدگذاری میشود. الگوریتم مورد نظر در هر تکرار تعدادی بردار ویژگی دارد که روی مجموعه داده نگاشت داده میشوند. با توجه به شکل الگوریتم شیر مورچه یا ALO در هر تکرار سعی در انتخاب بردار ویژگی بهینه برای کاهش دادن ابعاد مجموعه داده و انتخاب ویژگیهای بهینه دارد.
شکل 1: سازوکار ترکیب الگوریتم شیر مورچه و شبکه عصبی مصنوعی
ویژگیهای بهینه در تکرار آخر الگوریتم ALO محاسبه شده و از این ویژگیها برای کاهش دادن ابعاد مجموعه داده اصلی استفاده میشود و شبکه عصبی مصنوعی از این مجموعه داده کاهش ابعاد به عنوان ورودی استفاده میکند. در روش پیشنهادی شبکه عصبی مصنوعی با دریافت این مجموعه داده به عنوان ورودی سعی در طبقهبندی صفحات وب به دو دسته جعلی و اصلی دارد.
چارچوب روش پیشنهادی برای تشخیص حملات فیشینگ با استفاده از انتخاب ویژگی و یادگیری و طبقهبندی با شبکه عصبی مصنوعی چند لایه در شکل(2)، به تصویر کشیده شده است. در روش پیشنهادی در ابتدا 70% از دادهها و صفحات وب از نوع داده آموزشی و 30% دیگر از نوع آزمون است. در روش پیشنهادی دادههای آموزشی در فاز انتخاب ویژگی و یادگیری شبکه عصبی استفاده میشود. در مرحله ارزیابی از دادههای آزمون نیز برای تحلیل مدل پیشنهادی در تشخیص حملات فیشینگ استفاده میگردد. در چارچوب پیشنهادی برای تشخیص حملات فیشینگ از یک روال چند مرحلهای استفاده شده است که مراحل آن در ذیل آورده شده است:
§ پارامترهای شبکه عصبی مانند تعداد لایهها و نورونهای شبکه عصبی مصنوعی تنظیم میشود و یک بردار ویژگی به عنوان یک عضو الگوریتم ALO کدگذاری میشود که دارای الگوی صفر و یک است. هر مولفه صفر نشان دهنده عدم انتخاب ویژگی و هر مولفه یک نشان دهنده انتخاب ویژگی است.
§ ایجاد یک جمعیت اولیه از بردارهای ویژگی به صورت تصادفی به عنوان جمعیت الگوریتم بهینهسازی شیر مورچه:
§ انتخاب یک بردار ویژگی از بردارهای ویژگی یا عضو الگوریتم شیر مورچه برای به روزرسانی با استفاده از مراحل الگوریتم انتخاب ویژگی
§ آموزش شبکه عصبی با الگوی صفر و یک بردار ویژگی
§ ارزیابی بردار ویژگی بر اساس خطای شبکه عصبی و تعداد بردار ویژگی و تعیین شایستگی یک بردار ویژگی. هر چقدر مقدار تابع انتخاب ویژگی توسط یک بردار ویژگی کمینهتر شود آنگاه بردار ویژگی بهینهتر است.
§ به روزرسانی بردارهای ویژگی در تشخیص فیشینگ با الگوریتم ALO و با استفاده از حرکت بردارهای ویژگی از نوع مورچه به سمت بردارهای ویژگی از نوع شیرمورچه
§ اگر شمارنده تکرار بیشینه نشده مراحل قبلی تکرار شود و اگر شمارنده تکرار بیشینه شده است بردار ویژگی بهینه در تکرار آخر برای آموزش شبکه عصبی مصنوعی مورد استفاده قرار گرفته شود.
§ شبکه عصبی مصنوعی با بردار ویژگی بهینه آموزش داده میشود و ارزیابی میگردد.
شکل 2: چارچوب روش پیشنهادی برای تشخیص حملات فیشینگ
هر بردار ویژگی در ارتباط با حملات فیشینگ نیاز به ارزیابی دارد و برای ارزیابی هر بردار ویژگی دو عامل خطای طبقهبندی صفحات وب نرمال و فیشینگ و تعداد بردار ویژگی مهم است. یک تابع هدف میتواند به صورت ترکیبی از این دو عامل مانند رابطه(1)، باشد:
(1) |
|
(2) |
|
(3) |
|
(4) |
| ||
(5) |
|
(6) |
|
(7) |
|
(8) |
|
(9) |
|
(10) |
|
(11) |
| ||
(12) |
|
(13) |
|
(14) |
|
(15) |
|