بهبود روش شناسایی وب سایت فیشینگ با استفاده از دادهکاوی روی صفحات وب
محورهای موضوعی : عمومىمهدیه بهارلو 1 , علیرضا یاری 2
1 - دانشگاه آزاد اسلامی، واحد علوم و تحقیقات تهران
2 - پژوهشگاه ارتباطات و فناوری اطلاعات
کلید واژه: فیشینگ, دادهکاوی, انتخاب ویژگی, استخراج ویژگی,
چکیده مقاله :
فیشینگ یک نوع حمله اینترنتی در سطح وب است که هدف آن سرقت مشخصات فردی کاربران برای دزدی آنلاین است. فیشینگ دارای اثر منفی در از بین بردن اعتماد بین کاربران در کسبوکارهای الکترونیکی است؛ بنابراین در این تحقیق سعی بر بررسی روشهای تشخیص وب سایتهای فیشینگ با استفاده از داده کاوی شده است. شناسایی ویژگیهای برجسته از فیشینگ یکی از پیششرطهای مهم در طراحی یک سیستم تشخیصی دقیق است؛ لذا در گام اول، برای شناسایی ویژگیهای نفوذ فیشینگ یک لیست با 30 ویژگی مطرح در وبسایتهای فیشینگ آماده گردید. سپس برای افزایش کارایی سامانههای تشخیص فیشینگ روش جدیدی جهت کاهش ویژگی ها در دومرحله مبتنی بر انتخاب ویژگی و استخراج ویژگی پیشنهاد شده است که موجب می شود تعداد ویژگیها بهطور قابلتوجهی کاهش یابند. پسازآن عملکرد روشهای درخت تصمیم J48، جنگل تصادفی و بیزین ساده بر روی ویژگیهای کاهشیافته موردبررسی قرار گرفت. نتایج نشان میدهند دقت مدل ایجاد شده برای تعیین وب سایتهای فیشینگ با استفاده از کاهش ویژگی دومرحلهای مبتنی بر پوششی و الگوریتم تحلیل مؤلفه اصلی (PCA) در روش جنگل تصادفی ۹۶٫۵۸% میباشد که نسبت به سایر روشها نتیجه مطلوبی است.
Phishing plays a negative role in reducing the trust among the users in the business network based on the E-commerce framework. therefore, in this research, we tried to detect phishing websites using data mining. The detection of the outstanding features of phishing is regarded as one of the important prerequisites in designing an accurate detection system. Therefore, in order to detect phishing features, a list of 30 features suggested by phishing websites was first prepared. Then, a two-stage feature reduction method based on feature selection and extraction were proposed to enhance the efficiency of phishing detection systems, which was able to reduce the number of features significantly. Finally, the performance of decision tree J48, random forest, naïve Bayes methods were evaluated{cke_protected_1}{cke_protected_2}{cke_protected_3}{cke_protected_4} on the reduced features. The results indicated that accuracy of the model created to determine the phishing websites by using the two-stage feature reduction based Wrapper and Principal Component Analysis (PCA) algorithm in the random forest method of 96.58%, which is a desirable outcome compared to other methods.
]1[ اسماعیلی، مهدی، مفاهیم و تکنیکهای دادهکاوی، کاشان: سوره، 1392. http://www. p30download.com/fa/entry/53064
]2[ حاتمی خواه، نفیسه، "بررسی روشهای مبتنی بر انتخاب ویژگی"، تهران، دانشگاه صنعتی مالک اشتر، 1392. http://ceit.aut.ac.ir. ]دسترسی در 21/3/1396[.
]3[ سعیدی، پریسا، "بررسی سیستمهای هوشمند تشخیص وبسایت فیشینگ در بانکداری الکترونیکی به روش منطق فازی"، نخستین کنفرانس بینالمللی فناوری اطلاعات، تهران: مرکز همایشهای توسعه ایران، 1394. https://www.civilica.com/Paper-FBFI01-FBFI01_144.html
]4[ لنگری، نفیسه، عبدالرزاق نژاد، مجید، "شناسایی وبگاه فیشینگ در بانکداری اینترنتی با استفاده از الگوریتم بهینهسازی صفحات شیبدار"، مجله پدافند الکترونیکی و سایبری. شماره 1، صفحه 29-40، 1394.
]5[ محمدی، شهریار، غروی، عرفانه، "کاربرد تکنیکهای دادهکاوی جهت تشخیص آدرسهای فیشینگ"، کنگره ملی مهندسی برق، کامپیوتر و فناوری اطلاعات، مشهد: موسسه آموزش عالی خیام، 1392. https://www.civilica.com/Paper-CECIT01-CECIT01_555.html
]6[ معاونی, مسعود، "تشخیص حملات در بانکداری الکترونیکی با استفاده از سیستم ترکیبی فازی-راف (Fuzzy _rough)" گروه کامپیوتر دانشگاه امام رضا (ع)، 1394، http://moaveni.ir، ]دسترسی در 9/3/1396[.
]7[ ورسلیز، کارلو، هوش تجاری دادهکاوی و بهینهسازی برای تصمیمگیری، ترجمهی احمدی، عباس، محبی، آزاده، ویرایش دوم، تهران، نشر دانشگاه صنعتی امیرکبیر (پلیتکنیک تهران)، زمستان 1392.
[8] Abdelhamid, N., Ayesh, A., Thabtah, F., “Phishing detection based Associative Classification data mining”, Expert Systems with Applications 41 5948–5959, 2014.
[9] Aburrous, M., Hossain, M. A., Keshav, D., Thabtah, F., “Predicting Phishing Websites using Classification Mining Techniques with Experimental Case Studies”, IEEE Seventh International Conference on Information Technology, pp. 176-181, 2010.
[10] Abur-rous, M. R. M., “Phishing Website Detection Using Intelligent Data Minning Techniques”, Ph.D, dissertation, Dept. Computing, Bradford Univ, Bradford, 2010.
[11] Anti Phishing Working Group, Phishing activity trends report, http://www.antiphishing.org/resources/apwg-reports/apwg_trends_report_q4_2019.pdf.
[12] Aravindhan, R., Shanmugalakshmi, Dr.R., Ramya, K., Dr.Selvan C, “Certain Investigation on Web Application Security:Phishing Detection and Phishing Target Discovery”, 2016 3rd International Conference on Advanced Computing and Communication Systems (ICACCS -2016), Jan. 22 – 23, 2016, Coimbatore, INDIA, Available: IEEE Xplore, http://www.ieee.org.
[13] Basnet, R. B., Sung, A.H., Liu, Q., “Feature Selection for Improved Phishing Detection”, international conference on Industrial Engineering and Other Applications of Applied Intelligent Systems, pp 252-261, 2012, Available: https://link.springer.com.
[14] Buber, E., Demir, Ö., Sahingoz, O.K., “Feature Selections for the Machine Learning based Detection of Phishing Websites”, International Artificial Intelligence and Data Processing Symposium (IDAP) IEEE, 2017.
[15] Chaudhry, J. A., Rittenhouse, R. G., “Phishing: Classification and Countermeasures”, 7th International Conference on Multimedia, Computer Graphics and Broadcasting, pp. 28-31, IEEE, 2015.
[16] Hadi, W., Aburub, F., Alhawari, S., “A new fast associative classification algorithm for detecting phishing websites”, Applied Soft Computing 48 (2016) 729–734.
[17] Khonji, M., Jones, A., Iraqi, Y., “A Study of Feature Subset Evaluators and Feature Subset Searching Methods for Phishing Classification”, Proceedings of the 8th Annual Collaboration, Electronic messaging, Anti-Abuse and Spam Conference, pp.135-144, ACM, 2011.
[18] Kohavi, Ron, “A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection”, Proceedings of the 14th international joint conference on Artificial intelligence (IJCAI), pp. 1137-1143, ACM, 1995.
[19] Kohavi, R., John, G. H., “Wrappers for feature subset selection”, Artificial Intelligence,Vol. 97, pp. 273-324, 1997.
[20] Lakhita, Yadav, S., Bohra, B., Pooja, “A Review on Recent Phishing Attacks in Internet”, IEEE International Conference on Green Computing and Internet of Things (ICGCIoT), pp. 1312-1315, 2015.
[21] Mohammad, R. M., Thabtah, F., McCluskey, L., “Tutorial and critical analysis of phishing websites methods”, Computer Science Review 17 (2015) 1-24.
[22] Mohammad, R. M., Thabtah, F., McCluskey, L., Phishing Website Dataset, https://archive.ics.uci.edu/ml/datasets/ Phishing+websites, 2015.
[23] Pandey, M., Ravi, V., “Detecting phishing e-mails using Text and Data mining”, IEEE International Conference on Computational Intelligence and Computing Research(ICCIC), 2012.
[24] Pandey, M., Ravi, V., “Text and Data Mining to Detect Phishing Websites and Spam Emails”, Proceedings of the 4th International Conference on Swarm, Evolutionary, and Memetic Computing, Vol. 8298, pp.559-573, 2013.
[25] PhishTank.http://www.phishtank.com,2017.
[26] rahmi A. H., isredza, Abawajy, J., “Phishing Email Feature Selection Approach”, 10th International Joint Conference of IEEE TrustCom., pp. 916-921, 2011.
[27] Sanglerdsinlapachai, N., Rungsawang, A., “Using Domain Top-page Similarity Feature in Machine Learning-based Web Phishing Detection”, Third International Conference on Knowledge Discovery and Data Mining, IEEE, pp. 17-190, 2010.
[28] Singh, P., Jain, N., Maini, A., “Investigating the Effect Of Feature Selection and Dimensionality Reduction On Phishing Website Classification Problem”, 1st International Conference on Next Generation Computing Technologies (NGCT) Dehradun, India, IEEE, pp. 388-393, 2015.
دو فصلنامه علمي فناوري اطلاعات و ارتباطات ایران | سال دوازدهم، شمارههاي 43 و 44، بهار و تابستان 1399 صفحات: 27_38 |
|
بهبود روش شناسایی وب سایت فیشینگ با استفاده از دادهکاوی روی صفحات وب
مهدیه بهارلو* علیرضا یاری**
*دانشجوی کارشناسی ارشد دانشگاه آزاد اسلامی، واحد علوم و تحقیقات تهران
**استادیار پژوهشگاه ارتباطات و فناوری اطلاعات
تاریخ دریافت: 01/02/1399 تاریخ پذیرش: 30/07/1399
نوع مقاله: پژوهشی
چکیده
فیشینگ یک نوع حمله اینترنتی در سطح وب است که هدف آن سرقت مشخصات فردی کاربران برای سرقت آنلاین است. فیشینگ دارای اثر منفی در از بین بردن اعتماد بین کاربران در کسبوکارهای الکترونیکی است؛ بنابراین در این تحقیق سعی بر بررسی روشهای تشخیص وبسایتهای فیشینگ با استفاده از داده کاوی شدهاست. شناسایی ویژگیهای اصلی از صفحات وب فیشینگ یکی از پیششرطهای مهم در طراحی یک سیستم تشخیص فیشینگ دقیق است. در پژوهش حاضر، برای افزایش کارایی سامانه تشخیص فیشینگ، یک روش ترکیبی برای کاهش ویژگیهای وب سایتهای فیشنگ پیشنهاد شده است. این روش ترکیبی از روشهای انتخاب و کاهش ویژگی است که در دو مرحله انجام میشود. برای پیاده سازی و ارزیابی این روش پیشنهادی، بعد از کاهش ویژگیها دسته بندی داده ها از طریق روشهای درخت تصمیمگیری J48، جنگل تصادفی و بیزین ساده موردبررسی قرار گرفت. نتایج نشان میدهند دقت مدل ایجاد شده برای تعیین وب سایتهای فیشینگ با استفاده از کاهش ویژگی دومرحلهای مبتنی بر پوششی و الگوریتم تحلیل مؤلفه اصلی در روش جنگل تصادفی که به میزان ۹۶٫۵۸% است، نسبت به سایر روشها نتیجه مناسبتری را دارد.
واژگان کلیدی: حملات اینترنتی، فیشینگ، دادهکاوی، انتخاب ویژگی، استخراج ویژگی
1- مقدمه
امروزه اینترنت به یک جزء ضروری از زیرساختهای اجتماعی و اقتصادی روزمره مردم تبدیلشده است. حجم بالای اطلاعات محرمانه و امنیتی اینترنت باعث میشود انواع تهدیدات و حملات مختلف در آن به وجود آید که ممکن است باعث خسارت مالی، سرقت هویت، از دست دادن اطلاعات خصوصی، آسیب شهرت نام تجاری و از دست دادن اعتماد مشتریان در تجارت الکترونیک شود ]1[. عواملی که تهدید و حمله را در یک شبکه اینترنتی به وجود میآورند عبارتند از: دسترسی بدون محدودیت به اینترنت، گمنامی افراد، سرعتبالای انتشار، عدم ارتباط چهره به چهره، دسترسی آزاد به خدمات و محتویات ارزشمند و همچنین عدم وجود قوانین و توافقات مناسب ]2[؛ بنابراین، مناسب بودن اینترنت بهعنوان یک کانال برای انجام معاملات تجاری مطرح میشود.
در اوایل 1990، با محبوبیت رو به رشد اینترنت، ما شاهد تولد یک نوع جدید از جرائم اینترنتی بودیم؛ که فیشینگ نام دارد ]3[.
برخلاف سایر روشهای هک و ورود به سیستم، در روش فیشینگ معمولاً هیچ نفوذی انجامنشده و از رخنهها و آسیبپذیریها استفاده نمیشود. بلکه خود کاربر است که با استفاده از روشهای گوناگون فریبخورده و اطلاعاتی نظیر نام کاربری، رمز عبور، اطلاعات حساب بانکی را در اختیار حملهکننده که بهاصطلاح فیشر نامیده میشود، قرار میدهد ]4[. طبق بررسی انجامشده توسط "گروه کاری ضد فیشینگ" تعداد حملات فیشینگ سراسر جهان در سه ماهه چهارم سال 2019 کاهش یافته و به میانگین نزدیکتر شده است. البته در همین سال در کشور برزیل تا 232 درصد افزایش یافته است. حملات فیشینگ که کاربران وب، ایمیل و سرویسهای نرم افزاری را هدف قرار میدهد، همچنان بزرگترین گروه حملات فیشینگ است. تقریباً سه چهارم از همه سایتهای فیشینگ اکنون از حفاظت SSL استفاده میکنند، بالاترین میزان ثبت شده از اوایل سال 2015، و این نشانگر این است که کاربران نمیتوانند به تنهایی به SSL اعتماد کنند و برای درک درست نیاز به ویژگیهای بیشتری دارند] 5[.
برای وبسایت فیشینگ تعاریف زیادی ارائه شده است که میتوان تمام تعاریف را به صورت جامع و کامل در یک جمله بیان نمود: "وبسایت فیشینگ عمل ایجاد یک کپی از یک وبسایت قانونی و استفاده از مهارتهای اجتماعی برای فریب قربانی برای ارسال اطلاعات شخصی او است" ]3[.
انواع حملات فیشینگ را میتوان فیشینگ سرنیزه یا فیشینگ هدفمند، کلون فیشینگ، صید نهنگ، فیشینگ تلفن، حمله بایوزی، قاپیدن تب، فارمینگ، فیشینگ موتور جستجو و فیشینگ مبتنی بر بدافزار دسته بندی کرد ]6،7[.
برای تشخیص صفحات فیشینگ از روشهای متعددی استفاده میشود که هریک به دستهای از ویژگیهای صفحات میپردازند. در این مقاله روشی جدیدی پیشنهادشده است که برای دستهبندی دادههای وبسایتهای فیشینگ، از کاهش دومرحلهای ویژگیها استفاده مینماید. بدینصورت که در مرحله اول بر اساس یک روش انتخاب ویژگی، زیرمجموعهای مفید از ویژگیها انتخاب شده و درمرحله دوم با کاهش بیشتر ترکیبی از ویژگیهای مفید با ابعاد کمتر حاصل میشود.
در مقاله جاری، در ابتدا ابزارها و روشهای مقابله با فیشینگ در قسمت پیشینه تحقیقات معرفی خواهند شد. سپس در بخش 3 روش انجام کار، ویژگیهای که توسط فیشرها برای ایجاد وب سایتهای جعلی استفاده میشوند و همچنین روشهای کاهش ویژگی و روش پیشنهادی کاهش ویژگی در این مقاله معرفی میگردد. در ادامه در بخش 4 دادههای حاصل از انجام آزمایشات مورد تجزیه و تحلیل قرار میگیرند و نتیجه با کارهای مشابه گذشته مورد مقایسه قرار میگیرد. در نهایت در بخش نتیجه گیری، نتیجه حاصل از انجام تحقیق بررسی خواهد شد.
2- پیشینه پژوهش
تکنیکهای فیشینگ روزبهروز در حال افزایش است و درعینحال پیچیدهتر میشود. درنتیجه نیاز فوری به یافتن راهحلهای مناسب برای مبارزه با حملات فیشینگ وجود دارد. تاکنون، راهحلهای مختلفی در پاسخ به حملات فیشینگ پیشنهادشده است. این راهحلها با توجه به شکل (1) به سه روش مقابله با فیشینگ شامل ابزارهای ضد فیشینگ، راهحلهای فنی و غیر فنی تقسیم میشوند]8[. ازجمله ابزار ضد فیشینگ میتوان افزونه مرورگر WOT ]8[، سایت ضد فیشینگ فیش تانک ]9[، سازمان جیو تراست، موزیلا تاندر برد ]10[ را نام برد؛ اما در ادامه به توضیح راه حلهای فنی و غیر فنی خواهیم پرداخت.
شکل (1): دستهبندی روشهای شناسایی فیشینگ
2-1- راه حلهای غیرفنی
2-1-1- آموزش
آموزش مشتریان برای افزایش سطح آگاهی آنها از جرائم آنلاین ضروری است تا با درک شاخصهای امنیتی داخل وبسایتها بتوانند به مقابله با فیشینگ بپردازند ]11[. اما این کار بسیار مشکل است چراکه کاربران باید زمان زیادی را صرف فراگیری متدهای فیشینگ کنند، علاوه بر آن فیشرها در ایجاد تکنیکهای جدید هوشمندانهتر عمل میکنند ]3[.
2-1-2- راه حلهای قانونی
این راهحلها در کشورهای زیادی استفاده شدهاند. ایالت متحده اولین کشوری بود که قانونی را در مورد این وبسایتها وضع کرد و همین امر موجب گردید، فعالیتهای زیادی توقیف گردد و عاملین آن به زندان انداخته شوند. بااینحال، راهحلهای قانونی نمیتوانند مانع عمل وبسایتهای جعلی شوند، چراکه ردیابی آنها به دلیل مخفی شدن سریع آنها در دنیای سایبری مشکل است ]1[.
2-2- راه حلهای فنی
علاوه بر روشهای غیر فنی نظیر آموزش و قانون، برای مبارزه با فیشینگ، عموماٌ، دو متد فنی رایج در مبارزه با حملات فیشینگ، لیست سیاهوسفید و روشهای اکتشافی است ]6[.
2-2-1- لیست سیاهوسفید
در روش لیست سیاه و سفید تمام URL های درخواستی با URL های موجود در لیست سیاه و سفید فیشینگ مقایسه میشوند تا مشخص شود وبسایت موردنظر قانونی است یا جعلی؛ لیست سفید در واقع لیست صفحاتی هست که قانونی هستند و اما در مقابل در لیست سیاه سعی میشود تمام صفحات جعلی شناسایی و پوشش داده شود. در این روش شناسایی تمام صفحات و بهروز رسانی اطلاعات کار بسیار دشوار و زمان بر هست، چراکه بطور دائم صفحات زیادی ایجاد شده و یا از بین میروند ]12[.
برخی از ارائهدهندگان لیست سیاه مانند کاوش ایمن گوگل ]1[، فیش نت، لیست سیاه مبتنی بر DNS ]6[ و نرمافزارهای ضد فیشینگ نتکرفت، وبسن و کلودمارک ]13[ با استفاده از این روش مانع از حملات فیشینگ میشوند.
2-2-2- روشهای اکتشافی
در این روش از ویژگیهای وبسایتهای فیشینگ برای تشخیص وبسایتهای فیشنیگ جدید استفاده میشود. در واقع قدرت اصلی تشخیصدهندههای فیشینگ بر اساس روش اکتشافی این است که آنها قادر به تشخیص وبسایتهای فیشینگ جدید هستند ]10[.
2-2-2-1-روشهای مبتنی بر الگوریتمهای فازی
یک روش که توسط ابارس و همکاران در سال 2010 بهکار گرفتهشده است، بر مبنای الگوریتمهای دستهبندی مبتنی بر قانون فازی برای تشخیص وبسایتهای فیشینگ بانکداری الکترونیکی است ]13[. سعیدی در سال ۱۳۹۴ از روش دستهبندی مجموعههای فازی و روش ترکیبی تصمیمگیری AHP_TOPSIS برای تشخیص سریعتر و کارآمدتر وبسایتهای فیشینگ در بانکداری الکترونیکی استفاده کرده است ]14[. عبدالحمید و همکاران در سال ۲۰۱۴ متد خاص دستهبندی انجمنی به نام دستهبند چند برچسبه بر مبنای دستهبندی انجمنی را ارائه دادند ]1[. هادی و همکاران در سال 2016 از روش جدید دستهبندی انجمنی به نام الگوریتم دستهبندی انجمنی سریع استفاده کردهاند ]15[.
2-2-2-2- روشهای مبتنی بر یادگیری ماشین
باسنت و همکاران در سال 2012 از الگوریتمهای یادگیری ماشین ازجمله بیزین ساده، رگرسیون لجستیک و جنگل تصادفی استفاده کردند. باتوجه به آنکه از 177 ویژگی اولیه استفاده شده بود آنها از روش انتخاب ویژگی مبتنی بر همبستگی (CFS)1 و پوششی برای کاهش ویژگیها استفاده کردند ]16[. خنجی و همکاران بر کاهش ویژگیها و یافتن بهترین زیرمجموعه از آنها برای رسیدن بهدقت بهتر در دستهبندی ایمیلهای فیشینگ تمرکز داشتند. آنها چهار روش کاهش ویژگی بهره اطلاعات (IG)2، پوششی، ConEval و CFS را با الگوریتم جنگل تصادفی مورد ارزیابی قراردادند ]17[. سینگ و همکاران در سال 2015 از چهار الگوریتم پیشپردازش CFS، IG، زیرمجموعه مبتنی بر سازگاری3، PCA برای کاهش ابعاد و پنج الگوریتم دستهبندی؛ J48، بیزین ساده، SVM، جنگل تصادفی و آدابوست برای ارزیابی عملکرد الگوریتمهای کاهش ویژگی ازنظر دقت و AUC استفاده کردند ]18[. رحیمی و همکاران با روش ترکیبی انتخاب ویژگی مبتنی بر محتوا و رفتار و با استفاده از الگوریتمهای شبکه بیزین، آدابوست، جنگل تصادفی و جدول تصمیمگیری، به تشخیص ایمیلهای فیشینگ پرداختند ]19[. در مقاله ]20[ نیز یک روش کاهش ویژگی ترکیبی هایبرید(HEFS) ارائه شده است که در کنار روش طبقهبندی جنگل تصادفی بهترین عملکرد را داشته است. در مقاله ]21[ با استفاده از الگوریتمهای یادگیری ماشین علاوه بر استفاده از یک مجموعه داده جدید مربوط به تشخیص فیشینگ که شامل 5000 صفحه وب قانونی و 5000 فیشینگ است، به این مسئله پرداخته که به منظور دستیابی به بهترین نتایج، الگوریتمهای مختلف یادگیری ماشین مورد آزمایش قرار گرفتند و نهایتا J48، جنگل تصادفی و پرسپترون چند لایه انتخاب شدند. در مقاله ]22[ نیز روشهای یادگیری ماشین بطور کلی در کنارکاهش ویژگیها برای تشخیص صفحات وب و ایمیل فیشینگ مورد بررسی و ارزیابی قرار گرفتهاند.
2-2-2-3- روشهای مبتنی بر متنکاوی
پاندی و راوی در سال 2012 از متنکاوی و دادهکاوی برای تشخیص ایمیلهای فیشینگ استفاده کردند. با استفاده از انتخاب ویژگی مبتنی بر t-statistic، به 12 ویژگی مهم دست یافتند و از دستهبندهای SVM، رگرسیون لجستیک، جدول تصمیمگیری، MLP،MDH ، PNN و برنامهنویسی ژنتیک استفاده نمودند، این الگوریتمها با انتخاب ویژگی و بدون انتخاب ویژگی مورد ارزیابی قرار گرفتند ]23[. آنها در تحقیق دیگری روش بهبود یافتهای ارائه داده و برای تست از اعتبار سنجی تقاطعی با 10 تکرار استفاده کردند ]24[.
2-2-2-4- روشهای مبتنی بر تکنیکهای ابتکاری
لنگری و عبدالرزاق نژاد در سال 1395، وب سایتها را بر اساس ویژگیهای استخراجشده توسط الگوریتم بهینهسازی صفحات شیبدار (IPO)4 به سه دسته وبسایتهای قانونی، مشکوک و فیشینگ دستهبندی کردند ]25[.
3- روش کاهش ویژگی
در تمام مجموعههای داده که برای مدلسازی و آزمون سامانههای ضدفیشینگ استفاده میشوند، تعداد زیادی ویژگی در دسترس هستندکه امکان دستهبندی را فراهم میکنند. با توجه به اینکه تعداد محدودی از آنها اثرات قابلتوجهی بر متغیر هدف دارند؛ لذا به دنبال کاهش آنها به نحوی هستیم که کمترین تأثیر را در تشخیص فیشینگ بگذارد. در این بخش ویژگیهای وبسایتهای فیشینگ و نحوه کاهش آنها مورد بررسی قرار گرفته است.
3-1- ویژگیها
هر وب سایت دارای یک سری ویژگیهای منحصربهفرد است که باعث تمایز آن از سایر وبسایتها میشود. لذا همواره فیشر به دنبال ترفندی برای ساخت یک وبسایت جعلی، اقدام به تغییر برخی از ویژگیهای وبسایتهای قانونی مینماید ]25[. در این بخش ویژگیهای درج شده در مجموعه داده سایت دادهکاوی UCI مورد بررسی قرار گرفته است. این مجموعه داده حاوی 30 ویژگی مبتنی بر 4 معیار زیر است]26[:
· نوار آدرس
· غیرطبیعی بودن
· جاوا اسکریپت و HTML
· دامنه
در این قسمت با این ویژگیها که در آزمایشها مورد استفاده قرار گرفتهاندآشنا میشویم. ویژگیها بهصورت صفر و یک و منفی یک کدگذاری شدهاند.
3-1-1- ویژگیهای مبتنی بر نوار آدرس
· آدرس مبتنی بر IP
· URL های طولانی
· استفاده از خدمات کوتاه کننده URL
· استفاده از نماد @ در URL
· تغییر مسیر با "//"
· وجود نماد "-" در دامنه
· تعداد نقطهها در دامنه
· HTTPS
· مدت ثبت دامنه
· فاوآیکون
· استفاده از درگاه غیراستاندارد
· وجود توکن HTTPS در دامنه
3-1-2- ویژگیهای مبتنی بر غیرطبیعی بودن
· درخواست URL
· تگ انکر
· پیوندها در تگهای <Meta>, <Script> و< <Link
· فرم هندلر در سرور
· ارسال اطلاعات به ایمیل
· URL غیرطبیعی
3-1-3- ویژگیهای مبتنی بر جاوا اسکریپت و HTML
· ارسال وبسایت
· سفارشیسازی نوار وضعیت
· غیرفعال کردن کلیک راست
· استفاده از پنجره پاپ آپ
· تغییر مسیر با تگ آیفریم
3-1-4- ویژگیهای مبتنی بر دامنه
· طول عمر دامنه
· رکورد DNS
· ترافیک وبسایت
· رتبهبندی صفحه
· شاخص گذاری گوگل
· تعداد پیوندهای اشارهکننده به صفحه
· ویژگیهای مبتنی بر گزارشهای آماری
3-2- روشهای کاهش ویژگی
روشهای کاهش ابعاد داده به دودسته روشهای مبتنی بر استخراج ویژگی و همچنین روشهای مبتنی بر انتخاب ویژگی تقسیم میشوند ]27[. روشهای انتخاب ویژگی سعی میکنند با انتخاب زیرمجموعهای از ویژگیهای اولیه، ابعاد دادهها را کاهش دهند. برخلاف روشهای مبتنی بر استخراج ویژگی، این روشها معنای اصلی ویژگیها را بعد از کاهش حفظ میکنند. روشهای مبتنی بر انتخاب ویژگی خود به سه روش فیلتر، پوششی و جاسازیشده تقسیم میشوند ]28[. هرکدام از این سه روش انتخاب ویژگی حاوی الگوریتمهایی برای اجرا هستند. در این قسمت به توضیح الگوریتمهایی که قرار است در این پژوهش مورداستفاده قرار گیرند میپردازیم.
3-2-1روش پوششی
در ابن روش انتخاب زیرمجموعه ویژگی با استفاده از الگوریتم یادگیری انجام میشود. الگوریتم دستهای از ویژگیها را برای یادگیری انتخاب مینماید و نهایتاً آن دسته از ویژگیها که دقت بالاتری دارند، انتخاب میشود. الگوریتمی که کار ارزیابی زیرمجموعه ویژگیها و انتخاب بهترین زیرمجموعه را انجام میدهد، خود بهعنوان بخشی از تابع ارزیابی، کار جستجو برای انتخاب بهترین مدل را انجام میدهد ]7[.
· روش CFS
CFS مقدار همبستگی بین ویژگیها و کلاسهایشان و همچنین همبستگی بین خود ویژگیها را اندازهگیری میکند. ایده کلی این است که زیرمجموعه ویژگیهای خوب، همبستگی زیادی باکلاسها دارند، اما نباید با یکدیگر همبستگی داشته باشند ]17[. در الگوریتم CFS، هیوریستیکی برای ارزیابی ارزش یا شایستگی یک زیرمجموعه ویژگی وجود دارد ]18[.
· روش IG
تفاوت بین آنتروپی H(S) از مجموعه داده S و آنتروپی مشروط H(S|F) از مجموعه داده که پس از جداسازی توسط ویژگی F ساختهشده، به دست میآید. آنتروپی روش اندازهگیری ناخالصی در یک مجموعه داده است و اگر یک مجموعه داده تعداد مساوی از نمونهها برای هر کلاس داشته باشد، مقدار آن حداکثر در نظر گرفته میشود ]17[.
· روش PCA
یکی از عمومیترین و شناختهشدهترین روشهای آماری برای کاهش ویژگیها است. هدف این روش به دست آوردن یک تبدیل تصویری است که از طریق آن بتوان با ترکیب خطی ویژگیهای اصلی، تعداد کمتری ویژگیهای جدید تولید نمود ]28[.
3-3- الگوریتمهای مدلسازی
· بیزین ساده
در روش بیزین ساده، دستهبندی بر پایه احتمالات و با فرض استقلال متغیرهای تصادفی ساخته میشود. این روش از سادهترین الگوریتمهای دستهبندی است که دقت قابل قبولی داشته و بر پایه احتمال وقوع یا عدم وقوع یک پدیده شکل میگیرد]29[.
· جنگل تصادفی
جنگل تصادفی مجموعهای از درختهای تصمیم است که دادههای آموزشی جهت ساخت هر درخت از روش انتخاب تصادفی با جایگذاری استفاده میکنند. هر درخت یک دستهبندی را میدهد که گفته میشود آن درخت به آن دسته رأی داده است. در انتها، دستهبندی که بیشترین رأی را داشته باشد انتخاب میشود. درختها هرس نمیشوند و در هر گره تعدادی ویژگی بهطور تصادفی از مجموعهی کل ویژگیها برای انشعاب بررسی میشوند]30[.
· J48
این روش از معیار شاخص جینی5 جهت انتخاب ویژگی استفاده میکند]27[. از میان ویژگیها، هرکدام که مقدار شاخص جینی آن کوچکتر است، برای گروه جاری درخت تصمیم در نظر گرفته میشود.
3-4- روش پیشنهادی
همانطوریکه در شکل 2 آمده است، روش پیشنهادی شامل سه مولفه هست: مولفه پیشپردازش، مولفه مدلسازی و مولفه آزمون و ارزیابی.
در این پژوهش در مولفه پیشپردازش دادهها برای کاهش ویژگیها از روش ترکیبی جدیدی برای کاهش دومرحلهای ویژگیها استفاده شدهاست. در این روش سعی شده است از پیچیدگی مسئله تا حد امکان کاسته شود و ویژگیهایی انتخاب گردد که در دستهبندی آنها دارای بالاترین کارایی باشند و خطای دستهبندی نمونهها را حتیالامکان کاهش دهد. بدینصورت که در مرحله اول بر اساس یک روش انتخاب ویژگی، زیرمجموعهای مفید از ویژگیها انتخاب میشود. برای این منظور با استفاده از روشهای انتخاب ویژگی مبتنی بر پوششی، CFS و IG زیرمجموعهای مهم از ویژگیها انتخاب میشوند. سپس در مرحله بعد با اعمال روش استخراج ویژگی PCA بر روی ویژگیهای باقیمانده، ترکیبی از این ویژگیها با ابعاد کمتر به دست میآید. بدینصورت با کاهش دومرحلهای ویژگیها، ترکیبی از ویژگیهای مفید با ابعاد کمتر حاصل میشود. تکنیکهای کاهش ویژگی دومرحلهای پیشنهادی، بهصورت زیر نامگذاری شدند:
1) کاهش ویژگی با استفاده از روش انتخاب ویژگی مبتنی بر CFS و اعمال روش استخراج ویژگی PCA بر روی آن (CFS+PCA)
2) کاهش ویژگی با استفاده از روش انتخاب ویژگی مبتنی بر IG و اعمال روش استخراج ویژگی PCA بر روی آن (IG+PCA)
3) کاهش ویژگی با استفاده از روش انتخاب ویژگی مبتنی بر پوششی و اعمال روش استخراج ویژگی PCA بر روی آن (Wrapper+PCA)
در مولفه دوم برای مدلسازی از الگوریتمهای مختلف دادهکاوی نظیر J48، جنگل تصادفی و بیزین ساده برای دادههای آموزشی و آزمون استفاده شدهاست. از این مدلها همچنین برای تشخیص دستهی وبسایت استفاده شدهاست. با استفاده از قوانین حاصل از این مدلها میتوان وبسایتهای ورودی را دستهبندی کرده و در دسته فیشینگ یا غیر فیشینگ جای داد.
در بخش آخر هم ارزیابی و اندازه گیری دقت دستهبندی با توجه به دادههای آزمون صورت میگیرد.
شکل (2): الگوریتم شناسایی فیشینگ
4- آزمایش و ارائه نتیجه
در این قسمت از مقاله ابتدا به معرفی مجموعه داده و ابزار مورداستفاده در پژوهش میپردازیم؛ سپس به تحلیل نتایج حاصل از آزمایشها پرداخته و در آخر نتایج حاصل را با چند روش دیگر مقایسه میکنیم.
4-1- دادگان آزمون
دادههای مورداستفاده در این پژوهش تعدادی وبسایت جعلی و واقعی است که از سایت دادهکاوی UCI ]26[ استخراجشده است. نوع دادههای این پژوهش از نوع دستهای است. هر وبسایت در مجموعه داده دارای یک ویژگی کلاس یا هدف است که دسته آن را نشان میدهد. یک بودن ویژگی نشاندهنده وبسایت جعلی، صفر بودن آن نشاندهنده مشکوک و منفی یک نشاندهنده وبسایت واقعی است. در این مجموعه داده 30 ویژگی در دسترس است که در بخش سوم تشریح گردید.
این مجموعه داده شامل 11055 وبسایت فیشینگ و قانونی متعلق به سال 2015 است که شامل 4898 وبسایت قانونی و 6157 وبسایت فیشینگ است.
4-2- ابزارهای آزمون
پیادهسازی این پژوهش به کمک نرمافزار وکا نسخه 3.8.1؛ یک نرمافزار منبع باز از دانشگاه Waikato ]12[ است که در محیط سیستمعامل ویندوز 7 و پردازشگر Intel Core 2 Duo و RAM 2GB انجامگرفته است.
در این پژوهش از روش اعتبار سنجی تقاطعی با 10 تکرار استفاده شده است که موجب میشود نتیجه بهدستآمده دقیقتر باشد. اعتبار سنجی تقاطعی با 10 تکرار موجب ارزیابی منطقی از مدلها و کاهش سرریز میشود ]15[، این روش به این شکل است که دادهها به k قسمت تقسیمشده و k-1 قسمت آن بهعنوان آموزش و 1 قسمت بهعنوان تست استفاده میشود؛ این عمل k مرتبه تکرار میشود. ارزیابی دقت نهایی برابر با میانگین k دقت محاسبه میشود ]31[.
4-3- نتیجه آزمون
مدل آموزشیافته و آزمونشده با یکمیزان دقت مشخص، میتواند جهت تشخیص کلاس یا اشیایی که برچسب کلاس آنها ناشناخته است، مورداستفاده قرار گیرد ]32[. یکی از اهداف انتخاب ویژگی این است که یک زیرمجموعه از ویژگیها برای افزایش دقت تشخیص، انتخاب شوند. بهعبارتدیگر کاهش اندازه ساختار بدون کاهش قابلملاحظه در دقت تشخیص دستهبندی که با استفاده از ویژگیهای مدل به دست میآید، صورت گیرد ]15[.
پس از اعمال روشهای کاهش ویژگی بر روی دادهها، تعداد ویژگیها به صورت نشان داده شده در جدول (3) کاهش یافت. همانگونه که در جدول (3) مشخص شده است، تعداد ویژگیها با استفاده از تمام روشهای کاهش ویژگی دو مرحلهای به طور قابل توجهی کاهش یافت. روش CFS+PCA و بیزین ساده در Wrapper+PCA به کمترین مقدار با تعداد 5 ویژگی دستیافتهاند؛ و مابقی روشها به تعداد 8 ویژگی رسیدهاند.
همچنین براساس نتایج از 4 معیار ذکرشده، معیار مبتنی بر جاوا اسکریپت و HTML با 5 ویژگی متعلق به آن، کمترین تأثیر را در تشخیص وبسایتهای فیشینگ دارد.
جدول(3): تعداد ویژگیها پس ازاعمال روشهای کاهش ویژگی
نام روش | تعداد ویژگی | ||
دادههای نرمال بدون کاهش ویژگی | 30 | ||
CFS + PCA | 5 | ||
IG + PCA | 8 | ||
Wrapper + PCA | J48 | جنگل تصادفی | بیزین ساده |
8 | 8 | 5 |
پس از کاهش ویژگیها، روشهای دستهبندی درخت تصمیم J48، جنگل تصادفی و بیزین ساده به ترتیب با استفاده از تابعهای J48، RandomForest و NaiveBayes در نرمافزار وکا اجرا شدند و معیارهای ارزیابی با استفاده از روش اعتبار سنجی تقاطعی با 10 تکرار محاسبه و مورد ارزیابی قرار گرفتند تا بتوان به بهترین روش کاهش ویژگی و بهترین روش دستهبندی دستیافت.
جدول (4): نتایج بررسی روشهای دستهبندی با استفاده از دقت
روشهای مدلسازی | |||
J48 | جنگل تصادفی | بیزین ساده | |
دادههای نرمال بدون کاهش ویژگی | ۹۵٫۹۷۴۷ | ۹۷٫۲۵۹۲ | ۹۲٫۹۸۰۶ |
CFS + PCA | ۹۴٫۰۱۱۸ | ۹۴٫۶۳۵۹ | ۹۱٫۷۰۵۱ |
IG + PCA | ۹۵٫۱۷۸۷ | ۹۶٫۵۷۱۷ | ۹۱٫۳۷۹۵ |
Wrapper + PCA | ۹۵٫۲۷۸۲ | ۹۶٫۵۸۰۷ | ۹۱٫۱۳۵۲ |
جدول (4) نشان میدهد ازنظر دقت که مهمترین معیار ارزیابی است، الگوریتمهای دستهبندی جنگل تصادفی و J48 با تعداد 8 ویژگی و بیزین ساده با 5 ویژگی به ترتیب دارای بهترین دقت هستند. ازنظر بهترین روش کاهش ویژگیها در دو الگوریتم جنگل تصادفی و J48 به ترتیب روشهای Wrapper+PCA، IG+PCA و CFS+PCA دارای بهترین نتیجه هستند؛ اما در الگوریتم بیزین ساده این ترتیب بالعکس است. در نمودار (1) دقت روشهای دسته بندی در مقایسه با یکدیگر آمده است.
نمودار(1): نتایج دستهبندی با استفاده از شاخص دقت
مقدار دقت در الگوریتم جنگل تصادفی، J48 و بیزین ساده در بهترین نتیجه به ترتیب به میزان ۰٫۶۷۸۵، 0.6965 و 1.2755 نسبت به دادهها بدون انتخاب ویژگی کاهشیافتهاند؛ که نشان میدهد الگوریتم جنگل تصادفی کمترین کاهش را نسبت به دو الگوریتم دیگر داشته است. همچنین بالاترین دقت با مقدار ۹۶٫۵۸۰۷ مربوط به الگوریتم جنگل تصادفی با روش کاهش ابعاد Wrapper+PCA است؛ درحالیکه تعداد ویژگیها کاهش محسوسی نداشتهاند.
جدول (5): نتایج بررسی روشهای دستهبندی با استفاده از F1
روشهای کاهش ویژگی | روشهای مدلسازی | ||
J48 | جنگل تصادفی | بیزین ساده | |
دادههای نرمال بدون کاهش ویژگی | ۰٫۹۶ | ۰٫۹۷۳ | ۰٫۹۳ |
CFS + PCA | ۰٫۹۴ | ۰٫۹۴۶ | ۰٫۹۱۷ |
IG + PCA | ۰٫۹۵۲ | ۰٫۹۶۶ | ۰٫۹۱۳ |
Wrapper + PCA | ۰٫۹۵۳ | ۰٫۹۶۶ | ۰٫۹۱۱ |
همانگونه که در جدول (5) میبینیم با استفاده از کاهش ویژگی دومرحلهای Wrapper+PCA و IG+PCA الگوریتم جنگل تصادفی بهترین عملکرد نسبت به سایر الگوریتمها داشته و به مقدار یکسان ۰٫۹۶۶ دستیافته است. پس از الگوریتم جنگل تصادفی الگوریتم J48 و بیزین ساده به ترتیب به بهترین نتیجه دستیافتهاند.
مقدار F1 در بهترین نتیجه در الگوریتم جنگل تصادفی و J48 به میزان ۰٫۰۰۷ و در بیزین ساده به میزان 0.013 نسبت به دادهها بدون انتخاب ویژگی کاهشیافتهاند؛ که نشان میدهد الگوریتم جنگل تصادفی و J48 کمترین کاهش F1 را نسبت به مقدار اولیه داشتهاند و از این نظر در یک سطح هستند. در نمودار (2) شاخص F برای روشهای دسته بندی در مقایسه با یکدیگر آمده است.
نمودار(2): نتایج دستهبندی با استفاده از شاخص F
کاهش نامحسوس در مقدار دقت و F1 پس از کاهش ویژگیها، حاصل افزایش هردو مقدار نرخ FP6 و نرخ FN7 است. ولی همواره نرخ FN نسبت به نرخ FP پایینتر بوده و این امر بدین معنی است که احتمال اینکه یک وبسایت فیشینگ بهعنوان وبسایت قانونی در نظر گرفته شود کمتر است. درنتیجه احتمال گیر افتادن در دام فیشینگ کاهش مییابد.
4-3- مقایسه با روشهای مشابه
در ادامه برای ارزیابی هرچه بیشتر رویکرد فوق، روش کاهش ویژگی دومرحلهای پیشنهادی با چند روش دیگر مقایسه میشود. ازآنجاکه در اغلب روشهای مشابه از معیار دقت برای ارزیابی استفاده کردهاند ما برای مقایسه روش خود با روشهای دیگر از این معیار استفاده کردیم. جدول (6) دقت بهدستآمده از تحقیقات گذشته را با دقت بهدستآمده از روش پیشنهادی نشان میدهد.
جدول (6): مقایسه روش پیشنهادی با روشهای مشابه
تاریخ | مراجع | ویژگیهای اولیه | ویژگیهای نهایی | تعداد نمونه | دقت | |||||
روش پیشنهادی | 30 | 8 | 11055 | 96.58 | ||||||
2011 | ]19[ | 7 | 7 | 3000 | ۹۳ | |||||
2012 | ]23[ | 23 | 12 | 2500 | ۹۷٫۶ | |||||
2014 | ]1[ | 16 | 9 | 1353 | ۹۴٫۴ | |||||
2015 | ]25[ | 15 | 15 | 1000 | ۹۶٫۵۶ | |||||
2015 | ]18[ | 30 | 15 | 2456 | ۹۷٫۴۷ | |||||
2016 | ]33[ | 30 | 12 | 11055 | ۹۲٫۵ | |||||
2019 | ]20[ | 30 | 6 | 11055 | 94.6 |
نتایج مطالعات ذکرشده محققان در مقایسه با روش جدید کاهش ویژگی دومرحلهای پیشنهادی، حاکی از برتری روش پیشنهادی است چراکه تعداد ویژگیهای ما در بهترین عملکرد (8 ویژگی) از تمامی آنها کمتر بوده درحالیکه بهدقت بالاتری نسبت به آنها دستیافتهایم. مجموعه داده استفادهشده در این پژوهش با مجموعه داده استفادهشده در ]33[ یکسان بوده که در آن از یک روش طبقهبندی مشارکتی8 با الگوریتم FACA استفادهشده است.
در خصوص تحقیقهای جدول 6 که دقت بالاتری نسبت به روش پیشنهادی دارند، میبایست به تعداد ویژگیها و همچنین تعداد نمونه بهکاربرده شده توجه نمود. تحقیق]20[ نیز با کاهش دو مرحلهای به تعداد ویژگی 20 درصدی دست یافتهاست.
5- نتیجهگیری
با توجه به مشکلات و پیچیدگیهای زیاد و سایر چالشها در تشخیص صفحات فیشینگ، بررسی و ارائه روشی هوشمندانه برای تشخیص فیشینگ در صفحات وب ضروری است. در این پژوهش برای ساده سازی، کاهش دومرحلهای ویژگیها پیشنهاد شده که در آن ابتدا با استفاده از روشهای پوششی، CFS و IG و ویژگیها انتخاب شده و سپس با اعمال روش استخراج ویژگی PCA از میان آنها بهترین ویژگیها انتخاب میشوند که نهایتا لیست خیلی کوتاهی از ویژگیهای صفحات وب حاصل میشود.
نتایج حاصل از اجرای روش پیشنهادی بر روی مجموعه داده UCI، در بهترین حالت بهدقت ۹۶٫۵۸% با روش دومرحلهای Wrapper+PCA و الگوریتم جنگل تصادفی دستیافت. در این روش تعداد ویژگیها از 30 ویژگی به 8 ویژگی کاهش یافت.
مزیت مدل پیشنهادی نسبت به سایر سامانههای مشابه، دستیابی به کمترین تعداد ویژگیها پس از کاهش ویژگی است که این امر موجب سادهسازی و کاهش پیچیدگی مدل میشود، مزیت دیگر استفاده از تعداد نمونه بیشتر است که موجب میشود نتایج به واقعیت نزدیکتر باشند.
بهعنوان کارهای آتی به محققان پیشنهاد میشود زمان محاسباتی الگوریتمهای یادگیری را موردبررسی و تحلیل قرار دهند. همچنین پیشنهاد میشود از مجموعه داده حاوی وبسایتهای فارسی برای تشخیص وبسایتهای فیشینگ استفاده نمایند.
مراجع
[1] Abdelhamid, N., Ayesh, A., Thabtah, F., “Phishing detection based Associative Classification data mining”, Expert Systems with Applications 41 5948–5959, 2014.
]2[ معاونی, مسعود، "تشخیص حملات در بانکداری الکترونیکی با استفاده از سیستم ترکیبی فازی-راف (Fuzzy _rough)" گروه کامپیوتر دانشگاه امام رضا (ع)، 1394.
[3] Mohammad, R. M., Thabtah, F., McCluskey, L., “Tutorial and critical analysis of phishing websites methods”, Computer Science Review 17 (2015) 1-24.
[4] Chaudhry, J. A., Rittenhouse, R. G., “Phishing: Classification and Countermeasures”, 7th International Conference on Multimedia, Computer Graphics and Broadcasting, pp. 28-31, IEEE, 2015.
[5] Anti Phishing Working Group, Phishing activity trends report, http://www.antiphishing.org/resources/apwg-reports/apwg_trends_report_q4_2019.pdf.
[6] Buber, E., Demir, Ö., Sahingoz, O.K., “Feature Selections for the Machine Learning based Detection of Phishing Websites”, International Artificial Intelligence and Data Processing Symposium (IDAP) IEEE, 2017.
[7] Kohavi, R., John, G. H., “Wrappers for feature subset selection”, Artificial Intelligence,Vol. 97, pp. 273-324, 1997.
[8] Abur-rous, M. R. M., “Phishing Website Detection Using Intelligent Data Minning Techniques”, Ph.D, dissertation, Dept. Computing, Bradford Univ, Bradford, 2010.
[9] PhishTank.http://www.phishtank.com,2017.
[10] Aravindhan, R., Shanmugalakshmi, Dr.R., Ramya, K., Dr.Selvan C, “Certain Investigation on Web Application Security:Phishing Detection and Phishing Target Discovery”, 2016 3rd International Conference on Advanced Computing and Communication Systems (ICACCS -2016), Jan. 22 – 23, 2016, Coimbatore, INDIA, Available: IEEE Xplore, http://www.ieee.org.
]11[ محمدی، شهریار، غروی، عرفانه، "کاربرد تکنیکهای دادهکاوی جهت تشخیص آدرسهای فیشینگ"، کنگره ملی مهندسی برق، کامپیوتر و فناوری اطلاعات، مشهد: موسسه آموزش عالی خیام، 1392.
[12] Sanglerdsinlapachai, N., Rungsawang, A., “Using Domain Top-page Similarity Feature in Machine Learning-based Web Phishing Detection”, Third International Conference on Knowledge Discovery and Data Mining, IEEE, pp. 17-190, 2010.
[13] Aburrous, M., Hossain, M. A., Keshav, D., Thabtah, F., “Predicting Phishing Websites using Classification Mining Techniques with Experimental Case Studies”, IEEE Seventh International Conference on Information Technology, pp. 176-181, 2010.
]14[ سعیدی، پریسا، "بررسی سیستمهای هوشمند تشخیص وبسایت فیشینگ در بانکداری الکترونیکی به روش منطق فازی"، نخستین کنفرانس بینالمللی فناوری اطلاعات، تهران: مرکز همایشهای توسعه ایران، 1394.
]15[ حاتمی خواه، نفیسه، "بررسی روشهای مبتنی بر انتخاب ویژگی"، تهران، دانشگاه صنعتی مالک اشتر، 1392.
[16] Basnet, R. B., Sung, A.H., Liu, Q., “Feature Selection for Improved Phishing Detection”, international conference on Industrial Engineering and Other Applications of Applied Intelligent Systems, pp 252-261, 2012, Available: https://link.springer.com.
[17] Khonji, M., Jones, A., Iraqi, Y., “A Study of Feature Subset Evaluators and Feature Subset Searching Methods for Phishing Classification”, Proceedings of the 8th Annual Collaboration, Electronic messaging, Anti-Abuse and Spam Conference, pp.135-144, ACM, 2011.
[18] Singh, P., Jain, N., Maini, A., “Investigating the Effect Of Feature Selection and Dimensionality Reduction On Phishing Website Classification Problem”, 1st International Conference on Next Generation Computing Technologies (NGCT) Dehradun, India, IEEE, pp. 388-393, 2015.
[19] rahmi A. H., isredza, Abawajy, J., “Phishing Email Feature Selection Approach”, 10th International Joint Conference of IEEE TrustCom., pp. 916-921, 2011.
[20] K. L. Chiew, C. L. Tan, K. Wong, K. S. Yong, and W. K. Tiong, “A new hybrid ensemble feature selection framework for machine learningbased phishing detection system,” Information Sciences, vol. 484, pp. 153–166, 2019.
[21] M. Almseidin, A. A. Zuraiq, M. Al-kasassbeh, and N. Alnidami, “Phishing detection based on machine learning and feature selection methods,” International Journal of Interactive Mobile Technologies (iJIM), vol. 13, no. 12, pp. 171–183, 2019.
[22] Meenu , Sunila godara, “Phishing Detection using Machine Learning Techniques”, International Journal of Engineering and Advanced Technology (IJEAT) , Volume-9 Issue-2, December, 2019.
[23] Pandey, M., Ravi, V., “Detecting phishing e-mails using Text and Data mining”, IEEE International Conference on Computational Intelligence and Computing Research(ICCIC), 2012.
[24] Pandey, M., Ravi, V., “Text and Data Mining to Detect Phishing Websites and Spam Emails”, Proceedings of the 4th International Conference on Swarm, Evolutionary, and Memetic Computing, Vol. 8298, pp.559-573, 2013.
]25[ لنگری، نفیسه، عبدالرزاق نژاد، مجید، "شناسایی وبگاه فیشینگ در بانکداری اینترنتی با استفاده از الگوریتم بهینهسازی صفحات شیبدار"، مجله پدافند الکترونیکی و سایبری. شماره 1، صفحه 29-40، 1394.
[26] Mohammad, R. M., Thabtah, F., McCluskey, L., Phishing Website Dataset, https://archive.ics.uci.edu/ml/datasets/ Phishing+websites, 2015.
]27[ اسماعیلی، مهدی، مفاهیم و تکنیکهای دادهکاوی، کاشان: سوره، 1392.
]28[ ورسلیز، کارلو، هوش تجاری دادهکاوی و بهینهسازی برای تصمیمگیری، ترجمهی احمدی، عباس، محبی، آزاده، ویرایش دوم، تهران، نشر دانشگاه صنعتی امیرکبیر (پلیتکنیک تهران)، زمستان 1392.
[29] H.John, George, and pat Langley, “Estimating Continuous Distribution in Bayesian Classifiers”, In Proceeding of the Eleventh Conference on Uncertainty in Artificial Intelligence. Morgan Kaufman,1995.
[30] Breiman, Leo. “Random Forests”, Machine Learning, Kluwer Academic Publishers. Manufactured in The Netherlands, Statistics DepartmentUniversity of CaliforniaBerkeley, 45, 5–32, 2001.
[31] Kohavi, Ron, “A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection”, Proceedings of the 14th international joint conference on Artificial intelligence (IJCAI), pp. 1137-1143, ACM, 1995.
[32] Lakhita, Yadav, S., Bohra, B., Pooja, “A Review on Recent Phishing Attacks in Internet”, IEEE International Conference on Green Computing and Internet of Things (ICGCIoT), pp. 1312-1315, 2015.
[33] Hadi, W., Aburub, F., Alhawari, S., “A new fast associative classification algorithm for detecting phishing websites”, Applied Soft Computing 48 (2016) 729–734.
[1] Correlation feature selection
[2] Information Gain
[3] Consistency Subset
[4] Inclined Planes System Optimization
[5] Gini coefficient
[6] False Positive
[7] False Negative
[8] Associative classification
An efficient method for detecting phishing websites using data mining on web pages
Abstract
Phishing is regarded as a kind of internet attack on the web which aimed to steal the users’ personal information for online stealing. Phishing plays a negative role in reducing the trust among the users in the business network based on the E-commerce framework. therefore, in this research, we tried to detect phishing websites using data mining. The detection of the outstanding features of phishing is regarded as one of the important prerequisites in designing an accurate detection system. Therefore, in order to detect phishing features, a list of 30 features suggested by phishing websites was first prepared. A new idea based on two steps: feature selection and feature extraction, has been proposed. To evaluate the proposed method, the performance of decision tree J48, random forest, naïve Bayes methods were evaluated on the reduced features. The results indicated that accuracy of the model created to determine the phishing websites by using the two-stage feature reduction-based Wrapper and Principal Component Analysis (PCA) algorithm in the random forest method of 96.58%, which is a desirable outcome compared to other methods.
Keywords: Internet attack, Phishing, Data Mining, Feature Selection, Feature Extraction.
نویسنده مسئول: علیرضا یاریa_yari@itrc.ac.ir
27