استفاده از تحلیل احساسات و ترکیب روش¬های یادگیری ماشین برای تشخیص هرزنامه در توییتر
محورهای موضوعی :مهدی سالخورده حقیقی 1 , امین الله کرمانی 2
1 - عضو هیئت علمی دانشکده مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه سجاد، مشهد
2 - کارشناسی ارشد رایانش امن، دانشکده مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه سجاد، مشهد
کلید واژه: توییتر, هرزنامه, تعبیه لغات, شبکه های عصبی پیچشی, تحلیل احساسات, CNN,
چکیده مقاله :
محبوبیت شبکه های اجتماعی بخصوص توییتر چالش جدیدی را روبروی محققان قرار داده است و آن چیزی نیست جز هرزنامه . روش های گوناگون زیادی برای مقابله با آنها ارائه شده است. بعضی از این روش ها اگرچه در ابتدا کارآمد بودند اما به مرور توسط تولید کنندگان هرزنامه دور زده شدند. در این تحقیق تلاش داریم با استفاده از یکی از جدیدترین روش های تشخیص هرزنامه و ترکیب آن با تحلیل احساسات دقت تشخیص هرزنامه را افزایش دهیم. ما با استفاده از روش تعبیه سازی، کلمات متن توییت را به عنوان ورودی به یک معماری شبکه عصبی پیچشی داده و خروجی تشخیص دهنده متن هرزنامه یا متن عادی خواهد بود. هم زمان با استخراج ویژگی های مناسب در شبکه توییتر و اعمال روش های یادگیری ماشین بر روی آنها تشخیص هرزنامه بودن توییت را بصورت مجزا محاسبه می کنیم. در نهایت خروجی هر دو روش را به یک شبکه پیچشی تلفیقی وارد می کنیم تا خروجی آن تشخیص نهایی هرزنامه یا نرمال بودن متن توییت را تعیین کند. ما در این تحقیق از دو مجموعه داده متعادل و نامتعادل استفاده می کنیم تا تاثیر مدل پیشنهادی را بر روی دو نوع داده بررسی کنیم. نتایج پژوهش نشان دهنده بهبود کارایی روش پیشنهادی در هر دو مجموعه داده می باشد.
The welcoming of social networks, especially Twitter, has posed a new challenge to researchers, and it is nothing but spam. Numerous different approaches to deal with spam are presented. In this study, we attempt to enhance the accuracy of spam detection by applying one of the latest spam detection techniques and its combination with sentiment analysis. Using the word embedding technique, we give the tweet text as input to a convolutional neural network (CNN) architecture, and the output will detect spam text or normal text. Simultaneously, by extracting the suitable features in the Twitter network and applying machine learning methods to them, we separately calculate the Tweeter spam detection. Eventually, we enter the output of both approaches into a Meta Classifier so that its output specifies the final spam detection or the normality of the tweet text. In this study, we employ both balanced and unbalanced datasets to examine the impact of the proposed model on two types of data. The results indicate an increase in the accuracy of the proposed method in both datasets.
[1] Top Sites. Alexa Internet. Archived from the original on 23 August 2019. Retrieved May 13, 2013
[2] Twitter overcounted active users since 2014, shares surge on profit hopes, USA Today, Archived from the original on 1 January 2020. Retrieved 4 November 2019
[3] “California business and professions code". Spamlaws. Retrieved 2013-09-03.
[4] Grier, C., Thomas, K., Paxson, V., & Zhang, M., Spam: the underground on 140 characters or less. In Proceedings of the 17th ACM conference on Computer and communications security, 2010, pp. 27-37.
[5] Gheewala, S., & Patel, R. Machine learning based Twitter Spam account detection: a review. Second International Conference on Computing Methodologies and Communication (ICCMC), 2018, pp. 79-84.
[6] Patil, D. R., & Patil, J. B., Malicious URLs detection using decision tree classifiers and majority voting technique. Cybernetics and Information Technologies, 18(1), 2018, pp. 11-29.
[7] Thomas K, Grier C, Ma J, Paxson V, Song D. Design and evaluation of a real-time url spam filtering service, in IEEE Symposium on Security and Privacy, IEEE, 2011, pp. 447–62.
[8] Yang C, Harkreader R, Gu G. Empirical evaluation and new design for fighting evolving twitter spammers. IEEE Trans InfForensics Secur 2013, Vol 8(8), pp 1280–93.
[9] Chen, C., Zhang, J., Xie, Y., Xiang, Y., Zhou, W., Hassan, M. M. Alrubaian, M., A performance evaluation of machine learning-based streaming spam tweets detection. IEEE Transactions on Computational social systems, 2015, Vol 2(3), pp. 65-76.
[10] Wang, B., Zubiaga, A., Liakata, M., & Procter, R., Making the most of tweet-inherent features for social spam detection on Twitter. arXiv preprint arXiv:1503.07405, 2015.
[11] X. Zhang, Y. Wang, N. Mou, and W. Liang, “Propagating both trust and distrust with target differentiation for combating link-based Web spam,” ACM Trans. Web, vol. 8, no. 3, 2014, Art. no. 15.
[12] Wu, T., Wen, S., Xiang, Y., & Zhou, W., Twitter spam detection: Survey of new approaches and comparative study. Computers & Security, 2018, Vol 76, pp. 265-284.
[13] Sedhai, S., & Sun, A., Hspam14: A collection of 14 million tweets for hashtag-oriented spam research. In Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval, 2015, pp. 223-232.
[14] Sedhai, S., & Sun, A. (2017). Semi-supervised spam detection in Twitter stream. IEEE Transactions on Computational Social Systems, 2015, Vol 5(1), pp.169-175.
[15] Alom, Z., Carminati, B., & Ferrari, E., A deep learning model for Twitter spam detection. Online Social Networks and Media, 2020.
[16] Le, Q., & Mikolov, T., Distributed representations of sentences and documents. In International conference on machine learning, 2014, pp. 1188-1196.
[17] Collobert, R., Weston, J., Bottou, L., Karlen, M., Kavukcuoglu, K., & Kuksa, P., Natural language processing (almost) from scratch. Journal of machine learning research, 2011, pp. 2493-2537.
[18] Kim, Y. Convolutional neural networks for sentence classification. arXiv preprint arXiv:1408.5882, 2014.
[19] Madisetty, S., & Desarkar, M. S. A neural network-based ensemble approach for spam detection in Twitter. IEEE Transactions on Computational Social Systems, 2018, Vol 5(4), pp. 973-984.
[20] Osgood, Charles Egerton, George J. Suci, and Percy H. Tannenbaum, The measurement of meaning. No. 47. University of Illinois press, 1957.
[21] Russell, James A, 'A circumplex model of affect', Journal of personality and social psychology, 1980, Vol 39, pp. 1161.
[22] Russell, James A, and Lisa Feldman Barrett. 'Core affect, prototypical emotional episodes, and other things called emotion: dissecting the elephant', Journal of personality and social psychology, 1999, pp. 76: 805.
[23] Andrew Ortony, Terence J. Turner, What's Basic About Basic Emotions, Psychological Review, 1990, Vol 97(3), pp. 315-31.
[24] Mohammad, Saif M., Sentiment analysis: Detecting valence, emotions, and other affectual states from text, In Emotion measurement, Woodhead Publishing, 2016, pp. 201-237.
[25] Kuppens, P., Tuerlinckx, F., Russell, J.A. and Barrett, L.F, The relation between valence and arousal in subjective experience, Psychological Bulletin, 2013, Vol 139(4), pp. 917.
[26] Kuppens, P., Tuerlinckx, F., Yik, M., Koval, P., Coosemans, J., Zeng, K.J. and Russell, J.A, the relation between valence and arousal in subjective experience varies with personality and culture, Journal of personality, 2017, Vol 85(4), pp. 530-542.
[27] Baccianella, Stefano, Andrea Esuli, and Fabrizio Sebastiani. Sentiwordnet 3.0: an enhanced lexical resource for sentiment analysis and opinion mining, In Lrec, 2010, vol. 10, pp. 2200-2204.
[28] LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P., Gradient-based learning applied to document recognition, Proceedings of the IEEE, 1998, Vol 86(11), pp. 2278-2324.
[29] Perveen, N., Missen, M. M. S., Rasool, Q., & Akhtar, N. Sentiment based twitter spam detection. International Journal of Advanced Computer Science and Applications (IJACSA), 2016, 7(7), 568-573.
[30] Martinez-Romo, J., & Araujo, L., Detecting malicious tweets in trending topics using a statistical analysis of language. Expert Systems with Applications, 2013, Vol 40(8), pp. 2992-3000.
[31] Töscher, A., Jahrer, M., & Bell, R. M., The bigchaos solution to the netflix grand prize. Netflix prize documentation, 2009, pp. 1-52.
[32] Niculescu-Mizil, A., Perlich, C., Swirszcz, G., Sindhwani, V., Liu, Y., Melville, P., ... & Shang, W. X. Winning the KDD cup orange challenge with ensemble selection. In KDD-Cup 2009 Competition, pp. 23-34.
[33] C. Yang, R. C. Harkreader, and G. Gu. Die free or live hard? empirical evaluation and new design for fighting evolving twitter spammers. In Proceedings of RAID, RAID’11, Berlin, Heidelberg, Springer-Verlag, 2011, pp. 318-337.
مهدی سالخورده حقیقی و.. دو فصلنامه فناوری اطلاعات و ارتباطات ایران، سال چهاردهم، شماره های 51 و 52 ، بهار و تابستان 1401، صفحه 129 الی 154
دو فصلنامه علمي فناوري اطلاعات و ارتباطات ایران | سال چهاردهم، شمارههای 51 و 52 ، بهار و تابستان 1401 صص: 129_154
|
|
استفاده از تحلیل احساسات و ترکیب روشهای یادگیری ماشین برای تشخیص هرزنامه در توییتر
مهدی سالخورده حقیقی*1 امین الله کرمانی**
*عضو هیئت علمی دانشکده مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه سجاد، مشهد
** کارشناسی ارشد رایانش امن، دانشکده مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه سجاد، مشهد
تاریخ دریافت: 20/01/1400 تاریخ پذیرش: 02/09/1400
نوع مقاله: پژوهشی
چکیده
محبوبیت شبکههای اجتماعی بخصوص توییتر چالش جدیدی را روبروی محققان قرار داده است و آن چیزی نیست جز هرزنامه2. روشهای گوناگون زیادی برای مقابله با آنها ارائه شده است. بعضی از این روشها اگرچه در ابتدا کارآمد بودند اما به مرور توسط تولیدکنندگان هرزنامه دور زده شدند. در این تحقیق تلاش داریم با استفاده از یکی از جدیدترین روشهای تشخیص هرزنامه و ترکیب آن با تحلیل احساسات دقت تشخیص هرزنامه را افزایش دهیم. ما با استفاده از روش تعبیه سازی، کلمات متن توییت را به عنوان ورودی به یک معماری شبکه عصبی پیچشی داده و خروجی تشخیص دهنده متن هرزنامه یا متن عادی خواهد بود. هم زمان با استخراج ویژگیهای مناسب در شبکه توییتر و اعمال روشهای یادگیری ماشین بر روی آنها تشخیص هرزنامه بودن توییت را بصورت مجزا محاسبه میکنیم. در نهایت خروجی هر دو روش را به یک شبکه پیچشی تلفیقی3 وارد میکنیم تا خروجی آن تشخیص نهایی هرزنامه یا نرمال بودن متن توییت را تعیین کند. ما در این تحقیق از دو مجموعه داده متعادل و نامتعادل استفاده میکنیم تا تاثیر مدل پیشنهادی را بر روی دو نوع داده بررسی کنیم. نتایج پژوهش نشان دهنده بهبود کارایی روش پیشنهادی در هر دو مجموعه داده میباشد.
واژگان کلیدی: توییتر، هرزنامه، تعبیه لغات، شبکه های عصبی پیچشی، تحلیل احساسات، CNN
[1] نویسنده مسئول : مهدی سالخورده حقیقی haghighi@sadjad.ac.ir
[2] Spam
[3] Ensemble
1. مقدمه
با توجه به گسترش روزافزون محبوبیت شبکههای اجتماعی، هرزنامهها نیز این بستر را برای گسترش محتوای خود، هدف
قرار میدهند. توییتر یکی از محبوبترین شبکههای اجتماعی است که در آن کاربران با موضوعات مختلف مباحث را مطرح کرده و با هم ارتباط برقرار میکنند. اکثر روشهای فیلتر کردن هرزنامه در توییتر بر شناسایی هرزنامهگرها ( افرادی که هرزنامه منتشر میکنند) و مسدود کردن آنها تمرکز دارند. با این حال، هرزنامهگرها میتوانند یک حساب کاربری جدید ایجاد کرده و دوباره هرزنامه جدید ارسال کنند. در سال ۲۰۱۳، توییتر یکی از ده وبسایت برتر در فهرست محبوبترین وبگاهها اعلام شد و همچنین عنوان پیامک اینترنتی به آن داده شده است [1]. از سال ۲۰۱۸، توییتر ماهانه بیش از ۳۲۱ میلیون کاربر فعال دارد [2] . این حجم عظیم کاربر محل جذابی برای تولیدکنندگان هرزنامه میباشد تا به شکار قربانیان خود بپردازند. اگرچه تولید و انتشار هرزنامه برای تولیدکنندگان آنها بسیار پر هزینه میباشد، اما روشهای جلوگیری از انتشار آنها برای شرکتهای میزبان بسیار پر هزینهتر است. بر اساس برآورد قوه مقننه آمریکا هزینه هرزنامه در ایالات متحده بالغ بر ۱۳ میلیارد دلار در سال ۲۰۰۷ بوده که شامل پایین آمدن کارایی، اتلاف تجهیزات و نیروی کار لازم بوده است [3] . تاثیرات مالی مستقیم هرزنامه نیز شامل اضافه بار بر سیستمهای کامپیوتری و منابع شبکه، اتلاف زمان و منابع انسانی است. به علاوه هرزنامه از چندین بعد دارای هزینه است . این هزینه در مورد شرکتی همچون توییتر با میلیونها کاربر از اهمیت بیشتری برخوردار است.
بنابراین برای شناسایی هرزنامهها در سطح توییت، نیاز به تکنیکهای تشخیص هرزنامه قوی وجود دارد. این نوع تکنیکها میتوانند به صورت بلافاصله از هرزنامه جلوگیری کنند. برای شناسایی هرزنامه در سطح توییت، اغلب ویژگیهایی تعریف شده و الگوریتمهای یادگیری ماشین مناسب بر روی آنها اعمال میشود. اما به تازگی، روشهای یادگیری عمیق1 نتایج موثری در کاربرد پردازش زبان طبیعی نشان دادهاند. ما میخواهیم از مزایای بالقوه این روش برای رفع این مشکل استفاده کنیم.
به همین خاطر، در این مقاله یک رویکرد ترکیبی برای تشخیص هرزنامه در سطح توییت ارائه ميشود و مدلهای یادگیری عمیق 1مختلف را نیز توسعه خواهیم داد. در این نوشتار از مدل مبتنی بر ویژگی به همراه یک مدل مبتنی بر تحلیل احساسات همراه با الگوریتمهای شبکههای عصبی به صورت ترکیبی استفاده شده است. الگوریتمهای شبکههای عصبی پیچشی2 با استفاده از روشهای مختلف تعبیه کلمه3 (Glove، Word2vec) برای آموزش مدل استفاده میشود. مدل مبتنی بر ویژگی، از ویژگیهای مبتنی بر محتوا، مبتنی بر کاربر و N-gram استفاده میکند. همچنین ویژگیهای احساسی درون توییتها نیز در مدل مبتنی بر تحلیل احساسات بکار گرفته میشوند. رویکرد ما ترکیبی از هر دو یادگیری ماشین و مدلهای مبتنی بر ویژگیهای سنتی و احساسی با استفاده از یک شبکه عصبی چند لایه است که به عنوان یک ابرطبقهبند4 عمل میکند. شبکههای اجتماعی برخط یا به اختصار OSN ابزاری همگانی است که باعث ارتباط میلیونها کاربر اینترنت میشود. در این میان بستر توییتر با ارائه سرویس رایگان میکروبلاگین به مشتریان جهت انتشار پیامها، کاربران زیادی را به خود جلب کرده است. هر روزه میلیونها نفر اخبار و احساسات خود را در توییتر به اشتراک میگذارند. در این بین حسابهای کاربری زیادی هستند که جهت منافع شخصی از این بستر سوء استفاده کرده و با ارسال هرزنامه به کاربران دیگر حمله میکنند. این حملات میتواند با اهداف زیادی همانند بازاریابی و یا شکل خطرناکتر آن مانند نفوذ بدافزار باشد. آنچه مسلم است ، هرزنامه موضوعی است که این روزها با زندگی دیجیتال ما گره خورده است. از لحاظ تاریخی، اولین بار هرزنامه از طریق ایمیل وارد حوزه اینترنت شد و با گسترش کاربرد شبکههای اجتماعی به سرعت جای پای خود را در این بخش نیز وارد کرده و امروزه به یک معضل اساسی در حوزه اینترنت بدل شده است. کم هزینه بودن ارسال هرزنامه از یک طرف و نبود قوانین بین الملی مشخص برای محدود کردن آنها از طرف دیگر باعث شده هرزنامهها هر روز به طور وسیعی انتشار یابند. طبق تحقیقات انجام شده در [4] نرخ کلیک هرزنامههای شبکه توییتر به حدود 13/0% رسیده است و این در حالی است که هرزنامههای ایمیل تنها به حدود 0003/0% میرسد. این شرایط محققان را بر آن داشته تا با ارائه مدلهایی جهت تحلیل، شناسایی و مسدودسازی هرزنامهها اقدام کنند. در سالهای اخیر تحقیقات زیادی بر روی روشهای تشخیص هرزنامه در بستر توییتر انجام شده است. محققین سعی کردند روشهایی را پیدا کنند تا الگوریتمهای یادگیری ماشین بتوانند خود را با مفاهیم تشخیص هرزنامه وفق دهند. ماشینهای یادگیر به هر مدل کاربردی امکان یادگیری و پیشبینی را میدهند. تشخیص هرزنامه یک چهارچوب طبقهبندی دودویی میباشد. چهارچوبی که تشخیص میدهد یک حساب کاربری و یا یک توییت هرزنامه است یا خیر. به دلیل همین ماهیت، محققین توجه خود را معطوف به تکنیکهای یادگیری ماشین کردند. مدل تشخیص هرزنامه در یادگیری ماشین از دو مرحله تشکیل شده است.
مرحله آموزش : این اولین مرحلهای است که مدل یادگیری با نمونههای برچسبگذاری آموزش میبیند.
مرحله آزمون: در این فاز نمونههای فاقد برچسب آزمايش شده و بوسیله طبقهبندی نمونهها به هرزنامه و یا نرمال تقسیم میشوند. مرجع[5] چهارچوبی کلی برای تشخیص هرزنامه در توییت را ارائه داده است. این چهارچوب که در تمامی تحقیقات تقریبا یکسان است در شکل 1 نشان داده شده است.
شکل 1. چهارچوب کلی تشخیص هرزنامه [5]
اولین مرحله جمعآوری داده میباشد. این دادهها میتوانند توسط API5 های مختص به توییتر جمعآوری شوند و یا از مجموعهدادههای عمومی در دسترس، استفاده شود. مرحله بعدی استخراج ویژگیها از مجموعهداده میباشد. از بین ویژگیهای استخراج شده تعدادی از آنها انتخاب میشوند. در فاز آموزش تعداد کمتری از کل نمونهها جهت آموزش برچسبگذاری میشوند زیرا برخی توییتها با دلایلی از قبیل استفاده از زبانهای غیر انگلیسی و نامعتبر بودن برخی ویژگیها قابل استفاده نیستند. این برچسبگذاری میتواند به صورت دستی یا با استفاده از سرویسهای فیلترینگ شناسایی هرزنامه انجام شود. پس از آن مدلهای تشخیص مبتنی بر یادگیری ماشین بوسیله نمونههای برچسبدار آموزش داده میشوند و سپس جهت طبقه بندی دادههای جدید آزمایش میشوند. در نهایت این مدلها توسط پارامترهای دقت، صحت، فراخوانی و غیره ارزیابی میشوند.
به دلیل وجود روشهای ترکیبی و تلفیق روشها با یکدیگر، امکان جداسازی آنها بطور کامل میسر نمیباشد. با این وجود، روشهای تشخیص هرزنامه به چند گروه تقسیم میشوند که در بخش بعدی تشریح میگردند.
ساختار ادامه مقاله به شرح زیر میباشد. در بخش 2 مروری بر پیشینه تحقیق آورده شده است که به بررسی جنبههای مختلف در این حوزه میپردازد. در بخش 3 راهکار پیشنهادی برای تشخیص هرزنامه با جزئیات ارائه گردیده است. در بخش 4 آزمایشها با استفاده از مجموعه دادههای انتخابی انجام شده و مقایسه با برخی روشها صورت گرفته و نتایج تحلیل شده است. در بخش 5 نتیجهگیری انجام شده و در نهایت پیشنهادات برای کارهای آینده ارائه گردیده است.
2. مروری بر پیشینه تحقیق
همانگونه که در انتهای بخش قبل اشاره شد، مرزبندی دقیقی نمیتوان برای روشهای تحقیق بکار برد با این وجود بر اساس استخراج ویژگی و استفاده از روشهای طبقهبندی، تکنیکهای تشخیص هرزنامه در توییتر را میتوان در چهار گروه کلی بر مبنای شکل 2 طبقهبندی کرد. این روشها عبارتند از تکنیکهای لیست سیاه ، تحلیل ویژگی مبتنی بر گراف، مبتنی بر حساب کاربری و تحلیل مبتنی بر توییت، که این ویژگی آخر خود به دو ویژگی مجزای مبتنی بر خصوصیات توییت و مبتنی بر متن توییت میباشد.
شکل 2. روشهای تشخیص هرزنامه
2_1 روش مبتنی بر لیست سیاه
بنابر تحقیقات انجام شده در [4] حدود 90% کلیکها بر روی آدرسهای URL هرزنامه در همان دو روز اول انجام میگیرد در حالیکه به طور متوسط حدود 4 روز طول میکشد تا URL جدید در لیست سیاه قرار گیرد که تاخیر زیادی در بروز رسانی لیست سیاه میباشد و در این زمان هرزنامه به سرعت گسترش مییابد و این از نقاط ضعف بزرگ این روش میباشد. تحقیقات زیادی در این حوزه انجام شده است. به عنوان مثال مولفین مقاله در [6] از درخت تصمیم و ویژگیهای آماری جهت تشخیص URLهای مخرب استفاده کردهاند. برخی ویژگیهای آنها شامل طول آدرس URL، وجود IP آدرس در Hostname میباشد. در مقاله [7] از سه طریق این ویژگیها را استخراج کردند. 1- Web Browser و URL نهایی. 2- DNS و 3- تحلیل آدرس IP از نظر موقعیت جغرافیایی.
2_2 روش های مبتنی بر گراف
این روش، ویژگیها را بر اساس گرافهای اجتماعی کاربران توییتر بر مبنای روابط بین دنبالکنندگان و دنبالشوندگان استخراج میکند. در این حوزه تحقیقات زیادی در شبکههای اجتماعی انجام گرفته است. در روشهای مبتنی بر گراف که تا حدودی به روشهای مبتنی بر حساب کاربری شباهت دارند، هر حساب کاربری به عنوان یک گره در نظر گرفته میشود و درجه ورودی گره نشانگر تعداد دنبالکنندگان و درجه خروجی نمایانگر تعداد دنبالشوندگان میباشد. همچنین ویژگیهای مبتنی بر همسایگی نیز در این حوزه قرار میگیرند. این ویژگیها در طبقهبندهای یادگیری ماشین استفاده میشوند. به عنوان مثال در مقاله [8] از سه ویژگی مبتنی بر گراف جهت تشخیص هرزنامه استفاده کردند (چگالی گراف و میانگین کوتاهترین مسیر). آنها همچنین از سه ویژگی قوی نیز استفاده کردند: ویژگیLocal Clustering Coefficient ،Betweenness Centrality و Bidirectional Links Ratio. این ویژگیها برای ایجاد گراف اجتماعی کوچک حساب هدف بکار میرود. عیب این روش در این است که به عنوان مثال حسابهای کاربری افراد مشهور با تعداد زیاد دنبال کننده نیز میتواند به عنوان هرزنامه تلقی شود. از طرفی تولید کنندگان هرزنامه نیز میتوانند خود را با ویژگیهای جدید مبتنی بر گراف تطبیق داده و باعث گمراهی سیستم تشخیص شوند. ضعف این روش در این است که عملا جمع آوری روابط گراف میلیونها کاربر توییتر غیر ممکن است. همانند روشهای مبتنی بر حساب کاربر، در این روش هم با بسته شدن حساب تولیدکننده هرزنامه، او مجدد اقدام به ایجاد حساب جدید میکند.
2_3 تشخیص مبتنی بر حساب کاربری
این روش در دیگر شبکههای اجتماعی نیز متداول است و به طور موثری حسابهای کاربری هرزنامه از غیرهرزنامه را تشخیص میدهد. تمرکز این روش بر اطلاعات حساب کاربری متمرکز است. به عنوان مثال تعداد دنبالکنندگان6 و دنبال شوندگان7 در حسابهای عادی بسیار بیشتر از حسابهای هرزنامه میباشد. به عنوان مثالی دیگر، طول عمر8 یک حساب هرزنامه به مراتب کمتر از یک حساب عادی میباشد. ویژگی مهم دیگر Reputation است که در حسابهای هرزنامه و غیرهرزنامه متفاوت است. ویژگی Reputation در یک حساب تولیدکننده هرزنامه 100% یا بسیار کم است، در حالیکه این مقدار در یک حساب عادی چیزی در حدود 30% تا 90% میباشد. این فاکتور در تشخیص حساب هرزنامه از غیر هرزنامه بسیار کارآمد است. اگرچه این روش دارای قدرت تشخیص بالایی میباشد اما حسابهای تولیدکننده هرزنامهای نیز وجود دارند که در موارد استثناء دارای تعداد دنبال شوندگان زیادی هستند و به این ترتیب الگوریتم در این موارد دچار اشتباه میشود. معمولا این روشها همراه با دیگر روشها مورد استفاده قرار میگیرند. در مقاله [9] با بررسی 6 الگوریتم یادگیری ماشین بهترینF-measure را با Random Forest بدست آوردهاند. آنها از ویژگیهایی نظیر تعداد دنبالکننده و تعداد دنبالشونده و ویژگی طول عمر حساب استفاده کردهاند. یکی از نقاط ضعف این روش این است که با بسته شدن حساب کاربری تولیدکننده هرزنامه، او مجددا حساب جدیدی ایجاد میکند. همچنین تولیدکنندگان هرزنامه به مرور با دور زدن این ویژگیها میتوانند روشهای تشخیص را فریب دهند.
2_4 روشهای تشخیص مبتنی بر توییت
تمامی روشهای مبتنی بر حساب و گراف یک مشکل عمده دارند. پس از مسدود شدن حساب کاربری توسط الگوریتم، تولیدکننده هرزنامه حساب جدیدی ایجاد کرده و به فعالیت خود ادامه میدهد. به همین منظور تحقیقات اخیر تمرکز خود را بر روی محتوای خود متن توییت معطوف کردهاند. در این روش بدون در نظر گرفتن فرستنده هرزنامه، پس از شناسایی توییت هرزنامه، از انتشار آن جلوگیری میشود. با توجه به اینکه هرزنامهها از کلمات و موضوعات مخرب مشابهی استفاده میکنند، توییتهای شامل این کلمات و موضوعات میتوانند هرزنامه باشند. تکنیکهای تشخیص در این روش مبتنی بر پردازش زبانهای طبیعی9 است.
در تحقیق انجام شده در [10] ، بیشتر از ویژگیهای ذاتی توییت برای تشخیص هرزنامه در توییتر در سطح توییت استفاده میکنند. آنها از روشهای ترکیبی مبتنی بر کاربر، مبتنی بر محتوای توییت، و N-gram جهت شناسایی توییتهای هرزنامه استفاده کردند. نویسندگان از دو مجموعهداده برای مطالعه استفاده میکنند: مجموعهداده 1KS10KN و Social Honeypot. در این تحقیق از روشهای ترکیبی تشخیص هرزنامه استفاده شده است. روش مبتنی بر کاربر شامل مواردی است همچون تعداد دنبالشوندگان و دنبالکنندگان، طول نام پروفایل کاربر، طول توضیحات پروفایل، عمر اکانت کاربر بر حسب ساعت و غیره. ویژگیهای مبتنی بر محتوای توییت شامل تعداد کلمات، تعداد کاراکترها، تعداد فاصله ها، تعداد علامتهای سوال و تعجب و غیره میباشد. ویژگیهای مبتنی بر N-gram نیز به سه دسته Uni-gram وBi-gram وTri-gram تقسیمبندی شده است. 5 طبقهبند بر روی این ویژگیها اعمال میشود که عبارتند از الگوریتمهای ,Naïve Bayes ,KNN SVM ,Decision Tree و Random Forest. بر طبق این تحقیق نتایج بر روی هر دو مجموعه داده با الگوریتمهای Random Forest و SVM بهترین خروجی را میدهد.
ارزیابی عملکرد روشهای مبتنی بر یادگیری ماشین برای شناسایی هرزنامه در سطح توییت در [11] شرح داده شده است. بررسی روشهای تشخیص هرزنامههای توییتر با تحلیل مقایسهای در [12] شرح داده شده است. دادههای هرزنامه هشتگ محور توییتر توسط [13] ایجاد شده است. نویسندگان 14 میلیون توییت جمع آوری کردهاند و دادهها را به عنوان HSpam14 نامگذاری کردهاند. مولفین در [14] در تحقیق خود یک چارچوب تشخیص هرزنامه را به دست آوردند. آنها از چهار شناسه سبک وزن برای شناسایی هرزنامه در سطح توییت استفاده کردهاند.
یک روش مبتنی بر یادگیری عمیق برای شناسایی هرزنامه در [15] ارائه شده است. در این تحقیق از دو روش مبتنی بر شبکههای عصبی پیچشی به طور همزمان استفاده شده است. یک شبکه عصبی پیچشی وظیفه طبقهبندی متن توییت را بر عهده دارد و یک طبقهبند از ویژگیهای فرا داده10 استفاده میکند. در تحقیق [16] بردار توییت را با ترکیب بردار سند توییت (که با مدلسازی بردار پاراگراف بدست میآید) ساختهاند. این بردارهای ترکیبی به عنوان ویژگیهای ورودی برای الگوریتمهای یادگیری ماشین عمل میکنند (جنگل های تصادفی و شبکههای عصبی).
در تحقیق دیگری در مقاله [17] از این روش در حل مشکلات زبان طبیعی پردازش یا NLP استفاده کردند. معماری شبکههای عصبی پیشنهادی آنها میتواند در بسیاری از حوزههای NLP قابل استفاده باشد. این روش همانند روشهای بینایی ماشین پس از تبدیل کلمات جمله به ماتریس اعداد آنها را همانند تصاویر وارد یک معماری شبکه عصبی پیچشی میکند. در مقاله [18] همین معماری برای جملات بکار برده شده است. در تحقیق [19] از این معماری برای تشخیص هرزنامه استفاده کردند. در تحقیق آنها از روش تعبیه کلمه جهت تبدیل کلمات جمله به بردار عددی استفاده شده است. آنها علاوه بر استفاده از ویژگی برداری کلمات هر توییت، به طور همزمان از ویژگیهای مبتنی بر متن و مبتنی بر حساب کاربر و همچنین n-gram و تحقیقات انجام شده در [10] نیز استفاده کرده و این ویژگیها را به طور موازی با معماری شبکه عصبی پیشنهادی به یک طبقه بند مانند SVM میدهند. خروجی معماری شبکه عصبی اعمال شده بر روی متن به همراه خروجی طبقهبند به صورت تلفیقی وارد یک شبکه عصبی ابرطبقهبند میشود و در نهایت خروجی این شبکه عصبی تصمیم نهایی را درباره هرزنامه بودن یا نبودن متن توییت بر عهده دارد. در تحقیق انجام شده در [19] همچنین از دو ویژگی n-gram نیز استفاده شده است. با ویژگی Uni-grams و Bi-.grams آنها نتایج مدل پیشنهادی تحقیق خود را با تحقیق [10] مقایسه کردهاند. با وجود زمان اجرای بالاتر، روش پیشنهادی به طور قابل ملاحظهای نتایج تشخیص هرزنامه را بهبود داده است.
2_5 تحلیل احساسات
یکی از زمینه های جدید در تحقیقات مبتنی بر متن شبکههای اجتماعی استفاده از تحلیل احساسات میباشد. تجزیه و تحلیل احساسات، که همچنین به عنوان افکار اندیشی یا عقیده کاوی نیز خوانده میشود، یکی از مهمترین زیرمجموعههای پردازش زبان طبیعی میباشد که به طور گستردهای در زمینه دادهکاوی، وبکاوی و متنکاوی مورد استفاده قرار میگیرد. سیستمهای تحلیل احساسی تقریباً در هر کسب وکار و حوزه اجتماعی به کار گرفته میشوند، زیرا عقاید در تمام فعالیتهای انسانی نقش اساسی دارد و از تأثیرگذارترین رفتارهای ما میباشد. اعتقادات و برداشت ما از واقعیت و انتخابهایی که انجام میدهیم ، تا حد زیادی مشروط به این است که دیگران چگونه دنیا را میبینند و ارزیابی میکنند. به همین دلیل، زمانی که ما نیاز به تصمیمگیری داریم، اغلب به دنبال عقاید دیگران هستیم. این نه تنها برای افراد بلکه برای سازمانها نیز صادق است. در تحقیق [20] مولفین نشان دادند که سه بعد برجسته معنی شامل شامل ارزشیابی (خوب و بد) ، توانایی (قوی و ضعیف) و فعالیت (فعال ، انفعالی) هستند. ارزشیابی بسیار مشابه خوشایندی /ناخوشی (مثبت و منفی) میباشد.
در تحقیقات دیگری در [21] یک مدل مدور اثر توصیفی با دو بعد را توسعه داد، خوشایندی/ناخوشی و برانگیختگی ( میزان واکنش پذیری به محرک). ابعاد قطب ها به درجه مثبت یامنفی احساس ارجاع دارد بطوریکه بعد برانگیختگی به درجه آرامش یا هیجان مرتبط است. محدوده هر دو بعد از 1 (کاملا منفی یا آرام) تا 9 (کاملا مثبت یا هیجانی) قرار میگیرد. در نتیجه اکثر تحقیقات در زمینه تحلیل احساسات به عامل خوشایندی/ناخوشی اختصاص یافتند[22] .
در مقاله [23] معتقد بودند که تمامی احساسات در بعد خوشایندی/ناخوشی قرار میگیرند و هرگز بعد خنثی ندارند. بعضی از احساسات کاملا منطبق بر یک قطب خوشایندی/ناخوشی هستند مانند شادی که کاملا قطب مثبت خوشایندی/ناخوشی است. اما بعضی لغات میتوانند مفهوم هر دو قطب را در برداشته باشند مانند کلمه تعجب. درنتیجه تحقیقاتی با تمرکز بر روی تشخیص خودکار برانگیختگی و احساسات انجام شده است، احساساتی شامل عصبانیت، غم و یا مثبت اندیشی. در نتیجه روشهای مبتنی بر طبقه بندی احساسات بر روش مبتنی بر روش خوشایندی/ناخوشی ارجحیت دارند[24].
تحقیقات بسیاری به رابطه میان احساسات مختلف پرداختهاند که برای تحقیقات در مورد احساسات به صورت خاص، مطالعه آنها توصیه میگردد[26], [25]. امروزه تحقیقات زیادی بر روی تحلیل احساسات متن انجام گرفته است. از این رو کتابخانههای آماده فراوانی جهت تحلیل احساسات ایجاد شده است، با این وجود در زمینه تحلیل احساسات در حوزه تشخصیص هرزنامه در توییتر تحقیقات کمتری صورت گرفته است. در این تحقیق حاضر از کتابخانه SentiWordNet [27] استفاده شده است.
3. راه کار پیشنهادی
با توجه به اینکه شبکههای اجتماعی از محبوبیت زیادی برخوردار هستند، به دنیای جذاب هرزنامهگرها تبدیل شدهاند. توییتر یکی از محبوبترین شبکههای اجتماعی است که در آن کاربران موضوعات مختلفی را به بحث میگذارند و با هم ارتباط برقرار میکنند. اکثر روشهای فیلتر کردن هرزنامه در توییتر بر شناسایی هرزنامهگرها و مسدود کردن آنها تمرکز دارند. با این حال، هرزنامهگرها میتوانند یک حساب کاربری جدید ایجاد کرده و دوباره توییتهای هرزنامه ارسال کنند.
بنابراین برای شناسایی هرزنامه در سطح توییت، نیاز به تکنیکهای تشخیص هرزنامه قوی وجود دارد. این نوع تکنیکها میتوانند با دقت بیشتری از هرزنامه جلوگیری کنند. برای شناسایی هرزنامه در سطح توییت، اغلب ویژگیهای تعریف شدهای وجود دارد و الگوریتمهای یادگیری ماشین مناسب بکار برده میشوند. به تازگی، روشهای یادگیری ماشین در حال نشان دادن نتایج موثر در چند کاربرد پردازش زبان طبیعی است.
با توجه به دلایل اشاره شده در بخشهای قبل، تنها استفاده از ويژگیهای حساب کاربری برای تشخیص میتواند ضعفهایی داشته باشد. لذا در روش پیشنهادی ویژگیهای احساسی نیز مورد استفاده قرار گرفته و از یک روش تلفیق به منظور هم افزایی نتایج حاصل از چند روش و دستیابی به نتایج دقیقتر استفاده شده است. هدف از ارائه این روش، استفاده از مزایای بالقوه این دو روش برای بهبود کارایی میباشد.
به همین منظور، ما یک رویکرد ترکیبی برای تشخیص هرزنامه در سطح توییت ارائه میدهیم. در این تحقیق از مدل مبتنی بر ویژگی به همراه یک مدل مبتنی بر تحلیل احساسات در ترکیب با الگوریتمهای یادگیری ماشین استفاده میکنیم. الگوریتمهای یادگیری ماشین با استفاده از روشهای مختلف تعبیه لغات (Glove، Word2vec) برای آموزش مدل استفاده میشود. مدل مبتنی بر ویژگی، از ویژگیهای مبتنی بر محتوا، مبتنی بر کاربر و N-gram استفاده میکند. همچنین ویژگیهای احساسی درون توییتها نیز در مدل مبتنی بر تحلیل احساسات بکار گرفته میشوند. رویکرد ما ترکیبی از هر دو روش یادگیری ماشین و مدلهای مبتنی بر ویژگیهای احساسی با استفاده از یک شبکه عصبی چند لایه است که به عنوان یک ابرطبقه بند عمل میکند.
3_1 مدل ترکیبی مبتنی بر شبکه عصبی برای تشخیص هرزنامه در توییتر
هدف اصلی از انجام این تحقیق این است که با دادن توییت t سیستم تشخیص دهد که این توییت هرزنامه است یا خیر. در این بخش ، ابتدا معماری شبکه عصبی پیچشی پیشنهادی در مرجع [19] ، با استفاده از روشهای تعبیه کلمه مختلف و ابعاد متفاوت، برای شناسایی هرزنامه در سطح توییت ارائه میشود. در مرحله بعد، مدل مبتنی بر ویژگی را مورد بحث قرار میدهیم که از ویژگیهای مبتنی بر کاربر، مبتنی بر محتوا و ویژگیهای N-gram به همراه روش پیشنهادی مبتنی بر احساسات استفاده میکند.
3_2 مدل مبتنی بر شبکه عصبی پیچشی
مدل مبتنی بر شبکه عصبی پیچشی ما از دو بخش تشکیل شده است. یکی انتخاب بازنمایی ویژگی، و دیگری انتخاب معماری شبکه است. در اینجا، ما در مورد این دو جنبه با جزئیات بیشتر توضیح خواهیم داد.
3_3 بازنمایی ویژگی
در روشهای مبتنی بر توییت، ویژگیهای اصلی یک توییت از کلمات موجود در آن آمده است. کلمات و جملات و اصولا متن، دادههای غیرساختار یافته میباشند که الگوریتمهای طبقهبندی نمیتوانند آنها را بدون پیشپردازش درک کنند. ما باید قادر باشیم متون خود را به دادهای قابل محاسبه و سنجش برای مدل درآوریم. در طول سالها روشهای مختلفی برای این تبدیل ارائه شده است. در واقع هر کلمه در متن به عنوان یک ویژگی عمل میکند. تکنیک تعبیه کلمه به عنوان جدیدترین و بهینهترین روش قادر است متون را به بردارهای عددی مبتنی بر روابط معنایی تبدیل کند. مفهوم اصلی تعبیه کلمات این است که تمامی لغات استفاده شده در یک زبان را میتوان توسط مجموعهای از اعداد اعشاری و در قالب یک بردار بیان کرد. تعبیه کلمات بردارهای nبعدی هستند که تلاش میکنند معنای لغات و محتوای آنها را با مقادیر عددی ثبت کنند. هر مجموعهای از اعداد یک بردار کلمه بهحساب میآید که به تنهایی برای ما سودمند نیست. آن بخشی از بردار کلمات برای کاربردهای مورد نظر ما مفید هستند که معنای لغات و ارتباط بین آنها را همانطور که بصورت طبیعی مورد استفاده قرار گرفتهاند، بدست آورده باشند.
به همین خاطر ما از تکنیکهای تعبیه کلمه Word2vec و GLOVe جهت تبدیل کلمات متن توییت به بردار عددی استفاده میکنیم. این بردارها به عنوان ورودی شبکه عصبی استفاده میشوند. مدل Word2vec توسط 3 میلیون کلمه Google News با ابعاد 300 پیشپردازش شده و مدل GLOVe با 2 میلیارد توییت پیش پردازش شده با ابعاد 25، 50، 100و 200 تشکیل شده است.
3_4 معماری شبکه
شبکههای عصبی پیچشی نشان دادهاند که در بینایی ماشین سودمند هستند. اخیرا از آنها در مسائل مربوط به پردازش زبان طبیعی نیز استفاده میشود[28]، [29]. در مرجع [17] یک معماری شبکه عصبی پیشنهاد کردند که میتوان آن را برای بسیاری از وظایف پردازش زبان طبیعی مانند شناسایی موجودیتهای نامدار، تجزیه، برچسبگذاری اجزاء کلام و تکه تکه کردن استفاده کرد. مدل ما از [19] الهام گرفته شده است و در شکل 3 نشان داده شده است. لایههایی که در معماری یادگیری ماشین ما حضور دارند عبارتند از: لایه ورودی، لایه پیچشی، لایه جمع کننده11، لایه مخفی و یک لایه خروجی.
هر توییت شامل گروهی از کلمات است، در نتیجه بردار توییت از تلفیق بردارهای کلمات فردی توییت تشکیل شده است. اگر ابعاد بردار کلمه d باشد و طول توییت l باشد آنگاه ابعاد ماتریس توییت میشود. این ماتریس توییت به عنوان لایه ورودی شبکه عصبی است که در شکل 3 نشان داده شده است. با توجه به [18] اگر هر توییت را به عنوان مجموعهای از کلمات در نظر بگیریم به صورت:
آنگاه نمایش برداری هر توییت با اندیس v به صورت رابطه (1) خواهد بود:
(1) |
|
که در آن تعبیه کلمه خواهد بود. و о عملگر اتصال میباشد.
شکل 3. معماری شبکه عصبی پیچشی [19]
همانطور که در شکل 3 نشان داده شده، هر کلمه از توییت به صورت بردار عددی d بعدی تعبیه کلمات نشان داده میشود. ماتریس ورودی وارد لایه پیچشی میشود. در این لایه عملیات پیچشی شامل یک فیلتر به پنجره h کلمهای جملات اعمال میشود تا ویژگی جدیدی ساخته شود. به عنوان مثال با توجه به روش [18] ویژگی با یک پنجره کلمات که کلمات آن در اندیسهای i تا قرار دارند به صورت رابطه (2) تولید میشود.
(2) |
|
در رابطه (2) b∈ℝ بایاس و f تابع غیرخطی مانندRelu میباشد. اگر مقدار فیلتر 1 درنظر گرفته شود، تنها کلمه هدف در جمله در نظر گرفته میشود. اگر مقدار فیلتر 3 باشد کلمه هدف و یک کلمه قبل و بعد از آن در نظر گرفته میشود. در صورتیکه این مقدار 5 باشد کلمه هدف به همراه دو کلمه قبل و دو کلمه بعد از آن به عنوان ویژگی نگاشت میشوند. تفاوت حرکت فیلتر در این روش بر خلاف شبکه عصبی بینایی ماشین در این است که حرکت فیلتر بجای پیمایش در فضای دوبعدی به صورت یک بعدی ( در واقع هر سطر ) ماتریس را پیمایش میکند. ضرب فیلتر در ماتریس با طول h باعث ایجاد ماتریس ستونی میشود که این مقادیر با b جمع شده و تابع غیرخطی f بر روی آن اعمال میشود. در لایه Max Pooling بیشترین مقادیر بدست آمده از مرحله قبلی انتخاب میشوند. این کار با هدف کاهش قدرت محاسباتی مورد نیاز برای پردازش دادهها از طریق کاهش ابعاد، انجام میشود. در واقع در Max Pooling بیشترین فعال سازها انتخاب میشوند. اگر فرض کنیم توییت ما شامل 7 کلمه با ابعاد 5 باشد، فیلتر با عرض به اندازه ابعاد کلمه و ارتفاع 2 بر روی تمامی ردیفهای ماتریس ورودی پیمایش کرده و نتیجه ضرب در ماتریس ستونی بعدی محاسبه میشود. پس از جمع بایاس و اعمال تابع فعال ساز نتیجه به لایه Max Pooling وارد شده و بزرگترین عدد از این فیلتر انتخاب میشود. این روند تا زمان اعمال تمامی فیلترها با ابعاد گوناگون بر روی ماتریس ورودی ادامه پیدا میکند.
لایههای تماما متصل12، نگاشت ویژگیهای ۲ بعدی حاصله از مرحلهی Pooling را به بردار ویژگی یک بعدی تبدیل میکند. لایههای تماما متصل تقریبا ۹۰% پارامترهای یک شبکه عصبی پیچشی را شامل میشوند. لایه تماما متصل به ما اجازه میدهد تا نتیجه شبکه را در قالب یک بردار با اندازه مشخص ارائه کنیم . از این بردار میتوان برای طبقه بندی استفاده کرد و یا اینکه از آن جهت ادامه پردازشهای بعدی بهره برد.
در انتها لایه خروجی با تابع فعالساز Sigmoid قرار دارد تا مقادیر خروجی شبکه را بین 1 و 0 نگاشت کند.
3_5 مدل مبتنی بر ویژگی
به غیر از استفاده از مدل مبتنی بر شبکه عصبی پیچشی که از تعبیه کلمات استفاده میکند، ما به طور موازی از مدل مبتنی بر ویژگی نیز استفاده میکنیم که از ویژگیهای مبتنی بر کاربر، مبتنی بر محتوا و روش N-gram استفاده میکند .با ظهور شبکههای اجتماعی و ورود هرزنامه به این حوزه تحقیقات و پژوهشهای زیادی درباره انتخاب ویژگیهای مناسب و تاثیرگذار جهت شناسایی هرزنامه صورت گرفته است. این ویژگیها همانطور که در بخش قبل به آن اشاره شد در بخشهای مختلفی استفاده شده است. ما بر مرجع [10] و همچنین مرجع [19] موثرترین ویژگیهای تاثیرگذار را در سطح حساب کاربر و محتوای توییت انتخاب کردهایم. ویژگیهای زیر برای آموزش مدل استفاده میشود.
3_6 ویژگیهای مبتنی بر کاربر
ویژگیهای مبتنی بر کاربر بر روی مشخصات حساب کاربری تمرکز دارد. پارامترهای استفاده شده به عنوان ویژگی حسابهای یک توییت در جدول 1 آمده است.
تعداد دنبالشوندگان و دنبالکنندهها یکی از ویژگیهایی است که تفاوتهای میان حسابهای هرزنامه و عادی را متمایز میکند. معمولا تعداد دنبالکنندگان در یک حساب هرزنامه بسیار بیشتر از یک حساب عادی است. امتیاز reputation همانطور که در جدول 1 نشان داده شده برای کاربرانی است که دنبالکنندگان زیادی دارند درحالی که تعداد دنبال شوندگان آنها کم است و نزدیک مقدار یک میباشد. برای هرزنامهگرها، نسبت به کاربران عادی، این امتیاز کمتر است.
جدول 1 . ویزگی های مبتنی بر کاربر
توضیحات | ویژگی |
تعداد دنبال کنندگان کاربر را نشان میدهد. | Follower Count |
تعداد دوستان کاربر را نشان میدهد. در توییتر این ویژگی همان تعداد following های کاربر است. | Friends Count |
| Reputation Score |
تعداد روزها از زمان ساخته شدن اکانت کاربر تا آخرین توییتی که کاربر گذاشته است. | Registration Age of the User |
3_7ویژگیهای مبتنی بر محتوا
توجه ما در ویژگیهای مبتنی بر محتوا بر روی متن توییت میباشد. ویژگیهای مورد استفاده در تحقیق ما شامل موارد جدول 2 میباشد.
با توجه به مسدود شدن حسابهای هرزنامه توسط الگوریتمهای موجود، حسابهای هرزنامه عمر کمتری به نسبت حسابهای عادی دارند. از طرفی تعداد دنبالشوندگان حسابهای هرزنامه بسیار کمتر از حسابهای عادی است. و بالعکس با توجه به تلاش حسابهای هرزنامه تعداد دنبال کنندگان این حسابها هم در مقایسه با حسابهای عادی بیشتر است. با توجه به فرمول شهرت، حسابهای عادی از امتیاز شهرت بیشتری برخوردارند. از طرفی هرزنامهها به دلیل ماهیت تبلیغاتی خود از آدرسهای URL بیشتری در متن خود استفاده میکنند.
جدول2. ویژگیهای مبتنی بر محتوا
توضیحات | ویژگی |
تعداد لغاتی که درون توییت قرار دارند | Number of Words |
طول یک توییت بر حسب کاراکتر را محاسبه میکند. | Length of the Tweet |
این ویژگی تعداد لینکهای URL موجود در توییت را محاسبه می کند. | Number of URL Links |
3_8 ویژگی های مبتنی بر N-gram
N-gram مدل زبانی است بر پایه احتمالات که پیشبینی قلم بعدی را انجام میدهد. امروزه این مدل کاربرد فراوانی در زبان های طبیعی پردازشی دارد. به چند روش امکان ارائه این مدل وجود دارد. یکی از این روشها تکنیک TF-IDF میباشد. این روش محبوبترین تکنیک استخراج بردار از متن بوده است. 13TF به معنی فراوانی وزنی کلمه کلیدی و IDF14 به معنیِ برعکسِ تعداد تکرار در متون است. برای به دست آوردن ضریب TF-IDF میبایست هر کدام از این دو عبارت را به صورت جداگانه محاسبه کرده و حاصل دو عبارت را در هم ضرب کنیم تا نتیجه حاصله، فراوانی وزنی کلمه کلیدی را به ما نشان دهد. روابط TF-IDF به شرح زیر میباشد:
TF عبارت است از تقسیم تعداد تکرار کلمه کلیدی w بر تعداد کل کلمات محتوا N (رابطه (3)).
(3) |
|
IDF عبارت است از لگاریتم تقسیم تعداد کل محتوا بر محتواهایی که شامل کلمه مورد نظر هستند (رابطه (4)).
(4) |
|
همچنین c تعداد کل سندها و d تعداد سندهایی است که کلمه کلیدی در آن قرار دارد. در واقع هر چه یک کلمه در یک متن بیشتر تکرار شده باشد TF و در دیگر متون کمتر تکرار شود IDF مقدار TF-IDF آن بیشتر میشود و این معیار خوبی جهت تشخیص وزنِ یک کلمه در یک جمله میباشد. با این تکنیک میتوان میزان مهم بودن یک کلمه را سنجید. به این ترتیب ماتریسِ ویژگی با کیفیت بهتری تشکیل میشود و معمولاً نتایج بهتری در الگوریتمهای طبقهبندی یا خوشهبندی حاصل میشود.
3_9 Unigram
با توجه به توضیحات مربوط به روش TF-IDF جهت بهبود طبقهبندها میتوان از یک ویژگی مهم دیگری که کاربرد موثری در پردازش متون دارد نیز استفاده کرد. این ویژگیها که به ویژگیهای N-gram معروف هستند از توالی قرارگیری کلمات پشت سر هم میتوانند ویژگی جدیدی بوجود آورند. ما در این تحقیق از دو ویژگی Unigram و Bigram استفاده میکنیم. در ویژگی Unigram هر کلمه به طور مستقل به عنوان یک ویژگی در نظر گرفته میشود. برای محاسبه Unigrams از رابطه (5) استفاده میکنیم.
(5) |
|
(6) |
|
که در آن تعداد کلمات دوتایی است که با کلمه شروع میشوند و بعد از آن کلمه قرار میگیرد و تعداد کل کلمه میباشد. مقادیر مختلف j مشخص میکند چه کلماتی بعد از کلمه ظاهر میشوند.
ما همانند تحقیقات [10] و[30] از روش Unigram و Bigram با محاسبه TF به عنوان یک ویژگی برای عملیات تشخیص هرزنامه استفاده میکنیم. در ادامه به بررسی راهکار پیشنهادی میپردازیم.
3_11 بررسی جزئیات راهکار پیشنهادی
همانند تحقیقات گذشته برای تشخیص هرزنامهها در سطح توییت، از ویژگیهای مختلفی استفاده شده است از جمله لغات بکار رفته در توییت را به عنوان یک ویژگی در نظر میگیریم، ویژگیهای خاص هر کاربر و اطلاعات کاربر و همچنین ویژگیهای مبتنی بر محتوا را نیز در سیستم دخیل میکنیم. اما بسیاری از تولیدکنندگان هرزنامه به خاطر اینکه کاربر را ترغیب به کلیک کردن و دنبال کردن لینکهای درون هرزنامه کنند، از ویژگیهایی استفاده میکنند که به احساسات کاربر مرتبط میباشد. به عبارت دیگر، آنها سعی میکنند در توییت، کاربر را از نظر احساسی ترغیب به کلیک کردن روی لینکهای هرزنامه کنند. در این تحقیق سعی داریم که علاوه بر بعضی ویژگیهای بکار رفته در کارهای گذشته ویژگیهای احساسی مورد استفاده در تحقیق [15] را نیز به نحو موثری اضافه کنیم تا یک مدل ترکیبی قویتری ایجاد شود.
ما برای تشخیص هرزنامه از دو مدل شبکه عصبی پیچشی استفاده میکنیم. مدل آموزش دیده با استفاده از Twitter Glove Word Embeddings و مدل آموزش دیده توسط Google News Corpus Word2vec Embeddings و نشان میدهیم استفاده از ویژگیهای احساسی و روش انتخاب ویژگی میتواند با دقت بیشتری عملیات تشخیص هرزنامه را انجام دهد.
3_11_1 تحلیل احساسات
در ادبیات موضوع، واژههای تحلیل احساسات، افکار اندیشی و عقیده کاوی معمولا به صورت مترادف استفاده میشوند که با پردازش زبان طبیعی مرتبط میباشند. در این حوزه تحقیق از روشهای داده کاوی نیز بطور گسترده استفاده میشود. تحلیل احساسات به نوعی با بررسی نظرات افراد که در بخشهای مختلف از جمله شبکههای اجتماعی ارائه میشوند مرتبط است. به طور کلی میتوان نظرات و افکار را در حوزه تحلیل احساسات در سه گروه مثبت، منفی و خنثی تقسیمبندی کرد. به عنوان مثال جمله " این کتاب عالی است! " یک جمله با بار مثبت بوده و از جمله " از این غذا متنفرم" میتوان بار منفی را دریافت کرد. همین برداشت را میتوان در حوزه نظرات مردم در شبکه های اجتماعی و توییتهای آن ها نیز استفاده کرد. توییتهای کاربران میتواند دارای بار مثبت، منفی و یا خنثی باشد. با توجه به این نکته که یکی از اهداف تولیدکنندگان هرزنامه ترغیب کاربر به کلیک بر روی یک لینک آدرس میباشد، لذا بار معنایی یک توییت باید جذاب، جلب کننده و به طور کلی مثبت باشد. شکل 4 نمونهای از توییتهای هرزنامه را نشان میدهد. در این توییتها کلمات مثبتی همچون Best، Excellent و غیره مشاهده میشود. به همین منظور ما با استفاده از ویژگیهای خاص مرتبط با تحلیل احساسات سعی میکنیم بار مفهومی توییت را شناسایی کنیم. امروزه تحقیقات زیادی بر روی تحلیل احساسات متون انجام گرفته است. از این رو کتابخانههای آماده فراوانی جهت تحلیل احساسات ایجاد شده است. در این تحقیق کتابخانه SentiWordNet [27] استفاده شده است.
SentiWordNet ابزاری است که در عقیده کاوی به طور گسترده مورد استفاده قرار میگیرد و بر اساس یک دیکشنری واژهنامه انگلیسی به نام WordNet کار میکند. این دیکشنری صفات، اسامی، افعال و سایر کلاسهای گرامری را به مجموعههایی از مترادفها به نام synset طبقهبندی میکند. SentiWordNet سه امتیاز به synset های دیکشنری WordNet برای نشان دادن احساسات داخل متن نسبت میدهد: مثبت، منفی و خنثی. این امتیازات که بصورت مقادیر بین صفر و1 هستند و در رابطه (7) نشان داده شده با استفاده از یک روش یادگیری ماشین بدون نظارت بدست میآیند.
(7) |
|
ویژگی | توضیحات |
تعداد کلمات منفی | تعداد کل لغات منفی در یک توییت.
|
نرخ کلمات منفی | این ویژگی از طریق فرمول زیر محاسبه میشود.
|
امتیاز منفی | مقدار این متغیر از طریق جمع کردن همه negative words scores های یک توییت بدست میآید. |
تعداد کلمات مثبت | تعداد کل لغات مثبت در یک توییت. |
نرخ کلمات مثبت | این ویژگی از طریق فرمول زیر محاسبه میشود.
|
امتتیاز مثبت | مقدار این متغیر از طریق جمع کردن همه positive words scores های یک توییت بدست میآید. |
امتیاز خنثی | مجموع امتیاز خنثی کلمات توییت محاسبه میشود |
صفتهای مثبت | مقدار این ویژگی برابر است با همه صفتهای درون یک توییت به صورتی که مقدار احساسی مثبت آن از یک آستانه ثابت بیشتر باشد.
|
افعال مثبت | مقدار این ویژگی برابر است با همه فعلهای درون یک توییت به صورتی که مقدار احساسی مثبت آن از یک آستانه ثابت بیشتر باشد.
|
قیود مثبت | مقدار این ویژگی برابر است با همه قیود درون یک توییت به صورتی که مقدار احساسی مثبت آن از یک آستانه ثابت بیشتر باشد.
|
در این نوشتار، از ویژگیهای احساسی ذکر شده در جدول 3 همراه با ویژگیهای ذکر شده در جدولهای 1 و 2 استفاده میکنیم. برای شناسایی کلمات با بار مثبت امتیاز Positive کلماتی که بیشتر از 5/0 باشند را به عنوان کلمات مثبت در نظر میگیریم. به منظور شناسایی جملاتی که بار مثبت آنها در فعل، صفت و یا قید جمله قرار دارند، امتیاز این کلمات را نیز بطور مجزا محاسبه میکنیم.
3_11_4 استفاده از طبقهبند برای آموزش ویژگیها
حال باید ویژگیهای یاد شده بخش قبل را توسط یک الگوریتم یادگیری ماشین آموزش دهیم. در تحقیقات Wang و همکاران [10] طبقه بندهای KNN ,SVM ,Random Forest و Decision Tree بر روی ویژگیهای مبتنی بر محتوا و مبتنی بر کاربر اعمال شده است. نتایج تحقیقات [10] و [19] نشان میدهد بهترین نتیجه برای مجموعه دادههای متعادل و نامعتادل هرزنامه توسط دو طبقهبند Random Forest و SVM بدست میآید. به همین منظور ما تمامی ویژگیهای انتخابی را به عنوان ورودی به این دو الگوریتم یادگیری ماشین وارد میکنیم. Random Forest یک الگوریتم یادگیری ماشین با قابلیت استفاده آسان است که اغلب اوقات نتایج بسیار خوبی را حتی بدون تنظیم فراپارامترهای آن، فراهم میکند. این الگوریتم به دلیل سادگی و قابلیت استفاده، هم برای طبقهبندی و هم رگرسیون16، یکی از پرکاربردترین الگوریتمهای یادگیری ماشین محسوب میشود. در این تحقیق برای بهبود نتایج، پارامتر number_of_trees را برابر 50 و min_samples_split را برابر 10 در نظر میگیریم. از این طبقه بند بر روی هر دو مجموعه داده استفاده میکنیم و نتایج حاصل با طبقهبند SVM مقایسه میشود. بهترین نتیجه بر اساس معیار F-Measure به عنوان طبقهبند نهایی در معماری نهایی قرار میگیرد. طبقهبند SVM بر اساس طبقه بندی خطی دادهها عمل میکند. از این طبقهبند در هر مسئله تشخیص الگو و طبقهبندی میتوان استفاده کرد. برای عملکرد بهتر این طبقهبند پارامتر C = 0.8 ، kernel = linear و penalty را معادل 12 در نظر میگیریم. این مقادیر بر مبنای مقادیر استفاده شده در مقالات و انجام چند آزمایش انتخاب شدهاند. این طبقهبند هم بر روی هر دو مجموعه داده اعمال میشود و نتایج با طبقهبند Random Forest مقایسه میشود.
3_11_5 انتخاب طبقهبندهای ساختار تلفیقی
ساختار روش پیشنهادی در شکل 5 نشان داده شده است. ما برای روش پیشنهادی خود از تلفیق مدل مبتنی بر شبکه عصبی پیچشی و مدل مبتنی بر یادگیری ماشین استفاده میکنیم.
روشهای مبتنی بر شبکه عصبی پیچشی با تعبیه کلمات با ابعاد مختلف آموزش داده میشوند. اولین شبکه عصبی پیچشی با روش تعبیه کلمه GLOVe با ابعاد 25 و 50 آموزش داده میشود. بهترین نتیجه خروجی بر مبنای پارامتر F1 از بین این دو شبکه عصبی پیچشی به عنوان شبکه عصبی پیچشی برگزیده انتخاب میشود. دومین شبکه عصبی پیچشی با تعبیه کلمه Word2vecبا ابعاد 300 آموزش داده میشود. این شبکه عصبی پیچشی نیز به عنوان شبکه عصبی پیچشی انتخابی در معماری تلفیقی قرار میگیرد. با توجه به تابع Sigmoid استفاده شده در این شبکههای عصبی، خروجی مقدار پیوسته بین صفر تا 1 میدهد.
در ادامه مدل مبتنی بر ویژگی که شامل ویژگیهای مبتنی بر کاربر، مبتنی بر محتوا، ویژگیهای N-gram و ویژگیهای احساسی هستند به صورت مجزا توسط طبقه بندRandom Forest و SVM آموزش میبینند. خروجی این دو طبقهبند دودویی صفر برای ورودی غیرهرزنامه و 1 برای ورودی هرزنامه میباشد. از بین این طبقهبند نیز بهترین نتیجه ارزیابی F1 به عنوان طبقهبند منتخب در معماری تلفیقی ما جای میگیرد. در کل ما از 3 طبقهبند نهایی برای ساخت معماری تلفیقی خود بهره میگیریم.
3_11_6 استفاده از ابرطبقهبند17 برای تلفیق خروجیها
در مرحله آخر برای طراحی مدل نهایی ما سه طبقهبند منتخب داریم. دو طبقهبند مبتنی بر شبکه عصبی پیچشی که خروجی بین صفر و 1 دارند و طبقهبند منتخب مبتنی بر ویژگی که خروجی صفر و یا 1 نهایی خود را ارائه میدهد. در مقالات مختلف روشهای مختلفی برای تلفیقکردن طبقهبندها و استخراج نتیجه بهینهتر استفاده میشود. روشهایی مانند Bootstrap Aggregation، Boosting، Majority Voting، Weighted Voting برخی از آنها میباشند. بیشتر برندگان رقابت چالش داده از روشهای تلفیقی استفاده میکنند [32], [31]. در یادگیری تلفیقی، کارایی گروهی اغلب بهتر از کارایی روشهایی است که به تنهایی استفاده میشوند.
در روش پیشنهادی، یک مجموعه داده جدید بوسیله خروجیهای 2 مدل شبکه عصبی پیچشی و یک مدل مبتنی بر ویژگی ساخته میشود. یک ابر طبقهبند مبتنی بر شبکه عصبی روی مجموعه داده ساخته شده اعمال میشود تا توییت داده شده را طبقهبندی کرده و تشخیص دهد هرزنامه است یا خیر.
مقادیر ورودی این مدل بازه عددی صفر تا 1 خروجی طبقهبندهای قبلی میباشد. این شبکه عصبی دارای دو لایه مخفی میباشد که هر کدام 3 گره داخلی دارد. تابع فعال سازی Relu در لایههای مخفی استفاده میشود و تابع Sigmoid در لایه خروجی استفاده میشود. در این تحقیق از تابع فعالساز Sigmoid در لایه خروجی استفاده میشود تا اطمینان حاصل شود که خروجی نهایی در بین مقادیر صفر و 1 قرار میگیرند. اگر مقادیر خروجی از حدآستانه کمتر باشند به عنوان توییت نرمال و در غیر اینصورت به عنوان هرزنامه شناسایی میشوند. شکل 5 معماری این ابرطبقه بند را نشان میدهد.
شکل 5. معماری تلفیقی پیشنهادی
همانطور که از شکل 5 مشخص است ابتدا متن توییت توسط دو روش تعبیه لغت GLOVe و Word2vec به بردارهای عددی تبدیل شده و هر کدام به صورت مجزا به معماری شبکه عصبی پیچشی توضیح داده شده در بخش قبل وارد میشوند. در همین حال ویژگیهای استخراج شده که شامل ویژگیهای مبتنی بر متن توییت، مبتنی بر کاربر و ویژگیهای احساسی هستند وارد طبقهبند انتخابی Random Forest و یا SVM میشوند. دو مدل مبتنی بر شبکه عصبی پیچشی با توجه به تشخیص توییت، امتیازی بین صفر و یک به متن توییت میدهند. هرچه این عدد به مقدار عددی 1 نزدیکتر باشد نشاندهنده احتمال بالای هرزنامه بودن متن توییت میباشد. و بالعکس هرچه این عدد به سمت صفر نزدیکتر باشد سالم بودن توییت بیشتر است. هر دو روش مبتنی بر شبکه عصبی پیچشی مقادیر خروجی خود را به عنوان ورودی به شبکه عصبی تلفیقی وارد میکنند. از طرف دیگر یکی از دو طبقهبند SVM و یا Random Forest با توجه به عملکرد بهتر خود در مواجهه با مجموعهدادها انتخاب شده و بر اساس ویژگیهای تعریف شده، عمل تشخیص هرزنامه یا عادی بودن توییت را انجام میدهد. این طبقهبند خروجی 1 را برای هرزنامه و خروجی صفر را برای ویژگیهای غیر هرزنامه در نظر میگیرد. خروجی این طبقهبند مبتنی بر ویژگی نیز به همراه دو مدل مبتنی بر شبکه عصبی پیچشی وارد شبکه عصبی تلفیقی میشود. معماری شبکه عصبی تلفیقی ما دارای دو لایه مخفی میباشد که هر کدام شامل 3 گره هستند. تابع فعال ساز Relu بر روی این لایه اعمال شده و Sigmoid به عنوان لایه خروجی در نظر گرفته شده است. با توجه به خروجی عددی پیوسته بین صفر و 1 لایه خروجی، از یک حدآستانه برای تشخیص هرزنامه یا سالم بودن توییت استفاده میکنیم. اگر مقدار خروجی بیشتر از حدآستانه انتخابی باشد خروجی هرزنامه در نظر گرفته میشود. در صورتیکه خروجی مقداری مساوی و یا کمتر از حدآستانه داشته باشد، به عنوان توییت سالم شناسایی میشود. نمودار فعالیت روش پیشنهادی در شکل 6 داده شده است.
شکل 6. نمودار روش پیشنهادی
شبکه عصبی پیشنهادی دارای پنج لایه است که لایه اول ورودی است. ابعاد این لایه است که l طول توییتها و d طول بردار کلمات است. لایه دوم convolution است که بر روی پنجره h کلمهای اعمال میشود. برای کلمه هدف و یک کلمه قبل و بعد از آن درنظر گرفته میشود. در لایه خروجی تابع فعالساز سیگموئید استفاده شده است تا مقادیر خروجی شبکه را بین صفر و 1 نگاشت کند. در این مدل جهت جلوگیری از بیش برازش از رگرسیون L2 استفاده شده است. تعداد فیلترهای مورد استفاده 250 بوده و پارامترهای
و تابع هزینه Binary cross entropy تنظیم شده است. در Random Forest پارامترnumber_of_trees برابر 50 و min_samples_split برابر 10 تنظیم شده است. پارامترهای طبقه بند SVM عبارتند از و . طبقه بند شبکه عصبی پیچشی با روش تعبیه کلمه GLOVe با ابعاد 25 و 50 آموزش داده میشود. دومین شبکه عصبی پیچشی با تعبیه کلمه Word2vec با ابعاد 300 آموزش داده میشود.
4. آزمایشها و تحلیل نتایج
در این بخش، رویکرد پیشنهادی برای شناسایی پستهای هرزنامه در رسانههای اجتماعی را ارزیابی میکنیم. قبل از بحث در مورد نتایج تجربی، ما شرح مختصری از مجموعه دادهها و معیارهای ارزیابی استفاده شده برای آزمایشهای خود و همچنین روشهایی که برای مقایسه استفاده شده را ارائه میدهیم.
4_1 مجموعه داده
ما در این مقاله از دو مجموعهداده برای آزمایشات خود استفاده کردهایم. اولین مجموعه زیر مجموعه HSpam14 [13] است که از آن به عنوان مجموعهداده HSpam یاد میکنیم. مجموعه دادههای اصلی شامل 14 میلیون توییت است و روند جمع آوری مجموعه دادهها به مدت دو ماه انجام گرفته است.
ما 2000 مورد از این توییتها را در نظر میگیریم. این مجموعهداده شامل 1000 توییت هرزنامه و 1000 توییت غیر هرزنامه است. برای مجموعهدادههای HSpam14 ، هر نمونه یک توییت است و برچسب کلاس مرتبط برای توییت (هرزنامه یا غیر هرزنامه) از قبل موجود میباشد. در مجموعه داده 1KS10KN [33] مجموعه اصلی شامل 1000 توییت هرزنامه و 10000 توییت غیرهرزنامه میباشد. ما برای تحقیقات خود از یک مجموعه نامتعادل انتخابی استفاده میکنیم. لیست انتخابی ما شامل 200 توییت هرزنامه و 2000 توییت غیر هرزنامه است. ما از این مجموعهداده به عنوان مجموعه داده 1KS10KN یاد خواهیم کرد. بنابراین در آزمایشات ما ، دو مجموعهداده داریم که یکی از آنها متعادل است حاوی تعداد تقریباً مساوی از هرزنامه و غیر هرزنامه در حالی که دادههای دیگر با عدم تعادل کلاس به صورتی که نمونههای کلاس غیر هرزنامه دارای تعداد قابل توجهی بیشتر هستند مواجه هستیم. برای هر دو مجموعهداده، ما دادهها را به دو مجموعه آموزشی و آزمایشی تقسیم میکنیم.
4_2 ارزیابی دادهها
جهت ارزیابی مدل پیشنهادی باید دادهها به دو دسته آموزشی و آزمایشی تقسیم شوند. بطور معمول 70% مجموعه داده به عنوان دادههای آموزشی و30% باقیمانده به عنوان مجموعه آزمایشی مدل پیشنهادی در نظر گرفته میشود. 70% مجموعه آموزش برای آموزش هر کدام از طبقهبندها مورد استفاده قرار میگیرد. در صورت استفاده از روش اعتبارسنجی متقابل جهت آموزش و ارزیابی هر طبقهبند، دادهها بهk زیرمجموعه تقسیم میشوند. در هر مرحله تعداد k-1 مجموعه به عنوان دادههای آموزشی استفاده شده و یک مجموعه باقی مانده به عنوان داده آزمایشی جهت ارزیابی استفاده میشود. این روال k بار انجام میگیرد و به این ترتیب همه دادهها هم در آموزش مدل و هم در آزمایش مدل مورد استفاده قرار میگیرند. میانگین نتایج آزمایش به عنوان ارزیابی نهایی مورد استفاده قرار میگیرد.در این آزمایشها مقدار k برابر 5 انتخاب شده است که در نتیجه باعث میشود تقسیم بندی دادهها بجای 70%-30% مقدار 80%-20% باشد.
مجموعه دادهها شامل اطلاعات کاربر به همراه متن توییت میباشد. توییتهای هر کاربر در دو گروه هرزنامه و غیر هرزنامه برچسبگذاری شده است.
4_3 معیارهای ارزیابی
معیارهای مورد استفاده برای ارزیابی روش پیشنهادی ما عبارتند از: دقت 18، فراخوانی19 ، F-measure که به ترتیب در رابطههای (8) و (9) و (10) نشان داده شدهاند.
کلاس هرزنامه را کلاس مثبت و کلاس غیر هرزنامه را کلاس منفی درنظر میگیریم.
True positive (TP) به تعداد توییتهای هرزنامه که به طور صحیح به عنوان هرزنامه طبقهبندی میشوند ، اشاره میکند.
False negative (FN) تعداد توییتهای هرزنامه را که به اشتباه به عنوان غیر هرزنامه طبقهبندی شدهاند نشان میدهد.
False positive (FP) به تعداد توییتهای غیر هرزنامه اشاره دارد که به اشتباه به عنوان هرزنامه طبقهبندی شده است.
True negative (TN) تعداد توییتهای غیر هرزنامه را که به درستی به عنوان غیر هرزنامه طبقهبندی شدهاند اشاره دارد.
در ادامه فرمولها و نحوه محاسبه معیارهای ارزیابی را نشان میدهیم:
(8) |
|
(9) |
|
(10) |
|
با توجه به اینکه هزینه تشخیص اشتباه توییت سالم به عنوان توییت هرزنامه بیشتر است ، در نتیجه سیستم ارزیابی ما باید با انتخاب مناسب حدآستانه نرخ FPR را تا حد امکان کاهش دهد. رابطه نرخ تشخیص صحیح TPR و نرخ تشخیص اشتباه FPR با رابطههای (11) و (12) نشان داده شده است.
(11) |
|
(12) |
|
4-4 روشهای استفاده شده برای مقایسه
در این تحقیق سعی شده است نتایج روش پیشنهادی با تحقیق [19] مقایسه شود. به دلیل محدودیتهای پردازشی معماری مدل فراطبقهبند ما از دو شبکه عصبی پیچشی انتخابی به همراه یک طبقهبند مبتنی بر ویژگی تشکیل شده است. به همین منظور پس از ساخت مدل نهایی، این مدل را با ویژگیهای تحقیق [19] و ویژگیهای پیشنهادی جهت ارزیابی مقایسه میکنیم. برای طراحی مدل تلفیقی نهایی ابتدا هر مدل بر اساس مجموعه داده Hspam و 1KS10KN آموزش داده شده و بهترین طبقهبندها از نظر معیار F-measure به عنوان مدل انتخابی در مجموعه نهایی قرار داده میشود. ما در این تحقیق مدل شبکه عصبی پیچشی مبتنی بر تعبیه کلمه GLOVe را با دو بُعد 25 و 50 مقایسه میکنیم. بهترین مدل از بین این دو بُعد بر اساس مجموعهدادههای متعادل و نامتعادل در مدل نهایی قرار داده میشود. از معماری شبکه عصبی پیچشی مبتنی بر تعبیه کلمه Word2vec نیز به عنوان یکی دیگر از مدلهای انتخابی در مدل نهایی استفاده میکنیم. از بین طبقهبندهای مبتنی بر ویژگی Random Forest و SVM نیز بهترین گزینه انتخاب و در مدل نهایی تلفیقی قرار میگیرد.
4-5 تحلیل نتایج آزمایشها
نتایج ارزیابی الگوریتمها روی دو مجموعه داده 1KS10KN و HSpam در ادامه نشان داده شده است. در ادامه روش پیشنهادی و روش مقاله [19] با توجه به ویژگیهای متفاوت با هم مقایسه شدهاند. با توجه به جداول خروجی، نتایج در دو مجموعه متعادل و نامتعادل متفاوت هستند. جهت بررسی تاثیر ویژگیهای پیشنهادی عملکرد هر طبقهبند نیز به تنهایی با ویژگیهای مورد استفاده در مقاله مذکور مقایسه شده است. به این ترتیب میتوان میزان تاثیر ویژگیهای پیشنهادی را بر روی هر طبقهبند به طور مجزا و بر روی کل مدل مشاهده کرد.
4_5_1 نتایج ارزیابی مجموعهداده 1KS10KN
نتایج جدول 4 از دو جنبه باید ارزیابی گردند. یکی اینکه نتایج روشهای قبلی ذکر شده در این جدول اگر با ویژگیهای احساسی همراه شوند بهبودی در نتایج حاصل میشود. دوم اینکه روش تلفیقی پیشنهادی نسبت به بقیه روشها چگونه عمل کرده است. این نکته نیز قابل ذکر است که آزمایشهای روش پیشنهادی و آزمایشهای مربوط به تاثیر ویژگیهای احساسی با درصدی از کل دادهها انجام شدهاند در حالی که روشهای دیگر کل دادهها را مورد استفاده قرار دادهاند. با این وجود روش پیشنهادی کاهشی را در نتایج نشان نمیدهد بلکه افزایشی هم به دنبال داشته است. درنتیجه علیرغم افزودن ویژگیهای احساسی که انتظار میرود باعث کاهش سرعت محاسبات گردد، ولی با دستیابی به نتایجی قابل قبول و حتی کمی بیش از روشهای مورد مقایسه، این مورد جبران میگردد.
جهت بررسی تاثیر دادههای نامتعادل بر روش پیشنهادی از مجموعهداده 1KS10KN استفاده کردهایم. همانطور که جدول 4 نشان میدهد بهترین نتیجه در بین روشهای مبتنی بر شبکه عصبی پیچشی با تعبیه کلمه GLOVe با ابعاد 50 بوده است. از طرف دیگر مشاهده میشود که با افزایش دقت، فراخوانی کاهش مییابد و این دو عکس یکدیگر عمل میکنند. این نتیجه نشان میدهد با افزایش ابعاد تعبیه کلمه دقت مدل افزایش مییابد. همچنین هر دو روش تعبیه کلمه GLOVe از روش Word2vec بهتر عمل کردهاند.
همانند نتایج موجود در مقاله مرجع [19]، با ویژگیهای اولیه و ویژگیهای روش پیشنهادی برای دقت و معیار F-measure، الگوریتم جنگل تصادفی عملکرد بهتری دارد. در حالی که برای فراخوانی، عملکرد الگوریتم SVM بهتر است. با این وجود عملکرد هر دو طبقهبند با ویژگیهای پیشنهادی در مقایسه با ویژگیهای اولیه بهتر عمل کردهاند. این نتایج نشان میدهد انتخاب ویژگیهای احساسی پیشنهادی نسبت به ویژگیهای کلاسیک مبتنی بر کاربر و یا متن توییت در مقاله پایه از کارایی بالاتری در دادههای نامتعادل برخوردار است.
طبقهبند Random Forest به علت استفاده از درختهای تصمیم مختلف، ویژگیهای بیشتری را برای یادگیری در نظر میگیرد و این امر باعث افزایش دقت و F-measure شده است. SVM نسبت به Random Forest از ویژگیهای کمتری استفاده میکند و تنها نمونههای مرزی20را در نظر میگیرد. لذا فراخوانی بالاتری را بدست میآورد. با توجه به عملکرد بهتر Random Forest در معیار F-measure از این طبقهبند به عنوان طبقهبند برگزیده برای دادههای نامتعادل استفاده میکنیم.
از طرف دیگر فرآیند آموزش تحت تأثیر این مجموعه داده نامتعادل قرار میگیرد زیرا تعداد بیشتری از نمونههای آموزش غیرهرزنامه بوده و تعداد نمونههای کمتری هرزنامه هستند. علیرغم نتایج ضعیف طبقهبندهای مبتنی بر ویژگی، مدلهای شبکه عصبی پیچشی با تعبیه کلمه عملکرد خوبی در برابر دادههای نامتعادل داشتهاند.
جدول 4. نتایج ارزیابی برای دیتاست 1KS10KN
F-Measure | Recall | Precision | Method |
0.861 | 0.808 | 0.921 | CNN + Glove25d |
0.871 | 0.815 | 0.936 | CNN + Glove50d |
0.822 | 0.836 | 0.808 | CNN + Google300d |
0.812 | 0.916 | 0.730 | Random Forest ویژگی مقاله پایه |
0.790 | 0.932 | 0.686 | SVM ویژگی مقاله پایه |
0.823 | 0.925 | 0.742 | Random Forest ویژگیهای پیشنهادی |
0.802 | 0.945 | 0.697 | SVM ویژگیهای پیشنهادی |
0.869 | 0.830 | 0.912 | مقاله پایه |
0.898 | 0.873 | 0.925 | روش پیشنهادی |
با توجه به مقادیر بدست آمده، هر دو طبقهبند Random Forest و SVM با ویژگیهای پیشنهادی عملکرد بهتری نسبت به ویژگیهای مقاله پایه دارند. این بهبود در عملکرد کلی روش پیشنهادی نسبت به روش تحقیق [19] نیز اثرگذار بوده است. بهبود عملکرد روش پیشنهادی به دلیل استفاده از ویژگیهای احساسی در روش پیشنهادی میباشد. این نتیجه نشان میدهد ویژگیهای مورد استفاده در مقاله پایه تاثیرگذاری کمتری نسبت به ترکیب ویژگیهای احساسی با ویژگیهای منتخب مبتنی بر کاربر، مبتنی بر متن و N-gram ما دارد. با این حال، وجود ویژگیهای احساسی باعث افزایش احتمالی زمان اجرای روش پیشنهادی نسبت به مقاله پایه میشود. به طور کلی کمترین زمان اجرا متعلق به ویژگیهای مبتنی بر حساب کاربر میباشد. ویژگیهای مبتنی بر متن و N-gram در رتبه بعدی قرار داشته و بیشترین زمان اجرا به محاسبه ویژگیهای احساسی اختصاص دارد. لازم به ذکر است در این تحقیق تمرکز اصلی بر استفاده از تحلیل احساسات به همراه دیگر ویژگیهای توییتها و تحلیل اثر گذاری آنها بوده و افزایش احتمالی زمان اجرا به دلیل تحلیل احساسات در تحقیقات آتی قابل بهبود خواهد بود. اگرچه استفاده از درصد کمتری از دادهها برای آموزش و تعداد طبقهبندهای کمتر توانسته است تا حدی افزایش زمان را جبران نماید. شکل 7 مقایسه عملکرد کلی معماری روش پیشنهادی و روش مقاله پایه را نشان میدهد.
شکل 7. مقایسه دو مدل در مجموعه داده 1KS10KN
نمودار 21ROC مجموعه داده 1KS10KN با 22AUC 0.99105 در شکل 8 نشان داده شده است. محور عمودی نشان دهنده نرخ مثبت درست و محور افقی نشان دهنده نرخ مثبت اشتباه میباشد که این نقاط بر اساس حد آستانههای مختلف ترسیم شده است. برای هر مورد ورودی، خروجی نهایی طبقهبند امتیازی بین صفر تا 1 را محاسبه میکند. امتیاز بالاتر خروجی، شانس هرزنامه بودن را بالا میبرد. به همین منظور ما با درنظر گرفتن یک حدآستانه بین صفر و1 کلاس خروجی را تعیین میکنیم. اگر مقدار نهایی خروجی عددی بزرگتر از حدآستانه باشد، خروجی هرزنامه شناسایی میشود و اگر این مقدار مساوی و یا کوچکتر از حد آستانه باشد خروجی کلاس نرمال تشخیص داده میشود. مقدار 0.99105 AUC نشان میدهد برای هر جفت توییت هرزنامه و غیر هرزنامه در 99.105% موارد توییت هرزنامه امتیاز بیشتری از توییت غیر هرزنامه دارد.
شکل 8. نمودار ROC مجموعه داده 1KS10KN
4-5-2 نتایج حاصل روی مجموعهداده HSpam
همانگونه که در مورد مجموعه داده قبلی اشاره شد، با بررسی نتایج جدول 5 از دو جنبهی تاثیر ویژگیهای احساسی بر روی روشهای قبلی و عملکرد روش پیشنهادی با بکارگیری حجم کمتری از دادهها، مشاهدی میگردد نه تنها ویژگیهای احساسی تاثیر مثبت در روشهای قبلی دارد بلکه روش پیشنهادی نیز علیرغم استفاده از حجم کمتر دادهها نتایج قابل توجهی دارد. نتایج حاصل از رویکرد شبکه عصبی پیچشی ما با روش تعبیه کلمه،Twitter Glove ، Google News Word2vec ، برای مجموعه دادههای HSpam در جدول 5 ارائه شده است. Hspam یک مجموعهداده متعادل است.
با توجه به متعادل بودن مجموعهداده عملکرد هر دو روش مقاله پایه و روش پیشنهادی نسبت به مجموعهداده نامتعادل 1KS10KN عملکرد بهتری دارد. با این حال مقایسه دو روش نشان از عملکرد بهتر روش پیشنهادی دارد. در بین روشهای تعبیه کلمه، شبکه عصبی پیچشی با روش GLOVe با ابعاد 25 بیشترین دقت را دارد. با این وجود شبکه عصبی پیچشی با روش GLOVe با ابعاد 50 معیار F-measure بهتری ارائه میدهد. به همین دلیل از بین ابعاد 25 و 50 ما روش GLOVe با ابعاد 50 را برای مدل نهایی انتخاب میکنیم. در این مجموعهداده بر خلاف مجموعه نامتعادل قبلی، طبقهبند SVM دارای معیار F-measure بهتری نسبت به طبقهبند Random Forest میباشد. لذا در مدل نهایی دادههای متعادل از این طبقهبند استفاده خواهیم کرد. کارایی روشهای انفرادی در مجموعهدادههای HSpam بسیار بهتر است. از این رو، وقتی ما از روش تلفیقی استفاده میکنیم، افزایش قابل توجهی در عملکرد نهایی وجود ندارد زیرا روشهای فردی به تنهایی دارای عملکرد مناسب هستند. با این حال، برای مجموعهداده 1KS10KN، روشهای فردی از اندازه و عدم تعادل دادهها رنج میبرند و عملکرد آنها متوسط است. فراطبقهبند در روش تلفیقی میتواند عملکرد را با حاشیه قابل توجهی برای این مجموعهداده بالا ببرد.
تولیدکنندگان هرزنامه اغلب با تغییر استراتژیهای هرزنامه سعی در فریب تکنیکهای شناسایی هرزنامه دارند. به همین دلیل، الگوریتمهای شناسایی هرزنامه نیاز به بروزرسانی داشته و یا حداقل به صورت دورهای باید دوباره آموزش داده شوند. همچنین، با گذشت زمان افراد توییتهایی درباره رویدادها یا موضوعات جدیدتر ارسال میکنند و در نتیجه بسیاری از کلمات و هشتگهای جدید به واژگان افزوده میشوند. هرزنامهگرها سعی میکنند از ویژگیهای سیستم تشخیص مطلع شده و میتوانند نوع توییتهای هرزنامه را تغییر دهند به گونهای که ویژگیهای قدیمی مشخص شده در توییتهای آنها وجود نداشته باشد. سیستمهایی که فقط از روشهای مبتنی بر ویژگی استفاده میکنند، شناسایی این نوع توییتهای هرزنامه برایشان دشوار است. با این حال، الگوریتم ما هر دو روش مبتنی بر ویژگی و مبتنی بر یادگیری عمیق را ترکیب میکند. شناخت ویژگیهای روشهای یادگیری عمیق بسیار دشوار است زیرا آنها از ویژگیهای تعبیه کلمات استفاده میکنند. بنابراین حتی اگر تولیدکنندگان هرزنامه سعی کنند سیستم تشخیص را فریب دهند، روش ما به اندازه کافی قوی است که بتواند توییتهای هرزنامه را تشخیص دهد.
جدول5. نتایج ارزیابی برای دیتاست HSpam
F-Measure | Recall | Precision | Method |
0.901 | 0.862 | 0.943 | CNN + Glove25d |
0.912 | 0.894 | 0.932 | CNN + Glove50d |
0.911 | 0.895 | 0.929 | CNN + Google300d |
0.864 | 0.792 | 0.952 | Random Forest ویژگی مقاله پایه |
0.891 | 0.857 | 0.929 | SVM ویژگی مقاله پایه |
0.871 | 0.802 | 0.956 | Random Forest ویژگیهای پیشنهادی |
0.896 | 0.864 | 0.934 | SVM ویژگیهای پیشنهادی |
0.925 | 0.913 | 0.938 | مقاله پایه |
0.929 | 0.918 | 0.942 | روش پیشنهادی |
در شکل 9 مقایسه نتایج نهایی مدل تحقیق [19] و روش پیشنهادی نشان داده شده است. همانطور که در نمودار نشان داده شده روش پیشنهادی در مجموعهدادههای متعادل نیز عملکرد بهتری در مقایسه با روش مقاله پایه دارد.
شکل 9. مقایسه دو مدل در مجموعه داده Hspam
نمودار ROC برای مجموعه داده Hspam نیز در شکل 10 نشان داده شده است. همانطور که از نمودار مشخص است مقدار AUC برای نمودار 0.97437 میباشد که نشان میدهد با دادن جفت توییت ورودی هرزنامه و غیر هرزنامه، در 99.43% موارد توییت هرزنامه امتیاز بیشتری نسبت به توییت غیر هرزنامه دارد.
شکل 10. نمودار ROC مجموعه داده Hspam
با توجه به نتایج بدست آمده از آزمایشهای انجام شده بر روی این مجموعه دادهها، علیرغم عدم استفاده از کل دادهها برای آموزش طبقهبندهای پایه و استفاده از تعداد کمتر طبقهبندها در روش پیشنهادی، نتایج بیانگر میزان موثر بودن ویژگیهای احساسی در تشخیص هرزنامه میباشد. همچنین میتوان نتیجه گرفت که از روش پیشنهادی با استفاده از ویژگیهای احساسی میتوان در یادگیری انتقالی به شکل موثری بهره برد.
تحلیل دیگری که بر روی روش پیشنهادی و مقاله پایه صورت گرفته است نشان دهنده میزان پایداری خروجی نسبت به مقداردهی اولیه طبقهبندهای پایه است. این آزمایش با تعداد کمتری از دادههای ورودی که 1000 توییت از مجموعه داده Hspam است انجام شده تا با تعداد دادههای کم میزان پایداری سنجیده شود. در هر اجرا مقادیر اولیه که به صورت تصادفی داده میشوند تغییر نموده و با این دادهها مقدار f-measure اندازهگیری شده که در نمودار شکل 11 نتایج برای 10 اجرای متوالی مشاهده میگردد. با بررسی این نمودار ملاحظه میگردد که حتی با تعداد دادههای ورودی کم نیز هر دو سیستم پایداری قابل قبولی نسبت به مقداردهیهای اولیه دارند، اگرچه روش پیشنهادی مقدار بیشتری را برای این معیار نشان میدهد.
شکل 11. مقایسه میزان پایداری سیستم پسشنهادی و روش پایه
5. نتیجه گیری
یکی از بزرگترین چالشهای شبکههای اجتماعی انتشار هرزنامه در سطح وسیع است که هزینه بسیار زیادی را به این شرکتها تحمیل میکند. مشکل بیشتر روشهای جلوگیری از هرزنامه در شبکه توییتر حذف حسابهای کاربری انتشار دهنده هرزنامه میباشد. در این روشها با حذف حساب، انتشار دهندگان هرزنامه به راحتی حسابهای جدیدی ایجاد میکنند. یکی از روشهای کارامد، شناسایی و حذف خود توییت هرزنامه بجای حساب کاربری است. ما در این تحقیق با بهرهگیری از شبکههای عصبی پیچشی و ترکیب آن با ویژگیهای موثر تحقیقات قبلی و ویژگی جدید تحلیل احساسات تلاش کردیم تا دقت تشخیص هرزنامه را افزایش دهیم. استدلال ما این است که هرزنامهها تلاش دارند با ترغیب کاربر نظر وی را جهت کلیک بر روی یک لینک خاص جلب کنند. در نتیجه بار معنایی متن هرزنامه جنبه مثبت دارد. مقایسه روش پیشنهادی با روشهای قبلی نشاندهنده این موضوع است که بسیاری از ویژگیهای مبتنی بر کاربر و متن مانند تعداد کاراکترهای هشتگ و یا علامت سوال تاثیر چندانی در بهبود نتایج روش تشخیص ندارند. از طرفی تولیدکنندگان هرزنامه نیز با بروز کردن روشهای خود سعی در فریب الگوریتمهای تشخیص دارند و این موضوع در آینده بر دیگر ویژگیهای استفاده شده نیز تاثیر خواهد داشت. به همین دلیل روشهای تشخیص باید بیشتر بر روی مفاهیم متن توییت از جمله ویژگیهای احساسی و عقیده کاوی تمرکز داشته باشند.
6. پیشنهادهایی برای کارهای آینده
با توجه به کارهای گذشته حجم بسیار کمی از تحقیقات تمرکز خود را بر روی متن توییت قرار دادهاند. در حالیکه این روش دارای پتانسیل بالایی جهت جلوگیری کارآمد انتشار هرزنامهها میباشد. اگرچه استفاده از ویژگیهای مبتنی بر متن مانند تعبیه کلمه و تحلیل احساسات ممکن است باعث افزایش زمان پردازش گردد، میتوان تمرکز تحقیقات بعدی را بر روی ارائه روشهایی به منظور بهبود زمان پردازش قرار داد. آنچه مسلم است، این تحقیق مثبت بودن تاثیر ویژگیهای احساسی را نشان میدهد و کاهش زمان در اولویت بعدی در تحقیقات آتی قرار دارد.
از طرفی تمامی تحقیقات انجام شده تا کنون بر روی توییتهای زبانهای غیر فارسی بوده است. با گسترش روزافزون فعالیت کاربران فارسی زبان در توییتر، تمرکز بیشتر بر روی روشهای تشخیصی هرزنامه در متن توییتهای فارسی بیش از پیش احساس میشود. اگرچه این امر منوط به گسترش کتابخانههای تعبیه کلمه و تحلیل احساسات فارسی در زبانهای برنامه نویسی است.
در تحقیقات آینده میتوان موارد متعددی را در روش ارائه شده در نظر گرفت اگر از مجموعه دادههایی با داشتن ویژگیهای مرتبط استفاده شود از جمله تاثیر ایموجیها و غیره. در نتیجه این روش قابل توسعه است بخصوص با وجود روش تلفیق استفاده شده.
مراجع
[1] Top Sites. Alexa Internet. Archived from the original on 23 August 2019. Retrieved May 13, 2013
[2] Twitter overcounted active users since 2014, shares surge on profit hopes, USA Today, Archived from the original on 1 January 2020. Retrieved 4 November 2019
[3] “California business and professions code". Spamlaws. Retrieved 2013-09-03.
[4] Grier, C., Thomas, K., Paxson, V., & Zhang, M., Spam: the underground on 140 characters or less. In Proceedings of the 17th ACM conference on Computer and communications security, 2010, pp. 27-37.
[5] Gheewala, S., & Patel, R. Machine learning based Twitter Spam account detection: a review. Second International Conference on Computing Methodologies and Communication (ICCMC), 2018, pp. 79-84.
[6] Patil, D. R., & Patil, J. B., Malicious URLs detection using decision tree classifiers and majority voting technique. Cybernetics and Information Technologies, 18(1), 2018, pp. 11-29.
[7] Thomas K, Grier C, Ma J, Paxson V, Song D. Design and evaluation of a real-time url spam filtering service, in IEEE Symposium on Security and Privacy, IEEE, 2011, pp. 447–62.
[8] Yang C, Harkreader R, Gu G. Empirical evaluation and new design for fighting evolving twitter spammers. IEEE Trans InfForensics Secur 2013, Vol 8(8), pp 1280–93.
[9] Chen, C., Zhang, J., Xie, Y., Xiang, Y., Zhou, W., Hassan, M. M. Alrubaian, M., A performance evaluation of machine learning-based streaming spam tweets detection. IEEE Transactions on Computational social systems, 2015, Vol 2(3), pp. 65-76.
[10] Wang, B., Zubiaga, A., Liakata, M., & Procter, R., Making the most of tweet-inherent features for social spam detection on Twitter. arXiv preprint arXiv:1503.07405, 2015.
[11] X. Zhang, Y. Wang, N. Mou, and W. Liang, “Propagating both trust and distrust with target differentiation for combating link-based Web spam,” ACM Trans. Web, vol. 8, no. 3, 2014, Art. no. 15.
[12] Wu, T., Wen, S., Xiang, Y., & Zhou, W., Twitter spam detection: Survey of new approaches and comparative study. Computers & Security, 2018, Vol 76, pp. 265-284.
[13] Sedhai, S., & Sun, A., Hspam14: A collection of 14 million tweets for hashtag-oriented spam research. In Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval, 2015, pp. 223-232.
[14] Sedhai, S., & Sun, A. (2017). Semi-supervised spam detection in Twitter stream. IEEE Transactions on Computational Social Systems, 2015, Vol 5(1), pp.169-175.
[15] Alom, Z., Carminati, B., & Ferrari, E., A deep learning model for Twitter spam detection. Online Social Networks and Media, 2020.
[16] Le, Q., & Mikolov, T., Distributed representations of sentences and documents. In International conference on machine learning, 2014, pp. 1188-1196.
[17] Collobert, R., Weston, J., Bottou, L., Karlen, M., Kavukcuoglu, K., & Kuksa, P., Natural language processing (almost) from scratch. Journal of machine learning research, 2011, pp. 2493-2537.
[18] Kim, Y. Convolutional neural networks for sentence classification. arXiv preprint arXiv:1408.5882, 2014.
[19] Madisetty, S., & Desarkar, M. S. A neural network-based ensemble approach for spam detection in Twitter. IEEE Transactions on Computational Social Systems, 2018, Vol 5(4), pp. 973-984.
[20] Osgood, Charles Egerton, George J. Suci, and Percy H. Tannenbaum, The measurement of meaning. No. 47. University of Illinois press, 1957.
[21] Russell, James A, 'A circumplex model of affect', Journal of personality and social psychology, 1980, Vol 39, pp. 1161.
[22] Russell, James A, and Lisa Feldman Barrett. 'Core affect, prototypical emotional episodes, and other things called emotion: dissecting the elephant', Journal of personality and social psychology, 1999, pp. 76: 805.
[23] Andrew Ortony, Terence J. Turner, What's Basic About Basic Emotions, Psychological Review, 1990, Vol 97(3), pp. 315-31.
[24] Mohammad, Saif M., Sentiment analysis: Detecting valence, emotions, and other affectual states from text, In Emotion measurement, Woodhead Publishing, 2016, pp. 201-237.
[25] Kuppens, P., Tuerlinckx, F., Russell, J.A. and Barrett, L.F, The relation between valence and arousal in subjective experience, Psychological Bulletin, 2013, Vol 139(4), pp. 917.
[26] Kuppens, P., Tuerlinckx, F., Yik, M., Koval, P., Coosemans, J., Zeng, K.J. and Russell, J.A, the relation between valence and arousal in subjective experience varies with personality and culture, Journal of personality, 2017, Vol 85(4), pp. 530-542.
[27] Baccianella, Stefano, Andrea Esuli, and Fabrizio Sebastiani. Sentiwordnet 3.0: an enhanced lexical resource for sentiment analysis and opinion mining, In Lrec, 2010, vol. 10, pp. 2200-2204.
[28] LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P., Gradient-based learning applied to document recognition, Proceedings of the IEEE, 1998, Vol 86(11), pp. 2278-2324.
[29] Perveen, N., Missen, M. M. S., Rasool, Q., & Akhtar, N. Sentiment based twitter spam detection. International Journal of Advanced Computer Science and Applications (IJACSA), 2016, 7(7), 568-573.
[30] Martinez-Romo, J., & Araujo, L., Detecting malicious tweets in trending topics using a statistical analysis of language. Expert Systems with Applications, 2013, Vol 40(8), pp. 2992-3000.
[31] Töscher, A., Jahrer, M., & Bell, R. M., The bigchaos solution to the netflix grand prize. Netflix prize documentation, 2009, pp. 1-52.
[32] Niculescu-Mizil, A., Perlich, C., Swirszcz, G., Sindhwani, V., Liu, Y., Melville, P., ... & Shang, W. X. Winning the KDD cup orange challenge with ensemble selection. In KDD-Cup 2009 Competition, pp. 23-34.
[33] C. Yang, R. C. Harkreader, and G. Gu. Die free or live hard? empirical evaluation and new design for fighting evolving twitter spammers. In Proceedings of RAID, RAID’11, Berlin, Heidelberg, Springer-Verlag, 2011, pp. 318-337.
[1] Deep Learning
[2] Convolutional Neural Network(CNN)
[3] Word Embedding
[4] Meta Classifier
[5] Application Programming Interface
[6] Follower
[7] Following
[8] Age
[9] Natural language processing
[10] Meta Data
[11] Layer Max Pooling
[12] Fully connected
[13] Term Frequency
[14] Inverse Document Frequency
[15] Part of Speech Tagging
[16] Regression
[17] Meta Classifier
[18] Precision
[19] Recall
[20] marginal
[21] Receiver Operating Characteristic
[22] Area Under Curve
Using Sentiment Analysis and Combining Classifiers for Spam Detection in Twitter
Abstract
The welcoming of social networks, especially Twitter, has posed a new challenge to researchers, and it is nothing but spam. Numerous different approaches to deal with spam are presented. In this study, we attempt to enhance the accuracy of spam detection by applying one of the latest spam detection techniques and its combination with sentiment analysis. Using the word embedding technique, we give the tweet text as input to a convolutional neural network (CNN) architecture, and the output will detect spam text or normal text. Simultaneously, by extracting the suitable features in the Twitter network and applying machine learning methods to them, we separately calculate the Tweeter spam detection. Eventually, we enter the output of both approaches into a Meta Classifier so that its output specifies the final spam detection or the normality of the tweet text. In this study, we employ both balanced and unbalanced datasets to examine the impact of the proposed model on two types of data. The results indicate an increase in the accuracy of the proposed method in both datasets.
Keywords: Spam Detection, Twitter, Word Embedding, Convolutional neural network, Deep learning, sentiment analysis, Ensemble Learning