استفاده از تحلیل احساسات و ترکیب روش¬های یادگیری ماشین برای تشخیص هرزنامه در توییتر
الموضوعات :مهدی سالخورده حقیقی 1 , امین الله کرمانی 2
1 - عضو هیئت علمی دانشکده مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه سجاد، مشهد
2 - کارشناسی ارشد رایانش امن، دانشکده مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه سجاد، مشهد
الکلمات المفتاحية: توییتر, هرزنامه, تعبیه لغات, شبکه های عصبی پیچشی, تحلیل احساسات, CNN,
ملخص المقالة :
محبوبیت شبکه های اجتماعی بخصوص توییتر چالش جدیدی را روبروی محققان قرار داده است و آن چیزی نیست جز هرزنامه . روش های گوناگون زیادی برای مقابله با آنها ارائه شده است. بعضی از این روش ها اگرچه در ابتدا کارآمد بودند اما به مرور توسط تولید کنندگان هرزنامه دور زده شدند. در این تحقیق تلاش داریم با استفاده از یکی از جدیدترین روش های تشخیص هرزنامه و ترکیب آن با تحلیل احساسات دقت تشخیص هرزنامه را افزایش دهیم. ما با استفاده از روش تعبیه سازی، کلمات متن توییت را به عنوان ورودی به یک معماری شبکه عصبی پیچشی داده و خروجی تشخیص دهنده متن هرزنامه یا متن عادی خواهد بود. هم زمان با استخراج ویژگی های مناسب در شبکه توییتر و اعمال روش های یادگیری ماشین بر روی آنها تشخیص هرزنامه بودن توییت را بصورت مجزا محاسبه می کنیم. در نهایت خروجی هر دو روش را به یک شبکه پیچشی تلفیقی وارد می کنیم تا خروجی آن تشخیص نهایی هرزنامه یا نرمال بودن متن توییت را تعیین کند. ما در این تحقیق از دو مجموعه داده متعادل و نامتعادل استفاده می کنیم تا تاثیر مدل پیشنهادی را بر روی دو نوع داده بررسی کنیم. نتایج پژوهش نشان دهنده بهبود کارایی روش پیشنهادی در هر دو مجموعه داده می باشد.
[1] Top Sites. Alexa Internet. Archived from the original on 23 August 2019. Retrieved May 13, 2013
[2] Twitter overcounted active users since 2014, shares surge on profit hopes, USA Today, Archived from the original on 1 January 2020. Retrieved 4 November 2019
[3] “California business and professions code". Spamlaws. Retrieved 2013-09-03.
[4] Grier, C., Thomas, K., Paxson, V., & Zhang, M., Spam: the underground on 140 characters or less. In Proceedings of the 17th ACM conference on Computer and communications security, 2010, pp. 27-37.
[5] Gheewala, S., & Patel, R. Machine learning based Twitter Spam account detection: a review. Second International Conference on Computing Methodologies and Communication (ICCMC), 2018, pp. 79-84.
[6] Patil, D. R., & Patil, J. B., Malicious URLs detection using decision tree classifiers and majority voting technique. Cybernetics and Information Technologies, 18(1), 2018, pp. 11-29.
[7] Thomas K, Grier C, Ma J, Paxson V, Song D. Design and evaluation of a real-time url spam filtering service, in IEEE Symposium on Security and Privacy, IEEE, 2011, pp. 447–62.
[8] Yang C, Harkreader R, Gu G. Empirical evaluation and new design for fighting evolving twitter spammers. IEEE Trans InfForensics Secur 2013, Vol 8(8), pp 1280–93.
[9] Chen, C., Zhang, J., Xie, Y., Xiang, Y., Zhou, W., Hassan, M. M. Alrubaian, M., A performance evaluation of machine learning-based streaming spam tweets detection. IEEE Transactions on Computational social systems, 2015, Vol 2(3), pp. 65-76.
[10] Wang, B., Zubiaga, A., Liakata, M., & Procter, R., Making the most of tweet-inherent features for social spam detection on Twitter. arXiv preprint arXiv:1503.07405, 2015.
[11] X. Zhang, Y. Wang, N. Mou, and W. Liang, “Propagating both trust and distrust with target differentiation for combating link-based Web spam,” ACM Trans. Web, vol. 8, no. 3, 2014, Art. no. 15.
[12] Wu, T., Wen, S., Xiang, Y., & Zhou, W., Twitter spam detection: Survey of new approaches and comparative study. Computers & Security, 2018, Vol 76, pp. 265-284.
[13] Sedhai, S., & Sun, A., Hspam14: A collection of 14 million tweets for hashtag-oriented spam research. In Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval, 2015, pp. 223-232.
[14] Sedhai, S., & Sun, A. (2017). Semi-supervised spam detection in Twitter stream. IEEE Transactions on Computational Social Systems, 2015, Vol 5(1), pp.169-175.
[15] Alom, Z., Carminati, B., & Ferrari, E., A deep learning model for Twitter spam detection. Online Social Networks and Media, 2020.
[16] Le, Q., & Mikolov, T., Distributed representations of sentences and documents. In International conference on machine learning, 2014, pp. 1188-1196.
[17] Collobert, R., Weston, J., Bottou, L., Karlen, M., Kavukcuoglu, K., & Kuksa, P., Natural language processing (almost) from scratch. Journal of machine learning research, 2011, pp. 2493-2537.
[18] Kim, Y. Convolutional neural networks for sentence classification. arXiv preprint arXiv:1408.5882, 2014.
[19] Madisetty, S., & Desarkar, M. S. A neural network-based ensemble approach for spam detection in Twitter. IEEE Transactions on Computational Social Systems, 2018, Vol 5(4), pp. 973-984.
[20] Osgood, Charles Egerton, George J. Suci, and Percy H. Tannenbaum, The measurement of meaning. No. 47. University of Illinois press, 1957.
[21] Russell, James A, 'A circumplex model of affect', Journal of personality and social psychology, 1980, Vol 39, pp. 1161.
[22] Russell, James A, and Lisa Feldman Barrett. 'Core affect, prototypical emotional episodes, and other things called emotion: dissecting the elephant', Journal of personality and social psychology, 1999, pp. 76: 805.
[23] Andrew Ortony, Terence J. Turner, What's Basic About Basic Emotions, Psychological Review, 1990, Vol 97(3), pp. 315-31.
[24] Mohammad, Saif M., Sentiment analysis: Detecting valence, emotions, and other affectual states from text, In Emotion measurement, Woodhead Publishing, 2016, pp. 201-237.
[25] Kuppens, P., Tuerlinckx, F., Russell, J.A. and Barrett, L.F, The relation between valence and arousal in subjective experience, Psychological Bulletin, 2013, Vol 139(4), pp. 917.
[26] Kuppens, P., Tuerlinckx, F., Yik, M., Koval, P., Coosemans, J., Zeng, K.J. and Russell, J.A, the relation between valence and arousal in subjective experience varies with personality and culture, Journal of personality, 2017, Vol 85(4), pp. 530-542.
[27] Baccianella, Stefano, Andrea Esuli, and Fabrizio Sebastiani. Sentiwordnet 3.0: an enhanced lexical resource for sentiment analysis and opinion mining, In Lrec, 2010, vol. 10, pp. 2200-2204.
[28] LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P., Gradient-based learning applied to document recognition, Proceedings of the IEEE, 1998, Vol 86(11), pp. 2278-2324.
[29] Perveen, N., Missen, M. M. S., Rasool, Q., & Akhtar, N. Sentiment based twitter spam detection. International Journal of Advanced Computer Science and Applications (IJACSA), 2016, 7(7), 568-573.
[30] Martinez-Romo, J., & Araujo, L., Detecting malicious tweets in trending topics using a statistical analysis of language. Expert Systems with Applications, 2013, Vol 40(8), pp. 2992-3000.
[31] Töscher, A., Jahrer, M., & Bell, R. M., The bigchaos solution to the netflix grand prize. Netflix prize documentation, 2009, pp. 1-52.
[32] Niculescu-Mizil, A., Perlich, C., Swirszcz, G., Sindhwani, V., Liu, Y., Melville, P., ... & Shang, W. X. Winning the KDD cup orange challenge with ensemble selection. In KDD-Cup 2009 Competition, pp. 23-34.
[33] C. Yang, R. C. Harkreader, and G. Gu. Die free or live hard? empirical evaluation and new design for fighting evolving twitter spammers. In Proceedings of RAID, RAID’11, Berlin, Heidelberg, Springer-Verlag, 2011, pp. 318-337.