تشخیص اسپم در شبکه اجتماعی توییتر با استفاده از رویکرد یادگیری ترکیبی
محورهای موضوعی : مهندسی برق و کامپیوترمریم فصیحی 1 , محمدجواد شایگان فرد 2 , زهرا سادات حسینی مقدم 3 , زهرا سجده 4
1 - گروه مهندسی کامپیوتر، دانشگاه علم و فرهنگ
2 - گروه مهندسی کامپیوتر، دانشگاه علم و فرهنگ
3 - گروه مهندسی کامپیوتر، دانشگاه علم و فرهنگ
4 - گروه مهندسی کامپیوتر، دانشگاه علم و فرهنگ
کلید واژه: توییتر, شناسایی اسپم, شبکه عصبی, Autoencoder, Softmax,
چکیده مقاله :
امروزه شبکههای اجتماعی، نقش مهمی در گسترش اطلاعات در سراسر جهان دارند. توییتر یکی از محبوبترین شبکههای اجتماعی است که در هر روز 500 میلیون توییت در این شبکه ارسال میشود. محبوبیت این شبکه در میان کاربران منجر شده تا اسپمرها از این شبکه برای انتشار پستهای هرزنامه استفاده کنند. در این مقاله برای شناسایی اسپم در سطح توییت از ترکیبی از روشهای یادگیری ماشین استفاده شده است. روش پیشنهادی، چارچوبی مبتنی بر استخراج ویژگی است که در دو مرحله انجام میشود. در مرحله اول از Stacked Autoencoder برای استخراج ویژگیها استفاده شده و در مرحله دوم، ویژگیهای مستخرج از آخرین لایه Stacked Autoencoder بهعنوان ورودی به لایه softmax داده میشوند تا این لایه پیشبینی را انجام دهد. روش پیشنهادی با برخی روشهای مشهور روی پیکره متنی Twitter Spam Detection با معیارهای Accuracy، -Score1F، Precision و Recall مورد مقایسه و ارزیابی قرار گرفته است. نتایج تحقیق نشان میدهند که دقت کشف روش پیشنهادی به 1/78% میرسد. در مجموع، این روش با استفاده از رویکرد اکثریت آرا با انتخاب سخت در یادگیری ترکیبی، توییتهای اسپم را با دقت بالاتری نسبت به روشهای CNN، LSTM و SCCL تشخیص میدهد.
Today, social networks play a crucial role in disseminating information worldwide. Twitter is one of the most popular social networks, with 500 million tweets sent on a daily basis. The popularity of this network among users has led spammers to exploit it for distributing spam posts. This paper employs a combination of machine learning methods to identify spam at the tweet level. The proposed method utilizes a feature extraction framework in two stages. In the first stage, Stacked Autoencoder is used for feature extraction, and in the second stage, the extracted features from the last layer of Stacked Autoencoder are fed into the softmax layer for prediction. The proposed method is compared and evaluated against some popular methods on the Twitter Spam Detection corpus using accuracy, precision, recall, and F1-score metrics. The research results indicate that the proposed method achieves a detection of 78.1%. Overall, the proposed method, using the majority voting approach with a hard selection in ensemble learning, outperforms CNN, LSTM, and SCCL methods in identifying spam tweets with higher accuracy.
[1] S. Madisetty and M. S. Desarkar, “A Neural Network-Based Ensemble Approach for Spam Detection in Twitter,” IEEE Trans. Comput. Soc. Syst., vol. 5, no. 4, pp. 973–984, Dec. 2018.
[2] M. McCord and M. Chuah, “Spam detection on twitter using traditional classifiers,” in Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2011, vol. 6906 LNCS, pp. 175–186.
[3] X. Zhang, S. Zhu, and W. Liang, “Detecting spam and promoting campaigns in the Twitter social network,” in Proceedings - IEEE International Conference on Data Mining, ICDM, 2012, pp. 1194–1199.
[4] A. T. Kabakus and R. Kara, “A Survey of Spam Detection Methods on Twitter,” International Journal of Advanced Computer Science and Applications, 8(3), pp.29-38, 2017.
[5] X. Zheng, Z. Zeng, Z. Chen, Y. Yu, and C. Rong, “Detecting spammers on social networks,” Neurocomputing, vol. 159, no. 1, pp. 27–34, Jul. 2015.
[6] J. Martinez-Romo and L. Araujo, “Detecting malicious tweets in trending topics using a statistical analysis of language,” Expert Syst. Appl., vol. 40, no. 8, pp. 2992–3000, Jun. 2013.
[7] A. M. Al-Zoubi, H. Faris, J. Alqatawna, and M. A. Hassonah, “Evolving Support Vector Machines using Whale Optimization Algorithm for spam profiles detection on online social networks in different lingual contexts,” Knowledge-Based Syst., vol. 153, pp. 91–104, Aug. 2018.
[8] S. B. S. Ahmad, M. Rafie, and S. M. Ghorabie, “Spam detection on Twitter using a support vector machine and users’ features by identifying their interactions,” Multimed. Tools Appl., vol. 80, no. 8, pp. 11583–11605, Mar. 2021.
[9] Z. Alom, B. Carminati, and E. Ferrari, “A deep learning model for Twitter spam detection,” Online Soc. Networks Media, vol. 18, p. 100079, Jul. 2020.
[10] X. Ban, C. Chen, S. Liu, Y. Wang, and J. Zhang, “Deep-learnt features for Twitter spam detection,” 2018 Int. Symp. Secur. Priv. Soc. Networks Big Data, Soc. 2018, pp. 22–26, Dec. 2018.
[11] Y. Liu, L. Wang, T. Shi, and J. Li, “Detection of spam reviews through a hierarchical attention architecture with N-gram CNN and Bi-LSTM,” Inf. Syst., vol. 103, p. 101865, Jan. 2022.
[12] G. Jain, M. Sharma, and B. Agarwal, “Optimizing semantic LSTM for spam detection,” Int. J. Inf. Technol., vol. 11, no. 2, pp. 239–250, Jun. 2019.
[13] G. Jain, M. Sharma, B. A.-A. of M. and Artificial, and undefined 2019, “Spam detection in social media using convolutional and long short term memory neural network,” Springer, 2019.
[14] T. Wu, S. Liu, J. Zhang, and Y. Xiang, “Twitter spam detection based on deep learning,” ACM Int. Conf. Proceeding Ser., Jan. 2017.
[15] G. M. Shahariar, S. Biswas, F. Omar, F. M. Shah, and S. Binte Hassan, “Spam Review Detection Using Deep Learning,” 2019 IEEE 10th Annu. Inf. Technol. Electron. Mob. Commun. Conf. IEMCON 2019, pp. 27–33, Oct. 2019.
[16] A.T.Kabakus, and R .Kara, “‘TwitterSpamDetector’: A Spam Detection Framework for Twitter,” International Journal of Knowledge and Systems Science (IJKSS), 10(3), pp.1-14.2019.
[17] H. Shen, F. Ma, X. Zhang, L. Zong, X. Liu, and W. Liang, “Discovering social spammers from multiple views,” Neurocomputing, vol. 225, pp. 49–57, Feb. 2017.
[18] K. Lee, J. Caverlee, and S. Webb, “Uncovering social spammers: Social honeypots + machine learning,” in SIGIR 2010 Proceedings - 33rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 2010, pp. 435–442.
[19] C. Grier, K. Thomas, V. Paxson, and M. Zhang, “@Spam: The underground on 140 characters or less,” in Proceedings of the ACM Conference on Computer and Communications Security, 2010, pp. 27–37.
[20] S. Saumya and J. P. Singh, “Spam review detection using LSTM autoencoder: an unsupervised approach,” Electron. Commer. Res., vol. 22, no. 1, pp. 113–133, Mar. 2022.
[21] J. V Lochter, T. A. Almeida, and T. C. Alberto, “Tubespam: Comment spam filtering on youtube,” ieeexplore.ieee.org.
[22] V. B. Semwal, A. Gupta, and P. Lalwani, “An optimized hybrid deep learning model using ensemble learning approach for human walking activities recognition,” J. Supercomput. 2021, pp. 1–24, Apr. 2021.
[23] M. Usama et al., “Unsupervised Machine Learning for Networking: Techniques, Applications and Research Challenges,” IEEE Access, vol. 7, pp. 65579–65615, 2019.
[1] S. Madisetty and M. S. Desarkar, "A neural network-based ensemble approach for spam detection in Twitter," IEEE Trans. Comput. Soc. Syst., vol. 5, no. 4, pp. 973-984, Dec. 2018.
[2] M. McCord and M. Chuah, "Spam detection on twitter using traditional classifiers," Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), vol. LNCS6906, pp. 175-186, Sept. 2011.
[3] X. Zhang, S. Zhu, and W. Liang, "Detecting spam and promoting campaigns in the Twitter social network," in Proc. IEEE International Conf. on Data Mining, ICDM, pp. 1194-1199, Brussels, Belgium , 10-13 Dec. 2012.
[4] A. T. Kabakus and R. Kara, "A survey of spam detection methods on Twitter," International J. of Advanced Computer Science and Applications, vol. 8, no. 3, pp. 29-38, 2017.
[5] X. Zheng, Z. Zeng, Z. Chen, Y. Yu, and C. Rong, "Detecting spammers on social networks," Neurocomputing, vol. 159, no. 1, pp. 27-34, Jul. 2015.
[6] J. Martinez-Romo and L. Araujo, "Detecting malicious tweets in trending topics using a statistical analysis of language," Expert Syst. Appl., vol. 40, no. 8, pp. 2992-3000, Jun. 2013.
[7] A. M. Al-Zoubi, H. Faris, J. Alqatawna, and M. A. Hassonah, "Evolving support vector machines using whale optimization algorithm for spam profiles detection on online social networks in different lingual contexts," Knowledge-Based Syst., vol. 153, pp. 91-104, Aug. 2018.
[8] S. B. S. Ahmad, M. Rafie, and S. M. Ghorabie, "Spam detection on Twitter using a support vector machine and users' features by identifying their interactions," Multimed. Tools Appl., vol. 80, no. 8, pp. 11583-11605, Mar. 2021.
[9] Z. Alom, B. Carminati, and E. Ferrari, "A deep learning model for Twitter spam detection," Online Soc. Networks Media, vol. 18, Article ID: 100079, Jul. 2020.
[10] X. Ban, C. Chen, S. Liu, Y. Wang, and J. Zhang, "Deep-learnt features for Twitter spam detection," in Proc. Int. Symp. Secur. Priv. Soc. Networks Big Data, pp. 22-26, Santa Clara, CA, USA, 10-11 Dec. 2018.
[11] Y. Liu, L. Wang, T. Shi, and J. Li, "Detection of spam reviews through a hierarchical attention architecture with N-gram CNN and Bi-LSTM," Inf. Syst., vol. 103, Article ID: 101865, Jan. 2022.
[12] G. Jain, M. Sharma, and B. Agarwal, "Optimizing semantic LSTM for spam detection," Int. J. Inf. Technol., vol. 11, no. 2, pp. 239-250, Jun. 2019.
[13] G. Jain, M. Sharma, and B. Agarwal, "Spam detection in social media using convolutional and long short term memory neural network," Annals of Mathematics and Artificial Intelligence, vol. 85, no. 1, pp. 21-44, 2019.
[14] T. Wu, S. Liu, J. Zhang, and Y. Xiang, "Twitter spam detection based on deep learning," in Proc. ACM Int. Conf. Proc. Ser., 8 pp., Geelong, Australia, 30 Jan.-3 Feb 2017.
[15] G. M. Shahariar, S. Biswas, F. Omar, F. M. Shah, and S. Binte Hassan, "Spam review detection using deep learning," in Proc. IEEE 10th Annu. Inf. Technol. Electron. Mob. Commun. Conf., IEMCON’19, pp. 27-33, Vancouver, Canada, 17-19 Oct. 2019.
[16] A. T. Kabakus and R. Kara, "‘TwitterSpamDetector’: a spam detection framework for twitter," International J. of Knowledge and Systems Science, vol. 10, no. 3, pp. 1-14, Jul. 2019.
[17] H. Shen, et al., "Discovering social spammers from multiple views," Neurocomputing, vol. 225, pp. 49-57, Feb. 2017.
[18] K. Lee, J. Caverlee, and S. Webb, "Uncovering social spammers: social honeypots + machine learning," in Proc. SIGIR Proc.-33rd Annual International ACM SIGIR Conf. on Research and Development in Information Retrieval, pp. 435-442, Geneva, Switzerland, 19-23 Jul. 2010.
[19] C. Grier, K. Thomas, V. Paxson, and M. Zhang, "@spam: the underground on 140 characters or less," in Proc. of the ACM Conf. on Computer and Communications Security, pp. 27-37, Chicago, IL, USA, 4-8 Oct. 2010.
[20] S. Saumya and J. P. Singh, "Spam review detection using LSTM autoencoder: an unsupervised approach," Electron. Commer. Res., vol. 22, no. 1, pp. 113-133, Mar. 2022.
[21] J. V. Lochter, T. A. Almeida, and T. C. Alberto, "TubeSpam: comment spam filtering on YouTube," in Proc. IEEE 14th Int, Conf. on Machine Learning and Applications, pp. 138-143, Miami, FL, USA, 9-11 Dec. 2015.
[22] M. M. Abdulhasan, H. Alchilibi, M. A. Mohammed, and R. Nair, "Real-time sentiment analysis and spam detection using machine learning and deep learning," in Proc. 3rd Int. Conf. on Data Science and Big Data Analytics, pp. 507-533, Indore, India, 16-17 Jun. 2023.
[23] A. Ahraminezhad, M. Mojarad, and H. Arfaeinia, "An intelligent ensemble classification method for spam diagnosis in social networks," International J. of Intelligent Systems and Applications, vol. 14, no. 1, pp. 24-31, Feb. 2022.
[24] Z. Alom, B. Carminati, and E. Ferrari, "A deep learning model for Twitter spam detection," Online Social Networks and Media, Article ID: 100079, Jul. 2020.
[25] S. Liu, Y. Wang, J. Zhang, C. Chen, and Y. Xiang, "Addressing the class imbalance problem in twitter spam detection using ensemble learning," Computers & Security, vol. 69, pp. 35-49, Aug. 2017.
[26] C. Zhao, Y. Xin, X. Li, Y. Yang, and Y. Chen, "A heterogeneous ensemble learning framework for spam detection in social networks with imbalanced data," Applied Sciences, vol. 10, no. 3, Article ID” 936, Jan. 2020.
[27] M. Usama, et al., "Unsupervised machine learning for networking: techniques, applications and research challenges," IEEE Access, vol. 7, pp. 65579-65615, 2019.
284 نشریه مهندسی برق و مهندسی کامپیوتر ایران، ب- مهندسی کامپیوتر، سال 21، شماره 4، زمستان 1402
مقاله پژوهشی
تشخیص اسپم در شبکه اجتماعی توییتر
با استفاده از رویکرد یادگیری ترکیبی
مریم فصیحی، محمدجواد شایگان فرد، زهرا سادات حسینی مقدم و زهرا سجده
چکیده: امروزه شبکههای اجتماعی، نقش مهمی در گسترش اطلاعات در سراسر جهان دارند. توییتر یکی از محبوبترین شبکههای اجتماعی است که در هر روز 500 میلیون توییت در این شبکه ارسال میشود. محبوبیت این شبکه در میان کاربران منجر شده تا اسپمرها از این شبکه برای انتشار پستهای هرزنامه استفاده کنند. در این مقاله برای شناسایی اسپم در سطح توییت از ترکیبی از روشهای یادگیری ماشین استفاده شده است. روش پیشنهادی، چارچوبی مبتنی بر استخراج ویژگی است که در دو مرحله انجام میشود. در مرحله اول از Stacked Autoencoder برای استخراج ویژگیها استفاده شده و در مرحله دوم، ویژگیهای مستخرج از آخرین لایه Stacked Autoencoder بهعنوان ورودی به لایه softmax داده میشوند تا این لایه پیشبینی را انجام دهد. روش پیشنهادی با برخی روشهای مشهور روی پیکره متنی Twitter Spam Detection با معیارهای Accuracy، -Score1F، Precision و Recall مورد مقایسه و ارزیابی قرار گرفته است. نتایج تحقیق نشان میدهند که دقت کشف روش پیشنهادی به 1/78% میرسد. در مجموع، این روش با استفاده از رویکرد اکثریت آرا با انتخاب سخت در یادگیری ترکیبی، توییتهای اسپم را با دقت بالاتری نسبت به روشهای CNN، LSTM و SCCL تشخیص میدهد.
کلیدواژه: توییتر، شناسایی اسپم، شبکه عصبی، Autoencoder، Softmax.
1- مقدمه
شبکههای اجتماعی برخط، ابزار همکاری و ارتباطی برای میلیونها کاربر اینترنتی هستند. کاربران در شبکههای اجتماعی، نظرهای خود را بیان و در مورد موضوعات مختلف بحث میکنند [1]. توییتر بهعنوان یکی از اصلیترین شبکههای اجتماعی برخط با ارائه خدمات میکروبلاگینگ رایگان برای کاربران، کاربران را به انتشار یا مشاهده پیامهایی با طول حداکثر 280 کاراکتر، دنبالکردن سایر کاربران و ... از طریق دستگاههای مختلفی از جمله تلفنهای همراه و کامپیوترهای رومیزی جذب میکند. توییتر 3/1 میلیارد کاربر و 360 میلیون کاربر فعال ماهانه دارد که 500 میلیون توییت در هر روز ارسال میکنند. از ویژگیهای دیگرش میتوان به پشتیبانی از بیش از 50 زبان اشاره کرد [1] و [2]. امکانات و اهمیت بالای این شبکه، عاملی تحریککننده برای برخی افراد سودجوست تا با انجام فعالیتهای مخرب از طریق ارسال پیامهای جعلی، مخرب و اسپم2، اهداف خود را دنبال کنند. از این رو شبکه اجتماعی توییتر به بستری مناسب و محبوب برای تبلیغکنندگان و اسپمرها3 برای انتشار پیامهای آنها تبدیل شده است [3].
بهطور کلی روشهای تشخیص اسپم به سه دسته اصلی تشخیص مبتنی بر تجزیه و تحلیل نحو4، تشخیص مبتنی بر تجزیه و تحلیل ویژگی5 و لیست سیاه6 تقسیم میشوند [4]:
1) تشخیص مبتنی بر تجزیه و تحلیل نحو: روشهای مورد استفاده برای تشخیص اسپم با توجه به متن توییت و بخشهای کلیدی مانند پیوندها7 انجام میشود.
2) تشخیص مبتنی بر تجزیه و تحلیل ویژگی: روشهای تشخیص در این بخش به دو قسمت تشخیص اسپم با استفاده از اطلاعات آماری و گراف اجتماعی8 تقسیم میشوند. برای تشخیص اسپم با استفاده از روش اطلاعات آماری، ویژگیهای آماری از پروفایل کاربران و توییتهای آنها استخراج میشود. برای تشخیص اسپم با روش گراف اجتماعی به روابط دنبالکنندگان9 و دنبالشوندگان10 کاربران توجه میشود..
3) لیست سیاه: در این روش، مجموعهای از پیوندها که قبلاً در توییتهای اسپم استفاده شدهاند و جزء پیوندهای مخرب هستند، جمعآوری شده و روشهای مورد استفاده با توجه به پیوندهای موجود در لیست به تشخیص اسپم میپردازند.
اکثر روشهای ارائهشده برای جلوگیری از فعالیت اسپمرها و فیلترکردن هرزنامه در توییتر مبتنی بر شناسایی اسپمرها و مسدودکردن آنهاست. این روشها چندان قدرتمند نبوده و نیازمند به روشهایی قویتر برای شناسایی اسپم در سطح توییت هستند. هرچند پژوهشهای مختلفی در این حوزه انجام شده، ولی امکان بهبود دقت مدل با بهرهگیری از یادگیری ترکیبی11 وجود دارد. به همین دلیل در این مقاله برای شناسایی اسپم در سطح توییت از روشهای یادگیری ترکیبی استفاده شده است. مدل یادگیری ترکیبی یکی از روشهای یادگیری ماشین است که در آن، مدلها بهعنوان اجزای سازنده با یکدیگر ترکیب میشوند. در این مقاله، چندین مدل متشکل از ترکیب Autoencoder و لایه softmax برای حل مسئله آموزش داده شده و سپس برای بهدستآوردن نتایج بهتر، این مدلها با استفاده از روش Bagging با یکدیگر ترکیب میشوند تا بتوانیم مدلهای دقیقتر و یا پایدارتری بهدست آوریم. در این روش مدلهای متفاوت، مستقل از یکدیگر و بهصورت همزمان آموزش میبینند و با رویکرد اکثریت آرا با انتخاب سخت با یکدیگر ترکیب میشوند. روش پیشنهادی، چارچوبی مبتنی بر استخراج ویژگی است که در دو مرحله انجام میشود. در مرحله اول از Stacked Autoencoder برای استخراج ویژگیها استفاده گردیده است و در مرحله دوم، ویژگیهای استخراجشده از آخرین لایه Stacked Autoencoder بهعنوان ورودی به لایه softmax داده میشود تا این لایه، احتمال تعلق هر نمونه به هر یک از برچسبهای ممکن را محاسبه کند. در این مقاله از مدلهای مبتنی بر CNN Autoencoder، Sequence_To_Sequence Autoencoder
و Sequential Stacked CNN-LSTM استفاده کردهایم. در واقع مهمترین نوآوری این مقاله، ارائه یک روش یادگیری ترکیبی مبتنی بر تکینکهای Autoencoder و لایه softmax برای استخراج ویژگیها و پیشبینی توییتهای اسپم است.
در بخش دوم مقاله، کارهای پیشین شرح داده شده و بخش سوم به توضیح رویکرد پیشنهادی اختصاص دارد. در بخش چهارم ارزیابی کارایی رویکرد پیشنهادی گزارش شده و نهایتاً بخش پنجم، نتیجهگیری مقاله را ارائه میدهد.
2- کارهای پیشین
برای رفع مشکل اسپم توییتر در چند سال اخیر، روشهای تشخیص بسیاری ارائه شده است. تشخیص اسپم یک زمینه پژوهشی است که در آن، پژوهشگران به دنبال ارائه چارچوبها و روشهایی برای شناسایی خودکار اسپم با استفاده از تجزیه و تحلیل دادههای موجود هستند. آنها معمولاً برای تشخیص اسپم از روشهای یادگیری ماشین مانند ماشین بردار پشتیبان 12(SVM) یا یادگیری عمیق مانند شبکههای عصبی استفاده میکنند. مقالههای [5] تا [8] پژوهشهایی هستند که از ماشین بردار پشتیبان و [1] و [9] تا [15] از روشهای یادگیری عمیق برای تشخیص اسپم در شبکه اجتماعی توییتر استفاده کردهاند.
در [7]، [16] و [17] برای تشخیص اسپم در توییتر از ویژگیهای توییت مانند متن توییت، تاریخ انتشار توییت، تعداد هشتگها و غیره استفاده گردیده است. در [16] از الگوریتم بدون نظارت نایوبیز، در [17] از اطلاعات کاربری و ساختار شبکه به همراه ویژگیهای توییت و در [7] از ترکیب ویژگیهای مبتنی بر محتوای توییت، ویژگیهای رفتاری کاربر و ویژگیهای مبتنی بر حروف که با استفاده از ساختار متن توییتها بهدست میآید و استفاده از روش ترکیبی ماشین بردار پشتیبان به همراه الگوریتم بهینهسازی نهنگ برای تشخیص اسپم استفاده شده است.
در [12]، [13] و [18] تا [20]، شبکههای عصبی بهمنظور تشخیص اسپم بر روی مجموعه دادههای مختلف بهکار برده شدهاند. مقالههای [12] و [13] شبکههای عصبی CNN، LSTM و CNN_LSTM را بر روی مجموعه داده توییتر، [18] شبکههای عصبی CNN و LSTM را بر روی مجموعه دادههای Ott و Yelp، [19] شبکه عصبی Autoencoder را بر روی مجموعه داده به زبان چینی و همچنین [20] شبکه عصبی LSTM Autoencoder را بر روی مجموعه داده شامل نظرات ثبتشده کاربران در پنج ویدئوی معروف در یوتیوب [21] برای تشخیص اسپم استفاده کردهاند.
در [22] ارزیابی احساسات در توییت بهعنوان معیاری برای شناسایی اسپمبودن آن مطرح شده است؛ به همین منظور از الگوریتمهای مختلف طبقهبندی برای تشخیص اسپم و روشهای یادگیری ماشین و یادگیری عمیق برای تحلیل احساسات توییت استفاده گردیده است. در [23] و [24] روش طبقهبندی ترکیبی مطرح شده که در [23] روش طبقهبندی ترکیبی هوشمند با پارامترهای بهینهسازیشده توسط الگوریتم تکاملی و در [24] طبقهبندی ترکیبی مبتنی بر روشهای یادگیری عمیق که هم شامل متن توییت و هم اطلاعات کاربران است، برای شناسایی اسپم معرفی شده است. در [1]، [25] و [26] روشی ترکیبی برای تشخیص اسپم مطرح شده است. در [1] از شبکههای عصبی چند لایه و الگوریتم جنگل تصادفی، در [25] از روش اکثریت آرا و در [26] از برای شبکه عصبی عمیق DNN برای روش ترکیبی، استفاده شده است.
3- رویکرد ترکیبی پیشنهادی
مدلها در روشهای یادگیری ماشین ترکیبی بهعنوان اجزای سازنده
با یکدیگر ترکیب میشوند و سه روش کلی Bagging، Boosting و Stacking برای ترکیب آنها وجود دارد. در این مقاله از روش Bagging استفاده شده که هدف آن، ایجاد مدلی ترکیبی است که پایدارتر از مدلهای سازنده خود باشد. در این روش مدلهای متفاوت بهصورت مستقل از یکدیگر و همزمان آموزش میبینند و با فرایند اکثریت آرا با یکدیگر ترکیب میشوند. برای تشخیص توییتهای اسپم از مدلهای مختلف یادگیری عمیق مبتنی بر شبکههای عصبی Autoencoder مانند CNN Autoencoder، Sequence_to_Sequence Autoencoder و Sequential Stacked CNN-LSTM در این مقاله استفاده شده است.
:CNN Autoencoder شبکه عصبی کانولوشن، نوع خاصی از شبکه عصبی با چندین لایه است. CNN دادههایی را که دارای آرایش شبکهای هستند، پردازش میکند و سپس به استخراج ویژگیهای مهم میپردازد. یک مزیت بزرگ استفاده از CNN این است که نیازی به انجام بسیاری از مراحل پردازش روی متن نیست. مستقیماً میتواند مهمترین ویژگی در فیلترها را آموزش ببیند که این امر باعث صرفهجویی بسیاری در زمان آزمایش و خطا میشود. در این مقاله از چندین لایه CNN برای انکدر و همچنین چندین لایه CNN برای دیکدر استفاده شده است.
:Sequence_to_Sequence Autoencoder مدل Seq2Seq نوعی Autoencoder است که در این مقاله برای اجزای انکدر و دیکدر آن از معماری LSTM استفاده شده است. برای پیادهسازی Autoencoder دادههایی که متوالی هستند میتوان از LSTM Autoencoder استفاده کرد. شبکههای حافظه کوتاهمدت طولانی (LSTM)، نوعی شبکه عصبی بازگشتی (RNN) هستند که بهطور خاص برای پشتیبانی از دادههای متوالی طراحی شدهاند؛ قادر به یادگیری دادههای متوالی پیچیدهاند و از یک حافظه داخلی برای بهخاطرآوردن یا استفاده از اطلاعات در دادههای متوالی بزرگ استفاده میکنند. در این مقاله از چندین لایه LSTM برای انکدر و همچنین چندین لایه LSTM برای دیکدر استفاده شده است.
شکل 1: فلوچارت رویکرد پیشنهادی.
:Sequential Stacked CNN-LSTM در [12] و [13] یک مدل Sequential طراحی شده است. معماری این مدل بهترتیب شامل لایهای از CNN بهدلیل منحصربهفردبودن این شبکه عصبی در استخراج ویژگی و لایهای از LSTM بهدلیل یادگیری وابستگیهاست. سعی بر آن شد
تا با قراردادن این دو معماری در کنار هم، میزان معیارهای ارزیابی در پیشبینی بالا برده شود. برای پیادهسازی انکدر از چندین لایه CNN، Maxpooling و LSTM و نیز از چندین لایه CNN، Maxpooling و LSTM برای دیکدر استفاده شده است.
از یک رویکرد دومرحلهای برای تشخیص اسپم استفاده شده است. در مرحله اول از یکی از مدلهای یادگیری عمیق مبتنی بر شبکههای عصبی Autoencoder برای استخراج ویژگیها استفاده میشود. در مرحله دوم برای محاسبه احتمال تعلق هر نمونه به هر یک از برچسبهای اسپم یا اسپمنبودن، لازم است که ویژگیهای استخراجشده توئیتها از آخرین لایه Autoencoder بهعنوان ورودی به لایه softmax داده شود تا
این لایه پیشبینی را انجام دهد. پس از محاسبه معیارهای ارزیابی برای هر مدل، نتیجه پیشبینی هر مدل، ذخیره و سپس با ترکیب مدلهای طراحیشده، پیشبینی نهایی انجام شده است. نمودار روند اجرای رویکرد پیشنهادی در شکل 1 آمده است.
برای پیشبینی اسپم در شبکه اجتماعی توییتر نیاز است که پیکره متنی مناسبی جمعآوری شود و برای افزایش دقت پیشبینی، پیکره متنی باید نرمالسازی و پاکسازی گردد. ویژگیهای اصلی توییت از واژههای موجود در آن ناشی میشود. هر کلمه در پیکره بهعنوان یک ویژگی عمل میکند. روشهای مختلفی برای نمایش ویژگیها مانند نمایش متراکم13 وجود دارد. در این روش، ویژگیها در ابعاد کمتری نمایش داده میشوند. مزیت نمایش متراکم، قدرت تعمیم آن و سرعت محاسباتی آن بهدلیل ابعاد کمتر است. نمایش متراکم کلمات را میتوان با استفاده از روشهای معمولی مانند Word2vec، FastText و Glove بهدست آورد که در این مقاله برای نمایش ویژگیها از روش نمایش متراکم استفاده شده است. برای استخراج ویژگیهای توئیتهای پیکره، لازم است ابتدا بازنمایی و استخراج بردار کلمات صورت گیرد و سپس به بازنمایی متون کوتاه توییت پرداخته شود. برای بازنمایی و استخراج کلمات از جایگذاری بردارهای کلمات از پیش آموزش داده شده به نام در چهار بعد و Word2vec_Twitter_Tokens در یک بعد به ترتیب در ابعاد
25، 50، 100 و 200 استفاده شده است. برای ساخت بردار متراکم پیکره متنی 14795نمونهای، هر متن کوتاه به کلمههای تشکیلدهندهاش تبدیل میشود. در ادامه با استفاده از جایگذاری بردار کلمات از پیش آموزش داده شده، بردارهای کلمات هر یک از توییتها استخراج و نهایتاً ماتریس کلمات و بردار متناظرشان ساخته میشود. پس از استخراج و ساخت ماتریس کلمات و بردار متناظرشان، به مرحله بازنمایی برداری متون کوتاه توییت و استخراج ویژگیهای متن کوتاه توییت میرسیم. در این مرحله برای استخراج ویژگیهای متون کوتاه، چندین مدل مبتنی بر شبکه عصبی Autoencoder طراحی شده است. Autoencoder که بهاختصار AE نیز نامیده میشود، نوعی از شبکههای عصبی برای یادگیری بدون نظارت است که در اواخر دهه 80 میلادی معرفی شد که این شبکه اغلب برای کاهش ابعاد و استخراج ویژگی استفاده میشود [27]. استفاده از AE، یکی از روشهای قدرتمند برای استخراج ویژگیها از دادههاست که به جای ایجاد پیشبینی کلاسی، ویژگیهای اصلی ورودی برای بازسازی شبکه خود را آموزش میبیند. AE دارای دو جزء انکدر14 و دیکدر15 است. انکدر وظیفه دریافت ورودی با ابعاد بالا و تبدیل آن به برداری با ابعاد کم را دارد. دیکدر، بردار ساختهشده توسط انکدر را دریافت و ورودی را دوباره بازسازی میکند. برای قسمت بازنمایی متون با استفاده از قسمت انکدر چندلایهای، دادههای ورودی با یک نگاشت غیرخطی به لایه پنهان برده میشوند که یک نمایش غیرخطی فشردهشده از ویژگیهای داده ورودی خواهیم داشت. سپس این ویژگیها بهعنوان ورودی به دیکدر چندلایهای داده میشوند. بدین ترتیب در بخش اول مدل با استفاده از شبکههای عصبی، ویژگیها استخراج خواهند شد. با پایان کار شبکههای عصبی، بخش اول مدل خاتمه مییابد. در بخش دوم ویژگیهای استخراجشده از آخرین لایه بهعنوان ورودی به لایه softmax داده میشوند و محاسبه احتمال تعلق هر نمونه به هر یک از برچسبهای ممکن را شبکهی عصبی متراکم Dense که یک شبکه عصبی اتصال کامل است، با کمک لایه softmax انجام میدهد. بعد از بهدستآمدن نتایج هر یک از مدلها، تمام مدلها با یکدیگر ترکیب میشوند تا بتوانند مدلهای دقیقتر و یا پایدارتری به وجود آورند که با ترکیبکردن مدلها به رویکرد پیشنهادی بیانشده دست مییابیم.
4- نتایج آزمایشها
4-1 مجموعه داده
برای پیشبینی اسپم در شبکه اجتماعی توییتر نیاز است که پیکره متنی مناسبی جمعآوری شود. رویکرد پیشنهادی ارائهشده در این مقاله روی پیکره متنی Twitter Spam Detection16 مورد آزمایش قرار گرفته است. این پیکره متنی شامل 7 ستون میباشد؛ توییت، دنبالکننده، دنبالشونده، واکنش17 کاربر، ریتوییت18، مکان کاربر و نوع توییت که با دو مقدار هرزنامه و باکیفیت مقداردهی شده است. در این مقاله تنها از متن توییتها استفاده شده است. این پیکره شامل 14795 نمونه توییت است که 7397 نمونه متعلق به برچسب اسپم و 7398 نمونه متعلق به برچسب
شکل 2: مقایسه الگوریتم پیشنهادی با الگوریتمهای پایه.
اسپمنبودن است. 60% از توییتهای پیکره معادل 8877 نمونه توییت برای آموزش، 20% آن معادل 2959 نمونه توییت برای اعتبارسنجی
و 20% دیگر آن معادل 2959 نمونه برای آزمایش روش پیشنهادی اختصاص داده شده است. همچنین توییتهای این پیکره شامل یک تا 40 کلمه است که در این پژوهش حداکثر طول کلمات 40 در نظر گرفته شده است. برای افزایش دقت پیشبینی نیاز است پیکره متنی نرمالسازی و پاکسازی شود. برای پاکسازی پیکره، تمام حروف موجود به حروف کوچک تبدیل و اعداد، علائم نقطهگذاری، فضاهای خالی و کلمات بیاثر نیز پاک شده است. سپس عمل Tokenization برای تبدیل جمله
به اجزای سازندهاش انجام شده است. از تابع Tokenizer Word برای توکنایزکردن و از دو کتابخانه re و NLTK برای انجام تمام کارهای ذکرشده در بالا استفاده شده است.
4-2 معیارهای ارزیابی
برای بررسی و مقایسه عملکرد روش پیشنهادی با روشهای پایه از چهار معیار Accuracy، Precision، Recall و استفاده شده است. معیار Recall نشان میدهد که مقدار اندازهگیریشده تا چه اندازه به مقدار واقعی نزدیک است. منظور از معیار Precision، نسبت تعداد جملاتی است که در کلاسهای درستی قرار داده شدهاند به مجموع تعداد کل جملاتی که بهدرستی به کلاسها تخصیص داده شدهاند و جملاتی که به کلاس درستی تخصیص داده نشدهاند. Recall کسری است از جملاتی که در کلاسهای درستی قرار داده شدهاند، نسبت به تعداد کل جملات. ترکیب Recall و Precision با یکدیگر است. معیارهای ذکرشده بهصورت (1) تا (4) تعریف میشوند
(1)
(2)
(3)
(4)
4-3 نتیجه آزمایشها
4-3-1 آموزش مدلها
در رویکرد پیشنهادی، پیکره متنی Twitter Spam Detection روی مدلهای مبتنی بر CNN Autoencoder، Sequence_to_Sequence Autoencoder و Sequential Stacked CNN-LSTM آموزش داده شده است. برای هر یک از مدلها بهمنظور بازنمایی بردار کلمات از جایگذاری بردار کلمات Glove در چهار بعد و جایگذاری بردار کلمات Word2vec در یک بعد استفاده شده است. در اینجا برای هر پنج بعد، دو حالت تکلایه و چندلایه طراحی گردیده که در مجموع 10 مدل آموزش داده شده است. منظور از تکلایه، یک انکدر، لایه پنهان و دیکدر و منظور از چندلایه، چندین انکدر، لایه پنهان و دیکدر است. در هر دو گروه تکلایهای و چندلایهای، شبکه دو ورودی را دریافت میکند که ورودی اول Embedding است که در آن ماتریس کلمات و بردار متناظرشان فراخوانی میشود. ورودی دوم فایلهای متنی به نامهای Train، Valid و Test میباشد که بهترتیب 60%، 20% و 20% از متنهای توییت را
به خود اختصاص دادهاند. نتایج بهدستآمده برای مدلهای مبتنی بر CNN Autoencoder، Sequence_To_Sequence Autoencoder و Sequential Stacked CNN-LSTM بهترتیب در جداول 1 تا 3 آورده شده است.
4-3-2 پیشبینی اسپم در توییتر مبتنی بر یادگیری ترکیبی
در این مقاله برای پیشبینی اسپم در توییتر با روش یادگیری ترکیبی، تقریباً 30 مدل طراحی شده که در بالا بهطور مختصر بیان گردید. خروجی هر یک از مدلها بهعنوان یک رأی در نظر گرفته میشود که در اینجا دو کلاس اسپم و اسپمنبودن است. کلاسی که اکثریت آرا را کسب کند، خروجی مدل ترکیبی خواهد بود. خروجی هر مدل در زمان اجرا ذخیره شده است. خروجی هر مدل به صورت یک لیست است که بعد از تمام شدن اجرای هر مدل ذخیره میشود. پس از اجرای تمام مدلها ، حداکثر آرا این مدلها محاسبه میشود که نتیجه حداکثر آن نیز به صورت لیست است. سپس مقدار واقعی نیز بهصورت یک لیست فراخوانی گردیده است. با داشتن دو لیست پیشبینی، مقدار واقعی معیارهای تعریفشده برای ارزیابی محاسبه گردیدند. نتیجه حاصل از این روش پیشنهادی در جدول 4 قابل مشاهده است.
4-3-3 مقایسه روش پیشنهادی با الگوریتمهای پایه
در این مقاله از پیکره متنی استفاده شده که در مقالههای پیشین آموزش داده نشده است؛ بنابراین ابتدا الگوریتمهای پایهای طراحی گردیده و سپس پیکره متنی روی این الگوریتمهای طراحیشده آموزش داده شده است. بیسواز و همکاران [15] با تحقیق روی مجموعه دادههای Ott و Yelp با شبکههای عصبی عمیق که برای پیشبینی اسپم مناسب است، اقدام به پیشبینی اسپم کردند. آنها بعد از جمعآوری داده به پاکسازی و نرمالسازی آن پرداختند و سپس شبکه عصبی عمیق را برای آموزش مدل کردند. در این شبکه عمیق از لایههای CNN و LSTM استفاده شده است. شارما و همکاران [12] و [13] با طراحی شبکههای عصبی SCNN، SLSTM و SSCL مجموعه داده Twitter را برای پیشبینی اسپم آموزش دادهاند. در این مقالات ابتدا با کمک لایه معنایی، بازنمایی بردار کلمات ارائه گردید و سپس، شبکههای عصبی CNN، LSTM و CNN_LSTM برای دستهبندی اسپم مورد آموزش قرار گرفتند. در لایه معنایی از جایگذاری بردار کلمات Word2vec برای بازنمایی بردار کلمات استفاده شده است. معماریهایی که مطرح شد در این مقاله بهعنوان الگوریتمهای پایه در نظر گرفته شده و معیارهای بیانگردیده برای این الگوریتمها نیز ارزیابی شده است. همان طور که مشاهده میشود رویکرد پیشنهادی برای چهار معیار Accuracy، ، Precision و Recall توانسته در مقایسه با روش CNN نتایج را تقریباً تا 7/1%، روش LSTM بیش از 5/3% و روش SSCL نیز تا 9/0% بهبود دهد. نتایج
[1] این مقاله در تاریخ 13 شهريور ماه 1401 دریافت و در تاریخ 15 مرداد ماه 1402 بازنگری شد.
مریم فصیحی، گروه مهندسی کامپیوتر، دانشگاه علم و فرهنگ، تهران، ايران، (email: fasihi.star@gmail.com).
محمدجواد شایگان فرد (نویسنده مسئول)، گروه مهندسی کامپیوتر، دانشگاه علم و فرهنگ، تهران، ايران، (email: shayegan@usc.ac.ir).
زهرا سادات حسینی مقدم، گروه مهندسی کامپیوتر، دانشگاه علم و فرهنگ، تهران، ايران، (email: hosayni3502@gmail.com).
زهرا سجده، گروه مهندسی کامپیوتر، دانشگاه علم و فرهنگ، تهران، ايران، (email: sajdehzahra@gmail.com).
[2] . Spam
[3] . Spammer
[4] . Detection Based on Syntax Analysis
[5] . Detection Based on Feature Analysis
[6] . Blacklist
[7] . URLs
[8] . Social Graph
[9] . Followers
[10] . Following
[11] . Ensemble Learning
[12] . Support Vector Machine
[13] . Dense Representation
[14] . Encoder
[15] . Decoder
[16] . https://www.kaggle.com/competitions/twitter-spam/data
[17] . Actions
[18] . Retweet
جدول 1: نتایج بهدستآمده برای پیشبینی اسپم در توییتر مبتنی بر
مدل CNN Autoencoder.
Model | Dimension | Measure | ||||
Accuracy |
| Precision | Recall | |||
Single Layla | Glove | 25 | 9/73 | 7/73 | 4/74 | 9/73 |
50 | 7/74 | 7/74 | 7/74 | 7/74 | ||
100 | 5/77 | 5/77 | 5/77 | 5/77 | ||
200 | 0/77 | 0/77 | 0/77 | 0/77 | ||
Word2vec | 100 | 4/76 | 4/76 | 5/76 | 4/76 | |
Multi-layer | Glove | 25 | 3/74 | 2/74 | 6/74 | 3/74 |
50 | 7/75 | 7/75 | 8/75 | 7/75 | ||
100 | 7/71 | 0/71 | 2/74 | 7/71 | ||
200 | 6/76 | 6/76 | 8/76 | 6/76 | ||
Word2vec | 100 | 5/72 | 0/72 | 3/74 | 0/72 |
جدول 2: نتایج بهدستآمده برای پیشبینی اسپم در توییتر مبتنی بر
مدل Sequence_to_Sequence Autoencoder.
Model | Dimension | Measure | ||||
Accuracy |
| Precision | Recall | |||
Single layer | Glove | 25 | 3/74 | 3/74 | 74/4 | 3/74 |
50 | 1/76 | 1/76 | 1/76 | 1/76 | ||
100 | 1/75 | 1/75 | 1/75 | 1/75 | ||
200 | 9/74 | 9/74 | 0/75 | 9/74 | ||
Word2vec | 100 | 8/74 | 6/74 | 5/76 | 4/76 | |
Multi-layer | Glove | 25 | 4/75 | 4/75 | 4/75 | 4/75 |
50 | 3/76 | 3/76 | 3/76 | 3/76 | ||
100 | 5/74 | 3/74 | 5/75 | 5/74 | ||
200 | 8/74 | 7/74 | 2/75 | 8/74 | ||
Word2vec | 100 | 9/74 | 9/74 | 0/75 | 9/74 |
جدول 3: نتایج بهدستآمده برای پیشبینی اسپم در توییتر مبتنی بر
مدل Sequential Stacked CNN-LSTM.
Model | Dimension | Measure | ||||
Accuracy |
| Precision | Recall | |||
Single layer | Glove | 25 | 3/74 | 3/74 | 74/4 | 3/74 |
50 | 1/76 | 1/76 | 1/76 | 1/76 | ||
100 | 1/75 | 1/75 | 1/75 | 1/75 | ||
200 | 9/74 | 9/74 | 0/75 | 9/74 | ||
Word2vec | 100 | 8/74 | 6/74 | 5/76 | 4/76 | |
Multi-layer | Glove | 25 | 4/75 | 4/75 | 4/75 | 4/75 |
50 | 3/76 | 3/76 | 3/76 | 3/76 | ||
100 | 5/74 | 3/74 | 5/75 | 5/74 | ||
200 | 8/74 | 7/74 | 2/75 | 8/74 | ||
Word2vec | 100 | 9/74 | 9/74 | 0/75 | 9/74 |
جدول 4: نتایج بهدستآمده برای پیشبینی اسپم در توییتر مبتنی بر یادگیری ترکیبی.
مدل | نام معیار | |||
Accuracy |
| Precision | Recall | |
رویکرد ترکیبی | 1/78 | 01/78 | 1/78 | 1/78 |
بهدستآمده در جدول 5 و شکل 2 قابل مشاهده است.
برای مقایسه نتایج این تحقیق با روشهای ترکیبی دیگر، در بررسی سوابق مشخص گردید که مجموعه داده مورد استفاده این تحقیق در کارهای پیشین استفاده نشده است. در این میان [26] از رویکردی کلی مشابه این تحقیق استفاده کرده؛ اما روی یک مجموعه داده دیگر مدلسازی انجام داده است. در [26] روش ترکیبی پیشنهادشده شامل 2 جزء اصلی ماژول پایه و ماژول ترکیبی است. در ماژول پایه از شش الگوریتم یادگیری ماشین برای استخراج ویژگیها از داده اصلی استفاده شده است. داده بهدستآمده از ماژول پایه در ترکیب با متا دادهای با
جدول 5: نتایج بهدستآمده برای روش پیشنهادی و الگوریتمهای پایه.
نام پژوهش | روش پیشنهادی | نام معیار | |||
Accuracy |
| Precision | Recall | ||
الگوریتم پیشنهادی | یادگیری ترکیبی | 1/78 | 78 | 1/78 | 1/78 |
بیسواز | CNN | 4/76 | 4/76 | 5/76 | 4/76 |
LSTM | 8/74 | 6/74 | 5/76 | 4/76 | |
شارما | SSCL | 1/77 | 1/77 | 1/77 | 1/77 |
ویژگیهای جدید بهعنوان داده ورودی در ماژول ترکیبی استفاده شده است. در ماژول ترکیبی، یک شبکه عصبی عمیق 1(DNN) بهعنوان یک متا طبقهبندیکننده برای گرفتن اطلاعات عمیق پنهان بهکار گرفته شده است. در این تحقیق مقدار Accuracy و برابر 70% گزارش شده که از مقدار روش پیشنهادی این تحقیق کمتر است. بنابراین با توجه به نتایج بهدستآمده میتوان نتیجه گرفت که روش پیشنهادی در مقایسه با روشهای پایه قدرتمندی چون LSTM، CNN و SSCL و همین طور روش ترکیبی ارائهشده در [26] نتایج بهتری را کسب نموده است.
5- نتیجهگیری
در سالهای اخیر، رفتارهای مخرب اسپمرها تهدیدی جدی برای امنیت اطلاعات کاربران بوده است. توییتر یکی از محبوبترین شبکههای اجتماعی است و به بستری مناسب برای تبلیغکنندگان و اسپمرها بهمنظور انتشار پیامهای آنها تبدیل شده است. در سالهای اخیر برای رفع مشکل اسپم توییتر، روشهای تشخیص بسیاری ارائه گردیده که اکثر آنها برای جلوگیری از فعالیت اسپمرها و فیلترکردن هرزنامه در توییتر مبتنی بر شناسایی اسپمرها و مسدودکردن آنهاست. محققان، پیوسته روشهایی جدیدتر برای شناسایی اسپم با دقت بالاتر و کارایی بیشتر ارائه دادهاند؛ بهویژه اینکه شناسایی اسپم در توییتها جای کار و بهبود دارد. در این مقاله برای شناسایی اسپم در سطح توییت از ترکیبی از روشهای یادگیری ماشین استفاده شده است. روش پیشنهادی، چارچوبی مبتنی بر استخراج ویژگی است که در دو مرحله انجام میشود. در مرحله اول از Stacked Autoencoder برای استخراج ویژگیها استفاده شده و در مرحله دوم ویژگیهای مستخرج از آخرین لایه Stacked Autoencoder بهعنوان ورودی به لایه softmax داده میشود تا این لایه پیشبینی را انجام دهد. نتیجه آزمایش روش پیشنهادی با نتایج روشهای پایه روی پیکره متنی Twitter Spam Detection برای معیارهای Accuracy، ، Precision و Recall مورد مقایسه و ارزیابی قرار گرفته است. رویکرد پیشنهادی در مقایسه با روشهای پایه CNN، LSTM و SSCL توانسته که دقت را بهترتیب 7/1%، 3/3% و 1% بهبود بخشد. با توجه به نتایج بهدستآمده میتوان گفت که روش پیشنهادی توانسته با استفاده از رویکرد اکثریت آرا با انتخاب سخت در یادگیری ترکیبی، پیشبینی توییتهای اسپم را با دقت بالاتری نسبت به روشهای پایه تشخیص دهد. رویکرد یادگیری ترکیبی با روشهای متفاوتی محاسبه میشود که میتوان آنها را در آینده مورد بررسی قرار داد. از جمله این روشها میتوان به روش انتخاب نرم، Boosting و Stacking اشاره کرد. این نکته نیز حائز اهمیت است که برای هر روش، انتخاب الگوریتم نقشی اساسی دارد.
مراجع
[1] S. Madisetty and M. S. Desarkar, "A neural network-based ensemble approach for spam detection in Twitter," IEEE Trans. Comput. Soc. Syst., vol. 5, no. 4, pp. 973-984, Dec. 2018.
[2] M. McCord and M. Chuah, "Spam detection on twitter using traditional classifiers," Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), vol. LNCS6906, pp. 175-186, Sept. 2011.
[3] X. Zhang, S. Zhu, and W. Liang, "Detecting spam and promoting campaigns in the Twitter social network," in Proc. IEEE International Conf. on Data Mining, ICDM, pp. 1194-1199, Brussels, Belgium , 10-13 Dec. 2012.
[4] A. T. Kabakus and R. Kara, "A survey of spam detection methods
on Twitter," International J. of Advanced Computer Science and Applications, vol. 8, no. 3, pp. 29-38, 2017.
[5] X. Zheng, Z. Zeng, Z. Chen, Y. Yu, and C. Rong, "Detecting spammers on social networks," Neurocomputing, vol. 159, no. 1,
pp. 27-34, Jul. 2015.
[6] J. Martinez-Romo and L. Araujo, "Detecting malicious tweets in trending topics using a statistical analysis of language," Expert Syst. Appl., vol. 40, no. 8, pp. 2992-3000, Jun. 2013.
[7] A. M. Al-Zoubi, H. Faris, J. Alqatawna, and M. A. Hassonah, "Evolving support vector machines using whale optimization algorithm for spam profiles detection on online social networks in different lingual contexts," Knowledge-Based Syst., vol. 153, pp. 91-104, Aug. 2018.
[8] S. B. S. Ahmad, M. Rafie, and S. M. Ghorabie, "Spam detection on Twitter using a support vector machine and users' features by identifying their interactions," Multimed. Tools Appl., vol. 80, no. 8, pp. 11583-11605, Mar. 2021.
[9] Z. Alom, B. Carminati, and E. Ferrari, "A deep learning model for Twitter spam detection," Online Soc. Networks Media, vol. 18,
Article ID: 100079, Jul. 2020.
[10] X. Ban, C. Chen, S. Liu, Y. Wang, and J. Zhang, "Deep-learnt features for Twitter spam detection," in Proc. Int. Symp. Secur. Priv. Soc. Networks Big Data, pp. 22-26, Santa Clara, CA, USA, 10-11 Dec. 2018.
[11] Y. Liu, L. Wang, T. Shi, and J. Li, "Detection of spam reviews through a hierarchical attention architecture with N-gram CNN and Bi-LSTM," Inf. Syst., vol. 103, Article ID: 101865, Jan. 2022.
[12] G. Jain, M. Sharma, and B. Agarwal, "Optimizing semantic LSTM for spam detection," Int. J. Inf. Technol., vol. 11, no. 2, pp. 239-250, Jun. 2019.
[13] G. Jain, M. Sharma, and B. Agarwal, "Spam detection in social media using convolutional and long short term memory neural network," Annals of Mathematics and Artificial Intelligence, vol. 85, no. 1, pp. 21-44, 2019.
[14] T. Wu, S. Liu, J. Zhang, and Y. Xiang, "Twitter spam detection based on deep learning," in Proc. ACM Int. Conf. Proc. Ser., 8 pp., Geelong, Australia, 30 Jan.-3 Feb 2017.
[15] G. M. Shahariar, S. Biswas, F. Omar, F. M. Shah, and S. Binte Hassan, "Spam review detection using deep learning," in Proc. IEEE 10th Annu. Inf. Technol. Electron. Mob. Commun. Conf., IEMCON’19, pp. 27-33, Vancouver, Canada, 17-19 Oct. 2019.
[16] A. T. Kabakus and R. Kara, "‘TwitterSpamDetector’: a spam detection framework for twitter," International J. of Knowledge and Systems Science, vol. 10, no. 3, pp. 1-14, Jul. 2019.
[17] H. Shen, et al., "Discovering social spammers from multiple views," Neurocomputing, vol. 225, pp. 49-57, Feb. 2017.
[18] K. Lee, J. Caverlee, and S. Webb, "Uncovering social spammers: social honeypots + machine learning," in Proc. SIGIR Proc.-33rd Annual International ACM SIGIR Conf. on Research and Development in Information Retrieval, pp. 435-442, Geneva, Switzerland, 19-23 Jul. 2010.
[19] C. Grier, K. Thomas, V. Paxson, and M. Zhang, "@spam: the underground on 140 characters or less," in Proc. of the ACM Conf. on Computer and Communications Security, pp. 27-37, Chicago, IL, USA, 4-8 Oct. 2010.
[20] S. Saumya and J. P. Singh, "Spam review detection using LSTM autoencoder: an unsupervised approach," Electron. Commer. Res., vol. 22, no. 1, pp. 113-133, Mar. 2022.
[21] J. V. Lochter, T. A. Almeida, and T. C. Alberto, "TubeSpam: comment spam filtering on YouTube," in Proc. IEEE 14th Int, Conf. on Machine Learning and Applications, pp. 138-143, Miami, FL, USA, 9-11 Dec. 2015.
[22] M. M. Abdulhasan, H. Alchilibi, M. A. Mohammed, and R. Nair, "Real-time sentiment analysis and spam detection using machine learning and deep learning," in Proc. 3rd Int. Conf. on Data Science and Big Data Analytics, pp. 507-533, Indore, India, 16-17 Jun. 2023.
[23] A. Ahraminezhad, M. Mojarad, and H. Arfaeinia, "An intelligent ensemble classification method for spam diagnosis in social networks," International J. of Intelligent Systems and Applications, vol. 14, no. 1, pp. 24-31, Feb. 2022.
[24] Z. Alom, B. Carminati, and E. Ferrari, "A deep learning model for Twitter spam detection," Online Social Networks and Media, Article ID: 100079, Jul. 2020.
[25] S. Liu, Y. Wang, J. Zhang, C. Chen, and Y. Xiang, "Addressing the class imbalance problem in twitter spam detection using ensemble learning," Computers & Security, vol. 69, pp. 35-49, Aug. 2017.
[26] C. Zhao, Y. Xin, X. Li, Y. Yang, and Y. Chen, "A heterogeneous ensemble learning framework for spam detection in social networks with imbalanced data," Applied Sciences, vol. 10, no. 3, Article ID” 936, Jan. 2020.
[27] M. Usama, et al., "Unsupervised machine learning for networking: techniques, applications and research challenges," IEEE Access,
vol. 7, pp. 65579-65615, 2019.
مریم فصیحی تحصیلات خود در مقطع کارشناسی را در رشته مهندسی فناوری اطلاعات گرایش طراحی صفحات وب در دانشگاه علمی کاربردی به پایان رساند و هماکنون فارغالتحصیل رشته مهندسی کامپیوتر گرایش نرمافزار از دانشگاه علم و فرهنگ است. زمینه تحقیقاتی مورد علاقه ایشان تحلیل شبکههای اجتماعی و هوش مصنوعی است.
محمدجواد شایگان فرد تحصيلات خود در مقاطع كارشناسي و كارشناسي ارشد را در دانشگاه علوم و تحقیقات در گرایشهای مهندسی نرمافزار و معماری کامپیوتر در سال 1377 به پایان رساند. سپس در سال 1388 در رشته دکتری فناوری اطلاعات و سیستمهای چندرسانهای از دانشگاه یوپیام مالزی فارغالتحصیل شد. وی هماکنون عضو هیأت علمی و دانشیار گروه مهندسی کامپیوتر دانشگاه علم و فرهنگ است. دکتر شایگان فرد پایهگذار موضوع وب پژوهی در کشور است و در این راستا کنفرانس بینالمللی وب پژوهی را از سال 1394 در کشور بنا نهاد که تا کنون بطور پیاپی برگزار و در IEEE نمایه شده است. در ادامه مجله وب پژوهی توسط وی از سال 1398 بنا نهاده شد که هماکنون از نشریات معتبر وزارت علوم، تحقیقات و فناوری است. زمينههاي تحقيقاتي مورد علاقه ايشان عبارتند از: دادهکاوی و یادگیری ماشین، علوم وب، تجارت و بازاریابی الکترونیکی و سیستمهای توزیعی.
زهرا سادات حسینی تحصیلات خود در مقطع کارشناسی را در رشته مهندسی کامپیوتر نرمافزار در دانشگاه پیام نور قم به پایان رساند و هماکنون فارغ التحصیل رشته مهندسی کامپیوتر گرایش نرمافزار از دانشگاه علم و فرهنگ است. زمینه تحقیقاتی مورد علاقه ایشان پردازش زبان طبیعی، یادگیری عمیق و هوش مصنوعی است.
زهرا سجده تحصیلات خود در مقطع کارشناسی را در رشته مهندسی کامپیوتر- نرمافزار در دانشگاه ابرار به پایان رساند و هم اکنون فارغ التحصیل رشته مهندسی کامپیوتر گرایش نرمافزار از دانشگاه علم و فرهنگ است. زمینه تحقیقاتی مورد علاقه ایشان تحلیل شبکههای اجتماعی، تحلیل متن و هوش مصنوعی است.
[1] . Deep Neural Network