Manuscript ID : A-10-2453-1 Visit : 5682 Page: 136 - 159

Article Type: Original Research

Use of conditional generative adversarial network to produce synthetic data with the aim of improving the classification of users who publish fake news

Subject Areas :

1 - University student
2 - Assistant Professor

Received: 2020-10-10 Accepted : 2021-02-20 Published : 2021-09-04

Keywords: Fake news publisher user detection, Imbalanced datasets, Generative Adversarial Network, Graph of user interaction, Node Embedding.,

Abstract :

For many years, fake news and messages have been spread in human societies, and today, with the spread of social networks among the people, the possibility of spreading false information has increased more than before. Therefore, detecting fake news and messages has become a prominent issue in the research community. It is also important to detect the users who generate this false information and publish it on the network. This paper detects users who publish incorrect information on the Twitter social network in Persian. In this regard, a system has been established based on combining context-user and context-network features with the help of a conditional generative adversarial network (CGAN) for balancing the data set. The system also detects users who publish fake news by modeling the twitter social network into a graph of user interactions and embedding a node to feature vector by Node2vec. Also, by conducting several tests, the proposed system has improved evaluation metrics up to 11%, 13%, 12%, and 12% in precision, recall, F-measure and accuracy respectively, compared to its competitors and has been able to create about 99% precision, in detecting users who publish fake news.

References:

Parikh, S.B. and P.K. Atrey. "Media-rich fake news detection: A survey. " in 2018 IEEE Conference on Multimedia Information Processing and Retrieval (MIPR). 2018. IEEE.
[2] Kochkina, E., M. Liakata, and A. Zubiaga, "All-in-one: Multi-task learning for rumour verification. " arXiv preprint arXiv:1806.03713, 2018.
[3] Tacchini, E., et al., "Some like it hoax: Automated fake news detection in social networks. " arXiv preprint arXiv:1704.07506, 2017.
[4] Shu, K., et al., "Fake news detection on social media: A data mining perspective. " ACM SIGKDD explorations newsletter, 2017. 19(1): p. 22-36.
[5] Inuwa-Dutse, I., M. Liptrott, and I. Korkontzelos, "Detection of spam-posting accounts on Twitter. " Neurocomputing, 2018. 315: p. 496-511.
[6] Bindu, P., R. Mishra, and P.S. Thilagam, "Discovering spammer communities in Twitter. " Journal of Intelligent Information Systems, 2018. 51(3): p. 503-527.
[7] de Souza, J.V., et al., "A systematic mapping on automatic classification of fake news in social media. " Social Network Analysis and Mining, 2020. 10(1): p. 1-21.
[8] Grinberg, N., et al., " Fake news on Twitter during the 2016 US presidential election. " Science, 2019. 363(6425): p. 374-378.
[9] Maaten, L.v.d. and G. Hinton, "Visualizing data using t-SNE. " Journal of machine learning research, 2008. 9(Nov): p. 2579-2605.
[10] Gheewala, S. and R. Patel. "Machine learning based Twitter Spam account detection: a review. " in 2018 Second International Conference on Computing Methodologies and Communication (ICCMC). 2018. IEEE.
[11] Gaonkar, S., et al. " Detection Of Online Fake News: A Survey. " in 2019 International Conference on Vision Towards Emerging Trends in Communication and Networking (ViTECoN). 2019. IEEE.
[12] Hardalov, M., I. Koychev, and P. Nakov. " In search of credible news. " in International Conference on Artificial Intelligence: Methodology, Systems, and Applications. 2016. Springer.
[13] Goodfellow, I., et al. "Generative adversarial nets. " in Advances in neural information processing systems. 2014.
[14] Douzas, G. and F. Bacao, "Effective data generation for imbalanced learning using conditional generative adversarial networks. " Expert Systems with applications, 2018. 91: p. 464-471.
[15] Mirza, M. and S. Osindero, "Conditional generative adversarial nets. " arXiv preprint arXiv:1411.1784, 2014.
[16] Grover, A. and J. Leskovec. "node2vec: Scalable feature learning for networks. " in Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. 2016. ACM.
[17] Conroy, N.K., V.L. Rubin, and Y. Chen, "Automatic deception detection: Methods for finding fake news. " Proceedings of the Association for Information Science and Technology, 2015. 52(1): p. 1-4.
[18] Bondielli, A. and F. Marcelloni, "A survey on fake news and rumour detection techniques. " Information Sciences, 2019. 497: p. 38-55.
[19] Mohammadrezaei, M., M.E. Shiri, and A.M. Rahmani, "Identifying fake accounts on social networks based on graph analysis and classification algorithms. " Security and Communication Networks, 2018. 2018.
[20] Yang, C., R. Harkreader, and G. Gu, "Empirical evaluation and new design for fighting evolving twitter spammers. " IEEE Transactions on Information Forensics and Security, 2013. 8(8): p. 1280-1293.
[21] Wang, A.H. "Don't follow me: Spam detection in twitter. " in 2010 international conference on security and cryptography (SECRYPT). 2010. IEEE.
[22] Benevenuto, F., et al. "Detecting spammers on twitter. " in Collaboration, electronic messaging, anti-abuse and spam conference (CEAS). 2010.
[23] Masood, Faiza, et al. "Spammer detection and fake user identification on social networks." IEEE Access 7 (2019): 68140-68152.‏
[24] Xie, Y., et al. "A Fake News Detection Framework Using Social User Graph. " in Proceedings of the 2020 2nd International Conference on Big Data Engineering. 2020.
[25] KARUNAKAR, M.G., et al., " ADAPTIVE DETECTING FAKE PROFILES IN ONLINE SOCIAL NETWORKS. "
[26] Della Vedova, M.L., et al. "Automatic online fake news detection combining content and social signals. " in 2018 22nd Conference of Open Innovations Association (FRUCT). 2018. IEEE.
[27] Shu, K., et al. "defend: Explainable fake news detection. " in Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019.
[28] Guacho, G.B., et al. "Semi-supervised content-based detection of misinformation via tensor embeddings. " in 2018 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining (ASONAM). 2018. IEEE.
[29] Shu, K., et al. "The role of user profiles for fake news detection. " in Proceedings of the 2019 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining. 2019.
[30] Shu, K., S. Wang, and H. Liu. "Beyond news contents: The role of social context for fake news detection. " in Proceedings of the Twelfth ACM International Conference on Web Search and Data Mining. 2019.
[31] Hamdi, T., et al. "A Hybrid Approach for Fake News Detection in Twitter Based on User Features and Graph Embedding. " in International Conference on Distributed Computing and Internet Technology. 2020. Springer.
[32] Aphiwongsophon, S. and P. Chongstitvatana. "Detecting fake news with machine learning method. " in 2018 15th International Conference on Electrical Engineering/Electronics, Computer, Telecommunications and Information Technology (ECTI-CON). 2018. IEEE.
[33] Hussain, M.G., et al., "Detection of Bangla Fake News using MNB and SVM Classifier. " arXiv preprint arXiv:2005.14627, 2020.
[34] Li, Y., et al., "Exploiting similarities of user friendship networks across social networks for user identification. " Information Sciences, 2020. 506: p. 78-98.
[35] Vijayaraghavan, S., et al., "Fake News Detection with Different Models. " arXiv preprint arXiv:2003.04978, 2020.
[36] Jadhav, S.S. and S.D. Thepade, "Fake news identification and classification using DSSM and improved recurrent neural network classifier. " Applied Artificial Intelligence, 2019. 33(12): p. 1058-1068.
[37] Ajao, O., D. Bhowmik, and S. Zargari. "Fake news identification on twitter with hybrid cnn and rnn models. " in Proceedings of the 9th international conference on social media and society. 2018.
[38] Zhang, J., B. Dong, and S.Y. Philip. "Fakedetector: Effective fake news detection with deep diffusive neural network. " in 2020 IEEE 36th International Conference on Data Engineering (ICDE). 2020. IEEE.
[39] Verma, A., V. Mittal, and S. Dawn. "FIND: Fake information and news detections using deep learning. " in 2019 Twelfth International Conference on Contemporary Computing (IC3). 2019. IEEE.
[40] Ruan, N., R. Deng, and C. Su, "GADM: Manual fake review detection for O2O commercial platforms. " Computers & Security, 2020. 88: p. 101657.
[41] Hosseinimotlagh, S. and E.E. Papalexakis. "Unsupervised content-based identification of fake news articles with tensor decomposition ensembles. " in Proceedings of the Workshop on Misinformation and Misbehavior Mining on the Web (MIS2). 2018.
[42] Yang, S., et al. "Unsupervised fake news detection on social media: A generative approach. " in Proceedings of the AAAI Conference on Artificial Intelligence. 2019.
[43] Phan, T.D. and N. Zincir‐Heywood, "User identification via neural network based language models. " International Journal of Network Management, 2019. 29(3): p. e2049.
[44] Mateen, M., et al. "A hybrid approach for spam detection for Twitter. " in 2017 14th International Bhurban Conference on Applied Sciences and Technology (IBCAST). 2017. IEEE.
[45] Chen, C., et al., "Statistical features-based real-time detection of drifted twitter spam. " IEEE Transactions on Information Forensics and Security, 2016. 12(4): p. 914-925.
[46] Volkova, S., et al. "Separating facts from fiction: Linguistic models to classify suspicious and trusted news posts on twitter. " in Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2017.
[47] Mahmoodabad, S.D., S. Farzi, and D.B. Bakhtiarvand. "Persian rumor detection on twitter. " in 2018 9th International Symposium on Telecommunications (IST). 2018. IEEE.
[48] Wang, W., et al. "Global-and-Local Aware Data Generation for the Class Imbalance Problem. " in Proceedings of the 2020 SIAM International Conference on Data Mining. 2020. SIAM.
[49] Rout, N., D. Mishra, and M.K. Mallick, "Handling imbalanced data: A survey", in International Proceedings on Advances in Soft Computing, Intelligent Systems and Applications. 2018, Springer. p. 431-443.
[50] Chen, H. and L. Jiang, " Efficient GAN-based method for cyber-intrusion detection. " arXiv preprint arXiv:1904.02426, 2019.
[51] Lee, J. and K. Park, "GAN-based imbalanced data intrusion detection system. " Personal and Ubiquitous Computing, 2019: p. 1-8.
[52] Kim, J.-Y., S.-J. Bu, and S.-B. Cho. "Malware detection using deep transferred generative adversarial networks. " in International Conference on Neural Information Processing. 2017. Springer.
[53] Radford, A., L. Metz, and S. Chintala, "Unsupervised representation learning with deep convolutional generative adversarial networks. " arXiv preprint arXiv:1511.06434, 2015.
[54] Kovács, G., "An empirical comparison and evaluation of minority oversampling techniques on a large number of imbalanced datasets. " Applied Soft Computing, 2019. 83: p. 105662.
[55] Chawla, N.V., et al., "SMOTE: synthetic minority over-sampling technique. " Journal of artificial intelligence research, 2002. 16: p. 321-357.
[56] Batista, G.E., R.C. Prati, and M.C. Monard, "A study of the behavior of several methods for balancing machine learning training data. " ACM SIGKDD explorations newsletter, 2004. 6(1): p. 20-29.
[57] Han, H., W.-Y. Wang, and B.-H. Mao. "Borderline-SMOTE: a new over-sampling method in imbalanced data sets learning. " in International conference on intelligent computing. 2005. Springer.
[58] Cieslak, D.A., N.V. Chawla, and A. Striegel. "Combating imbalance in network intrusion datasets. " in GrC. 2006.
[59] De La Calleja, J. and O. Fuentes. "A Distance-Based Over-Sampling Method for Learning from Imbalanced Data Sets. " in FLAIRS Conference. 2007.
[60] He, H., et al. "ADASYN: Adaptive synthetic sampling approach for imbalanced learning. " in 2008 IEEE international joint conference on neural networks (IEEE world congress on computational intelligence). 2008. IEEE.
[61] Dong, Y. and X. Wang. "A new over-sampling approach: random-SMOTE for learning from imbalanced data sets. " in International Conference on Knowledge Science, Engineering and Management. 2011. Springer.
[62] Lee, H., J. Kim, and S. Kim, "Gaussian-Based SMOTE Algorithm for Solving Skewed Class Distributions. " International Journal of Fuzzy Logic and Intelligent Systems, 2017. 17(4): p. 229-234.
[63] Ma, L. and S. Fan, "CURE-SMOTE algorithm and hybrid algorithm for feature selection and parameter optimization based on random forests. " BMC bioinformatics, 2017. 18(1): p. 1-18.
[64] Koziarski, M. and M. Wożniak, "CCR: A combined cleaning and resampling algorithm for imbalanced data classification. " International Journal of Applied Mathematics and Computer Science, 2017. 27(4): p. 727-736.
[65] Breuer, Adam, Roee Eilat, and Udi Weinsberg. "Friend or Faux: Graph-Based Early Detection of Fake Accounts on Social Networks." Proceedings of The Web Conference 2020. 2020.‏
[66] Liu, Yang, and Yi-Fang Brook Wu. "FNED: A Deep Network for Fake News Early Detection on Social Media." ACM Transactions on Information Systems (TOIS) 38.3 (2020): 1-33.
[67] Liao, Hao, Qixin Liu, and Kai Shu. "Incorporating User-Comment Graph for Fake News Detection." arXiv preprint arXiv:2011.01579 (2020).‏
[68] Balaanand, Muthu, et al. "An enhanced graph-based semi-supervised learning algorithm to detect fake users on Twitter." The Journal of Supercomputing 75.9 (2019): 6085-6105.‏
[69] Fawcett, Tom. "An introduction to ROC analysis." Pattern recognition letters 27.8 (2006): 861-874.‏

Full-Text:

دو فصلنامه علمي

فناوري اطلاعات و ارتباطات ایران

سال سیزدهم، شماره‌هاي 47 و 48، بهار و تابستان 1400

صص: 136_159

$E:\E Drive\logo\iicta Logo0.JPG$

استفاده از شبکه مولد متخاصم شرطی برای تولید داده مصنوعی با هدف بهبود کلاسبندی کاربران منتشرکننده اخبار جعلی

عارفه اسمعیلی* سعید فرضی**

*کارشناس ارشد نرم افزار، گروه مهندسی کامپیوتر، دانشگاه صنعتی خواجه نصیر الدین طوسی

** استادیار گروه مهندسی کامپیوتر، دانشگاه صنعتی خواجه نصیر الدین طوسی

تاریخ دریافت:19/07/1399 تاریخ پذیرش:02/12/1399

نوع مقاله: پژوهشی

چکیده

سالیان درازی است که اخبار و پیامهای جعلی در جوامع انسانی منتشر میگردد و امروزه با فراگیرشدن شبکههای اجتماعی در بین مردم، امکان نشر اطلاعات نادرست بیشتر از قبل شده است. بنابراین، شناسایی اخبار و پیامهای جعلی به موضوع برجستهای در جوامع تحقیقاتی تبدیل شده است. ضمناً، شناسایی کاربرانی که این اطلاعات نادرست را ایجاد میکنند و در شبکه نشر میدهند، از اهمیت بالایی برخوردار است. این مقاله، به شناسایی کاربرانی که با زبان فارسی اقدام به انتشار اطلاعات نادرست در شبکه اجتماعی توئیتر میکنند، پرداخته است. در این راستا، سیستمی بر مبنای ترکیب ویژگیهای بافتار-کاربر و بافتار-شبکه با کمک شبکه مولد متخاصم شرطی برای متوازنسازی مجموعه داده پایهریزی شده است. همچنین، این سیستم با مدلکردن شبکه اجتماعی توئیتر به گراف تعاملات کاربران و تعبیه گره به بردار ویژگی توسط Node2vec، کاربران منتشرکننده اخبار جعلی را شناسایی میکند. علاوه بر این، با انجام آزمایشات متعدد، سیستم پیشنهادی تا حدود 11% ، 13 % ،12 % و 12 % به ترتیب در معیارهای دقت، فراخوانی، معیار اف و صحت نسبت به رقبایش بهبود داشته است و توانسته است دقتی در حدود 99% در شناسایی کاربران منتشرکننده اخبار جعلی ایجاد کند.

کلید واژگان: شناسایی کاربر منتشرکننده اخبار جعلی، مجموعه دادههای نامتوازن، شبکه مولد متخاصم، گراف تعاملات کاربران، تعبیه گره.

1 مقدمه

از زمانهای گذشته تاکنون اطلاعات و پیامهای جعلی همواره وجود داشته است [1]، که برای جوامع بشری مشکلات فراوانی ایجاد کرده است [2].

نویسنده مسئول: عارفه اسمعیلی arefehesmaili@email.kntu.ac.ir

در نتیجه، همواره اطمینان از درستی خبر درجوامع بشری احساس شده است [3]. امروزه نیز با پیشرفت و گسترش شبکههای اجتماعي و دسترسي آسان به آنها، شبکههای اجتماعي به پلتفرم مناسبی برای دنبالکردن رخداد و اخبار جهان تبدیل شدهاند [4]. علاوه بر این، در این شبکهها اجازه انتشار اطلاعات متنوع و زیاد، بدون چک کردن اعتبار¹ آنها داده ميشود [5]. بنابراين، کاربران میتوانند با ایجاد حساب جعلي²، انواع جديدی از اطلاعات مخرب³ و نادرست را در شبکههای اجتماعی توليد و منتشر کنند. به طور مثال، هرزنامهها⁴ نوعي فعاليت مخرب هستند که کاربران جعلی⁵ پيامهای ناخواستهای را به صورت پيامهای کلاهبرداری، پيامهايي شامل ويروس و غيره ازطريق آنها ارسال ميکنند [6]. اکثر اخبار جعلی در زمینههای مسائل اعتقادی، اقتصادی و سیاسی وجود دارد [7]. برای اشاره به نمونهای از این نوع فعالیتها، میتوان به انتخابات آمریکا در سال 2016 اشاره کرد که مطالعه منابع خبری جعلي در آخرين هفته انتخابات توسط مردم، روی نتايج انتخابات اثرگذار بوده است [8]. همانطور که مشهود است، اين پيامها اعتبار شبکههای اجتماعی را کاهش میدهد و امنيت کاربران و حريم شخصي آنها را نيز تحت تاثير خود قرار ميدهد [10]. بنابراین، شناسایی اخبار و پیامهای جعلی در بین جوامع تحقیقاتی به موضوع برجستهای تبدیل شده است. شبکههای اجتماعی آنلاین⁶ مانند توئیتر، فیسبوک و لینکدین و غیره به دلیل فراگیری و استفاده بیشتر از آنها در بین مردم نسبت به گذشته تبدیل به بستری برای انتشار اطلاعات و اخبار نادرست شده است [11]. ضمناً، توئیتر به علت تبدیلشدن به مجرایی برای انتشار اخبار بلادرنگ در بین دولتمردان و افراد تحصیلکرده، پلتفرم مناسبی برای انتشار اخبار جعلی شده است⁷. ضمناً، چون اکثرکاربران توئیتر اقدام به تبادل اطلاعات با زبان انگلیسی میکنند، بیشتر تحقیقات بر روی این زبان صورت گرفته است [12] و از توجه به زبانهای مهم دیگری مانند فارسی که منابع زبانشناسیکمتری برای آنها وجود دارد، غفلت شده است.

علیرغم اینکه مطالعات انجامشده در حوزه شناسایی اخبار جعلی معمولاً بر روی متن خبر انجام شده است، شناسایی کاربر منتشرکننده این اخبار نیز از اهمیت ویژهای برخوردار است [6]. کاربران منتشرکننده اخبار جعلی در این مقاله، حساب کاربری هستند که حداقل یک بار پیامی حاوی خبر جعلی در شبکه اجتماعی منتشر کردهاند. در این مقاله، یک سیستم پیشنهادی برای شناسایی کاربران منتشرکننده اخبار جعلی مبتنی بر ترکیب ویژگیهای مبتنی بر کاربر-شبکه پیشنهاد داده شده است. از چالشهایی که در این حوزه وجود داشت، میتوان به 1) عدم توازن کلاسها در مجموعه داده و 2) معرفی سیستمی برای شناسایی کاربران جعلی از کاربران عادی اشاره کرد. برای رفع چالش اول، از روش یادگیری عمیق، شبکه مولد متخاصم شرطی⁸ برای متوازنسازی مجموعه داده استفاده شده است و برای رفع چالش دوم، با مدلکردن شبکه اجتماعی توئیتر به گراف وزندار و جهتدار و ترکیب اطلاعات کاربران با ویژگیهایی که باتعبیه⁹ گره به بردار ویژگی (Node2vec) به دست میآیند، کلاسبندی برای دستهبندی کاربران منتشرکننده اخبار جعلی از کاربران عادی طراحی شده است. ضمناً، در این مقاله از مجموعه داده جمعآوریشده توئیتر فارسی در بازه دو هفتهای مدت وقوع زلزله کرمانشاه ایران در سال 1396 استفاده شده است، که با برچسبگذاری دستی¹⁰ دادهها، توسعهداده شده است. به کمک انجام آزمایشات مختلف و متنوع بر روی مجموعه داده که با اهداف معینی صورت گرفته است، برتری سیستم پیشنهادی در مقایسه با رقبای خود چون روش بیش نمونهبرداری اقلیت مصنوعی¹¹، Borderline-SMOTE، ADASYN،CCR ، Cure-SMOTE، Gaussian-SMOTE،Random-SMOTE ، Distance-SMOTE، Cluster-SMOTE و غیره در معیارهای ارزیابی چون صحت¹²، فراخوانی¹³، معیار اف¹⁴ و دقت¹⁵ نشان داده شده است.

نوآوری مقاله ما به صورت زیر خواهد بود:

· گسترش مجموعه داده فارسی در شبکه اجتماعی توئیتر، برای شناسایی کاربران منتشرکننده اخبار جعلی

· معرفی سیستمی برای کلاسبندی کاربران منتشرکننده اخبار جعلی و کاربران عادی

در بخش بعدی دستهبندی برکارهای گذشته در این حوزه انجام شده است. در ادامه، خلاصهای از شبکه مولد متخاصم و شبکه مولد متخاصم شرطی و روش تعبیه گره (Node2vec) ارائه خواهد شد. همچنین، در بخش 3 سیستم پیشنهادی مقاله و در بخش 4 آزمایشات تکمیلی و نتایج ارزیابی نمایش داده شده است. نهایتاً، به ترتیب در بخش 5 و 6 نتیجهگیری و مراجع استفاده شده، شرح داده شده است.

2 کارهای مرتبط و پیشزمینه

2.1 پیشزمینه

در این بخش از مقاله، خلاصهای از شبکه مولد متخاصم و شبکه مولد متخاصم شرطی و سپس، روش تعبیه گره به بردار (Node2vec) بهطورخلاصه تشریح میگردد.

v شبکه مولد متخاصم و شبکه مولد متخاصم شرطی:

شبکه مولد متخاصم بر مبنای رقابت بین دو مؤلفه تولیدکننده و تمایزدهنده پایهریزی شده است. هدف فریب دادن است. هدف ایجاد تمایز بین نمونههای تولیدی G و نمونههای موجود در مجموعه داده است. هر دو مؤلفه سعی در باهوش کردن یکدیگر دارند. با بازخورد گرفته شده از نمونههای تولیدیتوسط، عملکرد G بهبود مییابد. همچنین، اگر بتواند به راحتی نمونههای واقعی را از نمونههای تولیدی تشخیص دهد، G کیفیت نمونههای تولیدی خود را کاهش میدهد. مؤلفه تولیدکننده به صورت تعریف میشود که Z فضای اختلال¹⁶ با بعد دلخواه است و همچنین، X فضای داده است که هدف G به دست آوردن توزیع داده است. مؤلفه تمایزدهنده به صورت D: X → [0, 1] تعریف میشود و احتمال اینکه نمونه از مجموعه داده یا از G میآید، را تخمین میزند. این دو مؤلفه در یک بازی کمینه-بیشینه¹⁷ مطابق رابطه 1 با هم به رقابت میپردازند:

به طوریکه:

(1)

مقادیری هستند که از توزیع داده نمونه گرفته شدهاند و مقادیر از توزیع اختلال میآیند. مرحله آموزش شامل k مرحله آموزش D و یک مرحله آموزش G است. D در طول آموزش یاد میگیرد که به نمونههای داده واقعی برچسب یک و به نمونههای تولیدی G برچسب صفر دهد. همچنین، Gبا دادن برچسب یک به دادههای تولیدی خود سعی دارد D را فریب دهد. با یادگیری توزیع داده توسط تولیدکننده و رسیدن متمایزکننده به نصف برای هر مقدار ورودی، این بازی خاتمه مییابد [13].

شبکه مولد متخاصم شرطی نوع توسعه داده شده شبکه مولد متخاصم است که یک فضای اضافیY دارد که در آن اطلاعات اضافی از مجموعه داده آموزشی به ساختار فوق اضافه میشود و روی نمونههای تولیدی G شرط میگذارد. در این چارچوب فضای جدید Y به هر دو مؤلفه اضافه میگردد. به طوریکه، مؤلفه G، G: Z*Y → X و مؤلفه D، D: X*Y → [0, 1] تعریف خواهد شد.

پارامترهای رابطه 1 به صورت رابطه 2 بازنویسی میگردد:

مرحله آموزشی در هر دو شبکه مشابه یکدیگر است و تابع هزینه با m دسته کوچک¹⁸ از نمونههای آموزشی و به همین تعداد از نمونههای فضای اختلال به روز میشوند. تابع هزینه مؤلفه تمایزدهنده در رابطه 3 نشان داده شده است.

(2)

برای جلوگیری از اشباع¹⁹ تمایزدهنده، تابع هزینه تولیدکننده به صورت رابطه 4 درنظر گرفته خواهد شد [14].

(3)

با بهروزرسانیهای چرخشی مبتنی بر شیب²⁰ بین دو رابطه 3 و 4 شبکه مولد متخاصم شرطی آموزش میبیند. معماری سادهای از شبکه مولد متخاصم شرطی در شکل 1 قابل مشاهده است [15].

(4)

شکل 1. شبکه مولد متخاصم شرطی [15]

v Node2vec: Node2vec روش یادگیری نیمهناظر برای تعبیه²¹ گره به نقاطی در فضای برداری با بعد کمتر با حفظ بیشترین همسایگی است. این روش دو معادله²² هموفیلی و ساختاری را در نظر میگیرد. در معادلات هموفیلی²³ گرهها میتوانند مبتنی بر جامعهای²⁴ که به آن تعلق دارند، سازماندهی شوند و در معادله ساختاری²⁵ گرهها میتوانند براساس نقش ساختاری خود در شبکه، سازماندهی شوند. به طور مثال، در شکل2 گره C , E در دو جامعه مجزا قرار دارند ولی نقش ساختاری یکسانی دارند. گرههایA , C به یک جامعه تعلق دارند.

شکل 2. نمونه گراف

این روش بر روی دو هدف تمرکز دارد. هدف اول آن، تعبیه گرههایی که به یک جامعه تعلق دارند، در نزدیکی یکدیگر است و همچنین، هدف دوم آن، تعبیه گرهها با نقش ساختاری یکسان در گراف در نزدیکی یکدیگر است. بنابراین، برای تحقق این دو هدف، Node2vec با وزندهی یالهای گراف به صورت شکل 3، و با پیادهروی تصادفی²⁶ روی گراف و با ترکیب جستجوی اول سطح²⁷ برای معادلات ساختاری و با جستجوی اول عمق²⁸ برای معادلات هموفیلی، دنبالهای از گرهها در گراف ایجاد میکند که شبیه به دنبالهای از کلمات در جمله خواهد بود. سپس، همانطور که در شکل4 مشهود است با کمک ابزار Word2vec و بهرهگیری از Skip-gram دنباله ایجادشده را به بردار ویژگی تبدیل میکند [16].



شکل 3. نحوه وزندهی به یالها. فرض شده است که در پیادهروی تصادفی از گره t به v رفته شده است، حال باید مشخص شود از گره v به کدام گره خواهد رفت که طبق معادله وزندهی میشود و جهت حرکت مشخص خواهد شد [16] .

شکل 4. مراحل Node2vec

2.2 کارهای مرتبط

اولین سایت اجتماعی با نام Six degree.com در سال 1997 میلادی شروع به کارکرد ولی خیلی زود کنار گذاشته شد [10]. بعد از آن شبکههای اجتماعی چون فیسبوک، لینکدین، اینستاگرام، توئیتر و غیره برای برقراری ارتباط کاربران سراسر جهان با یکدیگر، یافتن اخبار و به اشتراکگذاری رویدادها به صورت تصویر، متن، ویدئو و غیره پا به عرصه ظهور گذاشتند. از طرفی با گسترش و فراگیری این شبکهها در بین مردم، شبکههای اجتماعی نوظهور تبدیل به پلتفرم مناسبی برای انتشار اطلاعات غلط، لینکهای هرزنامه، پیامهای ناخواسته و ساخت حسابهای جعلی شدهاند [7].

اخبار جعلی عمداً برای فریبدادن خواننده نوشته میشوند، که نادرستی آنها توسط منابع موثق قابل اثبات است [17]. اما شایعات اطلاعاتی هستند که درستی آنها توسط منبع رسمی تایید نشده است و در حال پخششدن در بین افراد هستند [18]. کاربران مخرب، به دنبال نقض حریم خصوصی کاربران دیگر یا سوء استفاده از نام و اعتبار آنها با ایجاد حساب جعلی هستند [19]. توئیتر یکی از رایجترین وب سایتهایی است که میکروبلاگینگ رایگان شامل ارسال تصویر، ویدئو، متن و غیره را در اختیار کاربرانش قرار داده است [20]. کاربران توئیتر برای تبادل اطلاعات میتوانند از پیامهای کوتاهی شامل حداکثر 280 کاراکتر که به آنها توئیت²⁹ گفته میشود، استفاده کنند [21]. ضمناً، ارتباطات جهتدار خواهد بود، یعنی هر کاربر دنبالکننده³⁰ و دنبالشونده³¹ خود را دارد. همچنین، توئیت میتواند در شبکه بازنشر شود که به آن ریتوئیت³² گویند. ضمناً، میتوان در جواب توئیتی پاسخی گذاشت. کاربران توئیتر معمولاً از هشتگ برای مشخصکردن موضوع خاص در توئیت خود استفاده میکنند. هشتگهای مشهور به موضوعات روز³³ تبدیل میشوند [22].

مطالعات گستردهای در شبکه اجتماعی توئیتر برای شناسایی اقدامات فریبکارانه مبتنی بر آدرس اینترنتی، محتوای جعلی، شناسایی کاربر جعلی، استخراج هرزنامه در موضوعات روز انجام شده است [23]. محققان در ابتدا مدلی پیشنهاد دادند که هرزنامهها را از طریق آدرس اینترنتی آنها فیلتر میکرد. به همین منظور، توئیتر توسط Bot Maker امکان حذف هرزنامهها توسط آدرس اینترنتی آنها را فراهم آورد. اما محققان دریافتند که 90 درصد هرزنامهها با استفاده از آدرس اینترنتی جدید از فیلتر گذر میکردند که باعث شکست این ایده شد. اخیراً، محققان به دنبال روشهایی برای استفاده از الگوریتمهای مبتنی بر یادگیری ماشین هستند [10]. شناسایی کاربران و اخبار جعلی یک کلاسبندی شامل دو کلاس است که شامل دستهبندی کاربران و اخبار، به جعلی و عادی است. کارهای انجام شده درحوزه استخراج ویژگیهای موردنیاز برای کلاسبندها به دو دسته 1) مبتنی بر محتوا³⁴ و 2) مبتنی بر بافتار³⁵ تقسیم میگردد. در ویژگیهای مبتنی بر محتوا به قواعد زبانشناسی مانند نحو³⁶، معنا³⁷، واژه³⁸ در متن توجه میشود. از آنجا که ساختار زبانشناسی متن عادی میتواند توسط متن جعلی تقلید شود [24]، ویژگیهای مبتنی بر بافتار به روی کار آمدند. همچنین، این ویژگی نیز شامل دو دسته مبتنی بر شبکه³⁹ و مبتنی بر کاربر⁴⁰ است. در ویژگیهای مبتنی بر بافتار-کاربر به ویژگیهای آماری چون شماره حساب، آدرس اینترنتی موجود در توئیت، عکس پروفایل کاربران، تعداد پست ایجاد شده توسط کاربر، تعداد دنبالکننده و دنبالشونده، سن و غیره توجه میشود. امکان تقلید و جعل در این نوع ویژگیها نیز به کمک ایجاد پست و خرید دنبالکننده و غیره وجود دارد. برای جلوگیری از این موضوع، از ویژگیهای مبتنی بر بافتار - شبکه مانند الگوی انتشار، چگالی، ضریب خوشهبندی⁴¹، تعداد ریتوئیت، دفعات انتشار پست، پسندیدن⁴² یک پست و تعاملات کاربر با خبر و غیره میتوان استفادهکرد. دستهبندی انواع ویژگیها برای شناسایی اخبار و کاربر جعلی در شکل5 آمده است.

شکل 5 . گونه شناسی انواع ویژگیها و مثالهایی از هر گروه برای شناسایی اخبار و کاربر جعلی

کارونکار و همکارانش [25]، برای شناسایی پروفایل کاربران جعلی در فیسبوک از روشهای زبانشناسی استفاده کردهاند که امکان تقلید این نوع ویژگی توسط کاربران جعلی وجود دارد. برای جلوگیری از این موضوع، در این مقاله، به ویژگیهای مبتنی بر شبکه و بافتار-کاربر توجه شده است. دلا ودووا و همکارانش [26]، کای شو و همکارانش [27]، جیزل باستیداس گواچو و همکارانش [28] از ترکیب ویژگیهای مبتنی بر محتوا و شبکه برای تشخیص اخبار جعلی استفاده کردهاند، که به دلیل استفاده از ویژگیهای مبتنی بر محتوا بر مشکل شروع سرد⁴³ غلبه پیدا کردهاند؛ شروع سرد به معنای ایجاد و انتشار پستی به تازگی در شبکه است که کاربری آن را نپسندیده یا بازنشر نکرده است و الگوی گسترش آن در شبکه هنوز تکمیل نشده است. سویتلانا ولکووا و همکارانش [46]، بر روی اخبار فریب، تبلیغات، هجو و غیره در زمان حمله تروریستی بروکسل در سال 2016 و با در نظر گرفتن متن توئیت و تعاملات کاربران در شبکه توئیتر کار کردهاند؛ این نویسندگان از ایده آموزش شبکه عصبی بر روی مجموعه داده متوازن استفاده کردهاند. ضمناً، هائو لیائو و همکارانش [67]، با ساخت گرافی بین کاربر و نظرات کاربر در شبکه اجتماعی به دنبال استخراج ویژگیهای محتوا و شبکه برای شناسایی اخبار جعلی بودهاند. ضمناً، این نویسندگان برای تعبیه اطلاعات به بردار از روشهای مبتنی بر مکانیزم توجه⁴⁴ که باعث حذف زیادی از اطلاعات نامرتبط میشود، استفاده کردهاند. کای شو و همکارانش [30]، گرافی بین پاسخ کاربر بر روی خبر، کاربر دریافتکننده و ارسالکننده خبر تشکیل داده است و از ترکیب ویژگیهای مبتنی بر محتوا و شبکه برای تشخیص اخبار جعلی استفاده کرده است و به ویژگیهای بافتار-کاربر توجه نکردهاند؛ با این تفاوت که این نویسنده در مقاله دیگری [29]، از ترکیب دو ویژگی بافتار-کاربر و بافتار-شبکه برای شناسایی کاربر جعلی استفاده کردهاند. طارق حمدی و همکارانش [31]، از ترکیب ویژگیهای کاربر و شبکه با کمک تعبیه گره به بردار (Node2vec) برای شناسایی منبع فرستنده اخبار جعلی استفاده کردهاند ولی در این پژوهش، ترکیب این نوع ویژگیها بر روی مجموعه داده نامتوازن و در زبان فارسی بررسی شده است. موتو بالاآناند و همکارانش [68]، با زیر نظر گرفتن رفتار کاربر در بازه زمانی طولانی و ترکیب ویژگیهای مبتنی بر بافتار-کاربر و بافتار-شبکه کاربران جعلی را شناسایی کردهاند. سوپانیا آفی وان سیفان و همکارانش [32]، بررسیهایی بر روی اخبار سیل تایلند با اعمال ویژگیهای مبتنی بر کاربر انجام داده است. گلزار حسین و همکارانش [33]، برای شناسایی خبر جعلی در زبان بنگلادشی از ویژگیهای مبتنی بر محتوا کمک گرفتهاند؛ در صورتیکه، این ویژگی به تنهایی میتواند جعل شود و نیاز به استفاده از دیگر ویژگیها وجود دارد. از مزایای پژوهش این نویسندگان میتوان به ایجاد مجموعه داده جدید در زبان بنگلادشی که منابع زبان شناسی کمتری برای آن وجود دارد، اشاره کرد. یونگجون لی و همکارانش [34]، از ویژگیهای مبتنی بر کاربر استفاده کرده است و با ایجاد گراف به صورت پیشنهاد افراد شبیه به یکدیگر، به دنبال شناسایی کاربران جعلی هستند اما دادههای مورد استفاده در آزمایشات آنها متوازن هستند و به مشکل عدم توازن در مجموعه داده اشارهای نداشتهاند. سیراموینای ویجیاراغوان و همکارانش [35]، با اعمال روشهای زبانشناسی بر روی متن خبر با تعبیه متن با کمک بردار فراوانی اصطلاح- معکوس فراوانی متن⁴⁵ و Word2vec و غیره به دنبال شناسایی اخبار جعلی است. اشروتیکا جدهاو و همکارانش [36]، برای اثبات عملکرد بهتر روشهای یادگیری عمیق در شناسایی اخبار جعلی از شبکههای عصبی بازگشتی⁴⁶ و مدل معنایی ساختاریافته عمیق⁴⁷ استفاده کرده است و همچنین، اولووسون آجاو و همکارانش [37]، با تمرکز بر ویژگیهای محتوایی به دنبال شناسایی اخبار جعلی است اما این نویسندگان به دلیل استفاده شبکه عصبی بازگشتی و شبکه عصبی پیچشی⁴⁸ در کارهای آتی خود اشاره داشتهاند که به مجموعه داده بزرگتری نیاز دارند تا نتایج بهتری به دست آوردند. ژانگ و همکارانش [38]، با ایجادگرافی بین نویسنده و اخبار و موضوع اخبار و ترکیب با اطلاعات محتوایی به دنبال شناسایی اخبار جعلی است. ابیشک ورما و همکارانش [39]، با ایجاد مجموعه دادهای در اخبار هند و اعمال ویژگیهای محتوایی با کمک روشهای یادگیری عمیق سعی در شناسایی خبر جعلی دارند. ضمناً، این نویسندگان بر روی مجموعه داده متوازن کار کردهاند. نا روان و همکارانش [40]، از ویژگیهای مبتنی بر کاربر از جمله موقعیت جغرافیایی برای شناسایی بازبینگر جعلی⁴⁹ استفاده کردهاند. بیندو و همکارانش [6]، معتقد است کاربران جعلی با یکدیگر تشکیل جامعه میدهند. به همین منظور، از الگوریتمهای خوشهبندی برای شناسایی جامعه کاربران جعلی استفاده کرده است. یوجینیو توچینی و همکارانش [3]، تنها بر روی گراف کاربرانی که در فیسبوک، پست یکدیگر را پسندیدن کار کرده است و همچنین، آدام بروئر و همکارانش [65]، برای شناسایی حساب کاربران جعلی فقط ازگراف اتصالات در شبکه استفاده کردهاند که این ویژگی در زمانهایی که شروع سرد در شبکه وجود دارد، کارایی ضعیفی از خود نشان میدهد، به همین دلیل، در این مقاله از ویژگی بافتار-کاربر هم استفاده شده است. سید مهدی حسینی مطلق و همکارانش [41]، از الگوریتم خوشهبندی براساس ویژگیهای مبتنی بر محتوا برای شناسایی اخبار جعلی استفاده کرده است. شو یانگ و همکارانش [42]، از ویژگی مبتنی بر شبکه برای شناسایی کاربر جعلی استفاده کردهاند که مشکل شروع سرد در کار آنها نیز دیده میشود. تائن فان و همکارانش [43]، از نحوه نگارش کاربر و با تعبیه متن نگارش شده به بردار ویژگی، حساب کاربران جعلی را شناسایی میکند. محمدرضا محمدرضایی و همکارانش [19]، با ایجاد گراف دوستی بین کاربران و محاسبه معیارهای شباهت مانند جاکارد و کسینوس و غیره اقدام به شناسایی کاربران جعلی میکند، همچنین، آنها از روش بیش نمونهبرداری اقلیت مصنوعی برای ایجاد توازن در مجموعه داده استفاده کردهاند. اما در این مقاله، علاوه بر ویژگی شبکه بر روی ویژگیهای کاربر هم کار شده است و برای متوازنسازی داده از روشهای مبتنی بر یادگیری عمیق به کمک شبکه مولد متخاصم شرطی استفاده شده است. همچنین، ملیک متین و همکارانش [44]، برای شناسایی کاربرانی که در شبکه توئیتر هرزنامه ایجاد میکنند، از ترکیب سه ویژگی یعنی مبتنی بر محتوا، بافتار-کاربر و بافتار-شبکه استفاده کرده است، اما باید اثرگذاری مدل آنها در شرایط نامتوازن بودن مجموعه داده نیز بررسی گردد. چائو چن و همکارانش [45]، برای شناسایی هرزنامههای موجود در توئیتر از ویژگیهای مبتنی بر بافتار استفاده کرده است. در این مقالات نیز مشکل عدم توازن داده مطرح نیست. یانگ لیو و همکارانش [66]، با اعمال ویژگیهای مبتنی بر بافتار-کاربر و محتوا روی پاسخ کاربران، اخبار جعلی را شناسایی میکنند. ضمناً، آنها با کمک شبکه عصبی بر مشکل شروع سرد غلبه کردهاند. در شکل 6 دستهبندی از مطالب گفتهشده براساس ویژگی مورد استفاده مقالات نشان داده شده است.

[1] 1 Credibility

[2] 2 Fake account

[3] 3 Malicious

[4] 4 Spam

[5] 5 Fake users

[6] 6 Online Social Network (OSN)

[7] 7 https://blog.pixelfish.com.au/twitter-vs-facebook-vs-instagram-vs-linkedin

[8] 8 Conditional generative adversarial network (CGAN)

[9] 9 Embedding

[10] 10 Manual

[11] 11 Synthetic Minority Oversampling Technique (SMOTE)

[12] 12 Accuracy

[13] 13 Recall

[14] 14 F-measure

[15] 15 Precision

[16] 16 Noise

[17] 17 Min-Max

[18] 18 Mini-batch

[19] 19 Saturation

[20] 20 Gradient-Based

[21] 21 Embedding

[22] 22 Equivalence

[23] 23 Hemophilia

[24] 24 Community

[25] 25 Structural

[26] 26 Random walk

[27] 27 Breadth First Search (DFS)

[28] 28 Depth First Search (BFS)

[29] 29 Tweet

[30] 30 Follower

[31] 31 Following

[32] 32 Retweet

[33] 33 Trending Topic

[34] 34 Content-based

[35] 35 Context-based

[36] 36 Syntax

[37] 37 Semantic

[38] 38 Lexical

[39] 39 Network-based

[40] 40 User-based

[41] 41 Clustering Coefficient

[42] 42 Like

[43] 43 Cold start

[44] 44 Attention mechanism-based methods

[45] 45 Term Frequency - Inverse Document Frequency (TF-IDF)

[46] 46 RNN

[47] 47 Deep Structured Semantic Model (DSSM)

[48] 48 Convolutional Neural Network (CNN)

[49] 49 Fake reviewer

شکل 6 . گونه شناسی مقالات براساس ویژگیهای مورد استفاده در آنها

در شکل7 و8 سال انتشار مقالات با دو عدد آخر آن سال نشان داده شده است. به طور مثال، سال 2020 با 20 نمایش داده شده است. در شکل7 دستهبندی مقالات از دیدگاه استفاده از الگوریتمهای کلاسبندی و خوشهبندی و وجود توازن در مجموعه داده بررسی شده است. در شکل 8 مقالات از منظر سال انتشار و ویژگی مورد استفاده و مجموعه داده استفاده شده، دستهبندی شدهاند.

شکل 7. دستهبندی مقالات از منظر خوشهبندی/کلاسبندی و توازن در مجموعه داده

شکل 8 . دستهبندی مقالات براساس ویژگیها و مجموعه داده مورد استفاده

با توجه به مطالعات انجام گرفته مشخص شد اکثر تحقیقات در این حوزه بر روی مجموعه داده متوازن صورت گرفته است و به مجموعه دادههای واقعی که عدم توازن داده در آنها وجود دارد، توجه اندکی شده است. بنابراین در این پژوهش، سیستمی برای شناسایی کاربران منتشرکننده اخبار جعلی با بهرهگیری از ویژگیهای مبتنی بر بافتار شامل ترکیب ویژگیهای شبکه با ویژگیهای مبتنی بر کاربر پیشنهاد داده شده است. علاوه بر این، در این سیستم، مدلی برای حل عدم توازن مجموعه داده واقعی به کمک شبکه مولد متخاصم شرطی ارائه شده است که با توجه به بررسیهای انجام شده نسبت به کارهای پیشین نوآوری به همراه دارد.

3 سیستم پیشنهادی

در این بخش جزئیات سیستم پیشنهادي به طور کامل شرح داده میشود. مراحل شناسایی کاربران منتشرکننده اخبار جعلی با یادگیری ماشین در این مقاله شامل شش مرحله میباشد که به طور خلاصه در شکل9 نمایش داده شده است:

شکل 9. مراحل سیستم پیشنهادی

مرحله اول شامل گردآوری مجموعه داده مناسب است. به همین منظور، در این مقاله از مجموعه داده شبکه توئیتر در زبان فارسی استفاده شده است. به همین منظور، از مجموعه داده "RumorTwitterKNTU" که به کمک رابط برنامهنویسی نرمافزار¹ تعبیه شده توسط وب سایت توئیتر و twitter4j جمعآوری شده بود، استفاده شده است². این مجموعه داده شامل 3598049 توئیت است که توسط 111981 کاربر که با زبان فارسی در بازه زمانی دو هفتهای از 3 آذر ماه سال 1396 تا 17 آذر ماه سال 1396 در مدت وقوع زلزله کرمانشاه ایران در توئیتر انتشار یافته است [47]. در مرحله دوم برچسبدهی دادهها به دو کلاس کاربران منتشرکننده اخبار جعلی وکاربران عادی صورت میگیرد، که در این مرحله از بین 4345 توئیت که از قبل در مجموعه داده با برچسب شایعه نامگذاری شده بود، طی فرآیند انسانی توسط نگارنده این مقاله، متن توئیتها با اطلاعات سایت شایعات³ بازبینی شده است. نهایتاً، 2878 توئیت با برچسب پیام جعلی نامگذاری شده است. در نتیجه، اگر حساب کاربری حداقل یک بار اخبار و اطلاعات جعلی در این مدت پست کرده باشد، آن حساب کاربری با عنوان "کاربر منتشرکننده اخبار جعلی" برچسبگذاری شده است. در نتیجه، 2129 کاربر با برچسب "کاربر منتشرکننده اخبار جعلی" و 109852 کاربر با برچسب "کاربر عادی" نامگذاری شده است. در نهایت، مجموعه داده استاندارد به نام "FakeUser_KNTU (FU_KNTU)" ایجاد گشت.

سپس لازم است تا ویژگیهای موردنیاز برای شناسایی کاربران منتشرکننده اخبار جعلی استخراج شود. این مقاله تمرکز خود را بر روی تأثیر ویژگیهای مبتنی بر بافتار که ترکیب ویژگیهای کاربر و شبکه است، گذاشته است. به همین منظور، در مرحله سوم برای استخراج ویژگیهای مبتنی بر کاربر، 28 ویژگی از اطلاعات کاربران در نظر گرفته شده است؛ در جدول 1 اطلاعات و تعاریف آنها قابل مشاهده است. نهایتاً، این ویژگیها به بردار ویژگی تبدیل شده است.

جدول 1. ویژگیهای مبتنی بر بافتار-کاربر و تعاریف آنها

در مرحله چهارم، برای استخراج ویژگی مبتنی بر بافتار-شبکه، شبکه توئیتر به گراف وزندار و جهتدار مدل شد. این گراف با G=(V,E) نمایش داده شده است که V نشاندهنده کاربران شبکه اجتماعی توئیتر و E روابط و تعاملات بین کاربران را نشان میدهد. به طور مثال، اگر کاربر A در زمان جمعآوری این مجموعه داده، بیست توئیت ایجاد کرده باشد و در این مدت، کاربر Bبر روی پنج توئیت کاربرA پاسخی⁵ گذاشته باشد، همانند شکل 10 جهت یال از سمت کاربر B به سمت کاربرA و وزن این یال 5 خواهد بود. بخش کوچکی از گراف ایجاد شده با 1000 گره در شکل11 قابل مشاهده است.

شکل 10. ساختار گراف

شکل 11. بخشی از گراف ایجاد شده با 1000 گره

بعد از ایجاد گراف، در این مرحله برای استخراج ویژگیهای مبتنی بر بافتار-شبکه، از روش تعبیه Node2vec استفاده شده است که اطلاعات گراف را به بردار ویژگی با بعد دلخواه تبدیل میکند. با استخراج 28 ویژگی مبتنی بر شبکه به کمک این روش و ترکیب این ویژگیها با 28 ویژگی مبتنی بر کاربر از مرحله قبل، در نهایت 56 ویژگی برای شناسایی کاربران منتشرکننده اخبار جعلی انتخاب شده است. با وجود 28 ویژگی عددی در اطلاعات کاربران، در جهت برتری پیدا نکردن ویژگیهای شبکهای بر ویژگی اطلاعات کاربران، دقیقاً تعداد ویژگی هر دسته برابر انتخاب شده است. به عبارت دیگر، برای خنثی کردن اثر یک دسته خاص بر کل نتیجه این تصمیم گرفته شد تا هردو دسته به یک اندازه سیستم نهایی را تحت تأثیر خود قرار دهند.

باید توجه شود که الگوریتمهای یادگیری ماشین بر روی مجموعه دادههای متوازن، به خوبی عمل میکنند. در نتیجه، در مجموعه دادههای نامتوازن عملکرد مناسبی از خود نشان نمیدهند. علاوه بر این، هزینه کلاسبندی اشتباه نمونه کلاس اقلیت خیلی بیشتر از هزینه کلاسبندی اشتباه نمونه کلاس اکثریت است [48]. در مجموعه داده ایجاد شده عدم توازن مشهود است؛ به این معنا که تعداد نمونههای کلاس اکثریت⁶ در اینجا منظور کاربران عادی از تعداد نمونههای کلاس اقلیت یعنی کاربران منتشرکننده اخبار جعلی خیلی بیشتر است. در مجموعه دادههای نامتوازن، به نسبت نمونه کلاس اقلیت به نمونه کلاس اکثریت نرخ نامتوازنی⁷ گویند، که در مجموعه داده " FU_KNTU" عدم توازنی با 1765 نمونه داده کلاس اقلیت و 55877 نمونه داده کلاس اکثریت با نرخی در حدود 03/0 وجود داشت. در نتیجه، مدیریت این نوع دادههای نامتوازن امروزه به چالش بزرگی در حوزههای مختلفی چون بانکداری، امنیت، پزشکی، بازیابی اطلاعات، تشخیص کلاهبرداری و شایعه و اخبار جعلی تبدیل شده است [49]. از این جهت سه رویکرد برای حل این مشکل وجود دارد.

1) تغییر در سطح داده : در این دسته بر روی نمونه مجدد⁸ تمرکز میشود و روشهای نمونه مجدد شامل افزودن نمونه⁹، کاهش نمونه¹⁰ و یا ترکیب هر دو است. در روشهای افزودن نمونه، سعی میشود تا با تولید داده مصنوعی و اضافه کردن داده مصنوعی به کلاس اقلیت، مجموعه داده متوازن شود. در روش کاهش نمونه برخلاف روش قبل سعی میشود تا با کاهش تعداد نمونههای کلاس اکثریت، مجموعه داده به توازن برسد. یکی از روشهای مشهور اضافهکردن داده، روش بیش نمونهبرداری اقلیت مصنوعی است. ایده روش بیش نمونهبرداری اقلیت مصنوعی شامل یافتن داده نزدیک به کلاس اقلیت و تولید داده تصادفی بین محدودهی دادههای کلاس اقلیت است؛ در این روش به علت توجه به توزیع داده محلی¹¹ یادگیری به خوبی صورت نمیگیرد و ممکن است ایجاد همپوشانی¹² یا داده پرت¹³ کند.

2) تغییر در سطح الگوریتم: روشهای موجود در این دسته یادگیری را به سمت کلاس اقلیت میبرند.

3) تغییر در روشهای حساس به هزینه¹⁴: این روش به دنبال کاهش خطا در سطح داده یا الگوریتم است [14] و [48].

در این مقاله برای رفع مشکل عدم توازن از روش تغییر در سطح داده با بهرهگیری از روش جدیدی به نام شبکه مولد متخاصم استفاده شده است که میتواند توزیعداده سراسری¹⁵را یاد بگیرد. با یادگیری توزیع داده توسط این شبکه امکان تولید داده مصنوعی فراهم میآید. شبکه مولد متخاصم یک روش یادگیری بدون ناظر است که از یادگیری عمیق برای تولید داده مصنوعی استفاده میکند. در یادگیری عمیق میتوان به یادگیری خودکار ویژگیها توسط شبکه بدون نیاز به دخالت انسانی اشاره داشت، که از مزیت استفاده از این روش است. از این روش در تولید تصویر، صدا، متن، شناسایی نفوذ و کلاهبرداری و غیره میتوان استفاده کرد [50] تا [52].

در مرحله پنجم این پژوهش برای ایجاد توازن در مجموعه داده از شبکه مولد متخاصم شرطی برای تولید داده مصنوعی استفاده شده است. برای این منظور، این شبکه تنها با برچسب کاربران منتشرکننده اخبار جعلی که شامل 1765 داده و 56 ویژگی استخراجشده است، آموزش میبیند و شبکه مولد متخاصم شرطی بعد از مرحله آموزش، 54113 داده مصنوعی با برچسب کلاس اقلیت تولید میکند و به مجموعه داده اضافه میگردد تا نمونههای دو کلاس متوازن شود.

مرحله آخرشامل آموزش کلاسبند با ویژگیهای استخراجشده و آزمون کلاسبند با معیارهای ارزیابی مناسب مانند صحت، فراخوانی، معیار اف و دقت وغیره است تا کارایی سیستم پیشنهادی مشخص شود.

4 آزمایشات تجربی

برای ارزیابی سیستم پیشنهادی، دو سناریو با اهداف معین دنبال شده است. هدف سناریو اول تحلیل حساسیت پارامترهای سیستم است. هدف از سناریو دوم مقایسه سیستم پیشنهادی با رقبای شناخته شده در این زمینه با توجه به معیارهای ارزیابی است. در تمامی آزمایشات، از روش Cross Validation استفاده شده است. ضمناً، شبکه مولد متخاصم شرطی با شبکه عصبی پیچیده عمیق پیادهسازی شده است [53]. الگوریتمهای دیگر متوازنسازی داده با کمک کتابخانه تعبیهشده در پایتون پیادهسازی شده است [54].

4.1 معرفی روش کار رقبا در متوازنسازی داده

در جدول 2 روش کار تعدادی از الگوریتمهای متوازنسازی داده شرح داده شدهاست.

جدول 2 . الگوریتمهای متوازنسازی داده

نام ویژگی

تعریف ویژگی

1- Userid

عدد صحیحی است که نشاندهنده شناسه منحصر به فرد هر کاربر است.

2- uisDefaultProfileImage

آیا کاربر از عکس پیشفرض استفاده کرده است؟

3- ugetFollowersCount

تعداد افرادی که کاربر را دنبال میکنند.

4- uisProfileUseBackgroundImage

آیا کاربر از عکس پسزمینهی پیشفرض استفاده کرده است؟

5- uisDefaultProfile

آیا کاربر تم پروفایلش را عوض کرده است؟

6- uisShowAllInlineMedia

آیا کاربر لینک ویدیو را گذاشته است و یا خود ویدئو را آپلود کرده است؟

7- ugetFriendsCount

تعداد افرادی که کاربر آنها را دنبال میکند.

8- Uyear

سال ایجاد حساب کاربری

9- Umonth

ماه ایجاد حساب کاربری

10- Uday

روز ایجاد حساب کاربری

11- Uhour

ساعت ایجاد حساب کاربری

12- Uminute

دقیقه ایجاد حساب کاربری

13-Usecond

ثانیه ایجاد حساب کاربری

14- ugetFavouritesCount

تعداد توئیتهایی که این کاربر پسندیده است.

15- UgetUtcOffset

منطقه زمانی کاربر را نشان میدهد.

16- uisProfileBackgroundTiled

آیا پسزمینهی کاربر قالب کاشیکاری دارد؟

17- ugetStatusesCount

تعداد توئیت و ریتوئیتهایی که توسط کاربر ایجاد شده است.

18- uisGeoEnabled

آیا منطقه زمانی کاربر فعال است؟

19-uisVerified

این ویژگی نشان میدهد آیا کاربر مورد علاقه عموم مردم است؟ کاربرانی که تیک آبی کنار پروفایل خود دارند، یعنی مورد علاقه عموم مردم هستند .

20- uisTranslator

آیا کاربر مترجم است؟

21- ugetListedCount

تعداد لیستهای عمومی که کاربر عضو آن است.

22- uTweetCountIn15Days

تعداد توئیت ایجاد شده توسط کاربر در بازه دو هفتهای جمعآوری اطلاعات

23- uRetweetCountIn15Days

تعداد ریتوئیت ایجاد شده توسط کاربر در بازه دو هفتهای جمعآوری اطلاعات

24- AlphaForSI

مقدار آن، از طریق رابطه 5 محاسبه شده است.

(5)

25- SI

برای محاسبه اثرگذاری اجتماعی کاربر⁴ از رابطه 6 به دست آمده است.

(6)

26- AlphaForSI2

مقدار آن، از طریق رابطه 7 محاسبه شده است.

(7)

27- SI2

برای محاسبه اثرگذاری اجتماعی کاربر از رابطه 8 به دست آمده است.

(8)

28- userAge

تفاوت زمان ساخت حساب کاربری و زمان گرفتن داده از توئیتر را نشان میدهد.

نام الگوریتم	روش کار
1- SMOTE	این روش، بین کِی نزدیکترین همسایه نمونه کلاس اقلیت و خود نمونه کلاس اقلیت داده مصنوعی تولید میکند [55].
2- Tomek links	این روش، دادههای کلاس اکثریت که در توزیع کلاس اقلیت هستند و به صورت خطی نمیتوان دو کلاس را از هم جدا کرد را حذف میکند و سپس داده مصنوعی تولید میکند [56].
3- ENN	این روش، اگر حداقل دو برچسب از سه همسایه دادههای موجود در هر دو کلاس اقلیت و اکثریت شبیه برچسب خود نمونه نباشد، نمونه را از مجموعه داده حذف میکند. نهایتاً، بعد از اعمال تمیزی¹⁶ داده مصنوعی تولید میکند [56].
4-Borderline-SMOTE (Borderline1,Borderline2)	این روش، به دنبال رسم خط جداکننده دقیقتر بین دو کلاس اقلیت و اکثریت است. سپس، نمونههای نزدیک خط مرزی را با ایجاد داده مصنوعی بیشتر میکند [57] .
5- Cluster-Smote	این روش، ابتدا با اجرای الگوریتم k-means خوشههای کلاس اقلیت را پیدا میکند و بعد الگوریتم SMOTE را روی هر خوشه ایجادشده اعمال میکند، تا داده مصنوعی تولید کند [58].
6- Distance-SMOTE	این روش، ابتدا میانگین کِی نزدیکترین همسایه را پیدا میکند و سپس فاصله نمونه میانگین را با نمونه اصلی میسنجد و این فاصله را در عددی تصادفی بین صفر و یک ضرب میکند و نهایتاً شروع به تولید داده مصنوعی میکند [59].
7- ADASYN	این روش، توزیع وزندار بین نمونههای کلاس اقلیت در نظر میگیرد و دادههای مصنوعی بیشتری برای نمونههایی که یادگیری آنها سختتر است، ایجاد میکند و برای نمونههایی که یادگیری آنها آسانتر است، دادههای کمتری تولید میکند [60].
8- Random-SMOTE	این روش، با انتخاب دو نقطه به صورت تصادفی در فضای داده کلاس اقلیت، مثلثی بین نمونه کلاس اقلیت و دو نقطه انتخابی شکل میدهد. سپس، در مثلث ایجادشده به هر تعداد که لازم است تا مجموعه داده متوازن شود، داده مصنوعی تولید میکند [61].
9- Gaussian- SMOTE	این روش، برخلاف SMOTE که از توزیع احتمال یکنواخت و الگوریتم کِی نزدیکترین همسایه¹⁷ برای تولید داده مصنوعی برای کلاس اقلیت استفاده میکند، در این روش از ترکیب الگوریتم کِی نزدیکترین همسایه و توزیع احتمال گوسی استفاده میشود [62].
10- CURE-SMOTE	این روش، خوشهبندی کلاس اقلیت را با خوشهبندی توسط بازنمایی¹⁸ انجام میدهد و بعد از حذف داده پرت، داده مصنوعی تولید میکند [63].
11- CCR	این روش، ابتدا همسایههای نمونه کلاس اقلیت اگر شامل نمونه کلاس اکثریت باشد را حذف میکند و سپس، داده مصنوعی بیشتری برای نمونههایی که یادگیری آنها سختتراست، تولید میکند [64].

4.2 داده

همانطور که در بخش 3 توضیح داده شد، مجموعه داده توئیتر در زبان فارسی در مدت وقوع زلزله کرمانشاه در بازه زمانی دو هفتهای از 3 آذر ماه سال 1396 تا 17 آذر ماه سال 1396 به نام " FU_KNTU" برای شناسایی کاربران منتشرکننده اخبار جعلی توسط نگارنده جمعآوری و استفاده شده است. همانطور که در قسمت مقدمه اشاره شد، مجموعه داده در زبان فارسی در شبکه توئیتر به منظور استفاده در شناسایی کاربران منتشرکننده اخبار جعلی وجود نداشته است؛ بنابراین، از دستاوردهای این پژوهش میتوان به ایجاد این مجموعه داده و گسترش آن برای استفاده در پژوهشها اشاره کرد؛ این مجموعه داده از طریق لینک زیر قابل دسترسی است¹⁹. خلاصهای از اطلاعات این مجموعه داده در جدول 3 آمده است.

جدول 3 . خلاصهای از اطلاعات مجموعه داده

تعدادکاربر	111981
تعداد توئیت	3598049
تعداد خبر شایعه	4345
تعداد خبر جعلی	2878
تعداد کاربران منتشرکننده اخبار جعلی	2129
تعداد کاربرانی که روی توئیت آنها پاسخ گذاشته شده است.	55877
تعداد کاربران منتشرکننده اخبار جعلی که روی توئیت آنها پاسخ گذاشته شده است.	1765

4.3 معیارهای ارزیابی

برای ارزیابی عملکرد روشهای مبتنی بر یادگیری ماشین، از معیارهایی استفاده میشود، که خلاصهای از تعاریف آنها در ادامه آمدهاست. به همین منظور، در ادامه برای ارزیابی سیستم پیشنهادی و مقایسه سیستم با رقبا از این معیارها استفاده شده است.

§ فراخوانی یا نرخ مثبت درست²⁰ مشخص میکند چه تعداد از نمونههای مرتبط بازیابی شدهاند.

§ دقت مشخص میکند چه تعداد از نمونههای بازیابیشده واقعا مرتبط هستند.

§ صحت مشخص میکند چه نسبتی از نمونهها به طور صحیح کلاسبندی شدهاند.

§ نرخ مثبت کاذب²¹ مشخص میکند چه تعداد از نمونههای نامرتبط بازیابی شدهاند.

§ AUC_ROC²² نشان میدهد چه مقدار سیستم توانسته بین کلاسها تمایز ایجاد کند. مقدار آن از سطح زیر نموداری که در محور افقی آن، نرخ مثبت کاذب و در محور عمودی آن، نرخ مثبت درست قرار میگیرد، به دست میآید. اگر این مقدار بین 5/0 و 1 باشد، نشاندهنده احتمال بالای سیستم در ایجاد تمایز بین کلاسها است. اگر این مقدار برابر 5/0 باشد، به این معنا است که کلاسبند نمیتواند بین دو کلاس تمایز ایجاد کند. تعیین مقدار آستانه²³ برای این نمودار به میزان اهمیت دادن به نرخ مثبت کاذب و نرخ مثبت درست در کلاسبندی بستگی دارد. در این مقاله، به جهت وجود اهمیت یکسان در بین دو کلاس، مقدار آستانه برابر مقدار 5/0 درنظر گرفته شده است [69].

§ زیان²⁴ نشانمیدهد چه قدر پیشبینی سیستم روی یک نمونه خاص بد بوده است. اگر پیشبینی سیستم عالی باشد، مقدار آن برابر صفر است و بر عکس.

§ معیار اف نیز که ترکیبی از دقت و فراخوانی است، به صورت رابطه 9 تعریف میشود.

4.4 پیکربندی

آزمایشات بر روی سیستم 64 bit, core i7, NVIDIA GeForce graphic card, 1TB internal storage, 8 gig RAM به زبان برنامهنویسی پایتون نسخه 6/3، با کتابخانه Scikit-learn Keras node2vec ,networkx, و غیره بر روی سیستم عامل ویندوز 10 انجام شده است.

4.5 تحلیل حساسیت

در این بخش، تحلیل حساسیت پارامترهای اثرگذار که شامل سه بخش پارامترهای مؤثر بر شبکه مولد متخاصم شرطی، پارامترهای مؤثر در تعیین ویژگیهای شبکهای و تأثیر ویژگیها روی سیستم پیشنهادی، مورد بررسی قرار میگیرد تا بهترین مقدار برای پارامترها با توجه به مجموعه داده مورد استفاده، انتخاب شود.

4.5.1 پارامترهای مؤثر بر شبکه مولد متخاصم شرطی

این بخش شامل دو قسمت محاسبه ماتریس ورودی شبکه مولد متخاصم شرطی و تعیین شرط پایان آموزش شبکه مولد متخاصم شرطی است. سایر پارامترهای مهم شبکه مولد متخاصم شرطی در جدول 4 مشخص شده است.

جدول4 . تعدادی از پارامترهای مهم شبکه مولد متخاصم شرطی

(9)	معیار-اف =

مقدار	پارامتر
5	اندازه هسته²⁵
128, 64, 32, 1	تعداد لایههای فیلتر(تولیدکننده)²⁶
32, 64, 128, 256	تعداد لایههای فیلتر(تمایزدهنده)²⁷
1,2	تعداد گام حرکت²⁸
100	اندازه فضای پنهان²⁹
64	اندازه دسته³⁰

v محاسبه ماتریس ورودی شبکه مولد متخاصم شرطی

شبکه مولد متخاصم از شبکه عصبی پیچشی در مؤلفههای خود استفاده میکند. بنابراین، ورودی شبکه مولد متخاصم شرطی یک ماتریس دوبعدی n*nاست؛ لازم است تا اطلاعات از شکل بردار یک بعدی n تایی به ماتریسی به ابعاد n*n تبدیل شود. برای تحقق این هدف سه ایده بررسی شده است. در ایده قطری(D)³¹ ویژگیها بر روی قطر اصلی قرار میگیرند و سایر سلولها صفر خواهند بود. در ایده جمع(S)³² ویژگیها در درایههای نظیر به نظیر با یکدیگر جمع میشوند. در ایده ضرب (M)³³ ویژگیها در درایههای نظیر به نظیر ضرب میشوند.

هر سه ایده با 40000 بار تکرار گام در شبکه مولد متخاصم شرطی آزمایش شده است. نمودارهای صحت و زیان مؤلفه تمایزدهنده شبکه مولد متخاصم شرطی برای ایده قطری، جمعی، ضربی در شکل 12 رسم شده است. سطر اول ایده قطری و سطر دوم ایده جمعی و سطر سوم ایده ضربی را نشان میدهد. محور افقی نمودارها نشاندهنده تعداد گام اجرا شبکه مولد متخاصم شرطی و محور عمودی به تفکیک در هر نمودار از راست به چپ، نشاندهنده صحت و زیان تمایزدهنده است.

[1] 50 Application Programming Interface (API)

[2] 51 https://trlab.ir/res.php?resource_id=3

[3] 52 http://shayeaat.ir/

[4] 53 User’s social influence

[5] 54 Reply

[6] 55 Majority

[7] 56 Imbalanced Ratio (IR)

[8] 57 Resampling

[9] 58 Oversampling

[10] 59 Under-sampling

[11] 60 Local

[12] 61 Overlapping

[13] 62 Outlier

[14] 63 Cost-sensitive

[15] 64 Global

[16] 65 Cleaning

[17] 66 K- Nearest Neighbor (KNN)

[18] 67 Clustering Using Representatives (CURE)

[19] 68 https://trlab.ir/res.php?resource_id=7

[20] 69 True Positive Rate (TPR)

[21] 70 False Positive Rate (FPR)

[22] 71 Area Under the Curve(AUC)- Receiver Operating Characteristics (ROC)

[23] 72 Threshold

[24] 73 Loss

[25] 74 Kernel-size

[26] 75 layer-filters(generator)

[27] 76 layer-filters(discriminator)

[28] 77 strides

[29] 78 latent-size

[30] 79 batch-size

[31] 80 Diagonal

[32] 81 Sum

[33] 82 Multiply

شکل 12. سطر اول نمودارهای صحت و زیان تمایزدهنده برای ایده قطری، سطر دوم نمودارهای صحت و زیان تمایزدهنده برای ایده جمع، سطر سوم نمودارهای صحت و زیان تمایزدهنده برای ایده ضرب را نشان میدهد.

تمایزدهنده قصد دارد مقدار زیان خود را کاهش دهد، در صورتیکه تولیدکننده باید با فریبدادن تمایزدهنده مانع ازکاهش زیان تمایزدهنده شود و باید بتواند صحت تمایزدهنده را نیز کاهش دهد. همانطور که در شکل 12 نشانداده شده است، این اتفاق به درستی در ایده قطری رخ داده است و در دو ایده جمعی و ضربی تولیدکننده نتوانسته تمایزدهنده را فریب دهد. در نتیجه، ورودی قطری برای آموزش شبکه مولد متخاصم شرطی و ادامه آزمایشات در نظر گرفته شده است.

v تعیین شرط پایان آموزش شبکه مولد متخاصم شرطی

شرط پایان آموزش شبکه مولد متخاصم شرطی براساس تعداد گام تکرار تعیین شده است. به همین منظور، برای نشاندادن کیفیت دادههای مصنوعی تولید شده، این دادهها همراه با دادههای واقعی به کلاسبند، ماشین بردار پشتیبان¹ داده شده است. بدیهی است، هرچه معیارهای ارزیابی کلاسبند بالاتر باشد، نشان میدهد که دادههای مصنوعی تولید شده توسط شبکه مولد متخاصم شرطی به خوبی ویژگیهای دادههای واقعی را یادگرفتهاند. در شکل 13 محور افقی تعداد گامها و محور عمودی معیارهای ارزیابی دقت، فراخوانی، معیار-اف و صحت هر گام را نشان میدهد. همانطور که در شکل 13 مشهود است ، طبق فرضیات در نظر گرفته شده، 10000 گام برای آموزش شبکه بر روی ترکیب ویژگیهای مبتنی بر بافتار-کاربر و بافتار-شبکه نتایج بهتری تولید کرده است.

شکل 13. نمودار "الف" تعداد گام و نتایج "فراخوانی " هر گام ، نمودار "ب" تعداد گام و نتایج "دقت" هر گام ، نمودار "ج" تعداد گام و نتایج "صحت" هر گام و نمودار "د" تعداد گام و نتایج "معیار-اف" هر گام در کلاسبند svm را نشان میدهد.

نمودار صحت و زیان برای 10000 گام در شکل 14 رسم شده است. محور افقی نمودارها نشاندهنده تعداد گام اجرا شبکه مولد متخاصم شرطی و محور عمودی به تفکیک در هر نمودار نشاندهنده صحت و زیان هر مؤلفه است. همچنین، با کمک ابزار کاهش بعد T-SNE دادههای مصنوعی تولیدی برای کاربر منتشرکننده اخبار جعلی و دادههای کاربر منتشرکننده اخبار جعلی موجود در مجموعه داده در شکل 15 رسم شده است. در این شکل، دادههای تولیدی توسط شبکه مولد متخاصم شرطی برای کاربر منتشرکننده اخبار جعلی با دایره قرمزرنگ در نمودار نشان داده شده است و همچنین، دادههای اصلی مجموعه داده برای کاربر منتشرکننده اخبار جعلی با مربع سفیدرنگ در نمودار نشان داده شده است. در ابزار T-SNE هرچه دو داده به هم شبیهتر باشند، با فاصله کمتری کنار هم رسم میشوند [9]. همانطور که در شکل 15 با علامت ستاره مشخص شده است، شبکه مولد متخاصم شرطی هم توانسته به خوبی توزیع داده را یاد بگیرد و هم دادههای تولیدی مصنوعی جدید تولید کند.

[1] 83 Support Vector Machine (SVM)

شکل 14. "الف ، ب"به ترتیب، نمودار صحت و زیان تمایز دهنده و "ج ، د"به ترتیب، نمودار صحت و زیان تولیدکننده در 10000 گام را نشان میدهد.

شکل 15. نمودار T-SNE، داده تولیدی مصنوعی و داده موجود در مجموعه داده برای کاربر منتشرکننده اخبار جعلی را نشان میدهد.

بعد از آموزش با 10000 گام، 54112 داده مصنوعی با برچسب کاربر منتشرکننده اخبار جعلی به فرمت بردار ویژگی اولیه درآمد و به مجموعه داده قبلی اضافه گشت تا در مجموعه داده توازن ایجاد شود. نهایتاً، در مجموعه داده 55878 کاربر منتشرکننده اخبار جعلی و 55877 کاربر عادی با ترکیب ویژگیهای مبتنی بر بافتار-کاربر و بافتار-شبکه وجود دارد.

4.5.2 پارامترهای مؤثر در محاسبه ویژگیهای شبکهای

در روش Node2vec همانطور که در بخش پیشزمینه معرفی شد، تعیین دو پارامترp,q اهمیت ویژهای دارد. به طوریکه، اگر p<1 باشد، معادلات ساختاری با جستجوی اول سطح در گراف درنظر گرفته میشود و دید محلی از گراف ایجاد میکند. اما اگر q<1 باشد، معادلات هموفیلی با جستجوی اول عمق در گراف در نظر گرفته میشود و دید سراسری از گراف ایجاد میکند. درنهایت، اگر p=1,q=1 باشد، یعنی هر دو معادلات ساختاری و هموفیلی به یک اندازه در نظر گرفته میشود. نتیجه بررسی هرسه حالت روی گراف تعاملات بین کاربران در جدول 5 آمده است. حالت p=1,q=0.5 با توجه به عملکرد بهتر انتخاب میشود. این نشان دهندهی این است که کاربران منتشرکننده اخبار جعلی با یکدیگر تشکیل جامعه دادهاند.

جدول5 . بررسی تأثیر p,q

معیار-اف	فراخوانی	دقت
35/0	35/0	35/0	P=5/0,q=1
69/0	69/0	68/0	P=1,q=5/0
59/0	59/0	59/0	P=1,q=1

سایر پارامترهای مهم Node2vec در جدول 6 مشخص شده است.

جدول 6 . تعدادی از پارامترهای مهم Node2vec

پارامتر	مقدار
تعداد پیادهروی به ازای هر گره¹	10
طول گامهای² پیادهروی تصادفی	80
اندازه پنجره skip-gram	10

4.5.3 بررسی تأثیر ویژگیها روی سیستم پیشنهادی

علائم اختصاری برای کاربر منتشرکننده اخبار جعلی با FUD، شبکه مولد متخاصم شرطی با CGAN، ورودی قطری با D و ویژگی مبتنی بر بافتار-کاربر³ با CUو ویژگی مبتنی بر بافتار-شبکه⁴ با CN نام گذاری شدهاند و از کلاسبند ماشین بردار پشتیبان و نیو بیز⁵ و کِی نزدیکترین همسایه برای این آزمایش استفاده شده است.

در هر سه نمودار شکلهای 16، 17 و 18 به ترتیب از سمت چپ نتایج کلاسبندها را با استفاده از مجموعه داده نامتوازن در شناسایی کاربران منتشرکننده اخبار جعلی با درنظر گرفتن ویژگیهای مبتنی بر بافتار-کاربر را نشان میدهد. همانطور که مشهود است، الگوریتمهای یادگیری ماشین در صورتیکه در کلاسهای مجموعه داده توازن وجود نداشته باشد، نتایج خوبی از خود نشان نمیدهند. بنابراین، در این مقاله برای ایجاد توازن از شبکه مولد متخاصم شرطی، کمک گرفته شده است. همانطور که مشهود است، صحت نمیتواند معیار خوبی برای ارزیابی در مجموعه دادههای نامتوازن باشد؛ به همین منظور، از معیارهای دیگری نیز استفاده شده است. سپس، نتایج کلاسبندها با استفاده از مجموعه داده متوازنشده با شبکه مولد متخاصم شرطی با تمرکز بر ویژگیهای مبتنی بر بافتار-کاربر نشان داده شده است. در آخر، نتایج کلاسبندها با استفاده از مجموعه دادهی متوازنشده با شبکه مولد متخاصم شرطی با تمرکز بر ترکیب ویژگیهای مبتنی بر بافتار-کاربر و ویژگیهای مبتنی بر بافتار-شبکه نشان داده شده است.

[1] 84 Number of walk per node

[2] 85 Walk Length

[3] 86 Context-User (CU)

[4] 87 Context-Network (CN)

[5] 88 Naive Bayes

شکل 16. به ترتیب از سمت چپ نتایج استفاده از مجموعه داده نامتوازن و سپس، نتایج استفاده ازمجموعه داده متوازنشده با CGAN با تمرکز بر ویژگی بافتار-کاربر و در آخر، نتایج استفاده ازمجموعه داده متوازنشده با CGAN با تمرکز برترکیب ویژگیهای بافتار-کاربر و بافتار-شبکه با کلاسبند SVM نشان داده شده است.

شکل 17. به ترتیب از سمت چپ نتایج استفاده از مجموعه داده نامتوازن و سپس، نتایج استفاده ازمجموعه داده متوازنشده با CGAN با تمرکز بر ویژگی بافتار-کاربر و در آخر، نتایج استفاده ازمجموعه داده متوازنشده با CGAN با تمرکز برترکیب ویژگیهای بافتار-کاربر و بافتار-شبکه با کلاسبند Naïve Bayes نشان داده شده است.

شکل 18. به ترتیب از سمت چپ نتایج استفاده از مجموعه داده نامتوازن و سپس، نتایج استفاده ازمجموعه داده متوازنشده با CGAN با تمرکز بر ویژگی بافتار-کاربر و در آخر، نتایج استفاده ازمجموعه داده متوازنشده با CGAN با تمرکز برترکیب ویژگیهای بافتار-کاربر و بافتار-شبکه با کلاسبند KNN نشان داده شده است.

همانطور که در نمودارها مشاهده میشود، ترکیب دو ویژگی و ایجاد توازن در مجموعه داده با کمک شبکه مولد متخاصم شرطی، در عملکرد سیستم پیشنهادی نهایی (FUD+D+CGAN+CU+CN)، در هر سه کلاسبند بهبود ایجاد کرده است. به طور مثال، در شکل 18 سیستم پیشنهادی توانسته در کلاسبند KNN به اعداد 99%، 97% ، 98% ،98 % و 98% به ترتیب در معیارهای ارزیابی دقت، فراخوانی، معیار-اف، صحت و AUC-ROC دست پیدا کند.

4.6 مقایسه سیستم پیشنهادی با رقبا

در این مقاله برای تولید داده مصنوعی از شبکه مولد متخاصم شرطی استفاده شده است که بهبود عملکرد آن نسبت به استفاده از روشهای سایر رقبا برای تولید داده مصنوعی با تمرکز بر ترکیب ویژگیهای مبتنی بر بافتار-کاربر و مبتنی بر بافتار-شبکه در شکل 19 نشان داده شده است.

شکل 19. مقایسه سیستم پیشنهادی( شبکه مولد متخاصم شرطی) بانسخههای متفاوت روش بیش نمونهبرداری اقلیت مصنوعی در ترکیب ویژگیهای مبتنی بر بافتار-کاربر و مبتنی بر بافتار-شبکه

همانطور که در نمودار شکل 19 مشاهده میشود، سیستم پیشنهادی این مقاله از تمام روشهای موجود برای متوازنسازی داده نامبردهشده عملکرد بهتری داشته است. برای مثال، حتی در مقایسه با نزدیکترین الگوریتم یعنی الگوریتم CURE به مقدار9%، 5 %،8 %، 9 % و همچنین، به نسبت الگوریتم پایهای مانند SMOTE به مقدار 11 %، 13 % ،12 % و 12 % به ترتیب در معیارهای دقت، فراخوانی، معیار اف و صحت بهتر عمل کرده است. باید اشاره داشت که با توجه به عملکرد بهتر نسبت به رقبا، سیستم پیشنهادی به دلیل استفاده از یادگیری عمیق از نظر پیچیدگی و زمان اجرا هزینه بالاتری به نسبت رقبایش دارد که در جدول 7 این مقایسه نشان داده شده است.

جدول 7. زمان اجرا (برحسب ثانیه) سیستم پیشنهادی در مقایسه با رقبا

سیستم پیشنهادی (استفاده از CGAN برای متوازنسازی داده)

CCR

Cure

Gaussian

Random

Adasyn

Distance

Cluster

Borderline2

Borderline1

ENN

TomekLinks

SMOTE

نام الگوریتم

36/9559

42/39

29/46

26/20

3/17

51/23

48/17

97/47

43/25

56/22

15/271

88/277

96/29

زمان اجرا

5 نتیجهگیری

با توجه به فراگیری شبکههای اجتماعی در بین مردم و امکان انتشار بیشتر اخبار و اطلاعات نادرست نسبت به گذشته و همچنین، اهمیت بالای شناسایی منبع منتشرکننده این اطلاعات نادرست، در این مقاله، یک سیستم برای شناسایی کاربران منتشرکننده اخبار جعلی که اقدام به انتشار نادرست در توئیتر در زبان فارسی کردهاند، پیشنهاد شده است. این سیستم بر مبنای استفاده از ویژگیهای مبتنی بر بافتار یعنی ترکیب ویژگیهای مبتنی بر کاربر و مبتنی بر شبکه پایهریزی شده است، که برای استخراج ویژگیهای مبتنی بر بافتار-کاربر از اطلاعات کاربران و برای استخراج ویژگیهای مبتنی بر بافتار-شبکه از تعبیه گره به بردار(Node2vec) برای تبدیل گراف تعاملات کاربران به بردار ویژگی کمک گرفته شده است. ضمناً، به دلیل عدم توازن در مجموعه داده از شبکه مولد متخاصم شرطی برای رفع این چالش استفاده شده است تا با تولید داده مصنوعی مجموعه داده به تعادل برسد. همچنین، عملکرد سیستم پیشنهادی به کمک کلاسبندها در طی دو سناریو تحلیل پارامتر حساسیت و مقایسه با رقبا بررسی شد. از دستاوردهای دیگر این مقاله میتوان به ایجاد و گسترش مجموعه داده جدید برای شناسایی کاربران منتشرکننده اخبار جعلی در شبکه توئیتر در زبان فارسی که منابع زبانشناسیکمتری دارد، به نام " FU_KNTU" در مدت وقوع زلزله کرمانشاه سال 1396 ایران اشاره کرد. با توجه به این موضوع که اکثر پژوهشهای اخیر در این حوزه بر روی مجموعه داده متوازن صورت گرفته است، از توجه به مجموعه دادههای نامتوازن که در دنیای واقعی وجود دارد، غفلت شده است. بنابراین، از مهمترین برتریهای سیستم پیشنهادی به طور متمایز نسب به پژوهشهای پیشین، میتوان به رفع چالش مجموعه داده نامتوازن با ایدهای جدید که در واقع، متوازنسازی با روش یادگیری عمیق به نام شبکه مولد متخاصم شرطی است، اشاره داشت. در نهایت نشان داده شد، سیستم پیشنهادی با یادگیری توزیعداده سراسری تا حدود 11% ، 13 % ،12 % و 12 % به ترتیب در معیارهای دقت، فراخوانی، معیار اف و صحت نسبت به رقبایش که بر روی یادگیری توزیع داده محلی تمرکز دارند، بهبود داشته است و توانسته است دقتی در حدود 99% در شناسایی کاربران منتشرکننده اخبار جعلی ایجاد کند. ضمناً، با ترکیب ویژگیهای مبتنی بر بافتار-کاربر و بافتار-شبکه عملکرد سیستم پیشنهادی افزایش داشته است. همچنین، با ترکیب این دو ویژگی، مشکل شروع سرد در شبکه وجود نخواهد داشت. اما باید به اینکه اشاره داشت که شبکه مولد متخاصم به دلیل استفاده از یادگیری عمیق زمان آموزش و پیچیدگی بیشتری نسبت به رقبایش دارد. در آخر، از کارهای آتی میتوان به تغییر ورودی شبکه مولد متخاصم شرطی اشاره کرد تا با عدم تبدیل ورودی به ماتریس، مقدار خطای حاصل از این فرض کاهش یابد. علاوه بر این، ترکیب ویژگیهای مبتنی بر محتوا و ویژگیهای ذکرشده و همچنین، تنظیم سایر پارامترها با آموزش بر روی مجموعه داده، سیستم دقیقتری خواهد ساخت. نهایتاً، روشی برای رفع پیچیدگی وکاهش زمان آموزش شبکه مولد متخاصم شرطی ارائه داد.

مراجع

[1] Parikh, S.B. and P.K. Atrey. "Media-rich fake news detection: A survey. " in 2018 IEEE Conference on Multimedia Information Processing and Retrieval (MIPR). 2018. IEEE.

[2] Kochkina, E., M. Liakata, and A. Zubiaga, "All-in-one: Multi-task learning for rumour verification. " arXiv preprint arXiv:1806.03713, 2018.

[3] Tacchini, E., et al., "Some like it hoax: Automated fake news detection in social networks. " arXiv preprint arXiv:1704.07506, 2017.

[4] Shu, K., et al., "Fake news detection on social media: A data mining perspective. " ACM SIGKDD explorations newsletter, 2017. 19(1): p. 22-36.

[5] Inuwa-Dutse, I., M. Liptrott, and I. Korkontzelos, "Detection of spam-posting accounts on Twitter. " Neurocomputing, 2018. 315: p. 496-511.

[6] Bindu, P., R. Mishra, and P.S. Thilagam, "Discovering spammer communities in Twitter. " Journal of Intelligent Information Systems, 2018. 51(3): p. 503-527.

[7] de Souza, J.V., et al., "A systematic mapping on automatic classification of fake news in social media. " Social Network Analysis and Mining, 2020. 10(1): p. 1-21.

[8] Grinberg, N., et al., " Fake news on Twitter during the 2016 US presidential election. " Science, 2019. 363(6425): p. 374-378.

[9] Maaten, L.v.d. and G. Hinton, "Visualizing data using t-SNE. " Journal of machine learning research, 2008. 9(Nov): p. 2579-2605.

[10] Gheewala, S. and R. Patel. "Machine learning based Twitter Spam account detection: a review. " in 2018 Second International Conference on Computing Methodologies and Communication (ICCMC). 2018. IEEE.

[11] Gaonkar, S., et al. " Detection Of Online Fake News: A Survey. " in 2019 International Conference on Vision Towards Emerging Trends in Communication and Networking (ViTECoN). 2019. IEEE.

[12] Hardalov, M., I. Koychev, and P. Nakov. " In search of credible news. " in International Conference on Artificial Intelligence: Methodology, Systems, and Applications. 2016. Springer.

[13] Goodfellow, I., et al. "Generative adversarial nets. " in Advances in neural information processing systems. 2014.

[14] Douzas, G. and F. Bacao, "Effective data generation for imbalanced learning using conditional generative adversarial networks. " Expert Systems with applications, 2018. 91: p. 464-471.

[15] Mirza, M. and S. Osindero, "Conditional generative adversarial nets. " arXiv preprint arXiv:1411.1784, 2014.

[16] Grover, A. and J. Leskovec. "node2vec: Scalable feature learning for networks. " in Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. 2016. ACM.

[17] Conroy, N.K., V.L. Rubin, and Y. Chen, "Automatic deception detection: Methods for finding fake news. " Proceedings of the Association for Information Science and Technology, 2015. 52(1): p. 1-4.

[18] Bondielli, A. and F. Marcelloni, "A survey on fake news and rumour detection techniques. " Information Sciences, 2019. 497: p. 38-55.

[19] Mohammadrezaei, M., M.E. Shiri, and A.M. Rahmani, "Identifying fake accounts on social networks based on graph analysis and classification algorithms. " Security and Communication Networks, 2018. 2018.

[20] Yang, C., R. Harkreader, and G. Gu, "Empirical evaluation and new design for fighting evolving twitter spammers. " IEEE Transactions on Information Forensics and Security, 2013. 8(8): p. 1280-1293.

[21] Wang, A.H. "Don't follow me: Spam detection in twitter. " in 2010 international conference on security and cryptography (SECRYPT). 2010. IEEE.

[22] Benevenuto, F., et al. "Detecting spammers on twitter. " in Collaboration, electronic messaging, anti-abuse and spam conference (CEAS). 2010.

[23] Masood, Faiza, et al. "Spammer detection and fake user identification on social networks." IEEE Access 7 (2019): 68140-68152.‏

[24] Xie, Y., et al. "A Fake News Detection Framework Using Social User Graph. " in Proceedings of the 2020 2nd International Conference on Big Data Engineering. 2020.

[25] KARUNAKAR, M.G., et al., " ADAPTIVE DETECTING FAKE PROFILES IN ONLINE SOCIAL NETWORKS. "

[26] Della Vedova, M.L., et al. "Automatic online fake news detection combining content and social signals. " in 2018 22nd Conference of Open Innovations Association (FRUCT). 2018. IEEE.

[27] Shu, K., et al. "defend: Explainable fake news detection. " in Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019.

[28] Guacho, G.B., et al. "Semi-supervised content-based detection of misinformation via tensor embeddings. " in 2018 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining (ASONAM). 2018. IEEE.

[29] Shu, K., et al. "The role of user profiles for fake news detection. " in Proceedings of the 2019 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining. 2019.

[30] Shu, K., S. Wang, and H. Liu. "Beyond news contents: The role of social context for fake news detection. " in Proceedings of the Twelfth ACM International Conference on Web Search and Data Mining. 2019.

[31] Hamdi, T., et al. "A Hybrid Approach for Fake News Detection in Twitter Based on User Features and Graph Embedding. " in International Conference on Distributed Computing and Internet Technology. 2020. Springer.

[32] Aphiwongsophon, S. and P. Chongstitvatana. "Detecting fake news with machine learning method. " in 2018 15th International Conference on Electrical Engineering/Electronics, Computer, Telecommunications and Information Technology (ECTI-CON). 2018. IEEE.

[33] Hussain, M.G., et al., "Detection of Bangla Fake News using MNB and SVM Classifier. " arXiv preprint arXiv:2005.14627, 2020.

[34] Li, Y., et al., "Exploiting similarities of user friendship networks across social networks for user identification. " Information Sciences, 2020. 506: p. 78-98.

[35] Vijayaraghavan, S., et al., "Fake News Detection with Different Models. " arXiv preprint arXiv:2003.04978, 2020.

[36] Jadhav, S.S. and S.D. Thepade, "Fake news identification and classification using DSSM and improved recurrent neural network classifier. " Applied Artificial Intelligence, 2019. 33(12): p. 1058-1068.

[37] Ajao, O., D. Bhowmik, and S. Zargari. "Fake news identification on twitter with hybrid cnn and rnn models. " in Proceedings of the 9th international conference on social media and society. 2018.

[38] Zhang, J., B. Dong, and S.Y. Philip. "Fakedetector: Effective fake news detection with deep diffusive neural network. " in 2020 IEEE 36th International Conference on Data Engineering (ICDE). 2020. IEEE.

[39] Verma, A., V. Mittal, and S. Dawn. "FIND: Fake information and news detections using deep learning. " in 2019 Twelfth International Conference on Contemporary Computing (IC3). 2019. IEEE.

[40] Ruan, N., R. Deng, and C. Su, "GADM: Manual fake review detection for O2O commercial platforms. " Computers & Security, 2020. 88: p. 101657.

[41] Hosseinimotlagh, S. and E.E. Papalexakis. "Unsupervised content-based identification of fake news articles with tensor decomposition ensembles. " in Proceedings of the Workshop on Misinformation and Misbehavior Mining on the Web (MIS2). 2018.

[42] Yang, S., et al. "Unsupervised fake news detection on social media: A generative approach. " in Proceedings of the AAAI Conference on Artificial Intelligence. 2019.

[43] Phan, T.D. and N. Zincir‐Heywood, "User identification via neural network based language models. " International Journal of Network Management, 2019. 29(3): p. e2049.

[44] Mateen, M., et al. "A hybrid approach for spam detection for Twitter. " in 2017 14th International Bhurban Conference on Applied Sciences and Technology (IBCAST). 2017. IEEE.

[45] Chen, C., et al., "Statistical features-based real-time detection of drifted twitter spam. " IEEE Transactions on Information Forensics and Security, 2016. 12(4): p. 914-925.

[46] Volkova, S., et al. "Separating facts from fiction: Linguistic models to classify suspicious and trusted news posts on twitter. " in Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2017.

[47] Mahmoodabad, S.D., S. Farzi, and D.B. Bakhtiarvand. "Persian rumor detection on twitter. " in 2018 9th International Symposium on Telecommunications (IST). 2018. IEEE.

[48] Wang, W., et al. "Global-and-Local Aware Data Generation for the Class Imbalance Problem. " in Proceedings of the 2020 SIAM International Conference on Data Mining. 2020. SIAM.

[49] Rout, N., D. Mishra, and M.K. Mallick, "Handling imbalanced data: A survey", in International Proceedings on Advances in Soft Computing, Intelligent Systems and Applications. 2018, Springer. p. 431-443.

[50] Chen, H. and L. Jiang, " Efficient GAN-based method for cyber-intrusion detection. " arXiv preprint arXiv:1904.02426, 2019.

[51] Lee, J. and K. Park, "GAN-based imbalanced data intrusion detection system. " Personal and Ubiquitous Computing, 2019: p. 1-8.

[52] Kim, J.-Y., S.-J. Bu, and S.-B. Cho. "Malware detection using deep transferred generative adversarial networks. " in International Conference on Neural Information Processing. 2017. Springer.

[53] Radford, A., L. Metz, and S. Chintala, "Unsupervised representation learning with deep convolutional generative adversarial networks. " arXiv preprint arXiv:1511.06434, 2015.

[54] Kovács, G., "An empirical comparison and evaluation of minority oversampling techniques on a large number of imbalanced datasets. " Applied Soft Computing, 2019. 83: p. 1056.62.

[55] Chawla, N.V., et al., "SMOTE: synthetic minority over-sampling technique. " Journal of artificial intelligence research, 2002. 16: p. 321-357.

[56] Batista, G.E., R.C. Prati, and M.C. Monard, "A study of the behavior of several methods for balancing machine learning training data. " ACM SIGKDD explorations newsletter, 2004. 6(1): p. 20-29.

[57] Han, H., W.-Y. Wang, and B.-H. Mao. "Borderline-SMOTE: a new over-sampling method in imbalanced data sets learning. " in International conference on intelligent computing. 2005. Springer.

[58] Cieslak, D.A., N.V. Chawla, and A. Striegel. "Combating imbalance in network intrusion datasets. " in GrC. 2006.

[59] De La Calleja, J. and O. Fuentes. "A Distance-Based Over-Sampling Method for Learning from Imbalanced Data Sets. " in FLAIRS Conference. 2007.

[60] He, H., et al. "ADASYN: Adaptive synthetic sampling approach for imbalanced learning. " in 2008 IEEE international joint conference on neural networks (IEEE world congress on computational intelligence). 2008. IEEE.

[61] Dong, Y. and X. Wang. "A new over-sampling approach: random-SMOTE for learning from imbalanced data sets. " in International Conference on Knowledge Science, Engineering and Management. 2011. Springer.

[62] Lee, H., J. Kim, and S. Kim, "Gaussian-Based SMOTE Algorithm for Solving Skewed Class Distributions. " International Journal of Fuzzy Logic and Intelligent Systems, 2017. 17(4): p. 229-234.

[63] Ma, L. and S. Fan, "CURE-SMOTE algorithm and hybrid algorithm for feature selection and parameter optimization based on random forests. " BMC bioinformatics, 2017. 18(1): p. 1-18.

[64] Koziarski, M. and M. Wożniak, "CCR: A combined cleaning and resampling algorithm for imbalanced data classification. " International Journal of Applied Mathematics and Computer Science, 2017. 27(4): p. 727-736.

[65] Breuer, Adam, Roee Eilat, and Udi Weinsberg. "Friend or Faux: Graph-Based Early Detection of Fake Accounts on Social Networks." Proceedings of The Web Conference 2020. 2020.‏

[66] Liu, Yang, and Yi-Fang Brook Wu. "FNED: A Deep Network for Fake News Early Detection on Social Media." ACM Transactions on Information Systems (TOIS) 38.3 (2020): 1-33.

[67] Liao, Hao, Qixin Liu, and Kai Shu. "Incorporating User-Comment Graph for Fake News Detection." arXiv preprint arXiv:2011.01579 (2020).‏

[68] Balaanand, Muthu, et al. "An enhanced graph-based semi-supervised learning algorithm to detect fake users on Twitter." The Journal of Supercomputing 75.9 (2019): 6085-6105.‏

[69] Fawcett, Tom. "An introduction to ROC analysis." Pattern recognition letters 27.8 (2006): 861-874.‏

Use of conditional generative adversarial network to produce synthetic data with the aim of improving the classification of users who publish fake news

Abstract

Keywords: Fake news publisher user detection, Imbalanced datasets, Generative Adversarial Network, Graph of user interaction, Node Embedding.

Share To

Article Url

Use of conditional generative adversarial network to produce synthetic data with the aim of improving the classification of users who publish fake news

Rimag

Links

Related Centers

Technical Support

Official pages