انتخاب ويژگي براي شناسايي نويسنده در متون کوتاه برخط فارسي
محورهای موضوعی :سمیه عارفی 1 , محمد احسان بصیری 2 , امید روزمند 3
1 - دانشجو
2 - مربی
3 - مربی
کلید واژه: تحليل متن, تحليل سبک, استخراج ويژگي, انتخاب ويژگي و شناسايي نويسنده. ,
چکیده مقاله :
رشد فزايندهي استفاده از رسانههاي اجتماعي و ارتباطات برخط بهمنظور بيان نظرات، تبادل عقايد و همچنين گسترش استفادهي کاربران فارسي زبان از اين ابزارها باعث افزايش متون فارسي در وب شده است. اين رشد چشمگير در کنار سوءاستفادههاي ناشي از ناشناس بودن نويسندهي نوشتهها نياز به سامانهي خودکار شناسايي نويسنده در اين زبان را بيش از پيش آشکار ميسازد. هدف از اين پژوهش، بررسي ويژگيهاي مؤثر در شناسايي نويسندگان نظرات فارسي توليد شده توسط خريداران گوشي و همچنین ارزیابی روشهای نظارتی و غیرنظارتی میباشد. عواملي که در اين پژوهش بررسي ميشود شامل ويژگيهاي لغوي، نگارشی، معنايي، ساختاري، دستوري، مختص متن و مختص شبکههاي اجتماعي است. پس از استخراج ويژگيهاي مذکور، انتخاب ويژگيهاي برتر توسط چهار الگوريتم همبستگي ويژگي، نسبت بهره، OneR و تحليل اجزاي اصلي آزمايش ميشود. در ادامه از الگوريتمهاي K-means، EM و خوشهبندي مبتني بر چگالي براي خوشهبندي و الگوريتمهاي شبکهي بيز، جنگل تصادفي و Bagging براي دستهبندي استفاده خواهد شد. ارزيابي الگوريتمهاي فوق بر روي نظرات فارسي مربوط به خريداران گوشيهاي سامسونگ نشان ميدهد که بهترين تشخيص در بين الگوريتمهاي خوشهبندي با دقت 16/59% مربوط به الگوريتم EM روي 15 ويژگي برتر انتخابي توسطOneR است درحاليکه الگوريتم جنگل تصادفي بههمراه نسبت بهره برای 90 ویژگی با دقت 57/79% بهترين کارايي را در بين الگوريتمهاي دستهبندي دارد. همچنين مقايسهی ويژگيها نشان داد که ويژگيهاي نگارشی بيشترين تأثير را در شناسايي نويسندهي متون کوتاه داشته و پس از آن بهترتيب ويژگيهاي لغوي ، مختص متن، مختص شبکههای اجتماعی، ساختاري، دستوري و معنایی قرار گرفتند.
The growing use of social media and online communication to express opinions, exchange ideas, and also the expanding use of of this platforms by Persian users has increased Persian texts on the Web. This remarkable growth, along with abusive use of the writer's anonymity, reveals the need for the author's automatic identification system in this language. In this research, the purpose of the study is to investigate the factors affecting the identification of authors of Persian reviews produced by cell-phone buyers and also to evaluate supervised and unsupervised methods. The factors considered in this research include lexical, syntactic, semantic, structural, grammatical, text-specific, and specific to social networks. After extracting these features, selecting the best features is tested by four algorithms including feature correlation, gain ratio, OneR, and principal components analysis. In the following, K-means, EM and density-based clustering will be used for clustering and Bayesian network, random forest, and Bagging will be used for categorization. The evaluation of the above algorithms on Persian comments of Samsung phone buyers indicates that the best performance among the clustering algorithms is 59/16% obtained by the EM algorithm on top-15 features selected by OneR, while the random forest algorithm using top-90 features selected by gain ratio with 79/57% achieves the best performance among the classification algorithms. Also, the comparison of features showed that syntactic features had the most effect on the identification of the author of short texts, and then, lexical, text-specific, specific to social networks, structural, grammatical and semantic features, respectively.
مرادي، مهدی و بحراني، محمد، “تشخيص خودکار جنسيت نويسنده در متون فارسي”، فصلنامه پردازش علائم و دادهها، شماره 4، پیاپی 26، صفحات 83-94، 1394.
[2] فرهمندپور، زینب، نیکمهر، هومان، منصوری زاده، محرم و طبیب زاده قمصری، اميد، “يک سيستم نوين هوشمند تشخيص هويت نويسنده فارسي زبان بر اساس سبک نوشتاري-مقاله برگزيده هفدهمين کنفرانس ملي انجمن کامپيوتر ايران”، مجله محاسبات نرم، شماره دوم، صفحات 35-26، 1391.
[3] F. Iqbal, H. Binsalleeh, B. C. M. Fung, and M. Debbabi, “Mining writeprints from anonymous e-mails for forensic investigation,” Digit. Investig., vol. 7, no. 1–2, pp. 56–64, 2010.
[4] S. Nirkhi, R. V Dharaskar, and V. M. Thakare, “Authorship Verification of Online Messages for Forensic Investigation,” Procedia Comput. Sci., vol. 78, pp. 640–645, 2016, doi: https://doi.org/10.1016/j.procs.2016.02.111.
[5] M. L. Brocardo, I. Traore, and I. Woungang, “Authorship verification of e-mail and tweet messages applied for continuous authentication,” J. Comput. Syst. Sci., vol. 81, no. 8, pp. 1429–1440, 2015.
[6] Y. Yiming and P. Jan O., “A Comparative Study on Feature Selection in Text Categorization,” Proceeding ICML ’97 Proc. Fourteenth Int. Conf. Mach. Learn., vol. 53, no. 9, pp. 412–420, 1997.
[7] M. Frederick and L. Wallace David, “Inference and Disputed Authorship: The Federalist. Reading, Addison.” Wessley Publishing Company. Republié sous le titre Applied Bayesian and …, 1984.
[8] T. C. Mendenhall, “The Characteristic Curves of Composition,” Science (80-. )., vol. 9, no. 214, pp. 237–249, Dec. 1887, [Online]. Available: http://www.jstor.org/stable/1764604.
[9] H. Craig, “Authorial attribution and computational stylistics: If you can tell authors apart, have you learned anything about them?,” Lit. Linguist. Comput., vol. 14, no. 1, pp. 103–113, 1999.
[10] M. Koppel and J. Schler, “Authorship verification as a one-class classification problem,” in Proceedings of the twenty-first international conference on Machine learning, 2004, p. 62.
[11] E. Villar-Rodriguez, J. Del Ser, M. N. Bilbao, and S. Salcedo-Sanz, “A feature selection method for author identification in interactive communications based on supervised learning and language typicality,” Eng. Appl. Artif. Intell., vol. 56, pp. 175–184, 2016, doi: https://doi.org/10.1016/j.engappai.2016.09.004.
[12] P. Geutner, U. Bodenhausen, and A. Waibel, “Flexibility through incremental learning: Neural networks for text categorization,” in Proceedings of WCNN-93, World Congress on Neural Networks, 1993, pp. 24–27.
[13] O. De Vel, “Mining e-mail authorship,” 2000.
[14] M. Corney, O. De Vel, A. Anderson, and G. Mohay, “Gender-preferential text mining of e-mail discourse,” in 18th Annual Computer Security Applications Conference, 2002. Proceedings., 2002, pp. 282–289.
[15] F. Iqbal, R. Hadjidj, B. C. M. Fung, and M. Debbabi, “A novel approach of mining write-prints for authorship attribution in e-mail forensics,” Digit. Investig., vol. 5, pp. S42–S51, 2008.
[16] A. Abbasi and H. Chen, “Writeprints: A stylometric approach to identity-level identification and similarity detection in cyberspace,” ACM Trans. Inf. Syst., vol. 26, no. 2, pp. 1–29, 2008.
[17] F. Iqbal, L. A. Khan, B. C. M. Fung, and M. Debbabi, “E-Mail Authorship Verification for Forensic Investigation,” in Proceedings of the 2010 ACM Symposium on Applied Computing, 2010, pp. 1591–1598, doi: 10.1145/1774088.1774428.
[18] B. Allison and L. Guthrie, “Authorship Attribution of E-Mail: Comparing Classifiers over a New Corpus for Evaluation.,” 2008.
[19] N. Cheng, R. Chandramouli, and K. P. Subbalakshmi, “Author gender identification from text,” Digit. Investig., vol. 8, no. 1, pp. 78–88, 2011.
[20] X. Chen, P. Hao, R. Chandramouli, and K. P. Subbalakshmi, “Authorship similarity detection from email messages,” in International Workshop on Machine Learning and Data Mining in Pattern Recognition, 2011, pp. 375–386.
[21] J. Keeshin, Z. Galant, and D. Kravitz, “Machine Learning and Feature Based Approaches to Gender Classification of Facebook Statuses.” 2010.
[22] R. Layton, P. Watters, and R. Dazeley, “Authorship Attribution for Twitter in 140 Characters or Less,” in 2010 Second Cybercrime and Trustworthy Computing Workshop, Jul. 2010, pp. 1–8, doi: 10.1109/CTC.2010.17.
[23] C. Li, A. Sun, and A. Datta, “Twevent: Segment-Based Event Detection from Tweets,” in Proceedings of the 21st ACM International Conference on Information and Knowledge Management, 2012, pp. 155–164, doi: 10.1145/2396761.2396785.
[24] J. S. Li, J. V Monaco, L.-C. Chen, and C. C. Tappert, “Authorship authentication using short messages from social networking sites,” in 2014 IEEE 11th International Conference on e-Business Engineering, 2014, pp. 314–319.
[25] A. Zubiaga, D. Spina, R. Martínez, and V. Fresno, “Real‐time classification of twitter trends,” J. Assoc. Inf. Sci. Technol., vol. 66, no. 3, pp. 462–473, 2015.
[26] A. Orebaugh, “An Instant Messaging Intrusion Detection System Framework: Using character frequency analysis for authorship identification and validation,” in Proceedings 40th Annual 2006 International Carnahan Conference on Security Technology, 2006, pp. 160–172.
[27] O. Canales et al., “A stylometry system for authenticating students taking online tests,” P. Student-Faculty Res. Day, Ed., CSIS. Pace Univ., 2011.
[28] C.-Y. Lai, “Author Gender Analysis’,” Final Proj. from I, vol. 256, 2009.
[29] H. Alam and A. Kumar, “Multi-lingual author identification and linguistic feature extraction—A machine learning approach,” in 2013 IEEE International Conference on Technologies for Homeland Security (HST), 2013, pp. 386–389.
[30] J. Adams, H. Williams, J. Carter, and G. Dozier, “Genetic Heuristic Development: Feature selection for author identification,” in 2013 IEEE Symposium on Computational Intelligence in Biometrics and Identity Management (CIBIM), 2013, pp. 36–41.
[31] J. Houvardas and E. Stamatatos, “N-gram feature selection for authorship identification,” in International conference on artificial intelligence: Methodology, systems, and applications, 2006, pp. 77–86.
[32] A. K. Uysal and S. Gunal, “A novel probabilistic feature selection method for text classification,” Knowledge-Based Syst., vol. 36, pp. 226–235, 2012, doi: https://doi.org/10.1016/j.knosys.2012.06.005.
[33] زنگويي، سمیرا، نعمتی شمسآباد، حسنعلی “شناسايي نويسندگان پيام هاي الکترونيکي از طريق واکاوي نوع و سبک نگارش آن ها مبتني بر روش هاي يادگيري ماشين(WKF based on SVM-PHGS) ”، پردازش و مديريت اطلاعات (علوم و فناوري اطلاعات)، شماره 2، دوره 29، صفحات 476-453، 1392.
[34] G. U. Yule, “The statistical study of literary vocabulary. Cambridge, Cambridge [Eng.].” University Press. Journal of the Royal Statistical Society, 1944.
[35] A. Honoré, “Some simple measures of richness of vocabulary,” Assoc. Lit. Linguist. Comput. Bull., vol. 7, no. 2, pp. 172–177, 1979.
[36] E. Brunet, Le Vocabulaire de Jean Giraudoux: structure et évolution : statistique et informatique appliquées à l’étude des textes à partir des données du Trésor de la langue française. Slatkine, 1978.
[37] H. S. Sichel, “On a Distribution Law for Word Frequencies,” J. Am. Stat. Assoc., vol. 70, no. 351a, pp. 542–547, 1975, doi: 10.1080/01621459.1975.10482469.
[38] E. H. SIMPSON, “Measurement of Diversity,” Nature, vol. 163, no. 4148, p. 688, 1949, doi: 10.1038/163688a0.
[39] S. Nemati, M. E. Basiri, N. Ghasem-Aghaee, and M. H. Aghdam, “A novel ACO–GA hybrid algorithm for feature selection in protein function prediction,” Expert Syst. Appl., vol. 36, no. 10, pp. 12086–12094, 2009, doi: https://doi.org/10.1016/j.eswa.2009.04.023.
دو فصلنامه علمي فناوري اطلاعات و ارتباطات ایران | سال سیزدهم،شمارههاي47و48،بهار و تابستان 1400 صص: 57_35 |
|
انتخاب ویژگی برای شناسایی نویسنده در متون کوتاه برخط فارسی
سمیه عارفی* محمد احسان بصیری** امید روزمند***
* کارشناس ارشد مهندسي فناوري اطلاعات، مؤسسه آموزش عالي صفاهان، اصفهان
** استادیار، دانشکده فني و مهندسي، دانشگاه شهرکرد
*** استادیار، گروه مهندسي كامپيوتر، پرديس شهرضا، دانشگاه اصفهان
تاریخ دریافت: 25/05/1399 تاریخ پذیرش: 23/11/1399
نوع مقاله: پژوهشی
چكیده
رشد فزايندهي استفاده از رسانههاي اجتماعي و ارتباطات برخط بهمنظور بيان نظرات، تبادل عقايد و همچنين گسترش استفادهي کاربران فارسي زبان از اين ابزارها باعث افزايش متون فارسي در وب شده است. اين رشد چشمگير در کنار سوءاستفادههاي ناشي از ناشناس بودن نويسندهي نوشتهها نياز به سامانهي خودکار شناسايي نويسنده در اين زبان را بيش از پيش آشکار ميسازد. هدف از اين پژوهش، بررسي ويژگيهاي مؤثر در شناسايي نويسندگان نظرات فارسي توليد شده توسط خريداران گوشي و همچنین ارزیابی روشهای نظارتی و غیرنظارتی میباشد. عواملي که در اين پژوهش بررسي ميشود شامل ويژگيهاي لغوي، نگارشی، معنايي، ساختاري، دستوري، مختص متن و مختص شبکههاي اجتماعي است. پس از استخراج ويژگيهاي مذکور، انتخاب ويژگيهاي برتر توسط چهار الگوريتم همبستگي ويژگي، نسبت بهره، OneR و تحليل اجزاي اصلي آزمايش ميشود. در ادامه از الگوريتمهاي خوشهبندي مبتني بر چگالي، K-means و EM براي خوشهبندي و الگوريتمهاي شبکهي بيز، جنگل تصادفي و Bagging براي دستهبندي استفاده خواهد شد. ارزيابي الگوريتمهاي فوق بر روي نظرات فارسي مربوط به خريداران گوشيهاي سامسونگ نشان ميدهد که بهترين تشخيص در بين الگوريتمهاي خوشهبندي با دقت 16/59% مربوط به الگوريتم EM روي 15 ويژگي برتر انتخابي توسطOneR است درحاليکه الگوريتم جنگل تصادفي بههمراه نسبت بهره برای 90 ویژگی با دقت 57/79% بهترين کارايي را در بين الگوريتمهاي دستهبندي دارد. همچنين مقايسهی ويژگيها نشان داد که ويژگيهاي نگارشی بيشترين تأثير را در شناسايي نويسندهي متون کوتاه داشته و پس از آن به ترتيب ويژگيهاي لغوي ، مختص متن، مختص شبکههای اجتماعی، ساختاري، دستوري و معنایی قرار گرفتند.
واژگان کلیدی: تحليل متن، تحليل سبک، استخراج ويژگي، انتخاب ويژگي و شناسايي نويسنده.
نویسنده مسئول: محمد احسان بصیری basiri@eng.sku.ac.ir
1 مقدمه
بروز مسائل و مشکلات امنيتي و جرائم الکترونيکي از قبيل فعاليتهاي تروريستي، باجخواهي، حقالسکوت، نامههاي تهديد آميز ناشناس، سرقت متون ادبي و علمي و مسائلي از اين قبيل موجب ايجاد دلهره در کاربران به هنگام استفاده از ابزارهاي شبکههاي اجتماعي، نامههاي الکترونيکي، پيامرسانهاي برخط و بهطورکلي محيطهاي ارتباطي و اطلاعاتي شده است. امروزه شناسايي خودکار نويسندهي اين متون ناشناس به يک ابزار ارزشمند جهت حمايت از پژوهشهاي مربوط به حوزهي جرم و جنايت و امنيت مبدل گرديده است.
با گسترش استفاده از اينترنت، ارتباطات برخط و شبکههاي اجتماعي، خدمات مبتني بر وب بهعنوان يکي از مؤثرترين ابزارها جهت ارسال اطلاعات متني و محتويات توليد شده توسط کاربر تبديل شدهاند. بيشتر اين خدمات به کاربر اجازه ميدهند که هويت واقعي خود را مخفي کرده، با هويت جعلي وارد فضاي مجازي شده ]1[ و بهصورت ناشناس يا تحت نام مستعار با ارائهي اطلاعات نادرست در وبلاگها، وبسايتها و نامههاي الکترونيکي مرتکب اقدامات خرابکارانه شوند ]2[؛ که اين امر موجب برانگيختن رعب و وحشت و عدم اطمينان در ميان کاربران ميگردد. در چنين فضايي، مجرمان با مخفي کردن هويت اصلي خود و ارائهي اطلاعات نادرست در مورد جنسيت، مکان، سن، سطح تحصيلات و مليت خود، آزادانه به بيان عقايد و نظراتشان پرداخته و مرتکب اقدامات خرابکارانه ميشوند ]1[. همچنين گروههاي تروريستي و جنايي از نامههاي الکترونيکي بهعنوان يک کانال امن براي ارتباطات مخفي خود استفاده ميکنند ]3[ و نفوذگرها بهمنظور انجام فعاليتهاي غيرقانوني و ارتکاب جرائم زيربنايي مانند انتقال کرم، ويروس، تروجان و ديگر بدافزارهاي قابل اجرا روي اينترنت، کاربران فضاي مجازي را هدف قرار ميدهند. نامههاي تبليغاتي، نامههاي تهديدآميز، بدگوییهای نژادی و هرزهنگاري رايجترين نمونههاي سوءاستفاده از نامههاي الکترونيکي ميباشند. علاوهبراين، بهدليل بين المللي بودن جرائم سايبري، مسائل چندزبانگي نيز به يک چالش جديد براي تحليل هويت نويسنده تبديل شده است ]4[. بهدليل بروز چنين مسائلي، شناسايي مشخصات توليدکنندگان محتوا و اهمیت حفاظت از این فضا هر روز پررنگتر و نياز به شناسايي خودکار نويسندهي متون بيش از پيش آشکار ميگردد.
تحليل هويت نويسنده تا کنون در سه زمينهي پژوهشي مختلف شامل شناسايي هويت نويسنده1، تأييد هويت نويسنده2 و توصيف شخصيت نويسنده3 دستهبندي و مورد مطالعه قرارگرفته است ]4[. شناسايي هويت نويسنده، به مقايسهي يک سند بينام و نشان با اسناد موجود پرداخته و به بررسي اينکه آيا آنها توسط يک نويسندهی واحد توليد شدهاند يا خير ميپردازد ]5[. مطالعاتي که تا کنون در اين زمينه صورت گرفته به شناسايي راههايي جهت شناسايي الگوهاي ارتباطات تروريسم، کشف سرقت متون ادبي و علمي، حل مشاجرات در نوشتههاي ادبي و تاريخي يا نگارش موسيقي پرداخته است. تأييد هويت نويسنده، توسط مقايسهي نمونه نگارش شخص مدعي با ساير نوشتههاي وي به اثبات اينکه آيا يک سند ناشناس توسط همان شخص نوشته شده است يا خير ميپردازد و تعيين خصوصياتي مثل جنسيت، سن و سطح تحصيلات نويسندهي يک سند ناشناس در حوزهي توصيف شخصيت نويسنده قرار ميگيرد ]4[ و ]5 [.
با این فرض، كه هر نويسنده سبك نوشتاري مخصوص به خود را دارد و از كلمات خاصي استفاده ميكند كه نوشتهاش را منحصربهفرد ميسازد، استخراج ويژگيهايي از درون متون، گزينهاي مناسب جهت شناسايي نويسنده ميباشد ]6[. انتخاب اين ويژگيهاي متمايز كننده، با استفاده از برخي روشهاي آماري و يادگيري ماشين صورت ميگيرد. اين ويژگيها که مطابق نظر پژوهشگران مشخص ميشود، شامل ويژگيهاي لغوي، نحوي، معنايي، ساختاري، دستوري، مختص متن و مختص شبکههاي اجتماعي ميباشد. مطالعاتی که تا کنون در اين زمينه صورت گرفته بيانگر اين مطلب است که استفاده از ويژگيهاي سبکشناسي بهترين شيوه جهت شناسايي نويسندهي متون ميباشد ]5[ و ]6[.
تجزيه و تحليل متون جهت شناسايي نويسندهي ناشناس، از ابتداي قرن 19 بهصورت سنتي آغاز گرديد و توزيع طول کلمات، از اولين ويژگيهاي مورد استفاده جهت شناسايي نويسندهی متون در اين دوره بوده است. با حضور رايانه، شناسايي خودکار نويسنده توسط تحليل متون با استفاده از ويژگيهايي از سبک نگارش نويسنده ميسر گرديد. نخستين مطالعات صورت گرفته در این زمینه مربوط به استفاده از لغات دستوري با استفاده از طبقهبند بيز ساده بوده است که از اين روش آماري جهت شناسايي هويت نويسندگان مقالات فدراليست استفاده شد ]7 [.
گروه ديگري از مطالعات که در سالهاي اخير توجه بيشتري را به خود جلب کردهاند، با استفاده از ويژگيهاي سبکشناسي و با اعمال روشهاي يادگيري ماشين و متنکاوي به بررسي و ايجاد مدلهايي براي تعيين ميزان تأثير ويژگيهاي مختلف بر روي شناسايي نويسندهي ناشناس پرداخته و با استفاده از روشهاي جديد به ارزيابي و انتخاب مناسبترين ويژگيها جهت حل مسئلهي شناسايي نويسندهی متون پرداختهاند.
بهدليل تفاوتهاي بنيادي در قواعد دستوري زبان انگليسي با زبان فارسي، مطالعات کمتري در زمينهي طراحي ابزارهاي ماشيني و محاسباتي مرتبط با زبان فارسي صورت گرفته ]2[ که اين امر موجب بروز چالشهايي در فاز پيشپردازش دادههاي متني، از جمله ريشهيابي و برچسبگذاري اجزای کلام ميگردد. عليرغم چنين کاستيهايي، نياز به وجود سيستمي جامع و هوشمند براي کمک به مراجع قضايي و تحقيقاتي جهت شناسايي مجرمان سايبري و نويسندهی مطالب بازنويسي شده و هرزنامهها در سايتها و شبکههاي اجتماعي، ضرورت انجام پژوهش در زمينهی شناسايي نويسندهی متون کوتاه در زبان فارسي را آشکار ميسازد.
با توجه به اينکه پژوهشهاي صورت گرفته در زبان فارسي در گذشته، اغلب بر روي متون ساختارمند و طولاني بوده و تنها از ويژگيهاي سنتي جهت شناسايي نويسندهی متون استفاده شده است؛ در اين پژوهش، تمرکز ما بر روي متون کوتاه برخط شامل نظرات فارسي توليد شده توسط خريداران گوشي ميباشد که جهت دقيقتر شدن کار شناسايي نويسندهی متون کوتاه، علاوه بر استفاده از ويژگيهاي سنتي متداول که در گذشته بر روي متون فارسي مورد استفاده قرار گرفته است، ويژگيهاي مختص شبکههاي اجتماعي را نيز به مجموعه ويژگيها افزوديم تا با استفاده از الگوريتمهاي انتخاب ويژگي مناسب بر روي ويژگيهاي استخراج شده و اعمال الگوريتمهاي خوشهبندي و دستهبندي، به مقايسهي کارايي الگوريتمهاي نظارتي و غيرنظارتي پرداخته و همچنین ويژگيهاي مؤثر در شناسايي نويسندگان متون کوتاه را بر اساس سبک نگارش افراد مورد بررسی قرار دهیم.
بهصورت خلاصه، نوآوریهای پژوهش جاری بهصورت زیر میباشد:
· ارائهی مجموعه دادهی نظرات فارسی در رابطه با محصولات گوشيهاي سامسونگ، مربوط به سالهاي 2015 و 2016.
· پیشنهاد استفاده از ويژگیهای مختص شبکههای اجتماعی در کنار سایر ویژگیهای سنتی.
· مقایسهی ويژگیهای مختلف و انتخاب ترکیب مناسب آنها برای شناسایی نویسندهی متون کوتاه.
ادامهي مقاله به شرح ذيل سازماندهي گرديده است. در بخش دوم، مباني نظري و پيشينهی پژوهش ارائه خواهد شد و در بخش سوم، روش پژوهش و ويژگيهاي سبکشناسي مورد استفاده جهت شناسايي نويسندهی متون کوتاه بيان ميگردد. بخش چهارم به پيادهسازي، بخش پنجم به تحليل نتايج، بخش ششم به بحث اختصاص داده شده و درنهايت، بخش هفتم به نتيجهگيري پرداخته شده است.
2 پیشینه پژوهش
شناسايي نويسنده با استفاده از ويژگيهاي سبک نوشتاري، شامل استخراج ويژگيهاي موجود در متن میباشد، بهطوريکه بتوان با استفاده از اين ويژگيها، بين متوني که توسط افراد مختلف نوشته شده تمايز قائل شد. استفاده از ويژگيهاي سبکشناسي جهت شناسايي نويسنده سابقهاي طولاني دارد. سير تکاملي اين حوزه را ميتوان در چهار دوره مورد بررسي قرار داد. نخستين پژوهشهاي صورت گرفته در اين زمينه، به قرن 19 ميلادي باز ميگردد که در آن زمان مندنهال ]8 [بهمنظور تشخيص اشعار مورد ترديد ويليام شکسپير و فرانسيس بيکن، از توزيع طول کلمات جهت شناسايي نويسندهی متون استفاده نمود.
نخستين پژوهشهاي غيرسنتي در اين زمينه، با کمک رايانه و با استفاده از مدلهاي احتمالاتي توسط موستلر و والاس در سال 1964 انجام شد. اين مطالعات که با استفاده از طبقهبند بيز ساده و لغات دستوري بر روي مجموعه مقالات فدراليست صورت گرفت، مؤثر بودن کلمات تابع4 در حل مسئلهي شناسايي نويسنده را به اثبات رساند ]7[. کرايگ در سال 1999 براي شناسايي نويسندهی متون از تکيهکلامهاي افراد که در حقيقت همان عادات نوشتاري افراد ميباشند، استفاده نمود. وي با استفاده از تجزيه و تحليل نمايشنامههاي ميدلتون توماس و ديگران، رابطهاي که ميان هويت و خصوصيات نگارش افراد وجود دارد را اثبات کرد ]9[. کوپل و همکارانش در سال 2004، ماشين بردار پشتيبان با هستهی خطي را بر روي ويژگيهاي لغوي شامل 250 کلمهي پرتکرار استخراج شده از 21 کتاب انگليسي نوشته شده توسط 10 نويسندهی مختلف بهکار بردند و با ناديده گرفتن نمونههاي منفي، تعيين هويت نويسنده را بهعنوان يک مسئلهی طبقهبندي تک کلاسه نشان دادند. آنها متن را به بخشهايي با 500 کلمهي تقريباً مساوي تقسيم کرده و اختلاف بين سند نمونه توليد شده مشکوک و کاربران ديگر را سنجيده و به دقت 7/95% دست يافتند ]10[.
با ظهور اينترنت و وب جهاني و درنهايت، با حضور رسانههاي شبکههاي اجتماعي و پيامرساني تعاملي و پويا، تجزيه و تحليل اسناد الکترونيکي و پيامهاي برخط به يک حوزهی پژوهشي جديد در زمينهی شناسايي نويسندهی متون کوتاه مبدل گرديد ]11[.
از آن زمان تاکنون، با استفاده از مجموعه ويژگيهاي سبکشناسي و روشهاي طبقهبندي متفاوت، پژوهشهاي فراواني بر روي مجموعه دادههاي مختلف شامل نامههاي الکترونيکي، گروههاي خبري، متون برخط، پستهاي شبکههاي اجتماعي، مقالات، پيامهاي کوتاه، وبلاگها، وبسايتها و کتابها صورت گرفته است که در ادامه، به بررسی ويژگيهاي استخراج شده از این متون و نتایج حاصل از اعمال الگوریتمهای متفاوت بر روی این مجموعه دادهها میپردازیم.
2.1 مجموعه دادههاي مربوط به نامههای الکترونیکی
بيشترين پژوهشهاي انجام شده در اين زمينه، به دستهبندي و شناسايي نويسندهي نامههاي الکترونيکي ميپردازد. نخستين پژوهشهاي انجام شده بر روی این مجموعه داده در سال 1993 توسط گوتنر و همکارانش صورت گرفت که با استفاده از فرهنگ واژگان بههمراه شبکه عصبي5 دقت 1/79% را نتيجه گرفتند ]12[. دي ول در سال 2000 مدل دستهبندي ماشين بردار پشتيبان6 را روي مجموعهاي از ويژگيهاي ساختاري و نحوي بهمنظور تحليل هويت نويسندهي نامههاي الکترونيکي ناشناس بهکار برد و دريافت که با افزايش تعداد کلمات تابع از 122 به 320 کارايي دستهبند وخيمتر ميگردد و نه تنها افزودن ويژگيهاي بيشتر جهت بهبود دقت لازم نيست، بلکه افزودن ويژگيهاي بيفايده ممکن است موجب کاهش دقت دستهبند گردد ]13[.
در سال 2002، کورني و همکارانش با استفاده از نامههاي الکترونيکي به بررسي رابطهي بين سبک نگارش افراد با سطح تحصيلاتشان پرداختند. آنها 253 نامهی الکترونيکي 200 تا 500 کلمهاي مربوط به چهار کاربر را توسط ويژگيهاي سبکشناسي، ساختاري و کلمات تابع بههمراه ماشين بردار پشتيبان آزمايش کرده و دقت 2/70 درصد را نتيجه گرفتند و دريافتند که با افزايش تعداد نويسندگان، کاهش طول اسناد و همچنين کاهش اندازهي مجموعهي آموزشي، دقت دستهبندي کاهش مييابد ]14[.
اقبال و همکارانش در سال 2008 براي اولين بار از يک روش دادهکاوي مبتکرانه بهنام «چاپنوشته7» استفاده کردند. اين روش شامل ترکيباتي از ويژگيهاي منحصربهفرد استخراج شده از متن است که بهطور مکرر در نوشتههاي يک شخص اتفاق ميافتد و همانند اثر انگشت بوده و نگارش فرد را از ديگران متمايز ميکند ]15[. چن و عباسي نيز در همان سال بهمنظور شناسايي و کشف شباهت نگارش از چاپنوشته در آزمايشهايشان استفاده کردند. آنها بهمنظور انتخاب ويژگيهاي برتر از الگوريتم تحليل اجزاي اصلي8 استفاده کرده و جهت کشف شباهت اجزاء، يک موجوديت9 ناشناس را انتخاب نموده و آن را با تمام موجوديتهاي ديگر مقايسه کرده و يک رتبه محاسبه نمودند؛ اگر رتبه بالاتر از مقدار از پيش تعريف شده بود، موجوديت ناشناس در دستهاي با موجوديت تطبيق شده دستهبندي ميشد ]16[. اقبال و همکارانش در ادامهی تحقيقات خود در سال2010، آزمايشهاي تجربي خود را بر روي 200 نامهی الکترونيکي 628 تا 1342 کلمهاي با استفاده از 292 ويژگي استخراج شده شامل ويژگيهاي لغوي، نحوي، خطاهاي دستور زباني و املايي و ويژگيهاي وابسته به محتوا را با دو روش متفاوت روي مجموعه داده مديريت کردند و نرخ خطاي 1/17% تا 4/22 درصد را نتيجه گرفتند ]17[. آنها در همان سال در آزمايشي ديگر، با استفاده از الگوريتمهاي خوشهبندي K-means، EM و Bisecting K-Means و ترکيبي از چهار ويژگي ساختاري، لغوي، نحوي و مختص محتوا و استخراج چاپنوشتهي مربوط به نويسندگان نامههاي الکترونيکي، به ارزيابي ويژگيهاي سبکشناسي و تأثير تعداد پيامهاي هر نويسنده پرداختند ]3[. آليسون و گوتري در سال 2008 با استفاده از ماشين بردار پشتيبان و مجموعه ويژگيهاي نحوي، 63 ويژگي مربوط به شمارش تعداد کلمات پرسشي زبان و ويژگيهاي n-تايي (2-تايي و 3-تايي) براي 8 نويسنده با تعداد 174 تا 706 نامهی الکترونيکي براي هر نويسنده و طول وبلاگهاي100 تا 600 کلمه، به شناسايي نويسنده يادداشتها و وبلاگها پرداخته و ميانگين دقت 74/86 درصد را کسب نمودند ]18[.
چنگ و همکارانش در سال 2011 آزمايشهاي خود را بر روي نامههاي الکترونيکي و مجموعهی خبري رويترز با استفاده از ماشين بردار پشتيبان انجام دادند و دقتهاي 23/82% و 75/76% را بهدست آوردند ]19[. در سال 2011 چن و همکارانش به بررسي شباهت نگارش نامههاي الکترونيکي مربوط به 40 نويسنده پرداختند و بدين منظور از 150 ويژگي سبکشناسي شامل 40 ويژگي لغوي، 9 ويژگي ساختاري، 76 ويژگي نحوي و 25 ويژگي وابسته به محتوا براي تأييد هويت نويسنده استفاده، و براي بلاکهاي 30 تا 50 کلمهاي با استفاده از ماشين بردار پشتيبان براي 10 نمونه دقت 90/83% و دقت 31/88% را براي 15 نمونه نتيجه گرفتند ]20[. بروکاردو و همکارانش در سال 2015 تحقيقات خود را بر روي نامههاي الکترونيکي و توئيتهاي 40، 280 و 500 کلمهاي با استفاده از ويژگي سبکشناسي شامل 528 ويژگي علامتمحور، 75 ويژگي کلمهمحور، 632 ويژگي نحوي، 7 ويژگي وابسته به کاربرد و n-تاييهاي استخراج شده با استفاده از ماشين بردار پشتيبان انجام دادند و نرخ خطاي متغير از 98/9% تا ٪21/45 را نتيجه گرفتند ]5[. نيرخي و همکارانش در سال 2016 روشهاي غيرنظارتي خوشهبندي سلسله مراتبي10 شامل روش همجوشي11 و روش جداگر12 را بههمراه رتبهبندي چندبعدي13 براي نگاشت متون به فضاي دو بعدي روي نامههاي الکترونيکي بهمنظور تعيين هويت نويسنده بهکار بردند ]4[.
2.2 مجموعه دادههاي مربوط به رسانههاي شبکههاي اجتماعي
گسترش استفاده از رسانههاي شبکههاي اجتماعي در اين سالها، و بروز مشکلات و جرائم الکترونيکي موجب شد محققان کارهاي پژوهشي خود را بر روي چنين مجموعه دادههايي متمرکز کنند. در سال 2010 جرمي و همکارانش بهمنظور شناسايي نويسندگان استاتوسهاي فيسبوک با استفاده از دستهبندهاي بيز ساده و پرسپترون به ترتيب دقتهاي 7/67% و 59% را نتيجه گرفتند ]21[. در همان سال، لايتون و همکارانش بهمنظور احراز هويت کاربران توئيتر، آزمايشهاي خود را بر روي 120 توئيت با حدبيشتر طول 140 علامت مربوط به 50 کاربر، با استخراج n-تايي (3-تايي) و با استفاده از الگوريتم K-means انجام داده و دقت 70 درصد را بهدست آوردند ]22[. لي و همکارانش در سال 2012، تکنيک انتخاب ويژگي غيرنظارتي را براي رسانههاي اجتماعي پيشنهاد کردند که بر اساس مدل احتمالاتي ابتدا ويژگيهاي بالقوه اجتماعي براي هر مورد بهدست آمده، سپس اهميت هر ويژگي اندازهگيري شده و فضاي ويژگي بهصورت ماتريس چندبعدي تعريف ميگردد. هرگاه ويژگي جديدي دريافت شود، يک آزمون براي پذيرش يا رد ويژگي انجام ميشود. اگر ويژگيها پذيرفته شوند، مدل دوباره بهينهسازي ميگردد و همچنين امکان حذف ويژگيهايي که قبلاً انتخاب شده بود نيز وجود دارد ]23[.
در سال 2014، لي و همکارانش بهمنظور احراز هويت نويسنده پستهاي شبکههاي اجتماعي، پستهاي 30 کاربر فيسبوک که بهطور ميانگين از 6/20 کلمه تشکيل شده بود را مورد مطالعه قرار داده و از 233 ويژگي سبکشناسي شامل 50 ويژگي علامتمحور، 18 ويژگي کلمهمحور، 158 ويژگي نحوي، 1 ويژگي ساختاري و 6 ويژگي مختص شبکههاي اجتماعي استفاده و آزمايشهاي خود را با روشهاي متفاوتي تکرار کردند و بهترين نرخ دقت 6/79% به هنگام ترکيب ويژگيهاي مختص شبکههاي اجتماعي و سبکشناسي سنتي بهدست آوردند. آنها با استفاده از SVM Light دقت ٪78/9 را براي ويژگيهاي سبکشناسي سنتي و دقت 8/69% را براي ويژگيهاي مختص شبکههاي اجتماعي بهطور مجزا بهدست آوردند و دريافتند که ترکيب اين ويژگيها دقت بالاتري را نتيجه ميدهد. آنها بهطورکلي دريافتند که افزايش تعداد کاربران موجب کاهش دقت دستهبندي شده و ترکيب ويژگيهاي سبکشناسي و مختص شبکههاي اجتماعي موجب افزايش دقت و استفاده از ويژگيهاي مجزا موجب کاهش دقت ميگردد و همچنين تعداد ويژگيهاي بيشتر موجب انحراف استاندارد کمتر و دقت بيشتر ميشود. علاوهبراين، نتايج نشان داد که ويژگيهاي علامتمحور جهت شناسايي نويسندهی متون کوتاه معيار مطلوبتري نسبت به کلمهمحور ميباشد. همچنين براي مقايسهی الگوريتم ماشين بردار پشتيبان با ساير الگوريتمها، آزمايشهاي خود را با الگوريتم K- نزديکترين همسايه تکرار کرده و به دقت 5/65% دست يافتند ]24[.
زوبياگا و همکارانش در سال 2015 روشي جهت دستهبندي توئيتهاي جهان واقعي در چهار دستهی اخبار، حوادث، يادداشتها و يادبودها توسط تعيين مجموعهی کوچکي از ويژگيهاي مستقل زباني پيشنهاد کردند. بدين منظور از ويژگيهايي شامل عناصر لغوي، هشتگها، URLها، فهرست واژگان، علامات سؤال و تعجب استفاده کردند. چهار ويژگي که روش آنها را جهت دستهبندي توئيتهاي جهان واقعي مناسب ميسازند عبارتند از: مجموعه ويژگيهاي کوچک مورد نياز که ميتواند بهطور واضح محاسبه گردد، بهبودبخشي قدرت تأثیر محتوا، هزينهی محاسباتي خطي براي تعداد توئيتهاي تحليل شده و بدون تغيير ماندن تعداد ويژگيهاي باقي مانده عليرغم تعداد نمونهها. بههرحال، بهدليل اينکه ويژگيها بهطور اختصاصي طراحي شده بودند، کاربردي بودن آنها جهت استفاده در زمينههاي ديگر ممکن نبود ]25[.
2.3 مجموعه دادههای مربوط به وبلاگها، وبسايتها، گروههاي خبري، پيامهاي آني و متون برخط
ساير مجموعه دادههاي مورد استفاده در پژوهشهاي اخير شامل وبلاگها، وبسايتها، گروههاي خبري، پيامهاي آني و متون برخط ميباشد که اين مجموعه دادهها در زبانهاي مختلف مورد بررسي قرار گرفتهاند. در سال 2006، آنژلا با استفاده از دستهبند بيز ساده بههمراه استخراج 69 ويژگي سبکشناسي شامل ساختار جمله، علامتهاي خاص از پيش تعريف شده مربوط به احساسات، مخففها و تحليل تکرار علائم بر روي چهار پيام آني، يک چارچوب سامانه کشف نفوذ پيام آني ايجاد کرده و بهترين دقت با ميانگين 68 درصد را نتيجه گرفت ]26[.
در سال 2011، کانالز و همکارانش بهمنظور تأييد هويت نويسندگان متون از 40 نمونه متن که بهصورت برخط جمعآوري شده بودند استفاده کرده و يک دستهبند K-نزديکترين همسايه14 را با 82 ويژگي سبکي شامل 62 ويژگي لغوي (49 ويژگي علامتمحور15، 13 ويژگي کلمهمحور) و 20 ويژگي نحوي آموزش دادند و نرخ خطاي 25/20% تا 18/4% را بهدست آوردند و دريافتند که نه تنها ويژگيهاي نحوي لزوماً بيانگر سبک نگارشي افراد نبوده، بلکه اين مجموعه ويژگيها جهت تأييد هويت نويسنده کافي نيست و بايد ويژگيهاي ديگري نيز به مجموعه ويژگيها افزوده شود ]27[.
در سال 2009، لاي جهت شناسايي نويسندگان وبلاگها با استفاده از طبقهبند بيز، دقت 69 درصد را نتيجه گرفت ]28[. آلام و كومار در سال 2013 ويژگيهاي معنايي نوين را براي كمك به سيستم شناسايي نويسنده براي زبان عربي توسعه دادند. بدين منظور، از تجزيه كنندههاي مختص پردازش زبان طبيعي، واژگان، پردازش معنايي، انتساب نقش موضوعي، هيوريستيكهاي معنايي و تكنيكهاي يادگيري ماشين استفاده كردند و همچنين ماشين بردار پشتيبان را براي طبقهبندي دادههاي متني به گروههاي مختلف بر اساس سبك نگارش بههمراه ويژگيهاي لغوي، نحوي، ساختاري، معنايي و مختص متن بهكار بردند. آنها آزمايشهاي خود را بر روي مقالات وبسايت عربي در حوزهي تروريسم و نظم و قانون انجام دادند؛ بدين صورت که ابتدا هر ويژگي را بهطور مجزا مورد بررسي قرار داده و پس از ترکيب تمام ويژگيها به دقت 98% دست يافتند ]29[.
در همين سال آدامز و همكارانش، جهت بهينهسازي جستوجو براي افزايش دقت شناسايي، از تركيب روشهاي الگوريتم ژنتيک16 و تکاملي17 استفاده کردند. سپس بهمنظور بهبود فرايند تطبيق، توسعهي اکتشافي ژنتيک18 را معرفي کرده و آزمايشهاي خود را بر روي ويژگيهاي استخراج شده از نوشتههاي مربوط به وبلاگ خبري Huffingtonpost.com و CNN.comشامل 170 ويژگي لغوي بههمراه نشانههاي نقطهگذاري، 21 ويژگي ساختاري و 122 کلمهي تابع انجام داده و ميانگين دقتهاي 50/21%، ٪43/43 و 57 درصد را براي آزمايشهاي حالت پايه، تركيب روشهاي الگوريتم ژنتيک و تکاملي و توسعهي اکتشافي ژنتيک بهدست آوردند و دريافتند که اين روش بهطور موفق دقت تشخيص را افزايش ميدهد درحاليکه بهصورت چشمگير تعداد خصوصيات مورد نياز جهت تشخيص را کاهش ميدهد ]30[.
در سال 2006، استاماتاتوس و هووارداس n-تايي19 با طول متغير را بر روي مجموعه داده رويترز بهكار بردند. آنها از بهرهی اطلاعاتي20 براي انتخاب ويژگي و از ماشين بردار پشتيبان با هستهی خطي بهمنظور دستهبندي استفاده کرده و به دقت 08/73% دست يافتند ]31[.
در سال 2012 گونال و يوسال يک روش جديد احتمالاتي انتخاب ويژگي بهنام انتخابگر ويژگي متمايز21 را بهمنظور انتخاب ويژگي پيشنهاد کردند و بدين منظور دستهبندهاي ماشين بردار پشتيبان، شبکه عصبي و درخت تصميم را بر روي چهار مجموعه داده رويترز، گروههاي خبري، خدمات پيام کوتاه و نامههاي الکترونيکي آزمايش کرده و بهمنظور اثبات کارايي روش پيشنهادي، با تکرار آزمايشها دريافتند که روش پيشنهاديشان از لحاظ دقت دستهبندي و زمان پردازش، عملکردي رقابتي با ساير روشها داشته است ]32[.
2.4 مجموعه دادههاي مربوط به پژوهشهای صورت گرفته در زبان فارسی
در سالهاي اخير در زمينهي شناسايي نويسنده در متون فارسي نيز تحقيقاتي بر روي مقالات، متون ادبي و پيامهاي الکترونيکي صورت گرفته است. در سال 1391، فرهمندپور و همكارانش از ويژگيهاي لغوي، نحوي، معنايي و وابسته به كاربرد جهت شناسايي هويت نويسنده استفاده كرده، كارايي اين ويژگيها و روشهاي K-نزديکترين همسايه، دلتا و الگوريتم ژنتيک را بر روي دو پايگاه داده شامل متون مربوط به دانشجويان دانشگاه بوعلي سينا و مقالات مربوط به 8 نويسندهي همعصر، بررسي كرده و به دقتهاي 50 تا 100 درصد دست يافتند] 2[. يک سال بعد، زنگويي و شمس آباد، جهت شناسايي نويسندگان پيامهاي الکترونيکي مربوط به 50 نفر از مشتريان بالقوهی وبسايت آمازون، روش يادگيري ماشين بهنام تجميع هستههاي وزندار22 را پيشنهاد کردند. آنها در ابتدا ويژگيهاي لغوي، نحوي، ساختاري و خاص متن را بهصورت مجزا بهکار برده و سپس با استفاده از يک روند تکاملي ويژگيها را اضافه نموده و درنهايت آزمايشهاي خود را با ترکيبي از با استفاده از دستهبندهاي ماشين بردار پشتيبان، تجميع هستههاي وزندار، شبکه عصبي و C4.5 به پايان رسانده و دقتهاي 69/97%، ٪98/78، ٪96/66 و 36/93 درصد را نتيجه گرفتند] 33[. مرادي و بحراني در سال 1394 با استفاده از ويژگيهاي سبکشناسي و روانشناختي به تشخيص جنسيت نويسنده پرداختند. بدين منظور مطالعات خود را بر روي متون ادبي فارسي (داستان و رمان) و نظرات کاربران در سايت هلوکيش با استفاده از ماشين بردار پشتيبان، درخت تصميم و بيز ساده به انجام رساندند و دقت ٪71/6، ٪73/6 و 3/66 درصد براي پيکره متون و دقت 8/58%، ٪63 و 53 درصد را براي پيکره نظرات نتيجه گرفتند] 1[.
بهمنظور مقايسهی نتايج پژوهشهاي صورت گرفته تا کنون، چند نمونه از آنها در جداول 1 و 2 آورده شده است.
بهطورکلي ميتوان گفت در سالهاي اخير توجه بيشتري به شناسايي نويسنده در چارچوب کاربردهاي عملي مثل بررسي نويسنده پيامهاي الکترونيکي، شناسايي الگوهاي تروريسم، حل مشاجرات تاريخي و ادبي، موارد دادگاهي، کشف سرقت ادبي و علمي در مقالات دانشجويي و توصيف شخصيت نويسنده صورت گرفته است. بدين صورت که ابتدا ويژگيهاي برتر استخراج شده، سپس الگوريتمهاي انتخاب ويژگي مناسب بر روي اين ويژگيها اعمال شده و درنهايت با استفاده از الگوريتمهاي خوشهبندي يا دستهبندي مناسب، به شناسايي نويسندگان پرداخته شده است.
جدول 1. نتايج مربوط به پژوهشهاي انجام شده در زبانهای مختلف .
مرجع | مجموعه داده | ويژگي | روش | دقت |
]3[ | نامههاي الکترونيکي | لغوي، نحوي، ساختاري، وابسته به محتوا |
EM,
K-means,
Bisecting K-Means | نرخخطا -73/0 80/0 -73/0 88/0 -75/0 83/0 |
]4[ | نامههاي الکترونيکي | لغوي
| خوشهبندي سلسله مراتبي، رتبهبندي چندبعدي
|
|
]5[ | نامههاي الکترونيکي، توئيتها | لغوي (n-تايي)، نحوي، ساختاري، وابسته به محتوا | ماشين بردار پشتيبان | 02/90 55/78
|
]10[ | 21 کتاب انگليسي مربوط به 10نويسنده | لغوي | ماشين بردار پشتيبان با هستهی خطي | 7/95 |
]12[ | نامههاي الکترونيکي | لغوي (فرهنگ واژگان) | شبکه عصبي | ۱/۷۹ |
]13[ | نامههاي الکترونيکي | ساختاري، نحوي | ماشين بردار پشتيبان |
|
]14[ | 253 نامهی الکترونيکي مربوط به ۴ کاربر | ساختاري، کلمات تابع | ماشين بردار پشتيبان | ۲/۷۰ |
]18[ | 174 تا 706 نامهی الکترونيکي مربوط به ۸ نويسنده | لغوي(n-تايي و کلمههاي پرسشي)، نحوي | ماشين بردار پشتيبان | ۷۴/۸۶ |
]20[ | نامههاي الکترونيکي مربوط به 40 نويسنده | لغوي، نحوي، ساختاري، وابسته به محتوا | ماشين بردار پشتيبان | 90/83 31/88 |
]22[ | 120 توئيت مربوط به 50 کاربر | لغوي(n-تايي)
| k-نزديکترين همسايه | 70 |
]24[ | پستهاي 30 کاربر فيسبوک | لغوي، نحوي، ساختاري، مختص شبکههاي اجتماعي | SVM Light,
k-نزديکترين همسايه | 9/78 8/69 5/65
|
]26[ | پيامهاي آني | ساختاري، علامتهاي خاص | بيز ساده | ۶۸ |
]27[ | 40 نمونه متن جمعآوری شده به صورت برخط | لغوي، نحوي
| k-نزديکترين همسايه | 82/95 75/79 |
]29[ | مقالات وب سايت عربي | لغوي، نحوي، ساختاري، معنايي، مختص متن | SVM Light
| 98
|
]30[ | وبلاگ خبري Huffington post.com,
CNN.com | لغوي، نشانههاي نقطهگذاري، ساختاري، کلمات تابع | الگوريتم ژنتيک و تکاملي، توسعهي اکتشافي ژنتيک | 43/43 57 |
]31[ | مجموعه خبري رويترز | لغويn) -تايي با طول متغير) | ماشين بردار پشتيبان با هستهی خطي + بهرهی اطلاعاتي | 08/73 |
]32[ | مجموعهی خبري رويترز، گروههاي خبري، خدمات پيام کوتاه، نامههاي الکترونيکي | لغوي (فرهنگ واژگان) | ماشين بردار پشتيبان، شبکه عصبي، درخت تصميم |
|
جدول 2. نتايج مربوط به پژوهشهاي انجام شده در زبان فارسی.
مرجع | مجموعه داده | ويژگي | روش | دقت |
متون ادبي فارسي (داستان و رمان فارسي) | لغوي، نحوي، ساختاري، دستوري، نشانههاي رواني-زباني | ماشين بردار پشتيبان، بيز ساده، درخت تصميم | 6/71 3/66 6/73 | |
نظرات کاربران در سايت هلو کيش | 8/58 53 63 | |||
متون مربوط به دانشجويان دانشگاه بوعلي سينا، | لغوي، نحوي، معنايي، وابسته به كاربرد | دلتا k-نزديکترين همسايه الگوريتم ژنتيک + دلتا الگوريتم ژنتيک + k-نزديکترين همسايه | 50 70 50 80 | |
مقالات مربوط به 8 نويسندهي همعصر
| 87 100 5/87 100 | |||
] 33[ | پيامهاي الکترونيکي مربوط به 50 نفر از مشتريان بالقوهی وبسايت آمازون | لغوي، نحوي، ساختاري، خاص متن | ماشين بردار پشتيبان، تجميع هستههاي وزندار، شبکه عصبي، C4.5 | 69/97 78/98
66/96 36/93 |
اين پژوهش | نظرات فارسي مربوط به خريداران گوشيهای سامسونگ | لغوي، نگارشی، معنايي، ساختاري، دستوري، مختص متن، مختص شبکههاي اجتماعي | خوشهبندي مبتني بر چگالي + تحليل اجزاي اصلي، خوشهبندي مبتني بر چگالي + همبستگي ويژگي، K-means + نسبت بهره، EM + OneR | 48
25/55
55/56
15/59 |
شبکهي بيز + همبستگی ويژگي، Bagging + OneR, جنگلتصادفی + تحليل اجزاي اصلي، جنگلتصادفي + نسبت بهره | 67/70
07/76
87/77
57/79 |
نتايج بهدست آمده از تحقيقات گذشته گوياي اين مطلب است که تکنيکهاي انتخاب ويژگي سنتي که در تحقيقات گذشته جهت شناسايي نويسندهی متون ساختارمند و طولاني مورد استفاده قرار گرفته و دقت بالايي داشتهاند، در مورد متون کوتاه از دقت و کارايي کمتري برخوردارند و ميتوان با افزودن ويژگيهاي مختص شبکههاي اجتماعي به مجموعه ويژگيهاي سنتي، تا حدي اين مشکل را برطرف نمود.
با توجه به اينکه پژوهشهاي صورت گرفته در زبان فارسي در گذشته، اغلب بر روي متون ساختارمند و طولاني بوده که تنها از ويژگيهاي سنتي جهت شناسايي نويسندهی متون استفاده شده است؛ در اين پژوهش، تمرکز ما بر روي متون کوتاه برخط ميباشد که جهت دقيقتر شدن کار شناسايي نويسندهی متون کوتاه، علاوه بر استفاده از ويژگيهاي سنتي متداول که در گذشته بر روي متون فارسي مورد استفاده قرار گرفته است، ويژگيهاي مختص شبکههاي اجتماعي را نيز به مجموعه ويژگيها افزوديم تا ضمن بررسي تأثير اين ويژگيها، به مقايسهي کارايي الگوريتمهاي نظارتي و غيرنظارتي بپردازيم.
3 روش پژوهش
پژوهشگران بهمنظور ايجاد امنيت در فضاي مجازي، به دنبال ابزارهايي براي جلوگيري از برخي سوءاستفادهها در اين فضا ميباشند. بدين منظور جهت شناسایی نويسندهی سندهای ناشناس شامل نامههاي الکترونيکي، وبلاگها، وبسايتها، متون برخط، پستهاي شبکههاي اجتماعي، پيامهاي کوتاه، مقالات، گروههاي خبري و کتابها روشهاي مختلفي مورد بررسي قرار گرفته که عموماً برمبناي الگوريتمهاي يادگيري ماشين بوده و شامل روشهاي يادگيري نظارتي و غيرنظارتي ميباشند.
3.1 انتخاب نوع الگوریتم
روشهاي يادگيري نظارتي زماني مناسب هستند که برچسب دادههاي آموزشي از قبل شناخته شده است. در بيشتر پژوهشهاي صورت گرفته تاکنون، الگوريتمهاي يادگيري نظارتي بهطور عمده مورد استفاده قرار گرفته و تأثيرات ويژگيهاي سبک نگارشي متفاوت با استفاده از دستهبندهاي ماشين بردار پشتيبان و درخت تصميم مورد بررسي قرار گرفتهاند] 30.[
روشهاي يادگيري غيرنظارتي نيازي به برچسبگذاري داده از قبل ندارند، بلکه شناسايي بر پايه مقايسه شباهت بين يک سند ناشناخته مفروض در برابر اسناد شناخته شده با استفاده از ويژگيهاي متفاوت است، بهطوريکه سند ناشناخته در همان دستهاي قرار گيرد که توسط همان نويسنده نوشته شده است] 4.[ بهدليل اينکه بيشتر متون در فضاي وب بهصورت ناشناس منتشر ميگردند و اطلاعات اندکي در رابطه با نويسندگان حقيقي متون در دسترس ميباشد، جهت طبقهبندي نويسندگان، روشهاي غيرنظارتي بر روي ويژگيهاي استخراج شده از نمونهها اعمال شده و کار خوشهبندي آنها به گروههاي مختلف صورت ميگيرد.
در اين پژوهش با توجه به دردسترس بودن مجموعه دادهی برچسبگذاري شده براي نوشتههاي فارسي، هم از روشهاي نظارتي و هم از روشهاي غيرنظارتي استفاده خواهد شد و نتايج حاصل از ارزیابیها با یکدیگر مقايسه ميشوند. فرايند کلي شناسايي نويسندهی متون در شکل 1 بيان شده است.
شکل 1. فرايند شناسايي نويسنده.
3.2 ویژگيهاي سبکشناسي
مطالعهي ويژگيهاي سبکشناسي نشان ميدهد که ميتوان با استفاده از سبک نگارشي افراد که نسبتاً ثابت ميباشد، به شناسايي نويسندهي متون پرداخت. اين ويژگيها، مربوط به سبک نگارشي نويسندگان بوده که از قبل توسط پژوهشگران تعريف شدهاند. بر اين اساس، هفت ويژگي شامل ويژگيهاي لغوي، نگارشی، ساختاري، دستوري، معنايي، ويژگيهاي مختص شبکههاي اجتماعي و مختص متن جهت انجام اين پژوهش مورد استفاده قرار گرفت. جداول 3 تا 9 شامل فهرست کلي ويژگيهاي استخراج شده از متن در اين پژوهش ميباشند.
· ويژگيهاي نگارشی: اين ويژگيها ساختار جمله را از ديدگاه نشانههاي نقطهگذاري، تعريف مرزها و نوع جملات (پرسشي، تعجبي و خبري) توسط شکستن پاراگراف به جمله و جملات به نشانههاي متفاوت، بيان کرده و شامل نشانههاي نقطهگذاري و تعداد تکرار کلمات تابع ميباشد] 5[. کلمات تابع، که بهصورت ناخودآگاه توسط نويسنده توليد ميشوند، مستقل از موضوع بوده و از نظر معنايي کمارزش ميباشند؛ اما بهدليل استفادهي مکرر نويسنده از اين کلمات و توزيع فراوان آنها در متن، اين ويژگي ميتواند نتايج خوبي در تشخيص سبک نگارش افراد داشته باشد ]2[.
· ويژگيهاي معنايي: اين ويژگيها که کلمات و عباراتي که جملهوارهها را به هم مربوط ميکنند، بهعنوان 3 ويژگي مورد استفاده در اين پژوهش ميباشند که شامل افزودههاي ربطي تشريحي، گسترشي و تفضيلي ميباشند
· ويژگيهاي ساختاري: اين ويژگيها ترکيبي از جملات و پاراگرافها و همچنين نحوهي سازماندهي جملات درون پاراگرافها و پاراگرافها درون اسناد و بهطورکلي، چيدمان متن توسط نويسنده ميباشند.
· ويژگيهاي لغوي: اين ويژگيها به دو دستهي علامتمحور و کلمهمحور دستهبندي ميشوند. در ويژگيهاي علامتمحور، متن بهصورت رشتهاي از علائم درنظر گرفته ميشود. ويژگيهاي کلمهمحور، متن را بهصورت يک رشته از کلمات درنظر ميگيرند و شامل 18 ويژگي از جمله پرمايگي واژگان شامل توابع يول] 34[، هونور] 35[، برونت] 36[، سيشل] 37[ و سيمسون] 38[ ميباشند که در روابط 1 تا 5 بيان گرديدهاند.
(1) | Yules K = 104(- |
(2) | Honores R = |
(3) | Brunet w = |
(4) | Sicheles S = |
(5) | Simpsons D = |
که در اين روابط، V تعداد کلمات يکتا، α پارامتر ثابت با مقدار 17/0، N تعداد کل کلمات، i مرتبه تکرار، HL تعداد کلمات با يکبار تکرار و HD تعداد کلمات با دو بار تکرار ميباشد.
· ويژگيهاي مختص شبکههاي اجتماعي: اين ويژگيها بيانگر حالت روحي نويسنده با استفاده از نمادها بوده و شامل نمادهاي متنمحور، نمادهاي متفرقه، شکلکهاي مثبت، خنثي و منفي ميباشند. نمادهاي متن محور مانند :-) و موارد مشابه که نشانه حالت لبخند، خيليشاد، اخم، عصباني، ناراحت و گريان هستند در جدول 10 و شکلکها شامل علامتهايي با يونيکدهاي معين، در جدول 11 مشخص شدهاند.
· ويژگيهاي دستوري: اين ويژگيها، مربوط به دستور زبان بوده و شامل کلماتي است که از لحاظ معنايي، معناي واژگاني کمي داشته و براي نشان دادن روابط دستوري بين کلمات مورد استفاده قرار ميگيرند] 1[.
· ويژگيهاي مختص متن: اين ويژگيها بهمنظور نمايش دقيقتر تفاوت سبک افراد در حوزهی خاصي بهکار ميروند. انتخاب چنين ويژگيهايي وابسته به حوزههاي کاربرد بوده و با توجه به زمينه متن انتخاب ميگردند. در اين پژوهش با توجه به مجموعه داده، انواع گوشيها و تکيه کلامهاي افراد بهعنوان ويژگيهاي منحصربهفرد در نظر گرفته شده است.
جدول 3. مجموعه ويژگيهاي نگارشی.
ويژگيهاي نگارشی | |
F81 | تعداد کل علائم نقطهگذاري ÷ تعداد کل علائم |
F82 | تعداد کاما ÷ تعداد کل علائم |
F83 | تعداد نقطه ÷ تعداد کل علائم |
F84 | تعداد دونقطه ÷ تعداد کل علائم |
F85 | تعداد سميکلون ÷ تعداد کل علائم |
F86 | تعداد علامت سؤال ÷ تعداد کل علائم |
F87 | تعداد علامت تعجب ÷ تعداد کل علائم |
F88 | تعداد علامت سؤال سهتايي ÷ تعداد کل علائم |
F89 | تعداد علامت تعجب سهتايي ÷ تعداد کل علائم |
F90 | تعداد سهنقطه ÷ تعداد کل علائم |
F91 | تعداد علامت کاما سهتايي ÷ تعداد کل علائم |
F92 | تعداد علامت نقل قول ÷ تعداد کل علائم |
F93 | تعداد کلمات تابع ÷ تعداد کل کلمات |
جدول 4. مجموعه ويژگيهاي معنايي.
ويژگيهاي معنايي | |
F118 | افزودههاي ربطي تشريحي ÷ تعداد کل کلمات |
F119 | افزودههاي ربطي گسترشي ÷ عداد کل کلمات |
F120 | افزودههاي ربطي تفضيلي ÷ تعداد کل کلمات |
جدول 5. مجموعه ويژگيهاي ساختاري.
ويژگيهاي ساختاري | |
F94 | تعداد کل خطوط ÷ تعداد کل علائم |
F95 | تعداد کل خطوط ÷ تعداد کل کلمات |
F96 | تعداد کل جملات ÷ تعداد کل علائم |
F97 | تعداد کل جملات ÷ تعداد کل کلمات |
F98 | تعداد علامت enter ÷ تعداد کل علائم |
F99 | تعداد جملات بدون نقطه پاياني |
جدول6. مجموعه ويژگيهاي لغوي.
ويژگي | توضيح ويژگي |
ويژگيهاي علامتمحور | |
F1 | تعداد آدرسهاي URL |
F2 | تعداد کل اعداد ÷ تعداد کل علائم |
F3 | تعداد کل حروف بزرگ انگليسي ÷ تعداد کل علائم |
F4 | تعداد کل حروف کوچک انگليسي ÷ تعداد کل علائم |
F5 | تعداد کل حروف انگليسي ÷ تعداد کل علائم |
F6 | تعداد کل حروف فارسي و انگليسي ÷ تعداد کل علائم |
F7 | تعداد کل حروف فارسي ÷ تعداد کل علائم |
F8 | تعداد کل کلمات ÷ تعداد کل علائم |
F9 | تعداد کل علامتهاي خاص ÷ تعداد کل علائم |
F10- F34 | تعداد هر يک از علامتهاي خاص ÷ تعداد کل علائم خاص |
F35- F60 | تعداد هر يک از حروف انگليسي(A-Z , a-z) ÷ تعداد کل علائم |
F61 | تعداد علامت فاصله ÷ تعداد کل علائم |
F62 | تعداد علامت نيمفاصله ÷ تعداد کل علائم |
ويژگيهاي کلمهمحور | |
F63 | تعداد کلمات فارسي ÷ تعداد کل کلمات |
F64 | تعداد کلمات انگليسي ÷ تعداد کل کلمات |
F65- F67 | تعداد کلمات کوتاه (1،2و3 حرفي) ÷ تعداد کل کلمات |
F68- F70 | تعداد کلمات طولاني (6،7 و بيشتر از 8 حرفي) ÷ تعداد کل کلمات |
F71 | تعداد کلمات با يک بار تکرار ÷ تعداد کل کلمات |
F72 | تعداد کلمات با دو بار تکرار ÷ عداد کل کلمات |
F73 | تعداد کلمات يکتا ÷ تعداد کل کلمات |
F74- F75 | تعداد کلمات پرتکرار (7 و بيشتر از8) ÷ تعداد کل کلمات |
F76 | معيار Sichel |
F77 | معيار Honore |
F78 | معيار Brunet |
F79 | معيار Yule |
F80 | معيار Simpson |
جدول 7. مجموعه ويژگيهاي مختص شبکههاي اجتماعي.
ويژگيهاي مختص شبکههاي اجتماعي | |
F121 | تعداد کل نمادهاي متنمحور ÷ تعداد کل علائم |
F122 | تعداد کل شکلکها ÷ تعداد کل علائم |
F123 | تعداد کل نمادهاي متفرقه ÷ تعداد کل علائم |
F124 | تعداد کل شکلکهاي مثبت ÷ تعداد کل علائم |
F125 | تعداد کل شکلکهاي خنثي ÷ تعداد کل علائم |
F126 | تعداد کل شکلکهاي منفي ÷ تعداد کل علائم |
جدول 8. مجموعه ويژگيهاي دستوري.
ويژگيهاي دستوري | |
F100 | تعداد اسامي ÷ تعداد کل کلمات |
F101 | تعداد حروف اضافه ÷ تعداد کل کلمات |
F102 | تعداد حروف ربط ÷ تعداد کل کلمات |
F103 | تعداد حروف ندا ÷ تعداد کل کلمات |
F104 | تعداد ضماير فاعلي ÷ تعداد کل کلمات |
F105 | تعداد ضماير مفعولي ÷ تعداد کل کلمات |
F106 | تعداد ضماير اشاره ÷ تعداد کل کلمات |
F107 | تعداد ضماير پرسشي ÷ تعداد کل کلمات |
F108 | تعداد کلمات مربوط به قطعيت ÷ تعداد کل کلمات |
F109 | تعداد کلمات مربوط به شک و ترديد ÷ تعداد کل کلمات |
F110 | تعداد کلمات مربوط به رنگها ÷ تعداد کل کلمات |
F111 | تعداد ضماير ÷ تعداد کل کلمات |
F112 | تعداد صفات ÷ تعداد کل کلمات |
F113 | تعداد قيود ÷ تعداد کل کلمات |
F114 | تعداد گروه اسمي |
F115 | تعداد گروه فعلي |
F116 | تعداد گروه قيدي |
F117 | تعداد گروه صفتي يا مسندي |
جدول 9. مجموعه ويژگيهاي مختص متن.
ويژگيهاي مختص متن | |
F127 | تعداد کلمات مربوط به متن ÷ تعداد کل کلمات |
F128 | تعداد گوشيهاي سري A ÷ کلمات مربوط به متن |
F129 | تعداد گوشيهاي سري C ÷ کلمات مربوط به متن |
F130 | تعداد گوشيهاي سري E ÷ کلمات مربوط به متن |
F131 | تعداد گوشيهاي سري J و G ÷ کلمات مربوط به متن |
F132 | تعداد گوشيهاي سري S ÷ کلمات مربوط به متن |
F133 | تعداد گوشيهاي سري Note ÷ کلمات مربوط به متن |
F134 | تعداد تکيه کلامها ÷ تعداد کل کلمات |
جدول 10. شکلکها.
:-) :) :o) :] :3 :c) :> =] 8) =) :} :^) :-d :d 8-d 8d x-d xd X-d xd =-d =d =-3 =3 b^d :-)) ^_^ (^_^)/ (^^)/(^o^) >^_^< (^.^) (^_^.) (^_^) (^^) ;;) ^_^ (#^.^#)(y) ;d :* :") (*^0^*) ;) :') !(^^)! (*^^)v (^^)v (^_^)v | Positive |
>:[ :-( :( :-c :c :-< -_,- :< :-[ :[ :{ :-|| :@ qq (>_<)(>_<)> -____- </3.___. :]x \m/ :| (/_;) (t_t) (;_;)(;_:) (;o;) (:_;) (tot) -___- (-.-) (-_-) x_x --" -__- :/ (*_*) (*_*; (+_+) (@_@) :-/ -_- (~o~) (~_~) :-| :'( ._. | Negative |
:o :p | Neutral |
جدول 11. يونيکد نمادهاي احساسي.
\U+1F600\U+1F601\U+1F602\U+1F923\U+1F603\U+1F604\U+1F605\U+1F606\U+1F609\U+1F60A\U+1F60B\U+1F60E\U+1F60D\U+1F618\U+1F617\U+1F619\U+1F61A\U+F263A\U+1F642\U+1F917\U+1F929 | Face positive
|
\U+1F914\U+1F928\U+1F610\U+1F611\U+1F636\U+1F644\U+1F60F\U+1F623\U+1F625\U+1F62E\U+1F910\U+1F62F\U+1F62A\U+1F62B\U+1F634\U+1F60C\U+1F61B\U+1F61C\U+1F61D\U+1F924\U+1F612\U+1F613\U+1F614\U+1F615\U+1F643\U+1F911\U+1F632 | Face neutral |
\U+2F639\U+1F641\U+1F616\U+1F61E\U+1F61F\U+1F624\U+1F622\U+1F62D\U+1F626\U+1F627\U+1F628\U+1F629\U+1F92F\U+1F62C\U+1F630\U+1F631\U+1F633\U+1F92A\U+1F635\U+1F621\U+1F620\U+1F92C | Face negative |
3.3 انتخاب ویژگیها
در بسياري موارد پس از مرحله استخراج ويژگي، با دادههايي با ابعاد زياد مواجه هستيم که کارايي الگوريتم يادگيري را کاهش داده و به مشکل بيشبرازش23 منجر ميگردند. بنابراين، انتخاب ويژگيهاي مرتبط و ضروري در مرحلهی پيشپردازش از اهميتي بنيادين برخوردار است. در اين مرحله، با انتخاب زيرمجموعهاي از ويژگيهاي اوليه، ابعاد دادهها کاهش مييابد] 39.[ برخلاف روشهاي مبتني بر استخراج ويژگي، اين نوع روشها معناي اصلي ويژگيها را بعد از کاهش حفظ ميکنند. الگوريتمهاي انتخاب ويژگي همانگونه که در شکل 2 نشان داده شده است به سه دستهي فيلتر، بستهبند24 و توکار25 تقسيم ميشوند] 39.[ در روش اول، الگوريتم مستقل از دستهبند است و در روشهاي دوم و سوم همانگونه که در شکل مشخص شده است، براي انتخاب ويژگي با دستهبند در تعامل است.
چهار الگوريتم انتخاب ويژگي که در اين پژوهش مورد استفاده قرار گرفته شامل همبستگي ويژگي26 با تابع ارزياب بر اساس همبستگي با فيلد هدف، نرخ بهره27 با تابع ارزياب بر اساس آنتروپي با فيلد هدف، OneR با تابع ارزياب شامل يک دستهبند ساده و الگوريتم تحليل اجزاي اصلي با تابع ارزياب بر اساس کوواريانس ميباشند.
شکل 2. انواع الگوريتمهاي انتخاب ويژگي.
الگوريتم همبستگي ويژگي يک الگوريتم از نوع فيلتر است که بر اساس ميزان همبستگي بين ويژگيها کار ميکند. در اين الگوريتم، بر اساس رابطهي 6 ابتدا ضريب همبستگي پيرسون براي دو ويژگي X و Y بهصورت زير محاسبه ميشود:
(6) | ρ = |
که در اين رابطه cov کوواريانس و σ واريانس است. سپس بر اساس مقدار بهدست آمده که عددي بين 1- و 1 است ميزان همبستگي و درنتيجه تکراري بودن ويژگيها مشخص ميشود.
الگوريتم نرخ بهره نسخهي نرمال شدهي الگوريتم بهرهي اطلاعاتي است. براي نرمالسازي در اين الگوريتم، مقدار بهرهي اطلاعاتي بر آنتروپي ويژگي نسبت به دسته تقسيم ميشود. اين کار با استفاده از روابط زير انجام ميشود.
(7) | Gain Ratio (C,A) = |
در اين رابطه C دسته، A ويژگي و H تابع آنتروپي است که از رابطهي زير محاسبه ميگردد.
(8) | H(S) = |
در اين رابطه p احتمالي است که براي آن يک مقدار از فضاي نمونهها (S) رخ ميدهد.
الگوريتم OneR يک الگوريتم ساده است که به ازاي هر ويژگي يک قانون ايجاد کرده و بر اساس ميزان خطاي هر قانون آنها را ارزيابي ميکند. سپس قانوني که کمترين نرخ خطا را داشته باشد انتخاب ميکند. اين روش يک الگوريتم توکار است.
الگوريتم تحليل اجزاي اصلي بر اساس انتخاب ويژگيهايي که به بهترين شکل پخشي داده در يک مجموعه داده را نشان ميدهند، کار ميکند. اين الگوريتم ويژگيهايي که با هم همپوشاني زيادي دارند را ادغام ميکند. اين الگوريتم نيز يک روش فيلتر ميباشد.
3.4 خوشهبندی
هدف خوشهبندي يافتن يک ساختار درون يک مجموعه از دادههاي بدون برچسب بوده و خوشهها شامل مجموعهاي از دادهها ميباشد که شباهت بيشتري به يکديگر داشته باشند. در خوشهبندي سعي ميشود تا دادهها به خوشههايي تقسيم شوند که شباهت درون هر خوشه بيشينه و شباهت دادههاي خوشههاي متفاوت کمينه شود.
الگوريتمهاي خوشهبندي اعمال شده در اين پژوهش شامل الگوريتم K-means، EM و خوشهبندي مبتني بر چگالي28 ميباشد. به اين دليل که الگوريتمهاي K-means و EM الگوريتمهاي شناخته شدهتري ميباشند در اين قسمت فقط الگوريتم DBSCAN مختصراً توضيح داده خواهد شد.
همان گونه که در شکل 3 ديده ميشود، الگوريتم DBSCAN بر اساس دستهبندي دادهها به سه دستهي هسته، دسترسيپذير و نويز تقسيم ميشوند.
شکل 3. توصيف الگوريتم DBSCAN. نقاط A و ساير نقاط قرمز هسته و نقاط زرد دسترسيپذير از نقاط هسته میباشند. نقطهي N نويز است.
در اين الگوريتم هر نمونه که با يک نقطه نشان داده ميشود، به شرطي که به تعداد يک متغير از پيش مشخص شده (minPts) در يک فاصلهي از پيش مشخص (ε) در اطراف آن قرار داشته باشند (نقاط دسترسيپذير)، هسته تلقي ميشود و در غير اين صورت نويز هستند. بهعنوان مثال در شکل 3 اگر minPts=4 باشد، نقطه A و ساير نقاط قرمز هسته هستند زيرا ناحيهي اطراف آنها با شعاع داراي حداقل 4 نقطه است. به اين دليل که تمام اين نقاط از همديگر ε قابل دسترسي هستند، همگي در يک خوشه قرار ميگيرند. نقاط B و C اگرچه هسته نيستند اما نقاط دسترسي پذير هستند و درنتيجه در يک خوشه با هسته قرار ميگيرند. نهايتاً نقطهي N نويز است زيرا نه هسته است و نه نقطه دسترسيپذير.
3.5 دستهبندی
هدف دستهبندي تمايز بين دادههاي برچسب خورده درون تعداد دستههاي از پيش معين ميباشد. معمولاً از روشهاي يادگيري ماشين براي دستهبندي استفاده ميشود ]39.[ الگوريتمهاي دستهبندي اعمال شده در اين پژوهش شامل الگوريتمهاي شبکهي بيز، جنگل تصادفي29 وBagging ميباشد. اين سه الگوريتم از سه خانوادهي مختلف انتخاب شدهاند و در نحوهی محاسبهي دستهها تفاوت ساختاري دارند.
شبکهي بيز يک نوع مدل گرافيکي احتمالي است که از استنتاج بيز براي محاسبهي احتمالات استفاده ميکند. هدف شبکهي بيز مدل کردن وابستگي شرطي و درنتيجه عليت با استفاده از يالها در يک گراف جهتدار ميباشد. جنگلهاي تصادفي يا جنگلهاي تصميمگيري تصادفي يک روش يادگيري گروهي30 براي دستهبندي است که با ساختن تعدادي درخت تصميمگيري در زمان آموزش دستهاي را که ميانه دستهها باشد يا ميانگين پيشبيني درختها (در مواردي که دستهها عددي هستند) را بهعنوان خروجي برميگرداند. نماي کلي اين الگوريتم در شکل 4 آورده شده است.
شکل 4. نماي کلي الگوريتم جنگل تصادفي. خروجي (y) بر اساس تجميع خروجي درختهاي تصادفي با ورودي x انتخاب ميشود.
الگوريتم Bagging يک الگوريتم تخمين گروهي است که تعدادي دستهبند را روي زيرمجموعههاي تصادفي از دادهي آموزشي آموزش داده و پيشبيني آنها را با روشهایي مثل رأيگيري تجميع ميکند. نماي کلي اين الگوريتم در شکل 5 آورده شده است.
همانگونه که از مقايسهي شکلهاي 4 و 5 مشخص است، تفاوت دو الگوريتم جنگل تصادفي و Bagging در اين است که در الگوريتم Bagging دادهي آموزشي به چند بخش تصادفي تقسيم ميشود و هر دستهبند روي بخشي از دادهي آموزشي آموزش ميبيند.
شکل 5. نماي کلي الگوريتم Bagging. خروجي (y) بر اساس تجميع خروجي دستهبندهايي که هر يک بر روی بخشی از مجموعه دادهها آموزش داده شدهاند، انتخاب ميشود.
4 پيادهسازي
4.1 مجموعه داده
همانطور که در شکل 1 مشاهده ميشود، جمعآوري اسناد الکترونيکي موجود در محيط وب اولين قدم جهت شناسايي نويسنده ميباشد. مجموعه دادهي استخراج شده در اين پژوهش، شامل1000 نظر فارسي در رابطه با محصولات گوشيهاي سامسونگ است که مربوط به سالهاي 2015 و 2016 ميباشد. در اين مجموعه، نظرات مربوط به 9 نويسنده بههمراه شناسهي کاربري آنها آورده شده است. متوسط نظرات براي نويسندگان 125 نظر با تعداد 1 تا 19 جملهي 9 تا 505 کلمهاي بوده است. نمونهاي از رکوردهاي اين مجموعه داده، مربوط به دو کاربر در جدول 12 قابل مشاهده ميباشد.
از آنجايي که اين متون غيرساختيافته بوده و استخراج دانش از چنين مجموعهاي در ابتداي امر کاري غيرممکن ميباشد، بايد با اعمال فرايند متنکاوي بهصورتي تبديل شود که براي الگوريتم قابل درک باشد. گام اول در چنين فرايندي معمولاً پيشپردازش است؛ در اين فرايند سندهاي متن خام بهعنوان ورودي دريافت شده و خروجي آن مجموعهاي از کلمات است که در مدل فضاي بردار31 (VS) مورد استفاده قرار ميگيرد.
4.2 فرايند پيشپردازش متون
فرايند کلي پيشپردازش صورت گرفته در اين پژوهش که در شکل 6 آمده است، تنها جهت استخراج ويژگيهاي دستوري بوده و بهدليل اينکه هدف اصلي عدم تغيير در سبک نگارش نويسندگان ميباشد، استخراج ساير ويژگيها نيازي به مرحله پيشپردازش نداشته و همان متون اوليه مورد استفاده قرار گرفته است.
بهدليل اينکه در استخراج ويژگيهاي دستوري، هدف نهايي برچسبگذاري کلمات فارسي میباشد، تمامي نشانهها و کلمات غيرفارسي حذف گرديد و تنها کلمات فارسي موجود در متن باقي ماند. سپس، متن حاصل توسط ابزارهاي پردازش زبان طبيعي موجود که مختص زبان فارسي ميباشد نرمالسازي گشت و در گام بعد، ويژگيهاي سبکي از آنها استخراج گرديد. از ابزارهاي پردازش زبان طبيعي رايج که در زمينهی پيشپردازش متون فارسي ميتوان از آنها بهره جست، ميتوان به کتابخانه هضم و فردوسنت32 اشاره نمود که در اين پژوهش نيز نرمالسازي متون با کمک اين ابزارها صورت گرفت. فرايند نرمالسازي صورت گرفته توسط اين نرمافزارها شامل مراحل ذيل ميباشد:
· اصلاح کدينگ: جایگزین کردن حروف غیرفارسی که بیش از یک یونیکد دارند، با حروف معادل فارسی.
· حذف اعراب، تنوين، تشديد و علائمي از اين قبيل.
· اصلاح نيمفاصله: استفاده از نیمفاصله جهت تعیین مرزهای کلمات مرکب که میتوانند به سه شکل متفاوت چسبيده، با نيمفاصله و يا فاصله نوشته شوند.
· تبديل کلمات عاميانه به رسمي: جهت از بین بردن ابهام در کلمات و اصطلاحات عامیانه و محاورهای که پردازش زبان طبیعی را با مشکل مواجه میسازند.
· واحدسازی: استفاده از فاصله جهت تعیین مرزهای کلمات.
· برچسبزني اجزای کلام: انتساب برچسبهای واژگانی به کلمات و نشانههای تشکیل دهندهی یک متن جهت نشان دادن نقش کلمات و نشانهها در جمله. پس از طی مراحل اولیهی نرمالسازی، جهت تعیین نوع کلمات از قبیل اسامي، افعال، حروف، ضماير و صفات نوبت برچسبگذاري میباشد که با استفاده از روشهاي مبتني بر قاعده33، صورت میگیرد و برچسب مناسب با استفاده از قواعد دستوری و زبانشناسی انتخاب میشود.
· تجزيهی جملات به اجزاي تشکيل دهندهی خود شامل گروههاي اسمي، فعلي، قيدي و ....
· درخت نحوی با استفاده از ساختار لغات، موقعیت و ترتیب لغات در جمله، حروف یا عبارات قبل و بعد از آنها و نوع لغات، ایجاد میشود. درواقع، این عملیات با توجه به ریختشناسی (مطالعه ساختار و حالتهای مختلف یک کلمه) در دستور زبان فارسی صورت میگیرد.
جدول 12. نمونهاي از رکوردهاي مجموعه داده.
شناسه کاربر | نظرات |
95446 | ببين الان بهترين مدلي که به ايران وارد شده همون مدل C يا CD هستش که من مدل دو سيم دارم الان سه ماه دارم استفاده ميکنم هيچ ايرادي نتونستم بهش بگيرم مصرف باطريش هم معموليه و نسبت به سخت افزار و ... خيلي طبيعيه هيچ مشکلي در آنتن دهي نداره . |
95446 | اگه بودجه براتون مهم نيس 100 درصد نوت 5 بهترينه; باطري نوت 5 از نوت 4 هم بهتره |
95446 | سلام بله خيلي بهتر از نسل هاي قبلي هستش موليتي تسکينگ هم با آپديتي که اخيرا داده به مراتب بهتر شده اما بي شک ميگم باز سرعت اجراي برنامه ها فوق العادست |
104379 | مشکل رم گوشي هاي سامسونگ فقط تو نوت 5 و گلکسي اس 6 بود الان اس 7 و اس 7 اج چنين مشکلي ندارن ميتونيد ي تحقيق بکنيد و خودتون از نزديک ببينيد گوشي جي 7 هم با اينکه رمش 1.5 هيتش کوچکترين لگ و تاخيري نداره |
104379 | مقايسه سي ۷ و آ ۷ ۲۰۱۶ حتما ببينيد..; http://www.aparat.com/v/vFnJW |
104379 | من الان چند ماهه اين گوشي دستمه مدل فورجي; خدايش تاحالا هيچ مشکلي باش نداشتم و دارم ازش لذت ميبرم |
شکل 6. فرايند پيشپردازش متون فارسي.
4.3 تکمیل فرایند پیادهسازی
مرحلهي بعد شامل استخراج ويژگيها است که در آن براي هر سند متني يک بردار 134 بعدي شامل ویژگیهای لغوي، نگارشی، ساختاري، دستوري، معنايي، ويژگيهاي مختص شبکههاي اجتماعي و مختص متن جهت بازنمايي مقادير توليد شد؛ بهطوريکه اين ويژگيها داراي تمام يا بخش اعظمي از اطلاعات موجود در متون اوليه بودند. در ادامه، فرايند انتخاب ويژگي، خوشهبندي و دستهبندی بر روي بردار ويژگيها با استفاده از الگوریتمهای ذکر شده در بخشهای 3.3، 3.4 و 3.5 صورت گرفت.
5 تحليل نتايج
در اين پژوهش، بهمنظور اعمال الگوريتمهاي انتخاب ويژگي بر روي ويژگيهاي استخراج شده و همچنين خوشهبندي و دستهبندي با استفاده از ويژگيهاي انتخاب شده، از بسته نرمافزاري وکا استفاده شد. جهت انتخاب 15، 30، 60، 90 و 134 ويژگي برتر جهت شناسايي نويسنده، در مرحلهي رتبهبندي ويژگيها، الگوريتمهاي نرخ بهره، الگوريتم تحليل اجزاي اصلي، همبستگي ويژگي وOneR بر روي مجموعه داده اعمال و سپس با استفاده از الگوريتمهاي EM،K-means و DBSCAN کار خوشهبندي نمونهها صورت گرفت. سپس براي مقايسهي نتايج در حالت نظارت شده و غيرنظارتي، دستهبندي نمونهها با استفاده از الگوريتمهاي شبکهي بيز، جنگل تصادفي و Bagging انجام شد. جهت ارزيابي الگوريتمهاي مذکور، از درصد خطاي بهدست آمده براي خوشهبندي و دقت (تعداد نمونههاي بهدرستي دستهبندي شده) براي دستهبندي استفاده گرديد. نتايج بررسيهای مربوط به روشهای غیرنظارتی در شکلهاي 7 تا 9 و روشهای نظارتی در شکلهاي 10 تا 12 قابل مشاهده ميباشند.
شکل7. درصد خطاي حاصل از اعمال الگوريتم EM .
شکل 8. درصد خطاي حاصل از اعمال الگوريتم K-means.
شکل 9. درصد خطاي حاصل از اعمال الگوريتم DBSCAN.
با دقت در نمودارهای شکلهاي 7 تا 9 ملاحظه میشود که در روش غیرنظارتی، بهترين نتيجه مربوط به زماني است که 15 ويژگي برتر توسط الگوريتم انتخاب ويژگي OneR انتخاب شده و سپس توسط الگوریتم خوشهبندی EM به خوشههای مجزا تقسیمبندی شده است. همانطور که در شکل 7 مشاهده میشود با کاهش ابعاد ويژگيها از 134 به 15 ويژگي، نرخ خطا کاهش یافته و درصد تشخيص درست افزايش مييابد. بهطوریکه در بهترين حالت الگوريتمهاي غيرنظارتي به دقت 16/59% ميرسند. از اين مشاهده ميتوان چنين نتيجه گرفت که افزودن ويژگيهاي بيفايده نه تنها منجر به بهبود دقت نميشود، بلکه ممکن است موجب کاهش دقت دستهبند نيز گردد.
شکل 10. دقت دستهبندي مربوط به الگوريتم شبکهی بیز.
شکل 11. دقت دستهبندي مربوط به الگوريتم جنگل تصادفی.
شکل 12. دقت دستهبندي مربوط به الگوريتم Bagging.
همچنین با دقت در نمودارهای شکلهاي 10 تا 12 مشاهده میشود که در روش نظارتی، بهترین عملکرد مربوط به الگوریتم جنگل تصادفی بههمراه نسبت بهره برای 90 ویژگی ميباشد که دقت 57/79 درصد کسب گردیده است.
خلاصهی نتیجهی ارزیابیها شامل ترتيب قرار گرفتن 15 ويژگي برتر انتخاب شده با استفاده از الگوریتم انتخاب ويژگي OneR، بههمراه گروه مربوط به هر ویژگی، در جدول 13 قابل مشاهده میباشد. بررسي دقيقتر اين 15 ويژگي برتر شامل ويژگيهاي F3، F64، F63، F65، F44، F90، F83، F41، F5، F131، F80،F132 ، F95، F81 و F115 بيانگر اين مطلب است که کدامیک از ویژگیهای سبکشناسی که در گذشته برای متون طولانی و ساختارمند مورد استفاده قرار گرفته و کار شناسایی نویسنده را با دقت بالایی انجام دادهاند، درمورد متون کوتاه نیز میتوانند به همان اندازه مؤثر واقع شوند.
جدول 13. بررسي 15 ويژگي برتر.
شرح ويژگي | گروه ويژگي | |
F3 | تعدادکل حروف بزرگ انگليسي ÷ تعدادکل علائم | لغوي- علامتمحور |
F64 | تعداد کلمات انگليسي ÷ تعداد کل کلمات | لغوي- کلمه محور |
F63 | تعداد کلمات فارسي ÷ تعداد کل کلمات | لغوي- کلمه محور |
F65 | تعداد کلمات کوتاه 1 حرفي ÷ تعداد کل کلمات | لغوي- کلمه محور |
F44 | تعداد حروف انگليسي J و j ÷ تعداد کل علائم | لغوي- علامتمحور |
F90 | تعداد سهنقطه ÷ تعداد کل علائم | نگارشی |
F83 | تعداد نقطه ÷ تعداد کل علائم | نگارشي |
F41 | تعداد حروف انگليسي G و g ÷ تعداد کل علائم | لغوي- علامتمحور |
F5 | تعداد کل حروف انگليسي ÷ تعداد کل علائم | لغوي- علامتمحور |
F131 | تعداد گوشيهاي سريJ و G ÷ کلمات مختص متن | مختص متن |
F80 | معيار Simpson | لغوي-کلمه محور |
F132 | تعداد گوشيهاي سري S ÷ کلمات مربوط به متن | مختص متن |
F95 | تعداد کل خطوط ÷ تعداد کل کلمات | ساختاري |
F81 | تعداد کل علائم نقطهگذاري ÷ تعداد کل علائم | نگارشي |
F115 | تعداد گروه فعلي | دستوري |
با توجه به جدول 13 با مقايسهی ویژگیها مشاهده میشود که در این پژوهش، ویژگیهای لغوی (علامتمحور و کلمهمحور) بیشترین تأثیر را در شناسایی نویسندهی متون کوتاه داشته و پس از آنها به ترتيب ويژگيهاي نگارشی، مختص متن، ساختاري و دستوري قرار گرفتهاند.
بهدلیل اینکه مجموعه دادهی مورد استفاده در این پژوهش مربوط به نظرات خریداران گوشی میباشد، حروف s ، j وg در جدول 13 مربوط به حروف بهکار رفته در مدلهای گوشی بوده که افراد نظرات خود را درمورد آنها بیان نمودهاند. این حروف جزء ویژگیهای لغوی (علامتمحور) بوده و به دلیل پرتکرار بودن این حروف در مجموعه داده، موجب بالارفتن دقت ویژگی لغوی در میان سایر ویژگیها گردیدهاند.
در ادامه بهمنظور بررسي تأثير ويژگيهاي سبکشناسي، هر يک از ويژگيهاي نگارشی، لغوي، معنايي، دستوري، ساختاري، مختص متن و مختص شبکههاي اجتماعي بهطور مجزا در نظر گرفته شد و سپس الگوريتمهاي خوشهبندي بر روي دادههاي موجود اعمال شد. با توجه به شکل 13 ميتوان نتيجه گرفت که ويژگيهاي نگارشی بيشترين تأثير را در شناسايي نويسندهي متون کوتاه داشته و پس از آن به ترتيب ويژگيهاي لغوي ، مختص متن، مختص شبکههای اجتماعی، ساختاري، دستوري و معنایی قرار گرفتهاند.
شکل 13. بررسي ويژگيهاي سبکشناسي بهطور مجزا.
6 بحث
6.1 مقایسهی روشهای نظارتی و غیرنظارتی
همانگونه که از مقايسهي شکل 7 و شکل 11 مشخص است، در بهترين حالت الگوريتمهاي غيرنظارتي به دقت 16/59% (درصد خطاي 84/40%) ميرسند، درحاليکه الگوريتمهاي نظارتي در بهترين حالت به دقت 57/79% ميرسند. همچنين بدترين حالت براي الگوريتمهاي نظارتي فقط کمي بدتر از بهترين حالت براي الگوريتمهاي غيرنظارتي است. اين نشاندهندهي کارايي بالاتر الگوريتمهاي نظارتي ميباشد. اين نتيجه از پيش قابل پيشبيني بود زيرا الگوريتمهاي نظارتي با در اختيار داشتن برچسب نمونهها و با استفاده از يادگيري بهتر ميتوانند نمونههاي ديده نشده را برچسبگذاري نمايند.
بهطورکلی، بهترین نتایج حاصل از اعمال الگوریتمهای مذکور که در جدول 14 نیز آمده است بهصورت زیر میباشد. در روش نظارتی الگوریتمهای Bagging، شبکهی بیز و جنگل تصادفی بهمنظور دستهبندی و از الگوریتمهای همبستگي ويژگي، نسبت بهره، OneR و تحليل اجزاي اصلي بهمنظور انتخاب ویژگیهای برتر استفاده گردید که با استفاده از الگوریتمهای Bagging بههمراه OneR دقت 07/76%، شبکهی بیز بههمراه همبستگي ويژگي دقت 67/70%، جنگل تصادفی بههمراه نسبت بهره دقت 57/79% و جنگل تصادفی بههمراه تحلیل اجزای اصلی دقت 87/77 درصد کسب گردید.
جدول 14. بررسی دقت طبقهبندی الگوریتمهای متفاوت، بر روی ویژگیهای استخراج شده از متون کوتاه فارسی.
مجموعه داده | ویژگی | روش | دقت |
نظرات فارسی مربوط به خریداران گوشی | لغوي، نگارشي، معنايي، ساختاري، دستوري، مختص متن، مختص شبکههاي اجتماعي | خوشهبندي مبتني بر چگالي + تحليل اجزاي اصلي، خوشهبندي مبتني بر چگالي + همبستگي ويژگي، K-means + نسبت بهره، EM + OneR | 48
25/55
55/56
15/59 |
شبکهي بيز + همبستگی ويژگي، Bagging + OneR, جنگلتصادفی + تحليل اجزاي اصلي، جنگلتصادفي + نسبت بهره | 67/70
07/76 87/77
57/79 |
در روش غیرنظارتی از الگوریتمهای مبتني بر چگالي، K-means و EM بهمنظور خوشهبندی و از الگوریتمهای همبستگي ويژگي، نسبت بهره، OneR و تحليل اجزاي اصلي بهمنظور انتخاب ویژگیهای برتر استفاده گردید که با استفاده از الگوریتمهای مبتني بر چگالي بههمراه همبستگي ويژگي دقت 25/55%، K-means بههمراه نسبت بهره دقت 55/56%، EM بههمراه OneR دقت ٪59/15 و خوشهبندي مبتني بر چگالي بههمراه تحليل اجزاي اصلي دقت 48 درصد کسب گردید.
6.2 بررسی ویژگیهای سبکشناسی
با توجه به اینکه مجموعه دادهی مورد استفاده در این پژوهش، متون کوتاه شامل نظرات مربوط به خریداران گوشی میباشد و این متون کوتاه بهصورت تعاملی بوده و از سبک نگارشی رسمی پیروی نمیکنند و همچنین افراد برای غلطهای املایی و دستور زبانی اهمیتی قائل نمیشوند و بهطور کلی در قالب و ساختار و چیدمان متن، با اسناد متنی معمولی تفاوت چشمگیری دارند چنین خصوصیاتی موجب کاهش دقت در ویژگیهای سبکشناسی سنتی شده و کار شناسایی نویسندهی متون کوتاه به کمک این ویژگیها را با مشکل مواجه میسازد.
بررسی نتایج حاصل از اعمال روشهای متفاوت بر روی مجموعه دادهی متون کوتاه برخط در این پژوهش نشان داد که ويژگيهاي نگارشی بيشترين تأثير را در شناسايي نويسندهي متون کوتاه داشته و پس از آن به ترتيب ويژگيهاي لغوي، مختص متن، مختص شبکههای اجتماعی، ساختاري، دستوري و معنایی قرار میگیرند.
بهدلیل اینکه ویژگیهای لغوی متن را بهصورت رشتهای از کلمات و علائم درنظر گرفته و ویژگیهای نگارشی شامل نشانههاي نقطهگذاري و تعداد تکرار کلمات تابع میباشند؛ خصوصیات این دو ویژگی موجب شده که سبک نگارشی، غلطهای املایی و دستور زبانی، محاورهای یا رسمی بودن متن، ساختار و سازماندهی متن، تأثیری در عملکرد این دو ویژگی نداشته و نسبت به سایر ویژگیها از دقت بالاتری برخوردار باشند.
ویژگیهای مختص متن که با توجه به محتوای متن، مدلهای گوشي و تکيه کلامهاي افراد درنظر گرفته شدهاند عملکرد مناسبی در شناسایی نویسنده داشتهاند. البته این ویژگیها نیز تحت تأثیر محاورهای بودن متن و همچنین غلطهای املایی موجود در متن قرار گرفته و نسبت به دو ویژگی نگارشی و لغوی از دقت پایینتری برخوردار میباشند.
ویژگیهای مختص شبکههای اجتماعی که با استفاده از شکلکهاي مثبت، خنثي و منفي و نمادهای متنمحور، بيانگر حالت روحي نويسنده ميباشند نیز عملکرد مناسبی در شناسایی نویسندهی متون کوتاه داشته و سبک نگارشی افراد و سایر خصوصیات مربوط به متون کوتاه نأثیر چندانی در دقت تشخیص آنها نداشتهاند.
ویژگیهای ساختاری تحت تأثیر خصوصیات متون محاورهای قرار گرفته و درنتیجه نسبت به سایر ویژگیها، تأثیر کمتری در شناسایی نویسندهی متون کوتاه داشتهاند.
به دلیل اینکه ویژگیهای دستوری تحت تأثیر غلطهای املایی و دستور زبانی و همچنین سبک نگارشی افراد قرار میگیرند و همچنین فرایند استخراج این ویژگیها با کمک ابزارهای پردازش زبان طبیعی صورت گرفته، عدم رعایت قواعد نگارشی و دستور زبانی، کار برچسبگذاری مجموعه داده را با مشکل مواجه ساخته و برچسبهای بهدست آمده با کمک این ابزارها، از دقت بالایی برخوردار نبوده و همین امر موجب کاهش دقت نتایج حاصل از اعمال الگوریتمها با استفاده از ویژگیهای دستوری شده است و این ویژگی با دقت 23/32 درصد، عملکرد ضعیفی را در شناسایی نویسندهی متون کوتاه نشان داده است.
عامیانه بودن متون کوتاه و غلطهای املایی و دستور زبانی موجب شده است که ویژگیهای معنایی نسبت به تمامی ویژگیها از کمترین دقت تشخیص برخوردار باشد.
7 نتیجهگیری
در پژوهش حاضر شناسايي نويسندگان نظرات فارسي با استفاده از الگوريتمهاي مختلف خوشهبندي و دستهبندي، همچنين با بهکارگيري الگوريتمهاي انتخاب ويژگي مورد بررسي قرار گرفت. يافتههاي اين پژوهش نشان ميدهد که با کاهش ابعاد ويژگيها درصد تشخيص درست افزايش مييابد بهطوريکه بهترين نتيجه مربوط به زماني است که 15 ويژگي برتر توسط الگوريتم انتخاب ويژگي OneR انتخاب شدند. از ميان اين 15 ويژگي ويژگيهاي لغوي بيشترين تأثير را در شناسايي نويسندهی متون کوتاه داشته و پس از آنها به ترتيب ويژگيهاي نگارشی، مختص متن، ساختاري و دستوري قرار گرفتند.
نتايج حاصل از آزمودن الگوريتمهاي نظارتي و غيرنظارتي نشان ميدهد که بهترين دقت تشخيص در بين الگوريتمهاي خوشهبندي مربوط به الگوريتم EM روي 15 ويژگي برتر انتخابي توسط OneR میباشد درحاليکه الگوريتم جنگل تصادفي بههمراه نسبت بهره برای 90 ویژگی بالاترین کارايي را در بين الگوريتمهاي دستهبندي دارد. همچنين با توجه به نتايج حاصل از مقايسهي الگوريتمهاي خوشهبندي و دستهبندي مشخص شد که الگوريتمهاي نظارتي در بهترين حالت به ميزان 41/20% نسبت به الگوريتمهاي غيرنظارتي برتري دارند.
اين پژوهش نشان ميدهد با وجود آنکه به کمک ويژگيهاي سبکشناسي سنتي نيز ميتوان به شناسايي نويسندهی متون کوتاه پرداخت، اما تکنيکهاي انتخاب ويژگي سنتي که در تحقيقات گذشته جهت شناسايي نويسندهی متون ساختارمند و طولاني مورد استفاده قرار گرفته و دقت بالايي داشتند در مورد متون برخط دقت و کارايي کمتري دارند. اسناد برخط، تعامليتر بوده، سبک نگارش رسمي کمتري داشته و الگوي واژگان در آنها ثابت نيست و همچنین نسبت به اسناد متني عادي در سبک نگارش، قالب، ساختار و چیدمان متن متفاوت بوده و اينکه افراد براي غلطهاي املايي و گرامري اهميتي قائل نميشوند، يافتن الگوي نگارشي نويسنده را با مشکل مواجه ميسازد. کوتاه بودن طول اين متون نيز موجب کاهش دقت دستهبندي و افزايش نرخ خطا ميگردد.
نتایج حاصل از این پژوهش گویای این مطلب است که بهدليل اينکه ويژگيهاي دستوري وابسته به سبک نگارشي افراد بوده و فرايند استخراج اين ويژگيها با کمک ابزارهاي پردازش زبان طبيعي صورت ميگيرد، برچسبهای بهدست آمده با استفاده از این ابزارها از دقت کافی برخوردار نبوده و درنهایت، نتايج حاصل از اعمال الگوريتمها از دقت بالايي برخوردار نميباشند. ويژگيهاي معنایی و مختص متن تحت تأثير محاورهاي بودن متن قرار گرفته و همین امر به کاهش دقت تشخیص منجر میشود. در ميان اين ويژگيها، ويژگيهاي لغوي و نگارشی که وابستگي چنداني به ساختار و قالب متن ندارند و محاورهاي و رسمي بودن متون در عملکرد آنها تأثيري نميگذارد، نسبت به ساير ويژگيها نتيجهی بهتري از خود نشان ميدهند.
با توجه به يافتههاي اين پژوهش ميتوان جمعبندي کرد که درصورتي که نوشتههايي از نويسندگان وب در دسترس باشد، مثلا زماني که هدف شناسايي کاربري از بين کاربران موجود در يک وبسايت از روي نوشتههاي موجود است و سابقهي نگارش افراد وجود دارد، بهتر است از الگوريتمهاي دستهبندي استفاده شود؛ درحاليکه اگر هدف يافتن نوشتههاي يک نويسنده بر اساس تشابه نوشتهها باشد، لازم است از الگوريتمهاي خوشهبندي استفاده شود. بهعنوان ادامهي راه براي اين پژوهش ميتوان استفاده از الگوريتمهاي فراابتکاري که در ساير حوزهها کارايي خوبي نشان دادهاند را براي انتخاب ويژگي پيشنهاد داد. همچنين بهکارگيري روابط موجود در سايتهاي اجتماعي ميتواند جهت شناسايي بهتر نويسندگان بهعنوان مسيري براي کارهاي آتي پيشنهاد شود.
مراجع
[1] مرادي، مهدی و بحراني، محمد، “تشخيص خودکار جنسيت نويسنده در متون فارسي”، فصلنامه پردازش علائم و دادهها، شماره 4، پیاپی 26، صفحات 83-94، 1394.
[2] فرهمندپور، زینب، نیکمهر، هومان، منصوری زاده، محرم و طبیب زاده قمصری، اميد، “يک سيستم نوين هوشمند تشخيص هويت نويسنده فارسي زبان بر اساس سبک نوشتاري-مقاله برگزيده هفدهمين کنفرانس ملي انجمن کامپيوتر ايران”، مجله محاسبات نرم، شماره دوم، صفحات 35-26، 1391.
[3] F. Iqbal, H. Binsalleeh, B. C. M. Fung, and M. Debbabi, “Mining writeprints from anonymous e-mails for forensic investigation,” Digit. Investig., vol. 7, no. 1–2, pp. 56–64, 2010.
[5] M. L. Brocardo, I. Traore, and I. Woungang, “Authorship verification of e-mail and tweet messages applied for continuous authentication,” J. Comput. Syst. Sci., vol. 81, no. 8, pp. 1429–1440, 2015.
[6] Y. Yiming and P. Jan O., “A Comparative Study on Feature Selection in Text Categorization,” Proceeding ICML ’97 Proc. Fourteenth Int. Conf. Mach. Learn., vol. 53, no. 9, pp. 412–420, 1997.
[7] M. Frederick and L. Wallace David, “Inference and Disputed Authorship: The Federalist. Reading, Addison.” Wessley Publishing Company. Republié sous le titre Applied Bayesian and …, 1984.
[8] T. C. Mendenhall, “The Characteristic Curves of Composition,” Science (80-. )., vol. 9, no. 214, pp. 237–249, Dec. 1887, [Online]. Available:http://www.jstor.org/stable/1764604.
[9] H. Craig, “Authorial attribution and computational stylistics: If you can tell authors apart, have you learned anything about them?,” Lit. Linguist. Comput., vol. 14, no. 1, pp. 103–113, 1999.
[10] M. Koppel and J. Schler, “Authorship verification as a one-class classification problem,” in Proceedings of the twenty-first international conference on Machine learning, 2004, p. 62.
[11] E. Villar-Rodriguez, J. Del Ser, M. N. Bilbao, and S. Salcedo-Sanz, “A feature selection method for author identification in interactive communications based on supervised learning and language typicality,” Eng. Appl. Artif. Intell., vol. 56, pp. 175–184, 2016, doi: https://doi.org/10.1016/j.engappai.2016.09.004
[12] P. Geutner, U. Bodenhausen, and A. Waibel, “Flexibility through incremental learning: Neural networks for text categorization,” in Proceedings of WCNN-93, World Congress on Neural Networks, 1993, pp. 24–27.
[13] O. De Vel, “Mining e-mail authorship,” 2000.
[14] M. Corney, O. De Vel, A. Anderson, and G. Mohay, “Gender-preferential text mining of e-mail discourse,” in 18th Annual Computer Security Applications Conference, 2002. Proceedings., 2002, pp. 282–289.
[15] F. Iqbal, R. Hadjidj, B. C. M. Fung, and M. Debbabi, “A novel approach of mining write-prints for authorship attribution in e-mail forensics,” Digit. Investig., vol. 5, pp. S42–S51, 2008.
[16] A. Abbasi and H. Chen, “Writeprints: A stylometric approach to identity-level identification and similarity detection in cyberspace,” ACM Trans. Inf. Syst., vol. 26, no. 2, pp. 1–29, 2008.
[17] F. Iqbal, L. A. Khan, B. C. M. Fung, and M. Debbabi, “E-Mail Authorship Verification for Forensic Investigation,” in Proceedings of the 2010 ACM Symposium on Applied Computing, 2010, pp. 1591–1598, doi: 10.1145/1774088.1774428.
[18] B. Allison and L. Guthrie, “Authorship Attribution of E-Mail: Comparing Classifiers over a New Corpus for Evaluation.,” 2008.
[19] N. Cheng, R. Chandramouli, and K. P. Subbalakshmi, “Author gender identification from text,” Digit. Investig., vol. 8, no. 1, pp. 78–88, 2011.
[20] X. Chen, P. Hao, R. Chandramouli, and K. P. Subbalakshmi, “Authorship similarity detection from email messages,” in International Workshop on Machine Learning and Data Mining in Pattern Recognition, 2011, pp. 375–386.
[21] J. Keeshin, Z. Galant, and D. Kravitz, “Machine Learning and Feature Based Approaches to Gender Classification of Facebook Statuses.” 2010.
[22] R. Layton, P. Watters, and R. Dazeley, “Authorship Attribution for Twitter in 140 Characters or Less,” in 2010 Second Cybercrime and Trustworthy Computing Workshop, Jul. 2010, pp. 1–8, doi: 10.1109/CTC.2010.17.
[23] C. Li, A. Sun, and A. Datta, “Twevent: Segment-Based Event Detection from Tweets,” in Proceedings of the 21st ACM International Conference on Information and Knowledge Management, 2012, pp. 155–164, doi: 10.1145/2396761.2396785.
[24] J. S. Li, J. V Monaco, L.-C. Chen, and C. C. Tappert, “Authorship authentication using short messages from social networking sites,” in 2014 IEEE 11th International Conference on e-Business Engineering, 2014, pp. 314–319.
[25] A. Zubiaga, D. Spina, R. Martínez, and V. Fresno, “Real‐time classification of twitter trends,” J. Assoc. Inf. Sci. Technol., vol. 66, no. 3, pp. 462–473, 2015.
[26] A. Orebaugh, “An Instant Messaging Intrusion Detection System Framework: Using character frequency analysis for authorship identification and validation,” in Proceedings 40th Annual 2006 International Carnahan Conference on Security Technology, 2006, pp. 160–172.
[27] O. Canales et al., “A stylometry system for authenticating students taking online tests,” P. Student-Faculty Res. Day, Ed., CSIS. Pace Univ., 2011.
[28] C.-Y. Lai, “Author Gender Analysis’,” Final Proj. from I, vol. 256, 2009.
[29] H. Alam and A. Kumar, “Multi-lingual author identification and linguistic feature extraction—A machine learning approach,” in 2013 IEEE International Conference on Technologies for Homeland Security (HST), 2013, pp. 386–389.
[30] J. Adams, H. Williams, J. Carter, and G. Dozier, “Genetic Heuristic Development: Feature selection for author identification,” in 2013 IEEE Symposium on Computational Intelligence in Biometrics and Identity Management (CIBIM), 2013, pp. 36–41.
[31] J. Houvardas and E. Stamatatos, “N-gram feature selection for authorship identification,” in International conference on artificial intelligence: Methodology, systems, and applications, 2006, pp. 77–86.
[32] A. K. Uysal and S. Gunal, “A novel probabilistic feature selection method for text classification,” Knowledge-Based Syst., vol. 36, pp. 226–235, 2012, doi: https://doi.org/10.1016/j.knosys.2012.06.005
]33[ زنگويي، سمیرا، نعمتی شمسآباد، حسنعلی “شناسايي نويسندگان پيام هاي الکترونيکي از طريق واکاوي نوع و سبک نگارش آن ها مبتني بر روش هاي يادگيري ماشين(WKF based on SVM-PHGS) ”، پردازش و مديريت اطلاعات (علوم و فناوري اطلاعات)، شماره 2، دوره 29، صفحات 476-453، 1392.
[34] G. U. Yule, “The statistical study of literary vocabulary. Cambridge, Cambridge [Eng.].” University Press. Journal of the Royal Statistical Society, 1944.
[35] A. Honoré, “Some simple measures of richness of vocabulary,” Assoc. Lit. Linguist. Comput. Bull., vol. 7, no. 2, pp. 172–177, 1979.
[36] E. Brunet, Le Vocabulaire de Jean Giraudoux: structure et évolution : statistique et informatique appliquées à l’étude des textes à partir des données du Trésor de la langue française. Slatkine, 1978.
[37] H. S. Sichel, “On a Distribution Law for Word Frequencies,” J. Am. Stat. Assoc., vol. 70, no. 351a, pp. 542–547, 1975, doi: 10.1080/01621459.1975.10482469.
[38] E. H. SIMPSON, “Measurement of Diversity,” Nature, vol. 163, no. 4148, p. 688, 1949, doi: 10.1038/163688a0.
[39] S. Nemati, M. E. Basiri, N. Ghasem-Aghaee, and M. H. Aghdam, “A novel ACO–GA hybrid algorithm for feature selection in protein function prediction,” Expert Syst. Appl., vol. 36, no. 10, pp. 12086–12094, 2009, doi:https://doi.org/10.1016/j.eswa.2009.04.023.
|
[1] Authorship Identification
[2] Authorship Verification
[3] Authorship Characterization
[4] Function words
[5] Neural Network (NN)
[6] Support Vector Machine (SVM)
[7] write print
[8] Principal Component Analysis (PCA)
[9] entity
[10] Hierarchial Clustering
[11] Agglomerative way
[12] Divisive way
[13] Multimentional scaling
[14] K Nearest Neighbor (KNN)
[15] Character-based
[16] Genetic Algorithm (GA)
[17] Evolutionary Algorithm (EA)
[18] Genetic Heuristic Development (GHD)
[19] n-gram
[20] Information Gain (IG)
[21] Distinguishing Feature Selector (DFS)
[22] Weighted Kernel Fusion based on SVM-Parallel Hierarichal Gride Search (WKF)
[23] Overfitting
[24] Wrapper
[25] Embeded
[26] Correlation Attribute (CA)
[27] Gain Ratio
[28] Density-based spatial clustering of applications with noise (DBSCAN)
[29] Random forest
[30] Ensemble learning
[31] Vector Space
[32] ابزارهای پردازش متون زبان فارسی، آزمایشگاه فناوری وب دانشگاه فردوسی مشهد، 1391.
[33] Rule-based
Feature selection for author identification in Persian online short texts
Abstract:
The growing use of social media and online communication to express opinions, exchange ideas, and also the expanding use of of these platforms by Persian users has increased Persian texts on the Web. This remarkable growth, along with abusive use of the writer's anonymity, reveals the need for the author's automatic identification system in this language. In this research, the purpose of the study is to investigate the factors affecting the identification of authors of Persian reviews produced by cell-phone buyers and also to evaluate supervised and unsupervised methods. The factors considered in this research include lexical, syntactic, semantic, structural, grammatical, text-specific, and specific to social networks. After extracting these features, selecting the best features is tested by four algorithms including feature correlation, gain ratio, OneR, and principal components analysis. In the following, K-means, EM and density-based clustering will be used for clustering and Bayesian network, random forest, and Bagging will be used for categorization. The evaluation of the above algorithms on Persian comments of Samsung phone buyers indicates that the best performance among the clustering algorithms is 59/16% obtained by the EM algorithm on top-15 features selected by OneR, while the random forest algorithm using top-90 features selected by gain ratio with 79/57% achieves the best performance among the classification algorithms. Also, the comparison of features showed that syntactic features had the most effect on the identification of the author of short texts, and then, lexical, text-specific, specific to social networks, structural, grammatical and semantic features, respectively.
Keywords: Text analysis, Stylistic analysis, Feature extraction, Feature selection and Author identification.