بهبود شناسایی قطبش در تحلیل احساسات به کمک طعنه کاوی و الگوریتمهای یادگیری ماشین در توییت های فارسی
الموضوعات :شقايق حاجی عبدالله 1 , ميترا ميرزارضايي 2 , Mir Mohsen Pedram 3
1 - دانشگاه آزاد اسلامی- واحد علوم و تحقيقات
2 - -
3 - -
الکلمات المفتاحية: تحلیل احساس, نظرکاوی, طعنهکاوی, توییتر, ترکيب دستهبندها,
ملخص المقالة :
تحلیل احساسات یا نظرکاوی شاخه ای از علوم کامپیوتر و پردازش زبان طبیعی است که سعی دارد ماشین و هوش مصنوعی را با احساس و عواطف انسانی آشنا سازد.طعنه کاوی نیز از زیرشاخه های تحلیل احساسات است و هر دو بدنبال تشخیص صحیح احساسات مثبت و منفی نهفته در متن هستند. استفاده از طعنه در شبکه های اجتماعی بسیار مرسوم است، زیرا به این طریق می-توان انتقاد را با زبان طنز انجام داد. آشکارسازی طعنه در تشخیص درستی قطبش یک نظر، تاثیر به خصوصی دارد و می تواند به فهم متن توسط ماشین کمک کند و منظور نویسنده متن، شفاف تر فهمیده شود. به اين هدف، 8000 توییت فارسی که بر چسب احساس دارند و از لحاظ وجود يا عدم وجود طعنه بررسی شدهاند، مورد استفاده قرار گرفته است. نوآوری اين پژوهش در استخراج کلمات کلیدی از جملات طعنه دار است که باعث ایجاد طعنه و کنایه شده اند. در اين پژوهش دستهبند مجزايي برای شناسايي طعنه در متن طراحی و اموزش داده شده است و سپس خروجی های اين ردهبند به عنوان ويژگی افزوده در اختيار دستهبند شناسايي احساس متن قرار می گيرد. همچنین علاوه بر بقيه کلمات کليدی استخراج شده از متن از شکلک ها و هشتگ های موجود در متن نیز به عنوان ویژگی استفاده شده است. دستهبندهای بیز، ماشین بردار پشتیبان و شبکه عصبی به عنوان دستهبندهای پايه استفاده شدهاند و در نهايت از ترکيب دستهبندها در شناسايي احساس متن استفاده شد. نتايج اين پژوهش نشان میدهد که شناسايي طعنه موجود در متن و استفاده از آن در شناسايي احساس دقت نتايج را افزايش میدهد.
[1]. Pang, B., Lee, L., & Vaithyanathan, S. (2002). Thumbs up: sentiment classification using machine learning techniques. In Proceedings of the Conference on Empirical Methods in Natural Language Processing, (pp. 79–86)
[2]. Ravi, K., & Ravi, V. (2015). A survey on opinion mining and sentiment analysis: tasks, approaches and applications. Knowledge-based systems, 89, 14-46.
[3]. Wandra, K. H., & Barot, M. SARCASM DETECTION IN SENTIMENT ANALYSIS.
[4]. Dashtipour, K., Hussain, A., Zhou, Q., Gelbukh, A., Hawalah, A. Y., & Cambria, E. (2016, November). PerSent: a freely available Persian sentiment lexicon. In International Conference on Brain Inspired Cognitive Systems (pp. 310-320). Springer, Cham.
[5]. [4] Hardeniya, T., & Borikar, D. A. (2016). Dictionary based approach to sentiment analysis-a review. International Journal of Advanced Engineering, Management and Science, 2(5), 239438.
[6]. Khan, A., Baharudin, B., Lee, L. H., & Khan, K. (2010). A review of machine learning algorithms for text-documents classification. Journal of advances in information technology, 1(1), 4-20.
[7]. Wilson, T., Wiebe, J., & Hoffmann, P. (2005, October). Recognizing contextual polarity in phrase-level sentiment analysis. In Proceedings of human language technology conference and conference on empirical methods in natural language processing (pp. 347-354).
[8]. Wu, H. H., CHARNG-RURNG TSAI, A. N. G. E. L. A., TZONG-HAN TSAIi, R. I. C. H. A. R. D., & YUNG-JEN HSU, J. A. N. E. (2013). Building a Graded Chinese Sentiment Dictionary Based on Commonsense Knowledge for Sentiment Analysis of Song Lyrics. Journal of Information Science & Engineering, 29(4).
[9]. Shams, M., Shakery, A., & Faili, H. (2012, May). A non-parametric LDA-based induction method for sentiment analysis. In The 16th CSI international symposium on artificial intelligence and signal processing (AISP 2012) (pp. 216-221). IEEE.
[10]. Basiri, M. E., Naghsh-Nilchi, A. R., & Ghasem-Aghaee, N. (2014). Sentiment prediction based on dempster-shafer theory of evidence. Mathematical Problems in Engineering, 2014.
[11]. Dashtipour, K., Gogate, M., Adeel, A., Hussain, A., Alqarafi, A., & Durrani, T. (2017, July). A comparative study of persian sentiment analysis based on different feature combinations. In International Conference in Communications, Signal Processing, and Systems (pp. 2288-2294). Springer, Singapore
[12]. Heikal, M., Torki, M., & El-Makky, N. (2018). Sentiment analysis of Arabic Tweets using deep learning. Procedia Computer Science, 142, 114-122.
[13]. Rahimi, Z., Noferesti, S., & Shamsfard, M. (2019). Applying data mining and machine learning techniques for sentiment shifter identification. Language Resources and Evaluation, 53(2), 279-302.
[14]. Dashtipour, K., Gogate, M., Adeel, A., Ieracitano, C., Larijani, H., & Hussain, A. (2018, July). Exploiting deep learning for Persian sentiment analysis. In International conference on brain inspired cognitive systems (pp. 597-604). Springer, Cham.
[15]. Alharbi, A. S. M., & de Doncker, E. (2019). Twitter sentiment analysis with a deep neural network: An enhanced approach using user behavioral information. Cognitive Systems Research, 54, 50-61.
[16]. Prasad, A. G., Sanjana, S., Bhat, S. M., & Harish, B. S. (2017, October). Sentiment analysis for sarcasm detection on streaming short text data. In 2017 2nd International Conference on Knowledge Engineering and Applications (ICKEA) (pp. 1-5). IEEE.
[17]. Ren, Y., Ji, D., & Ren, H. (2018). Context-augmented convolutional neural networks for twitter sarcasm detection. Neurocomputing, 308, 1-7.
[18]. Mehndiratta, P., Sachdeva, S., & Soni, D. (2017). Detection of sarcasm in text data using deep convolutional neural networks. Scalable Computing: Practice and Experience, 18(3), 219-228.
[19]. Ahuja, R., Bansal, S., Prakash, S., Venkataraman, K., & Banga, A. (2018). Comparative study of different sarcasm detection algorithms based on behavioral approach. Procedia computer science, 143, 411-418.
Rohanian, Morteza & Salehi, Mostafa & Darzi, Ali & Ranjbar, Vahid. (2020). Convolutional Neural Networks for Sentiment Analysis in Persian Social Media.
دو فصلنامه علمي فناوري اطلاعات و ارتباطات ایران | سال چهاردهم، شمارههاي 53 و 54، پاییز و زمستان 1401 صفحات:15 تا 24 |
| ||
|
|
Improving polarity identification in sentiment analysis using sarcasm detection and machine learning algorithms in Persian tweets
Mitra Mirzarezaee ** , MirMohsen Pedram *** ، Shaghayegh Hajiabdollah *
Department of Computer Engineering, Science and Research Branch, Islamic Azad University, Tehran*
Iran.
Department of Computer Engineering, Science and Research Branch, Islamic Azad University, Tehran**
Iran.
Department of Electrical and Computer Engineering, Faculty of Engineering, Kharazmi University***
Tehran, Iran.
Abstract:
Sentiment analysis or opinion analysis is a branch of computer science and natural language processing that tries to introduce machines and artificial intelligence to human feelings and emotions. Sarcasm analysis, like sentiment analysis, seeks to correctly identify the positive and negative emotions hidden in the text. Revealing sarcasm in recognizing the correctness of the polarization of an opinion has a personal effect. For this purpose, 8000 Persian tweets containing emotion tags were used, which were checked for the presence or absence of sarcasm. The innovation of the research is in extracting key words from sarcastic sentences that cause sarcasm. In this research, a separate classifier has been designed and trained to recognize sarcasm in the text, and then the outputs of this classifier are used as an added feature for the text emotion recognition classifier. Also, in addition to the other keywords extracted from the text, emoticons and hashtags in the text are also used as features. Bayesian classifiers, support vector machine and neural network have been used as basic classifiers and finally the combination of classifiers was used to identify the sentiment of the text. The results of this research show that identifying sarcasm in the text and using it to identify the sense of feeling increases the accuracy of the results.
Keywords: Sentiment analysis, opinion mining, sarcasm detection, twitter, ensemble learning
بهبود شناسایی قطبش در تحلیل احساسات به کمک طعنه کاوی و الگوریتمهای یادگیری ماشین در توییتهای فارسی
شقایق حاجی عبداله* میترا میرزارضایی** میرمحسن پدرام***
*گروه مهندسی کامپیوتر،واحد علوم و تحقیقات، دانشگاه آزاد اسلامی،تهران،ایران.
**گروه مهندسی کامپیوتر،واحد علوم و تحقیقات ، دانشگاه آزاد اسلامی،تهران،ایران.
*** گروه مهندسی برق و کامپیوتر،دانشکده فنی و مهندسی، دانشگاه خوارزمی،تهران،ایران.
تاریخ دریافت:22/08/1400 تاریخ پذیرش: 10/09/1401
نوع مقاله: پژوهشی
چكیده
تحلیل احساسات یا نظرکاوی شاخهای از علوم کامپیوتر و پردازش زبان طبیعی است که سعی دارد ماشین و هوش مصنوعی را با احساس و عواطف انسانی آشنا سازد.طعنهکاوی نیز مانند تحلیل احساسات بهدنبال تشخیص صحیح احساسات مثبت و منفی نهفته در متن هست.آشکارسازی طعنه در تشخیص درستی قطبش یک نظر، تاثیر بهخصوصی دارد.
به اين هدف، 8000 توییت فارسی حاوی برچسب احساس که از لحاظ وجود يا عدم وجود طعنه بررسی شدهاند، مورد استفاده قرار گرفته است. نوآوری پژوهش در استخراج کلمات کلیدی از جملات طعنهدار است که باعث ایجاد طعنه و کنایه شدهاند. در اين پژوهش طبقهبند مجزايي برای شناسايي طعنه در متن طراحی و اموزش داده شده است و سپس خروجیهای اين طبقهبند به عنوان ويژگی افزوده در اختيار طبقهبند شناسايي احساس متن قرار میگيرد. همچنین علاوه بر بقيه کلمات کليدی استخراج شده از متن از شکلکها و هشتگهای موجود در متن نیز به عنوان ویژگی استفاده شده است. طبقهبندهای بیز، ماشین بردار پشتیبان و شبکه عصبی به عنوان طبقهبندهای پايه استفاده شدهاند و در نهايت از ترکيب طبقهبندها در شناسايي احساس متن استفاده شد. نتايج اين پژوهش نشان میدهد که شناسايي طعنه موجود در متن و استفاده از آن در شناسايي احساس دقت نتايج را افزايش میدهد.
واژگان کلیدی: تحلیل احساس، نظرکاوی، طعنهکاوی، توییتر، ترکيب طبقهبندها.
1- مقدمه
در دنیای امروز حجم عظیمی از اطلاعات به صورت متن میباشد. بنابراین تکنیکهای متنکاوی اهمیت بسیاری یافتهاند. نظرکاوی1 یا تحلیل احساسات2 به عنوان شاخهای از متنکاوی، به معنی یافتن دیدگاه نویسنده متن، درباره یک موضوع خاص است. اصطلاح تحلیل احساسات بیشتر در حوزه صنعت رایج است. در فعالیتهای علمی و آکادمیک، هر دو اصطلاح نظرکاوی و تحلیل احساسات به تناوب مورد استفاده قرار میگیرد. در واقع نظرکاوی در سال 2002 توسط پنگ3 و لی4]1[ معرفی شد، بعد از اضافه شدن شبکههای اجتماعی به زندگی روزمره کاربران اینترنت، نظرکاوی اهمیت فزایندهای پیدا کرد]2[.
اینترنت این امکان را برای کاربران فراهم میکند تا نظرات خود را به سهولت بیان کنند و از نظرات دیگران در مورد موضوعی خاص مطلع شوند. حجم بالا و فقدان ساختار مناسب برای متن نظرات ارائه شده بر روی بستر وب، استفاده از دانش پنهان درون آنها را دشوار نموده است. آگاهی از تجربیات، نظرات و دیدگاه افراد نقش اساسی در فرآیند تصمیمگیری مشتریان ساده تا مدیران سطح بالای شرکتهای تولید کننده و سازمانهای مختلف دارد و وجود نظرات مغایر درباره یک موجودیت، فرآیند استخراج و پردازش نظرات را بسیار دشوار ساخته است. بنابراین نیاز به روشهایی خودکار برای کاوش و تحلیل نظرات موجود در وب احساس میشود. بدین منظور در دهه اخیر گرایش جدیدی در علم پردازش زبانهای طبیعی5 به نام نظرکاوی ایجاد شده است. یکی از مهمترین وظایف این حوزه، طبقهبندی حسی مستندات بر اساس بار احساسی مثبت یا منفی (میزان رضایت مندی) آنهاست.
دلیل اصلی که افراد پیامهایی را بر روی پلاتفرمهای رسانههای اجتماعی ارسال میکنند این است که دیدگاه و عقایدشان را بیان کنند و از این رو تحلیل احساس، هسته اصلی تحلیل رسانههای اجتماعی است. گاهی اوقات کاربر ممکن است از کنایه، طعنه و شوخی استفاده کند. هر کدام از این موارد در ساختار جمله مفهومی کاملا متفاوت با مفهوم واقعی دارند. نظر حاوی طعنه، حالت پيچيدهتري از یک نظر داراي احساس است که در آن نويسنده، منظور خود را به صورت طعنهآميز و مخفي در مفهوم کلمات و جمله، بيان کرده است. تشخيص اينکه يک نظر طعنهآميز است يا نه، چالش ديگري است که در مسئله تجزيه و تحليل احساسات قابل تعريف است.
2- ادبیات موضوع
1-2- طعنهکاوی
طعنه به سخنی تلخ، تمسخر و دست انداختن گفته میشود که در فرهنگهایی که آزادی در تفکر و بیان کمتر است، نمود بیشتری دارد. در طعنهکاوی معمولا نظرات مثبت و منفی به شکل معکوس ابراز میشوند و به همین دلیل تشخیص دادن طعنه در یک متن نه تنها برای ماشین بلکه در برخی مواقع برای خود انسانها نیز سخت است، زیرا مردم اغلب از استرس و لحن بیان و نشانههای حرکتی خاص، مانند حرکت چشمها و حرکت دست و غیره برای آشکار شدن طعنه استفاده میکنند که در دادههای متنی، این اشارات و نشانهها وجود ندارند]3 [ و اگر یک جمله حاوی طعنه بهدرستی تشخیص داده نشود، میتواند دقت طبقهبند تحلیل احساسات را در شناسایی قطبش جملات، کاهش دهد.
2-2- بوت استرپ
3- پیشینه پژوهش
1-3- پژوهشهای مبتنی بر واژگان
در روشهای مبتنی بر واژگان در شناسايي احساس متن از ایجاد لغتنامهای از کلمات نظر توسط عامل انسانی استفاده میشود. این کار فرآیندی زمانبر است و با سایر روشها برای بهبود عملکرد ترکیب میشود .دشتی پور و همکارانش]4[ لغتنامهای برای زبان فارسی معرفی کردهاند. در حالت مبتنی بر فرهنگ لغات از منابع زبانشناسی مانند فرهنگ لغتهای آنلاین استفاده میشود. در این رویکرد از مترادفها، متضادها و سلسله مراتب موجود در فرهنگ لغات نظر برای تشخیص احساس کلمه استفاده میشود. برای این کار ممکن است فرهنگ لغاتWordNet, SentiWordNet, sesticNet, sentful استفاده شود ]5[ .
کان6 و همکاران ]6[ در سال 2010 یک لغتنامه به زبان چینی ساختهاند که در آن گرایش کلمات با توجه به فراوانی کاراکترهای بهکار رفته در ساخت کلمات، تشخیص داده شده و با میانگین قطبش کلمات استفاده شده در متن، قطبش کل کلمات را محاسبه کرده است. به دلیل بیشتر بودن فراوانی یک کاراکتر در کلمات منفی، فراوانیها نرمالسازی شدهاند. هسته اصلی حدود 1000 کلمه است که از لغتنامههای موجود گرفته شده است و سایر کلمات با استفاده از دو فرهنگ زبان چینی و هسته اصلی تعیین گرایش شدهاند.
ویلسون7 و همکاران ]7[ در سال 2005 از یک لیست عبارات با گرایش مشخص (مثبت، منفی، خنثی) استفاده کرده و با توجه به فراوانی کلمات در عبارات مثبت یا هم خنثی هم مثبت، منفی یا هم خنثی هم منفی، هیچکدام، هم مثبت و هم منفی، گرایش کلمات را مثبت، منفی، خنثی، يا هر دو تعبیر کرده و بعد از تعیین گرایش کلمات از روش Boostexter Adaboost.HM برای طبقهبندی متن استفاده شده است.
لغتنامه ساخته شده توسط چارنگ رورنگ سای8 ]8[ در سال 2013 از جمله لغتنامههای با زبان غیر انگلیسی است. این لغتنامه با زبان چینی گسترش یافته و از ترکیب سه لغتنامه موجود به زبان انگلیسی استفاده کرده است. این لغتنامه با استفاده از لغتنامه یاهو9 و مترجم گوگل10 ترجمه شدهاند. از آنجایی که ترجمه گوگل11 دقت بالا و ترجمه یاهو12 پوشش بالا دارد این دو ترجمه ترکیب شده است.
شمس و همکاران ]9[ در سال 2012 از یک روش اتوماتیک برای ترجمه یک لغتنامه انگلیسی به فارسی و روشهای تکراری برای تصحیح خطای کلمات استفاده کردهاند. در روش پيشنهادی آنها، طی دو مرحله قطبش متن تعیین میشود. ابتدا با یک روش غیر نظارتی (LDA-Based) لغتنامه همان متن را استخراج کرده و سپس از روش ماشین بردار پشتیبان13 برای تعیین قطبش هر متن طبق لغتنامه همان متن استفاده میکند.
بصیری و همکاران ]10[ در سال 2014 یک چارچوب کلی برای کاوش نظرات فارسی با استفاده از لغتنامه ساخته شده، ارايه دادهاند. این لغتنامه ترجمهی دستی از لغتنامه SentiStrengthاست. بعد از ترجمه، کلمات تکراری حذف شدهاند. این چارچوب کلی از چند قسمت تشکیل شده است:
نرمالسازی، تصحیح غلطهای املایی اعم از چاپی، ساختاری و ناشی از حروف تبادلپذیر، ریشهیابی کلمات با روش high stemmer (برای کاهش حجم متون، در این مرحله کلمات ایست حذف میشوند)، جداسازی متن به جملات، تشخیص قطبش کلمات با استفاده از لغتنامه ساخته شده و تجمیع امتیاز کل متن با استفاده از روش دمستر شفر14.
دشتیپور و همکاران ]11[ در سال 2017 از ویژگی یونیگرام، بایگرام، ترایگرام و POS15 کلمات برای تحلیل احساس نظرات فارسی کاربران استفاده کرده است. در پژوهش آنها، 500 نظر مثبت و 500 نظر منفی درباره فیلم جمعآوری شده است و با استفاده از طبقهبند ماشین بردار پشتیبان احساس موجود در جملات در دو قطبش مثبت و منفی مورد تحلیل قرار گرفته است. بهترین عملکرد با دقت 38/88 درصد به ترکیب ویژگیهای یونیگرام، بایگرام و تریگرام اختصاص داشته است.
2-3- پژوهشهای مبتنی بر واژگان
هیکل16 و همکاران ]12[ در سال 2018 به بررسی تحلیل احساسات در زبان عربی پرداختهاند. زبان عربی به دلیل ساختار پیچیدهی آن، گویشهای مختلف، علاوه بر فقدان منابع، چالشهای زیادی به همراه دارد. در این مقاله، ترکیبی از مدلهای شبکه عصبی کانولوشن17 و حافظه طولانی کوتاه مدت18 برای پیشبینی احساسات توییتهای عربی استفاده شده است. در آخر هم معیارهای ارزیابی صحت و F1-score برای ارزيابی نتايج استفاده شده است و درصد به دست آمده برای F1 score برابر با 46/64 میباشد.
شمس فرد و همکاران ]13[ در سال 2018 از تکنیکهای دادهکاوی و یادگیری ماشین برای شناسایی تغییردهنده احساسات استفاده کردهاند. تغییردهنده احساسات به عنوان مجموعهای از واژهها و عبارات که بر قطبش متنی تاثیر میگذارد، نقشی اساسی در استخراج افکار ایفا میکند. تغییردهنده احساسات، یعنی کلمات و عباراتی که میتوانند قطب متن را تحت تاثیر قرار دهند، نقش مهمی در نظرکاوی دارند. با این حال، توانایی محدود سیستمهای داده خودکار در کنترل و شناسایی تغییر دهندهها یک چالش مهم است. این مقاله سه روش جدید و کارآمد برای شناسایی تغییردهنده احساسات به منظور بهبود دقت کلی سیستمهای دادهکاوی ارائه میدهد. در این مقاله ادعا شده است که رویکردهای پیشنهادی مستقل از زبان هستند. بنابراین، اگر چه آن را فقط به زبان انگلیسی تست کردهاند، میتوان برای زبانهای دیگر نیز استفاده کرد.
دشتی پور و همکاران ]14[ در سال 2018 دو مدل یادگیری عمیق کانولوشن و خودشناسهگذار را برای تجزیه و تحلیل احساس فارسی ارائه دادند و نتایج بهدست آمده را با شبکه عصبی پرسپترون چند لایه19 مقایسه نمودند. خودشناسهگذارها شامل لایههای ورودی، خروجی و پنهان میباشند و ورودی را در یک فضای پنهان فشردهسازی نموده و سپس در لایه خروجی آن را بازسازی مینمایند شبکههای کانولوشن نیز شامل سه لایه ورودی، پنهان و خروجی میباشند که لایه پنهان شامل لایههای کانولوشن، لایههای تجمع، لایههای تمام متصل و لایه نرمالسازی میباشد. آنها برای کار خود از یک خودشناسهگذار شامل یک لایه ورودی، سه لایه پنهان و یک لایه خروجی و از یک شبکه کانولوشن شامل چهار لایه کانولوشن، چهار لایه حداکثر تجمع و سه لایه کاملا متصل استفاده نمودند. در این مقاله آنها بر روی توسعه مدلهای تجزیه و تحلیل احساس برای زبان فارسی بخصوص برای نقد و بررسی فیلم، تمرکز نمودند. نتایج به دست آمده از مقایسه این روشها عبارتند از: دقت 86/82درصد برای روش کانولوشن، دقت 08/80 درصد برای روش خودشناسهگذار و دقت 49/78 درصد برای روش شبکه عصبی پرسپترون چند لایه.
الحاربی و همکاران ]15[ در سال 2018 برای تحلیل احساس، از روش یادگیری عمیق در دادههای توییتر استفاده کردهاند. آنها معماری ارائه دادند که نه تنها متن (توییت) بلکه رفتار کاربر را نیز مورد توجه قرار میدهد. 700.000 داده توییتر از 3500 کاربر مختلف را جمعآوری کرده و در آخر معیارهای ارزیابی دقت و یادآوری و F1 و صحت را به کار بردهاند. بالاترین دقت بهدست آمده برای روش شبکه عصبی کانولوشن با 88 درصد میباشد.
پِرِساد20 و همکاران ]16[ در سال 2017 تحلیل احساسات با طعنهکاوی را مورد بررسی قرار دادهاند. روشهای استفاده شده شامل درخت تصمیم، نایو بیز گوسی21، رگرسیون لجستیک22، جنگل تصادفی23 و ... میباشد داده استفاده شده 2000 توییت با طعنه و بدون طعنه بوده که با 0 و 1 برچسب گذاری شدهاند. توییتهای حاوی طعنه با برچسب 1 و بدون طعنه با برچسب 0 مشخص شدهاند. راهاندازی آزمایشی شامل یک سیستم یونیکس است که محیط مجازی python 2.7 اجرا میکند. بیشترین صحت بهدست آمده با استفاده از گرادیان بوستینگ با تقسیم دادهها به ۶۰:۴۰ در حالتی که از شکلکها استفاده شود ۸۱/۸۲ درصد میباشد و در حالتی که از شکلکها استفاده نشود برابر با ۷۹/۸۲ درصد میباشد.
رن24 و همکاران ]17[ در سال 2018 مدلی مبتنی بر شبکه عصبی برای تشخیص طعنه ارائه کردهاند. از آنجا که اکثر کارهای موجود در این زمینه از مدلهای گسسته استفاده کردهاند و معمولا از توییتهای قبلی نویسندهها استفاده نمیکنند، برای رسیدگی به این دو موضوع، این مدل پیشنهادی را ارائه کردهاند. دادههای مورد استفاده در این مقاله شامل 1500 توییت پایه و 6774 توییتهای قبلی نویسندگان و 453 توییت به شکل مکالمه است. معیار ارزیابی مورد استفاده macro F-score میباشد. بالاترین مقدار f-Score بهدست آمده برای روش پیشنهادی 28/63 درصد میباشد.
مندیراتا25 و همکاران ]18[ در سال 2017 روشی مبتنی بر یادگیری عمیق و شبکه عصبی برای شناسایی طعنه ارائه کردهاند. دادههای استفاده شده در این مقاله 482588 توییت است که 151896 توییت دارای طعنه و 330692 توییت بدون طعنه است که با استفاده از هشتگهایی مانند #sarcasm، #sarcastic، #beingsarcastic جمعآوری شدهاند. روش پیشنهادی بعد از 10000 تکرار به صحت 9/89 درصد میرسد. با هر 1000 تکرار، صحت بهبود پیدا میکند تا زمانی که به 9000 تکرار میرسد و از آن به بعد، نتیجه به مقدار بسیار کمی تغییر میکند.
اهوجا26 و همکاران]19[ در سال 2018 مطالعه مقایسهای الگوریتمهای تشخیص طعنه مختلف مبتنی بر رویکرد رفتاری را انجام دادهاند. در این مقاله 12 الگوریتم طبقهبندی (نایو بیز گوسی، روشهای آدابوست و ماشین بردار پشتیبان و ...) بر روی 4 نوع داده که از توییتر جمعآوری شدهاند، آزمایش شده است. برای جمعآوری دادهها از توییتر از هشتگهایی نظیر طعنه و عصبانیت استفاده شده است. معیار ارزیابی مورد نظر در این مقاله معیار صحت میباشد. تقسیم مجموعه دادهها به طوری که 75 درصد برای مجموعه آموزش و 25 درصد برای مجموعه تست در نظر گرفته شود، بهترین نتیجه را شامل میشود. بالاترین صحت بهدست آمده با روش گرادیان بوستینگ برابر با 71/85 درصد میباشد.
روحانیان و همکاران در سال 2020]20[ با استفاده از شبکه عصبي پيچشي، به تحليل گرايش نظرات در رسانههاي اجتماعي در دو و پنج سطح و با در نظر گرفتن شدت آنها پرداختهاند. در اين شبکه عمل کانولوشن با استفاده از صافيهايي با اندازههاي مختلف بر روي بردارهاي جملات ورودي اعمال مي شود و بردار ويژگي حاصل به عنوان ورودي لایه نرم بيشينه براي طبقهبندي نهايي جملات بکار ميرود. شبکههاي عصبي پيچشي با پارامترهاي مختلف با استفاده از معيار مساحت زير منحني و بر روي مجموعه داده جمعآوري شده از رسانههاي اجتماعي فارسي ارزيابي شدند. بهترین نتیجه بهدست آمده 79 درصد میباشد. همچنین ادعا میشود که آموزش بردارها در شبکه عصبي با يک لايه کانولوشن کارايي بهتري نسبت به روشهاي سنتي يادگيري ماشين و شبکههاي عصبي بازگشتي بهخصوص بر روي دادهها با طول کوتاه نشان داده است.
با توجه به ضعفی که در شناسايي احساسات متن در هنگام حضور کنايه مشاهده میشود؛ هدف این پژوهش، بهبود تشخیص قطبش نظرات کاربران توییتر با کمک ویژگی طعنه میباشد.
بوکایی نژاد و همکاران در سال 2021 ]21[ توییتهای فارسی مربوط به واکسیناسیون کووید 19 را مورد بررسی قرار دادند و به مقایسه دیدگاه ایرانیان نسبت به واکسنهای ساخت داخل و وارداتی پرداختهاند. پیشنهاد مقاله این است که سازمانهای بهداشتی میتوانند توییتر را بررسی کنند تا مخالفان واکسیناسیون کووید 19 را کاهش دهند. احساسات توییتهای بازیابی شده را با استفاده از یک مدل تحلیل احساسات یادگیری عمیق شناسایی کردهاند و سپس از یک مدل تشخیص طعنه براساس طبقهبندیکننده تصادفی جنگل27 برای کشف توییتهای طعنهآمیز و به حداقل رساندن طبقهبندی اشتباه استفاده شده است. میانگین درصد صحت با استفاده از طعنه برابر 81 می باشد.
گوویندان28 و همکاران در سال 2022 ]22[ در مقالهای که 6600 توییت با احساسات منفی و شامل طعنه است توییتها را بر اساس هشتگهایی مانند ویروس چینی یا کووید19 یا ویروس کرونا جمعآوری کردهاند و با استفاده از الگوریتمهای یادگیری ماشین از قبیل ماشین بردار پشتیبان و جنگل تصادفی مورد بررسی قرار دادهاند. معیار ارزیابی استفاده شده f1_score هست که به درصد 74/78 رسیده است.
میریام29 و همکاران در سال 2021 ]23[ تشخیص طعنه با منطق فازی پیشنهاد کردهاند و ادعا میشود که استفاده از منطق فازی باعث بهبود معیار صحت و دقت میشود. توییتهای استفاده شده به سه کلاس "بدون طعنه" و "غیر قابل تصمیم" و "حاوی طعنه" تقسیم شده است. معیار ارزیابی استفاده شده صحت هست که به درصد 27/99 رسیده است.
4- روش پیشنهادی
در شکل 1، مراحل روش پيشنهادی نشان داده شده است. از آنجا که مجموعه دادههای برچسب خورده به زبان فارسی در دسترس نبود؛ 8000 توییت فارسی جمعآوری شد. مجموعه داده مورد استفاده در اين پژوهش در سال 1398 به هدف انجام اين تحقيق از توييتر با کلمات کليدی متنوعی و به کمک ابزارهايي که به اين هدف استفاده میشود استخراج شد. سپس تیمی متشکل از 10 نفر از دانشجويان متنهای استخراج شده را بررسی کردند و براساس احساسی که از نوشتار دريافت میکردند توییتها را برچسب زدند. برای اطمينان از نتايج بدست آمده هر متن توسط سه فرد متفاوت و مستقل برچسب زده شد و برچسب نهايي هر متن براساس رای اکثريت انتخاب شد. توييتهای جمعآوری شده، شامل موضوعات کاملا مختلف اعم از سیاسی، اقتصادی، ورزشی و غیره میباشد. علت استفاده از شبکه اجتماعی توییتر مجبوبيت آن در بين افراد و حضور فعال فارسیزبانان در آن بوده است. در ادامه در فرآیندی نسبتا زمانبر، بهطور دستی توييتهای جمعآوری شده برچسب زده شد. برچسبهای بهکار رفته يکی از چهار برچسب مثبت، منفی، خنثی و ترکیبی میباشد. لازم به ذکر است برای اينکه از هر کلاس تعداد نمونه يکسانی برای آموزش داشته باشيم از ميان دادههای برچسب خورده برای هر يک از اين 4 کلاس 2000 نمونه انتخاب شد و در مجموع 8000 نمونه برای آموزش سيستم استفاده شده است. برچسب ترکیبی به توييتهايي داده میشود که همزمان شامل دو حس مثبت و منفی میباشند. برای مثال در یک توییت از دو جمله استفاده شده که حس نویسنده برای یکی از جملهها مثبت و در دیگری منفی است. وجود این برچسب باعث میشود که در پیادهسازی حس نویسنده، موفقتر باشیم. همچنين توييتها برای شناسايي وجود طعنه يا عدم وجود طعنه بررسی شده و برچسبگذاری شدند.
از آنجايي که هدف کاربر در استفاده از طعنه در جملهاش، ارائه نظر بهصورت طعنهآميز و کنايهدار ميباشد؛ بنابراين کاربر در جملات خود، عکس نظر واقعيش عمل کرده و از ويژگيهايي غير واقعي با تمايل مثبت براي بيان نظر خود استفاده ميکند یا ضربالمثلهایی را بهکار میبرد که در عمق معنای خود دارای کنایه و طعنه میباشند. تفاوت اصلي بين جملات نظري معمولي و طعنهآميز در نحوه نوشتار کاربر در بيان احساسات ميباشد. به عبارتي ديگر جملات طعنهآميز، ابزاري براي بيان نظرات به صورت عکس عقيدهی کاربر و استفاده از نکوهش غير مستقيم ميباشند. با توجه به این توضیحات بدیهی است که جملات با حس مثبت و خنثی نمیتوانند شامل برچسب طعنه باشند زیرا این جملهها با کنایه و طعنه بیان نمیشوند.به همین دلیل توییتهایی که برچسب طعنه دارند اغلب قطبش آنها یا منفی است یا ترکیبی. از ميان توييتهای جمعآوری و انتخاب شده 1530 توييت دارای طعنه و مابقی بدون طعنه بودند.
شکل 1-رویکرد پیشنهادی
در مرحله بعدی جملاتی که حاوی طعنه مورد بررسی قرار داده میشوند تا کلمات کلیدی که نشاندهنده حضور طعنه و کنایه در یک توییت هستند و شخص نویسنده با استفاده از آنها توانسته است منظور و مقصود خود را بهطور غیر مستقیم و با طنز تلخ و نیش و کنایه بیان کند، استخراج شوند. سپس به عنوان یک ویژگی جدید به مجموعه داده اضافه میشوند. کلمات کلیدی بسته به جمله مورد نظر، میتوانند یک کلمه یا ترکیب چند کلمه باشند که پس از استخراج، به مجموعه داده اصلی اضافه میشوند تا در مراحل بعدی برای تشخیص بهتر طعنه، به عنوان ویژگی، به مدل تشخیص طعنه داده شوند.
نمونهای از یک جمله با برچسب ترکیبی:
"واقعا از مرگ ایشون از صمیم قلب ناراحت شدم. اما باید بگم که روحیه اون دختر میبینم اصلا عشق میکنم."
همانطور که از محتوای متن فوق مشخص است، این متن شامل دو جمله میباشد که جمله اول حاوی احساس منفی و جمله دوم حاوی احساس مثبت میباشد. پس از آنجایی که قرار دادن برچسب مثبت یا منفی باعث میشود که بخشی از احساسات نویسنده در نظر گرفته نشود و باعث خطا در تشخیص قطبش اصلی متن شود، وجود برچسب ترکیبی ضرورت خود را نشان میدهد.
نمونهای از یک جمله شامل برچسب طعنه در ادامه آورده شده است :
"این دوستمون خیلی دست و دل باز هستش. آب از دریا میبخشه"
1-4- پیشپردازش
پیشپردازش داده به دنبال ساختیافته کردن داده غیرساختیافته هست. بهخصوص متنهایی که در شبکههای اجتماعی منتشر میشود بهشدت غیرساختیافته است. در حقیقت برای پردازش هر متنی، استفاده از روشهای پیشپردازش اجتنابناپذیر است. ابتدا باید داده را پاکسازی کرد. پاکسازی به منظور بالا بردن کیفیت داده انجام میشود. یکی از مشکلات شایع داده در دادهکاوی پایین بودن کیفیت داده است. مجموعه داده استفاده شده در این پژوهش، دارای موارد و علائم اضافه زیادی بود. مانند کاراکترهای انگلیسی، اعداد، لینکها و کاراکترهای خاص (@ ، # و ... ). تمامی این موارد از مجموعه داده پاکسازی شدهاند. البته در مورد هشتگها، کلمه یا کلمات همراه با علامت # در متن نگه داشته شده زیرا دارای بار معنایی و احساسی میباشد و فقط علامت # از متون حذف شده است و از آنها به عنوان یک ویژگی استفاده شده است، زیرا در اکثر مواقع، هشتگ استفاده شده در واقع خلاصهای از حس نویسنده را انتقال میدهد. پاکسازی داده قبل از شروع پردازش کلمات میتواند تأثیر بسیار زیادی در عملکرد روش ارائه شده داشته باشد. در این تحقیق، پیشپردازش متون با عمل نرمالسازی شروع میشود تا فاصلهها و نیمفاصلههای موجود در مجموعه داده، اصلاح شوند. در مرحله بعدی جملهسازی و توکنسازی انجام میشود که ابتدا جملات هر توییت جداسازی میشوند و بعد هر کلمه به شکل جداگانه درآمده و به مدل داده میشود. مرحله بعد، ریشهیابی هست که کلمات به حالت اولیه خود بازگردانده میشوند که برای این کار از کتابخانههای آماده پایتون از جمله هضم30 و Persian-Stemmer استفاده شده است. البته با توجه به پیچیده بودن زبان فارسی و غلطهای املایی موجود در مجموعه داده استفاده شده و همچنین نوشتن جملات به شکل محاورهای، باعث شده که در برخی موارد نتیجه خوبی به دست نیاید. مرحله آخر، حذف ایستواژهها میباشد که در واقع کلماتی هستند که حاوی هیچ احساس خاصی نیستند و صرفا باعث طولانیتر شدن جملات و کمتر شدن دقت الگوریتمها میشوند. در این تحقیق در ارتباط با ایستواژهها لیستی در نظر گرفته شده است که نسبت به ایستواژههای کتابخانههای فارسی پایتون، نتیجه بهتری ارائه میدهد. بعد از انجام تمامی مراحل پیشپردازش اگر در مجموعه داده، تککاراکتر ایجاد شود، با توجه به این موضوع که نمیتوان برای تک کاراکترها قطبش تعیین کرد، حذف میگردند. همچنین کلماتی که تعداد تکرار آنها کمتر از حد باشد(در این پژوهش عدد 40 در نظر گرفته شده است) حذف میگردند.
در اکثر پژوهشها ، شکلکها به عنوان علائم اضافه پاک میشوند. در این پژوهش برای جلوگیری از حذف شکلکها و به علت اهمیت آنها در تشخیص حس نویسنده، شکلکها به کلیدواژه تبديل شدند. برای یکپارچه شدن و سادهتر شدن، تمامی شکلکهای موجود در مجموعه داده با حس مربوط به آن شکلک، جایگزین شده است. برای شکلکهایی که انتقالدهنده حس مثبت بودند از کلمه "مثبت" و برای شکلکهایی که انتقالدهنده حس منفی بودند کلمه "منفی" در نظر گرفته شده است.
جدول 1-تبدیل شکلکها
شکلکها | واژه جایگزین |
:) ، :)) ، :-) ، =) ، ^_^ | مثبت |
:( ، :(( ، :-( ، =( | منفی |
2-4- ویژگیهای استفاده شده
برای شناسايي خودکار وجود يا عدم وجود طعنه در متن ورودی، طبقهبندي به اين هدف طراحی شد که با استفاده از ويژگیهای استخراج شده طعنه از روی متن توييتها و بهکمک روش TF-IDF با دادههای موجود آموزش داده شد. خروجی اين مدل تعيين کننده وجود يا عدم وجود طعنه در متن ورودی میباشد. اين خروجی به همراه کليدواژههای استخراج شده از توييتها به روش TF-IDF برای شناسايي احساس يا قطبش متن به طبقهبند ترکیبی بعدی داده میشود.
3-4- طبقهبندهای استفاده شده
برای ساخت الگوریتم طبقهبند ترکيبی سه طبقهبند پايه نایو بیز، ماشین بردار پشتیبان و شبکه عصبی سه لایه استفاده شده است. برای طبقهبند ترکیبی روش بوت استرپ بهکار برده شده است. بوت استرپ تکنیکی قدرتمند است که با نمونه برداری از حداقل برچسبهای همزمان، مشکل وابستگی به برچسب را حل میکند. این روش بهکمک تکنیک نمونهگیری با جایگذاری (بازنمونهگیری) سعی میکند که بهترین برآورد را برای خطای طبقهبندها با توجه به حجم نمونه محدود، بهدست آورد. البته نمونههای حاصل از بازنمونهگیری، مستقل از یکدیگر هستند. در این پژوهش، با توجه به بررسی انجام شده بر روی الگوریتم پایه، از ماشین بردار پشتیبان خطی استفاده شده است. علت انتخاب اين طبقهبند، عملکرد بهتر آن در مقایسه با دیگر طبقهبندهای پايه بهکار برده شده در این پژوهش بوده است. نتایج حاصل از اعمال طبقهبندهای پايه با استفاده از اعتبارسنجی متقابل با 6 فولد ارزيابی شد.
5- ارزیابی روش پیشنهادی
برای ارزيابی روش پيشنهادی از مجموعه داده شامل 8000 توییت جمعآوری شده با برچسبهای قطبش چهارگانه و وجود يا عدم وجود طعنه استفاده شده است. همانطوری که در بخش قبل توضيح داده شد، طبقهبند مجزايي برای شناسايي طعنه بهکمک دادههای موجود طراحی شد. مراحل کار به اين صورت است که متن ورودی ابتدا توسط طبقهبند اول برای شناسايي وجود و يا عدم وجود طعنه بررسی میشود سپس نتيجه بررسی به همراه ساير ويژگیهای استخراج شده از متن برای تشخيص قطبش متن به طبقهبند ترکيبی دوم ارسال میشود. در نهایت عملکرد کلی الگوریتم مورد بررسی و ارزیابی قرار میگيرد. برای بدست آوردن تاثير درنظر گرفتن طعنه، ارزيابیهايي انجام شده به دو صورت با وجود ويژگی طعنه و بار ديگر بدون وجود آن انجام شده است که نتايج حاصل در ادامه و در دو بخش مجزا آورده شدهاند. در بررسی عملکرد، سه معیار F1 ،Percision و Accuracy تعیین کننده هستند که Accuracy یا همان صحت، عملکرد کلی الگوریتم را نشان میدهد و معمولا همین معیار است که نشاندهندهی بهبود یا عدم بهبود یک روش نسبت به روشهای قبلی است.
1-5- ارزیابی تشخیص قطبش الگوریتمها با استفاده از طعنه
نتایجی که در جدول شماره 4-1 آمده است، حاصل استفاده از 8000 دادهای که شامل 4 برچسب ]1-و0و1و2[ بوده است که در واقع برای هر کدام از برچسبهای مذکور، 2000 تا داده وجود دارد. همچنین 1530 داده دارای برچسب طعنه و 6470 داده برچسب بدون طعنه دارند. طبقهبندهای استفاده شده در این قسمت شامل[Ensemble, Naive Bayes, Linear SVC, SVC, MLP] میباشد. در اینجا از طبقهبند شبکه عصبی با سه لایه استفاده شده است. همانطور که توضیح داده شد، در این پژوهش از روش اعتبار سنجی متقابل K-Fold استفاده شده است که با توجه به تجربه بهدست آمده و سعی و خطا تعداد فولدها برابر با 6 قرار داده شده است. همچنین در ارتباط با طبقهبند ترکیبی از روش بوت استرپ استفاده میشود و طبقهبند پایه برای این کار، طبقهبند Linear SVC است که نتایج بهتری نسبت به بقیه طبقهبندها داشته است. نتایجی که در جدول زیر دیده میشود، مربوط به پیشبینی انجام شده توسط مدل برای تشخیص طعنه میباشد.
جدول 2- نتایچ تشخیص طعنه
طبقهبند | Accuracy | Precision | F1 | Recall |
N.B | 90% | 92% | 90% | 90% |
MLP | 90% | 92% | 92% | 92% |
SVC | 92% | 94% | 93% | 93% |
Linear SVC | 93% | 93% | 94% | 94% |
Ensemble | 96% | 93% | 93% | 94% |
همچنین نتایجی که در جدول زیر دیده میشود ، مربوط به پیشبینی انجام شده توسط مدل برای قطبش، با استفاده از طعنههای تشخیصی خود مدل میباشد.
جدول 3- نتایج تشخیص قطبش
طبقهبند | Accuracy | Precision | F1 | Recall |
N.B | 89% | 92% | 90% | 90% |
MLP | 90% | 92% | 92% | 92% |
SVC | 91% | 94% | 93% | 94% |
Linear SVC | 92% | 93% | 93% | 93% |
Ensemble | %93 | %93 | %93 | 94% |
2-5- ارزیابی تشخیص قطبش الگوریتمها بدون استفاده از طعنه
برای بررسی تاثیر ویژگی طعنه بر دقت طبقهبندها، مدلی ایجاد میشود که طعنه را در نظر نگیرد. جدول شماره 4 نتايج مربوط به این حالت را نشان میدهد که تمام پارامترها و مقادیر آن، مانند دو جدول 2 و3 است صرفا با این تفاوت که برچسبهای مربوط به طعنه در نظر گرفته نشده است و سپس طبقهبندهای استفاده شده برای مجموعه داده مذکور ارزیابی شدهاند.
جدول 4- نتایج قطبش بدون استفاده از طعنه
طبقهبند | Accuracy | Precision | F1 | Recall |
N.B | 77% | 78% | 77% | 77% |
Linear SVC | 79% | 79% | 79% | 80% |
MLP | 80% | 82% | 79% | 80% |
SVC | 80% | 81% | 80% | 80% |
Ensemble | 81% | 82% | 82% | 82% |
6- نتیجهگیری
در این پژوهش با استفاده از رویکرد یادگیری ماشین با نظارت، توییتهای ارائه شده افراد در توییتر با موضوعاتی کاملا متفاوت از یکدیگر مورد بررسی قرار گرفتند. پس از برچسبگذاری قطبش و طعنه و استخراج کلمات کلیدی از مجموعه داده، تقسیمبندی این دادهها با استفاده از اعتبارسنجی متقابل و به منظور فرآیند آنالیز احساس مورد آزمایش قرار گرفتند. معیار صحت هر کدام از طبقهبندهای استفاده شده، پس از آنکه ویژگی طعنه حذف شد، درصد چشمگیری کاهش پیدا کردهاند. میتوان ادعا کرد که ویژگی طعنه مطرح شده و استخراج کلمات کلیدی از جملات طعنه دار در این پژوهش، موثر و کارا بوده است.
با توجه به نتایج بهدست آمده از تعداد اجراهای مکرر، طبقهبند ترکیبی با استفاده از روش بوت استرپ نسبت به بقیه طبقهبندها بهتر عمل کرده و بعد از آن طبقهبند ماشین بردار پشتیبان بهتر از بقیه بوده است و سپس نایو بیز و شبکه عصبی با اختلاف کمی نسبت به یکدیگر، عمل کردهاند.
7- پیشنهاداتی برای کارهای آتی
برخی پیشنهادات جهت پژوهشهای آتی عبارتند از:
· در این پژوهش چهار الگوریتم از مجموعه روشهای با نظارت برای انجام فرآیند آنالیز احساس بر روی توییتهای منتشر شده در زبان فارسی مورد بررسی قرار گرفته است. دیگر روشهای طبقهبندی احساس همچون روشهای یادگیری عمیق به عنوان موضوعی برای پژوهشهای آتی مورد استفاده قرار گیرند.
· میتوان برای کارهای آتی به جمعآوری یک مجموعه داده استاندارد برای زبان فارسی پرداخت تا یک چالش بزرگ در این زمینه برطرف شود و امکان مقایسه برای تمامی افرادی که در این حوزه به تحقیق و بررسی میپردازند، ایجاد شود.
· علاوه بر شکلکها و بررسی طعنه، میتوان تکرار حروف، علامتهای تعجب، سوال و دیگر اجزای متون آنلاین را نیز مورد استفاده قرار داد و تاثیر آنها را بر تشخیص قطبش مورد بررسی قرار داد.
· در بخش پیشپردازش، برای ریشهیابی کلمات از کتابخانههای فارسی استفاده شده است که دارای نقاط ضعف زیادی میباشند. پیشنهاد میشود که این بخش بهبود داده شود.
مراجع
[1]. Pang B, Lee L, Vaithyanathan S. Thumbs up? Sentiment classification using machine learning techniques. arXiv preprint cs/0205070. 2002 May 28.
[2]. Ravi K, Ravi V. A survey on opinion mining and sentiment analysis: tasks, approaches and applications. Knowledge-based systems. 2015 Nov 1;89:14-46.
[3]. Dr. Kalpesh H. Wandra, Mehul Barot(2017). SARCASM DETECTION IN SENTIMENT ANALYSIS . In INTERNATIONAL JOURNAL OF CURRENT ENGINEERING AND SCIENTIFIC RESEARCH (IJCESR)
[4]. Dashtipour K, Hussain A, Zhou Q, Gelbukh A, Hawalah AY, Cambria E. PerSent: A freely available Persian sentiment lexicon. In International conference on brain inspired cognitive systems 2016 Nov 28 (pp. 310-320). Springer, Cham.
[5]. Hardeniya T, Borikar DA. Dictionary based approach to sentiment analysis-a review. International Journal of Advanced Engineering, Management and Science. 2016 May;2(5):239438.
[6]. Khan A, Baharudin B, Lee LH, Khan K. A review of machine learning algorithms for text-documents classification. Journal of advances in information technology. 2010 Feb;1(1):4-20.
[7]. Wilson T, Wiebe J, Hoffmann P. Recognizing contextual polarity in phrase-level sentiment analysis. InProceedings of human language technology conference and conference on empirical methods in natural language processing 2005 Oct (pp. 347-354).
[8]. Hui-Hsin Wu, A. Tsai, Richard Tzong-Han Tsai, J. Hsu. Building a Graded Chinese Sentiment Dictionary Based on Commonsense Knowledge for Sentiment Analysis of Song Lyrics. Journal of Information Science & Engineering. 2013 Jul 1;29(4).
[9]. Shams M, Shakery A, Faili H. A non-parametric LDA-based induction method for sentiment analysis. InThe 16th CSI international symposium on artificial intelligence and signal processing (AISP 2012) 2012 May 2 (pp. 216-221). IEEE.
[10]. Basiri ME, Naghsh-Nilchi AR, Ghasem-Aghaee N. Sentiment prediction based on dempster-shafer theory of evidence. Mathematical Problems in Engineering. 2014 Apr 27;2014.
[11]. Dashtipour K, Gogate M, Adeel A, Hussain A, Alqarafi A, Durrani T. A comparative study of persian sentiment analysis based on different feature combinations. In International conference in communications, signal processing, and systems 2017 Jul 14 (pp. 2288-2294). Springer, Singapore.
[12]. Heikal M, Torki M, El-Makky N. Sentiment analysis of Arabic tweets using deep learning. Procedia Computer Science. 2018 Jan 1;142:114-22.
[13]. Rahimi Z, Noferesti S, Shamsfard M. Applying data mining and machine learning techniques for sentiment shifter identification. Language Resources and Evaluation. 2019 Jun;53(2):279-302.
[14]. Dashtipour K, Gogate M, Adeel A, Ieracitano C, Larijani H, Hussain A. Exploiting deep learning for Persian sentiment analysis. In International conference on brain inspired cognitive systems 2018 Jul 7 (pp. 597-604). Springer, Cham.
[15]. Alharbi AS, de Doncker E. Twitter sentiment analysis with a deep neural network: An enhanced approach using user behavioral information. Cognitive Systems Research. 2019 May 1;54:50-61.
[16]. Prasad AG, Sanjana S, Bhat SM, Harish BS. Sentiment analysis for sarcasm detection on streaming short text data. In2017 2nd International Conference on Knowledge Engineering and Applications (ICKEA) 2017 Oct 21 (pp. 1-5). IEEE.
[17]. Ren Y, Ji D, Ren H. Context-augmented convolutional neural networks for twitter sarcasm detection. Neurocomputing. 2018 Sep 25;308:1-7.
[18]. Mehndiratta P, Sachdeva S, Soni D. Detection of sarcasm in text data using deep convolutional neural networks. Scalable Computing: Practice and Experience. 2017 Sep 9;18(3):219-28.
[19]. Ahuja R, Bansal S, Prakash S, Venkataraman K, Banga A. Comparative study of different sarcasm detection algorithms based on behavioral approach. Procedia computer science. 2018 Jan 1;143:411-8.
[20]. Rohanian M, Salehi M, Darzi A, Ranjbar V. Convolutional Neural Networks for Sentiment Analysis in Persian Social Media. arXiv preprint arXiv:2002.06233. 2020 Feb 14.
[21]. Bokaee Nezhad, Zahra & Deihimi, Mohammad. (2022). Analyzing Iranian Opinions toward COVID-19 Vaccination. IJID Regions. 3. 10.1016/j.ijregi.2021.12.011.
[22]. Govindan, Vithyatheri & Balakrishnan, Vimala. (2022). A machine learning approach in analysing the effect of hyperboles using negative sentiment tweets for sarcasm detection. Journal of King Saud University - Computer and Information Sciences. 34. 10.1016/j.jksuci.2022.01.008.
[23]. Ben Meriem, Amina & Hlaoua, Lobna & Romdhane, Lotfi. (2021). A fuzzy approach for sarcasm detection in social networks. Procedia Computer Science. 192. 602-611. 10.1016/j.procs.2021.08.062.
[1] نویسنده مسئول:ميترا ميرزارضايي، mirzarezaee@srbiau.ac.ir
Opinion Mining
[2] Sentiment Analysis
[3] Pang
[4] Lee
[5] Natural Language Processing
[6] Baharudin
[7] TheresaWilson
[8] Charng Rurng Tsai
[9] yahoo dictionary
[10] google translator
[11] google
[12] yahoo
[13] Support Vector Machine
[14] Dempster Shafer
[15] Part of speech
[16] Heikal
[17] Convolution Neural Network (CNN)
[18] Long short term memory (LSTM)
[19] MultiLayer Perceptron(MLP)
[20] Prasad
[21] Gaussian Naive Bayes
[22] Logistic Regression
[23] Random Forest
[24] Ren
[25] Mehndiratta
[26] Ahuja
[27] random forest
[28] Govindan
[29] Meriem
[30] Hazm