Manuscript ID : 1401120841375 Visit : 3575 Page: 14 - 23

Article Type: Original Research

Improving polarity identification in sentiment analysis using sarcasm detection and machine learning algorithms in Persian tweets

Subject Areas : ICT

Shaghayegh hajiabdollah ¹ , Mitra Mirzarezaee ² , Mir Mohsen Pedram ³

1 - -
2 -
3 -

Received: 2021-11-13 Accepted : 2022-12-01 Published : 2023-03-01

Keywords: Sentiment analysis, opinion mining, sarcasm detection, twitter, ensemble learning,

Abstract :

Sentiment analysis is a branch of computer science and natural language processing that seeks to familiarize machines with human emotions and make them recognizable. Both sentiment analysis and sarcasm which is a sub-field of the former, seek to correctly identify the hidden positive and negative emotions of the text. The use of sarcasm on social media, where criticism can be exercised within the context of humor, is quite common. Detection of sarcasm has a special effect on correctly recognizing the polarization of an opinion, and thus not only it can help the machine to understand the text better, but also makes it possible for the respective author to get his message across more clearly. For this purpose, 8000 Persian tweets that have emotional labels and examined for the presence or absence of sarcasm have been used. The innovation of this research is in extracting keywords from sarcastic sentences. In this research, a separate classifier has been trained to identify irony of the text. The output of this classifier is provided as an added feature to the text recognition classifier. In addition to other keywords extracted from the text, emoticons and hashtags have also been used as features. Naive Bayes, support vector machines, and neural networks were used as baseline classifiers, and finally the combination of classifiers was used to identify the feeling of the text. The results of this study show that identifying the irony in the text and using it to identify emotions increases the accuracy of the results.

References:

[1]. Pang, B., Lee, L., & Vaithyanathan, S. (2002). Thumbs up: sentiment classification using machine learning techniques. In Proceedings of the Conference on Empirical Methods in Natural Language Processing, (pp. 79–86)
[2]. Ravi, K., & Ravi, V. (2015). A survey on opinion mining and sentiment analysis: tasks, approaches and applications. Knowledge-based systems, 89, 14-46.
[3]. Wandra, K. H., & Barot, M. SARCASM DETECTION IN SENTIMENT ANALYSIS.
[4]. Dashtipour, K., Hussain, A., Zhou, Q., Gelbukh, A., Hawalah, A. Y., & Cambria, E. (2016, November). PerSent: a freely available Persian sentiment lexicon. In International Conference on Brain Inspired Cognitive Systems (pp. 310-320). Springer, Cham.
[5]. [4] Hardeniya, T., & Borikar, D. A. (2016). Dictionary based approach to sentiment analysis-a review. International Journal of Advanced Engineering, Management and Science, 2(5), 239438.
[6]. Khan, A., Baharudin, B., Lee, L. H., & Khan, K. (2010). A review of machine learning algorithms for text-documents classification. Journal of advances in information technology, 1(1), 4-20.
[7]. Wilson, T., Wiebe, J., & Hoffmann, P. (2005, October). Recognizing contextual polarity in phrase-level sentiment analysis. In Proceedings of human language technology conference and conference on empirical methods in natural language processing (pp. 347-354).
[8]. Wu, H. H., CHARNG-RURNG TSAI, A. N. G. E. L. A., TZONG-HAN TSAIi, R. I. C. H. A. R. D., & YUNG-JEN HSU, J. A. N. E. (2013). Building a Graded Chinese Sentiment Dictionary Based on Commonsense Knowledge for Sentiment Analysis of Song Lyrics. Journal of Information Science & Engineering, 29(4).
[9]. Shams, M., Shakery, A., & Faili, H. (2012, May). A non-parametric LDA-based induction method for sentiment analysis. In The 16th CSI international symposium on artificial intelligence and signal processing (AISP 2012) (pp. 216-221). IEEE.
[10]. Basiri, M. E., Naghsh-Nilchi, A. R., & Ghasem-Aghaee, N. (2014). Sentiment prediction based on dempster-shafer theory of evidence. Mathematical Problems in Engineering, 2014.
[11]. Dashtipour, K., Gogate, M., Adeel, A., Hussain, A., Alqarafi, A., & Durrani, T. (2017, July). A comparative study of persian sentiment analysis based on different feature combinations. In International Conference in Communications, Signal Processing, and Systems (pp. 2288-2294). Springer, Singapore
[12]. Heikal, M., Torki, M., & El-Makky, N. (2018). Sentiment analysis of Arabic Tweets using deep learning. Procedia Computer Science, 142, 114-122.
[13]. Rahimi, Z., Noferesti, S., & Shamsfard, M. (2019). Applying data mining and machine learning techniques for sentiment shifter identification. Language Resources and Evaluation, 53(2), 279-302.
[14]. Dashtipour, K., Gogate, M., Adeel, A., Ieracitano, C., Larijani, H., & Hussain, A. (2018, July). Exploiting deep learning for Persian sentiment analysis. In International conference on brain inspired cognitive systems (pp. 597-604). Springer, Cham.
[15]. Alharbi, A. S. M., & de Doncker, E. (2019). Twitter sentiment analysis with a deep neural network: An enhanced approach using user behavioral information. Cognitive Systems Research, 54, 50-61.
[16]. Prasad, A. G., Sanjana, S., Bhat, S. M., & Harish, B. S. (2017, October). Sentiment analysis for sarcasm detection on streaming short text data. In 2017 2nd International Conference on Knowledge Engineering and Applications (ICKEA) (pp. 1-5). IEEE.
[17]. Ren, Y., Ji, D., & Ren, H. (2018). Context-augmented convolutional neural networks for twitter sarcasm detection. Neurocomputing, 308, 1-7.
[18]. Mehndiratta, P., Sachdeva, S., & Soni, D. (2017). Detection of sarcasm in text data using deep convolutional neural networks. Scalable Computing: Practice and Experience, 18(3), 219-228.
[19]. Ahuja, R., Bansal, S., Prakash, S., Venkataraman, K., & Banga, A. (2018). Comparative study of different sarcasm detection algorithms based on behavioral approach. Procedia computer science, 143, 411-418.
Rohanian, Morteza & Salehi, Mostafa & Darzi, Ali & Ranjbar, Vahid. (2020). Convolutional Neural Networks for Sentiment Analysis in Persian Social Media.

Full-Text:

الگوي تهيه مقالات

دو فصلنامه علمي

فناوري اطلاعات و ارتباطات ایران

سال چهاردهم، شماره‌هاي 53 و 54، پاییز و زمستان 1401

صفحات:15 تا 24

$E:\E Drive\logo\iicta Logo0.JPG$

Improving polarity identification in sentiment analysis using sarcasm detection and machine learning algorithms in Persian tweets

Mitra Mirzarezaee ** , MirMohsen Pedram *** ، Shaghayegh Hajiabdollah *

Department of Computer Engineering, Science and Research Branch, Islamic Azad University, Tehran*

Iran.

Department of Computer Engineering, Science and Research Branch, Islamic Azad University, Tehran**

Iran.

Department of Electrical and Computer Engineering, Faculty of Engineering, Kharazmi University***

Tehran, Iran.

Abstract:

Sentiment analysis or opinion analysis is a branch of computer science and natural language processing that tries to introduce machines and artificial intelligence to human feelings and emotions. Sarcasm analysis, like sentiment analysis, seeks to correctly identify the positive and negative emotions hidden in the text. Revealing sarcasm in recognizing the correctness of the polarization of an opinion has a personal effect. For this purpose, 8000 Persian tweets containing emotion tags were used, which were checked for the presence or absence of sarcasm. The innovation of the research is in extracting key words from sarcastic sentences that cause sarcasm. In this research, a separate classifier has been designed and trained to recognize sarcasm in the text, and then the outputs of this classifier are used as an added feature for the text emotion recognition classifier. Also, in addition to the other keywords extracted from the text, emoticons and hashtags in the text are also used as features. Bayesian classifiers, support vector machine and neural network have been used as basic classifiers and finally the combination of classifiers was used to identify the sentiment of the text. The results of this research show that identifying sarcasm in the text and using it to identify the sense of feeling increases the accuracy of the results.

Keywords: Sentiment analysis, opinion mining, sarcasm detection, twitter, ensemble learning

بهبود شناسایی قطبش در تحلیل احساسات به کمک طعنه کاوی و الگوریتمهای یادگیری ماشین در توییتهای فارسی

شقایق حاجی عبداله* میترا میرزارضایی** میرمحسن پدرام***

*گروه مهندسی کامپیوتر،واحد علوم و تحقیقات، دانشگاه آزاد اسلامی،تهران،ایران.

**گروه مهندسی کامپیوتر،واحد علوم و تحقیقات ، دانشگاه آزاد اسلامی،تهران،ایران.

*** گروه مهندسی برق و کامپیوتر،دانشکده فنی و مهندسی، دانشگاه خوارزمی،تهران،ایران.

تاریخ دریافت:22/08/1400 تاریخ پذیرش: 10/09/1401

نوع مقاله: پژوهشی

چكیده

تحلیل احساسات یا نظرکاوی شاخهای از علوم کامپیوتر و پردازش زبان طبیعی است که سعی دارد ماشین و هوش مصنوعی را با احساس و عواطف انسانی آشنا سازد.طعنهکاوی نیز مانند تحلیل احساسات بهدنبال تشخیص صحیح احساسات مثبت و منفی نهفته در متن هست.آشکارسازی طعنه در تشخیص درستی قطبش یک نظر، تاثیر بهخصوصی دارد.

به اين هدف، 8000 توییت فارسی حاوی برچسب احساس که از لحاظ وجود يا عدم وجود طعنه بررسی شده‌اند، مورد استفاده قرار گرفته است. نوآوری پژوهش در استخراج کلمات کلیدی از جملات طعنهدار است که باعث ایجاد طعنه و کنایه شدهاند. در اين پژوهش طبقهبند مجزايي برای شناسايي طعنه در متن‌ طراحی و اموزش داده شده است و سپس خروجیهای اين طبقهبند به عنوان ويژگی افزوده در اختيار طبقهبند شناسايي احساس متن قرار میگيرد. همچنین علاوه بر بقيه کلمات کليدی استخراج شده از متن از شکلکها و هشتگهای موجود در متن نیز به عنوان ویژگی استفاده شده است. طبقهبندهای بیز، ماشین بردار پشتیبان و شبکه عصبی به عنوان طبقهبندهای پايه استفاده شده‌اند و در نهايت از ترکيب طبقهبندها در شناسايي احساس متن استفاده شد. نتايج اين پژوهش نشان می‌دهد که شناسايي طعنه موجود در متن و استفاده از آن در شناسايي احساس دقت نتايج را افزايش می‌دهد.

واژگان کلیدی: تحلیل احساس، نظرکاوی، طعنهکاوی، توییتر، ترکيب طبقهبندها.

1- مقدمه

در دنیای امروز حجم عظیمی از اطلاعات به صورت متن میباشد. بنابراین تکنیکهای متنکاوی اهمیت بسیاری یافتهاند. نظرکاوی¹ یا تحلیل احساسات² به عنوان شاخهای از متنکاوی، به معنی یافتن دیدگاه نویسنده متن، درباره یک موضوع خاص است. اصطلاح تحلیل احساسات بیشتر در حوزه صنعت رایج است. در فعالیتهای علمی و آکادمیک، هر دو اصطلاح نظرکاوی و تحلیل احساسات به تناوب مورد استفاده قرار میگیرد. در واقع نظرکاوی در سال 2002 توسط پنگ³ و لی⁴]1[ معرفی شد، بعد از اضافه شدن شبکههای اجتماعی به زندگی روزمره کاربران اینترنت، نظرکاوی اهمیت فزایندهای پیدا کرد]2[.

اینترنت این امکان را برای کاربران فراهم میکند تا نظرات خود را به سهولت بیان کنند و از نظرات دیگران در مورد موضوعی خاص مطلع شوند. حجم بالا و فقدان ساختار مناسب برای متن نظرات ارائه شده بر روی بستر وب، استفاده از دانش پنهان درون آنها را دشوار نموده است. آگاهی از تجربیات، نظرات و دیدگاه افراد نقش اساسی در فرآیند تصمیمگیری مشتریان ساده تا مدیران سطح بالای شرکتهای تولید کننده و سازمانهای مختلف دارد و وجود نظرات مغایر درباره یک موجودیت، فرآیند استخراج و پردازش نظرات را بسیار دشوار ساخته است. بنابراین نیاز به روشهایی خودکار برای کاوش و تحلیل نظرات موجود در وب احساس میشود. بدین منظور در دهه اخیر گرایش جدیدی در علم پردازش زبانهای طبیعی⁵ به نام نظرکاوی ایجاد شده است. یکی از مهمترین وظایف این حوزه، طبقهبندی حسی مستندات بر اساس بار احساسی مثبت یا منفی (میزان رضایت مندی) آنهاست.

دلیل اصلی که افراد پیامهایی را بر روی پلاتفرمهای رسانههای اجتماعی ارسال میکنند این است که دیدگاه و عقایدشان را بیان کنند و از این رو تحلیل احساس، هسته اصلی تحلیل رسانههای اجتماعی است. گاهی اوقات کاربر ممکن است از کنایه، طعنه و شوخی استفاده کند. هر کدام از این موارد در ساختار جمله مفهومی کاملا متفاوت با مفهوم واقعی دارند. نظر حاوی طعنه، حالت پيچيدهتري از یک نظر داراي احساس است که در آن نويسنده، منظور خود را به صورت طعنهآميز و مخفي در مفهوم کلمات و جمله، بيان کرده است. تشخيص اينکه يک نظر طعنهآميز است يا نه، چالش ديگري است که در مسئله تجزيه و تحليل احساسات قابل تعريف است.

2- ادبیات موضوع

1-2- طعنهکاوی

طعنه به سخنی تلخ، تمسخر و دست انداختن گفته میشود که در فرهنگهایی که آزادی در تفکر و بیان کمتر است، نمود بیشتری دارد. در طعنهکاوی معمولا نظرات مثبت و منفی به شکل معکوس ابراز میشوند و به همین دلیل تشخیص دادن طعنه در یک متن نه تنها برای ماشین بلکه در برخی مواقع برای خود انسانها نیز سخت است، زیرا مردم اغلب از استرس و لحن بیان و نشانههای حرکتی خاص، مانند حرکت چشمها و حرکت دست و غیره برای آشکار شدن طعنه استفاده میکنند که در دادههای متنی، این اشارات و نشانهها وجود ندارند]3 [ و اگر یک جمله حاوی طعنه بهدرستی تشخیص داده نشود، میتواند دقت طبقهبند تحلیل احساسات را در شناسایی قطبش جملات، کاهش دهد.

2-2- بوت استرپ

تکنیکی قدرتمند است که با نمونه برداری از حداقل برچسبهای همزمان، مشکل وابستگی به برچسب را حل میکند. در واقع هدف از بهکارگیری روش بوت استرپ، استنباطی در مورد برآوردگر پارامتر جامعه آماری است. روش بوت استرپ به کمک تکنیک نمونه‌گیری با جایگذاری (بازنمونه‌گیری) سعی می‌کند که بهترین برآورد را برای خطای برآوردگرها با توجه به حجم نمونه محدود، بهدست آورد. البته نمونه‌های حاصل از بازنمونه‌گیری، مستقل از یکدیگر هستند.

3- پیشینه پژوهش

1-3- پژوهشهای مبتنی بر واژگان

در روشهای مبتنی بر واژگان در شناسايي احساس متن از ایجاد لغتنامهای از کلمات نظر توسط عامل انسانی استفاده میشود. این کار فرآیندی زمانبر است و با سایر روشها برای بهبود عملکرد ترکیب میشود .دشتی پور و همکارانش]4[ لغتنامهای برای زبان فارسی معرفی کردهاند. در حالت مبتنی بر فرهنگ لغات از منابع زبانشناسی مانند فرهنگ لغتهای آنلاین استفاده میشود. در این رویکرد از مترادفها، متضادها و سلسله مراتب موجود در فرهنگ لغات نظر برای تشخیص احساس کلمه استفاده میشود. برای این کار ممکن است فرهنگ لغاتWordNet, SentiWordNet, sesticNet, sentful استفاده شود ]5[ .

کان⁶ و همکاران ]6[ در سال 2010 یک لغتنامه به زبان چینی ساختهاند که در آن گرایش کلمات با توجه به فراوانی کاراکترهای بهکار رفته در ساخت کلمات، تشخیص داده شده و با میانگین قطبش کلمات استفاده شده در متن، قطبش کل کلمات را محاسبه کرده است. به دلیل بیشتر بودن فراوانی یک کاراکتر در کلمات منفی، فراوانیها نرمالسازی شدهاند. هسته اصلی حدود 1000 کلمه است که از لغتنامههای موجود گرفته شده است و سایر کلمات با استفاده از دو فرهنگ زبان چینی و هسته اصلی تعیین گرایش شدهاند.

ویلسون⁷ و همکاران ]7[ در سال 2005 از یک لیست عبارات با گرایش مشخص (مثبت، منفی، خنثی) استفاده کرده و با توجه به فراوانی کلمات در عبارات مثبت یا هم خنثی هم مثبت، منفی یا هم خنثی هم منفی، هیچکدام، هم مثبت و هم منفی، گرایش کلمات را مثبت، منفی، خنثی، يا هر دو تعبیر کرده و بعد از تعیین گرایش کلمات از روش Boostexter Adaboost.HM برای طبقهبندی متن استفاده شده است.

لغتنامه ساخته شده توسط چارنگ رورنگ سای⁸ ]8[ در سال 2013 از جمله لغتنامههای با زبان غیر انگلیسی است. این لغتنامه با زبان چینی گسترش یافته و از ترکیب سه لغتنامه موجود به زبان انگلیسی استفاده کرده است. این لغتنامه با استفاده از لغتنامه یاهو⁹ و مترجم گوگل¹⁰ ترجمه شدهاند. از آنجایی که ترجمه گوگل¹¹ دقت بالا و ترجمه یاهو¹² پوشش بالا دارد این دو ترجمه ترکیب شده است.

شمس و همکاران ]9[ در سال 2012 از یک روش اتوماتیک برای ترجمه یک لغتنامه انگلیسی به فارسی و روشهای تکراری برای تصحیح خطای کلمات استفاده کردهاند. در روش پيشنهادی آنها، طی دو مرحله قطبش متن تعیین میشود. ابتدا با یک روش غیر نظارتی (LDA-Based) لغتنامه همان متن را استخراج کرده و سپس از روش ماشین بردار پشتیبان¹³ برای تعیین قطبش هر متن طبق لغتنامه همان متن استفاده میکند.

بصیری و همکاران ]10[ در سال 2014 یک چارچوب کلی برای کاوش نظرات فارسی با استفاده از لغتنامه ساخته شده، ارايه دادهاند. این لغتنامه ترجمهی دستی از لغتنامه SentiStrengthاست. بعد از ترجمه، کلمات تکراری حذف شدهاند. این چارچوب کلی از چند قسمت تشکیل شده است:

نرمالسازی، تصحیح غلطهای املایی اعم از چاپی، ساختاری و ناشی از حروف تبادلپذیر، ریشهیابی کلمات با روش high stemmer (برای کاهش حجم متون، در این مرحله کلمات ایست حذف میشوند)، جداسازی متن به جملات، تشخیص قطبش کلمات با استفاده از لغتنامه ساخته شده و تجمیع امتیاز کل متن با استفاده از روش دمستر شفر¹⁴.

دشتیپور و همکاران ]11[ در سال 2017 از ویژگی یونیگرام، بایگرام، ترایگرام و POS¹⁵ کلمات برای تحلیل احساس نظرات فارسی کاربران استفاده کرده است. در پژوهش آنها، 500 نظر مثبت و 500 نظر منفی درباره فیلم جمعآوری شده است و با استفاده از طبقهبند ماشین بردار پشتیبان احساس موجود در جملات در دو قطبش مثبت و منفی مورد تحلیل قرار گرفته است. بهترین عملکرد با دقت 38/88 درصد به ترکیب ویژگیهای یونیگرام، بایگرام و تریگرام اختصاص داشته است.

2-3- پژوهشهای مبتنی بر واژگان

هیکل¹⁶ و همکاران ]12[ در سال 2018 به بررسی تحلیل احساسات در زبان عربی پرداختهاند. زبان عربی به دلیل ساختار پیچیدهی آن، گویش‌های مختلف، علاوه بر فقدان منابع، چالش‌های زیادی به همراه دارد. در این مقاله، ترکیبی از مدل‌های شبکه عصبی کانولوشن¹⁷ و حافظه طولانی کوتاه مدت¹⁸ برای پیش‌بینی احساسات توییتهای عربی استفاده شده است. در آخر هم معیارهای ارزیابی صحت و F1-score برای ارزيابی نتايج استفاده شده است و درصد به دست آمده برای F1 score برابر با 46/64 میباشد.

شمس فرد و همکاران ]13[ در سال 2018 از تکنیک‌های دادهکاوی و یادگیری ماشین برای شناسایی تغییردهنده احساسات استفاده کردهاند. تغییردهنده احساسات به عنوان مجموعه‌ای از واژه‌ها و عبارات که بر قطبش متنی تاثیر می‌گذارد، نقشی اساسی در استخراج افکار ایفا می‌کند. تغییردهنده احساسات، یعنی کلمات و عباراتی که میتوانند قطب متن را تحت تاثیر قرار دهند، نقش مهمی در نظرکاوی دارند. با این حال، توانایی محدود سیستم‌های داده خودکار در کنترل و شناسایی تغییر دهندهها یک چالش مهم است. این مقاله سه روش جدید و کارآمد برای شناسایی تغییردهنده احساسات به منظور بهبود دقت کلی سیستم‌های دادهکاوی ارائه می‌دهد. در این مقاله ادعا شده است که رویکردهای پیشنهادی مستقل از زبان هستند. بنابراین، اگر چه آن را فقط به زبان انگلیسی تست کردهاند، میتوان برای زبانهای دیگر نیز استفاده کرد.

دشتی پور و همکاران ]14[ در سال 2018 دو مدل یادگیری عمیق کانولوشن و خودشناسهگذار را برای تجزیه و تحلیل احساس فارسی ارائه دادند و نتایج بهدست آمده را با شبکه عصبی پرسپترون چند لایه¹⁹ مقایسه نمودند. خودشناسهگذارها شامل لایههای ورودی، خروجی و پنهان میباشند و ورودی را در یک فضای پنهان فشردهسازی نموده و سپس در لایه خروجی آن را بازسازی مینمایند شبکههای کانولوشن نیز شامل سه لایه ورودی، پنهان و خروجی میباشند که لایه پنهان شامل لایههای کانولوشن، لایههای تجمع، لایههای تمام متصل و لایه نرمالسازی میباشد. آنها برای کار خود از یک خودشناسهگذار شامل یک لایه ورودی، سه لایه پنهان و یک لایه خروجی و از یک شبکه کانولوشن شامل چهار لایه کانولوشن، چهار لایه حداکثر تجمع و سه لایه کاملا متصل استفاده نمودند. در این مقاله آنها بر روی توسعه مدلهای تجزیه و تحلیل احساس برای زبان فارسی بخصوص برای نقد و بررسی فیلم، تمرکز نمودند. نتایج به دست آمده از مقایسه این روشها عبارتند از: دقت 86/82درصد برای روش کانولوشن، دقت 08/80 درصد برای روش خودشناسهگذار و دقت 49/78 درصد برای روش شبکه عصبی پرسپترون چند لایه.

الحاربی و همکاران ]15[ در سال 2018 برای تحلیل احساس، از روش یادگیری عمیق در دادههای توییتر استفاده کردهاند. آنها معماری ارائه دادند که نه تنها متن (توییت) بلکه رفتار کاربر را نیز مورد توجه قرار میدهد. 700.000 داده توییتر از 3500 کاربر مختلف را جمعآوری کرده و در آخر معیارهای ارزیابی دقت و یادآوری و F1 و صحت را به کار بردهاند. بالاترین دقت بهدست آمده برای روش شبکه عصبی کانولوشن با 88 درصد میباشد.

پِرِساد²⁰ و همکاران ]16[ در سال 2017 تحلیل احساسات با طعنهکاوی را مورد بررسی قرار دادهاند. روشهای استفاده شده شامل درخت تصمیم، نایو بیز گوسی²¹، رگرسیون لجستیک²²، جنگل تصادفی²³ و ... میباشد داده استفاده شده 2000 توییت با طعنه و بدون طعنه بوده که با 0 و 1 برچسب گذاری شدهاند. توییتهای حاوی طعنه با برچسب 1 و بدون طعنه با برچسب 0 مشخص شدهاند. راهاندازی آزمایشی شامل یک سیستم یونیکس است که محیط مجازی python 2.7 اجرا میکند. بیشترین صحت بهدست آمده با استفاده از گرادیان بوستینگ با تقسیم دادهها به ۶۰:۴۰ در حالتی که از شکلکها استفاده شود ۸۱/۸۲ درصد میباشد و در حالتی که از شکلکها استفاده نشود برابر با ۷۹/۸۲ درصد میباشد.

رن²⁴ و همکاران ]17[ در سال 2018 مدلی مبتنی بر شبکه عصبی برای تشخیص طعنه ارائه کردهاند. از آنجا که اکثر کارهای موجود در این زمینه از مدلهای گسسته استفاده کردهاند و معمولا از توییتهای قبلی نویسندهها استفاده نمیکنند، برای رسیدگی به این دو موضوع، این مدل پیشنهادی را ارائه کردهاند. دادههای مورد استفاده در این مقاله شامل 1500 توییت پایه و 6774 توییتهای قبلی نویسندگان و 453 توییت به شکل مکالمه است. معیار ارزیابی مورد استفاده macro F-score میباشد. بالاترین مقدار f-Score بهدست آمده برای روش پیشنهادی 28/63 درصد میباشد.

مندیراتا²⁵ و همکاران ]18[ در سال 2017 روشی مبتنی بر یادگیری عمیق و شبکه عصبی برای شناسایی طعنه ارائه کردهاند. دادههای استفاده شده در این مقاله 482588 توییت است که 151896 توییت دارای طعنه و 330692 توییت بدون طعنه است که با استفاده از هشتگهایی مانند #sarcasm، #sarcastic، #beingsarcastic جمعآوری شدهاند. روش پیشنهادی بعد از 10000 تکرار به صحت 9/89 درصد میرسد. با هر 1000 تکرار، صحت بهبود پیدا میکند تا زمانی که به 9000 تکرار میرسد و از آن به بعد، نتیجه به مقدار بسیار کمی تغییر میکند.

اهوجا²⁶ و همکاران]19[ در سال 2018 مطالعه مقایسهای الگوریتمهای تشخیص طعنه مختلف مبتنی بر رویکرد رفتاری را انجام دادهاند. در این مقاله 12 الگوریتم طبقهبندی (نایو بیز گوسی، روشهای آدابوست و ماشین بردار پشتیبان و ...) بر روی 4 نوع داده که از توییتر جمعآوری شدهاند، آزمایش شده است. برای جمعآوری دادهها از توییتر از هشتگ‌هایی نظیر طعنه و عصبانیت استفاده شده است. معیار ارزیابی مورد نظر در این مقاله معیار صحت میباشد. تقسیم مجموعه دادهها به طوری که 75 درصد برای مجموعه آموزش و 25 درصد برای مجموعه تست در نظر گرفته شود، بهترین نتیجه را شامل میشود. بالاترین صحت بهدست آمده با روش گرادیان بوستینگ برابر با 71/85 درصد میباشد.

روحانیان و همکاران در سال 2020]20[ با استفاده از شبکه عصبي پيچشي، به تحليل گرايش نظرات در رسانههاي اجتماعي در دو و پنج سطح و با در نظر گرفتن شدت آنها پرداخته‌اند. در اين شبکه عمل کانولوشن با استفاده از صافي‌هايي با اندازه‌هاي مختلف بر روي بردارهاي جملات ورودي اعمال مي شود و بردار ويژگي حاصل به عنوان ورودي لایه نرم بيشينه براي طبقهبندي نهايي جملات بکار ميرود. شبکههاي عصبي پيچشي با پارامترهاي مختلف با استفاده از معيار مساحت زير منحني و بر روي مجموعه داده جمعآوري شده از رسانه‌هاي اجتماعي فارسي ارزيابي شدند. بهترین نتیجه بهدست آمده 79 درصد میباشد. همچنین ادعا میشود که آموزش بردارها در شبکه عصبي با يک لايه کانولوشن کارايي بهتري نسبت به روشهاي سنتي يادگيري ماشين و شبکه‌هاي عصبي بازگشتي بهخصوص بر روي داده‌ها با طول کوتاه نشان داده است.

با توجه به ضعفی که در شناسايي احساسات متن در هنگام حضور کنايه مشاهده می‌شود؛ هدف این پژوهش، بهبود تشخیص قطبش نظرات کاربران توییتر با کمک ویژگی طعنه میباشد.

بوکایی نژاد و همکاران در سال 2021 ]21[ توییتهای فارسی مربوط به واکسیناسیون کووید 19 را مورد بررسی قرار دادند و به مقایسه دیدگاه ایرانیان نسبت به واکسن‌های ساخت داخل و وارداتی پرداختهاند. پیشنهاد مقاله این است که سازمان‌های بهداشتی می‌توانند توییتر را بررسی کنند تا مخالفان واکسیناسیون کووید 19 را کاهش دهند. احساسات توییتهای بازیابی شده را با استفاده از یک مدل تحلیل احساسات یادگیری عمیق شناسایی کردهاند و سپس از یک مدل تشخیص طعنه براساس طبقه‌بندیکننده تصادفی جنگل²⁷ برای کشف توییتهای طعنهآمیز و به حداقل رساندن طبقه‌بندی اشتباه استفاده شده است. میانگین درصد صحت با استفاده از طعنه برابر 81 می باشد.

گوویندان²⁸ و همکاران در سال 2022 ]22[ در مقالهای که 6600 توییت با احساسات منفی و شامل طعنه است توییتها را بر اساس هشتگهایی مانند ویروس چینی یا کووید19 یا ویروس کرونا جمعآوری کردهاند و با استفاده از الگوریتمهای یادگیری ماشین از قبیل ماشین بردار پشتیبان و جنگل تصادفی مورد بررسی قرار دادهاند. معیار ارزیابی استفاده شده f1_score هست که به درصد 74/78 رسیده است.

میریام²⁹ و همکاران در سال 2021 ]23[ تشخیص طعنه با منطق فازی پیشنهاد کردهاند و ادعا میشود که استفاده از منطق فازی باعث بهبود معیار صحت و دقت میشود. توییتهای استفاده شده به سه کلاس "بدون طعنه" و "غیر قابل تصمیم" و "حاوی طعنه" تقسیم شده است. معیار ارزیابی استفاده شده صحت هست که به درصد 27/99 رسیده است.

4- روش پیشنهادی

در شکل 1، مراحل روش پيشنهادی نشان داده شده است. از آنجا که مجموعه دادههای برچسب خورده به زبان فارسی در دسترس نبود؛ 8000 توییت فارسی جمعآوری شد. مجموعه داده مورد استفاده در اين پژوهش در سال 1398 به هدف انجام اين تحقيق از توييتر با کلمات کليدی متنوعی و به کمک ابزارهايي که به اين هدف استفاده می‌شود استخراج شد. سپس تیمی متشکل از 10 نفر از دانشجويان متنهای استخراج شده را بررسی کردند و براساس احساسی که از نوشتار دريافت میکردند توییتها را برچسب زدند. برای اطمينان از نتايج بدست آمده هر متن توسط سه فرد متفاوت و مستقل برچسب زده شد و برچسب نهايي هر متن براساس رای اکثريت انتخاب شد. توييت‌های جمعآوری شده، شامل موضوعات کاملا مختلف اعم از سیاسی، اقتصادی، ورزشی و غیره میباشد. علت استفاده از شبکه اجتماعی توییتر مجبوبيت آن در بين افراد و حضور فعال فارسیزبانان در آن بوده است. در ادامه در فرآیندی نسبتا زمانبر، بهطور دستی توييتهای جمعآوری شده برچسب زده شد. برچسب‌‌های بهکار رفته يکی از چهار برچسب مثبت، منفی، خنثی و ترکیبی می‌باشد. لازم به ذکر است برای اينکه از هر کلاس تعداد نمونه يکسانی برای آموزش داشته باشيم از ميان داده‌‌های برچسب خورده برای هر يک از اين 4 کلاس 2000 نمونه انتخاب شد و در مجموع 8000 نمونه برای آموزش سيستم استفاده شده است. برچسب ترکیبی به توييت‌هايي داده می‌شود که همزمان شامل دو حس مثبت و منفی میباشند. برای مثال در یک توییت از دو جمله استفاده شده که حس نویسنده برای یکی از جملهها مثبت و در دیگری منفی است. وجود این برچسب باعث میشود که در پیادهسازی حس نویسنده، موفقتر باشیم. همچنين توييتها برای شناسايي وجود طعنه يا عدم وجود طعنه بررسی شده و برچسبگذاری شدند.

از آنجايي که هدف کاربر در استفاده از طعنه در جملهاش، ارائه نظر بهصورت طعنهآميز و کنايهدار ميباشد؛ بنابراين کاربر در جملات خود، عکس نظر واقعيش عمل کرده و از ويژگيهايي غير واقعي با تمايل مثبت براي بيان نظر خود استفاده ميکند یا ضربالمثلهایی را بهکار میبرد که در عمق معنای خود دارای کنایه و طعنه میباشند. تفاوت اصلي بين جملات نظري معمولي و طعنهآميز در نحوه نوشتار کاربر در بيان احساسات ميباشد. به عبارتي ديگر جملات طعنهآميز، ابزاري براي بيان نظرات به صورت عکس عقيدهی کاربر و استفاده از نکوهش غير مستقيم ميباشند. با توجه به این توضیحات بدیهی است که جملات با حس مثبت و خنثی نمیتوانند شامل برچسب طعنه باشند زیرا این جملهها با کنایه و طعنه بیان نمیشوند.به همین دلیل توییتهایی که برچسب طعنه دارند اغلب قطبش آنها یا منفی است یا ترکیبی. از ميان توييت‌های جمعآوری و انتخاب شده 1530 توييت دارای طعنه و مابقی بدون طعنه بودند.

شکل 1-رویکرد پیشنهادی

در مرحله بعدی جملاتی که حاوی طعنه مورد بررسی قرار داده میشوند تا کلمات کلیدی که نشاندهنده حضور طعنه و کنایه در یک توییت هستند و شخص نویسنده با استفاده از آنها توانسته است منظور و مقصود خود را بهطور غیر مستقیم و با طنز تلخ و نیش و کنایه بیان کند، استخراج شوند. سپس به عنوان یک ویژگی جدید به مجموعه داده اضافه می‌شوند. کلمات کلیدی بسته به جمله مورد نظر، میتوانند یک کلمه یا ترکیب چند کلمه باشند که پس از استخراج، به مجموعه داده اصلی اضافه میشوند تا در مراحل بعدی برای تشخیص بهتر طعنه، به عنوان ویژگی، به مدل تشخیص طعنه داده شوند.

نمونهای از یک جمله با برچسب ترکیبی:

"واقعا از مرگ ایشون از صمیم قلب ناراحت شدم. اما باید بگم که روحیه اون دختر میبینم اصلا عشق میکنم."

همانطور که از محتوای متن فوق مشخص است، این متن شامل دو جمله میباشد که جمله اول حاوی احساس منفی و جمله دوم حاوی احساس مثبت میباشد. پس از آنجایی که قرار دادن برچسب مثبت یا منفی باعث میشود که بخشی از احساسات نویسنده در نظر گرفته نشود و باعث خطا در تشخیص قطبش اصلی متن شود، وجود برچسب ترکیبی ضرورت خود را نشان میدهد.

نمونهای از یک جمله شامل برچسب طعنه در ادامه آورده شده است :

"این دوستمون خیلی دست و دل باز هستش. آب از دریا میبخشه"

1-4- پیشپردازش

پیشپردازش داده به دنبال ساختیافته کردن داده غیرساختیافته هست. بهخصوص متنهایی که در شبکههای اجتماعی منتشر میشود بهشدت غیرساختیافته است. در حقیقت برای پردازش هر متنی، استفاده از روشهای پیشپردازش اجتنابناپذیر است. ابتدا باید داده را پاکسازی کرد. پاکسازی به منظور بالا بردن کیفیت داده انجام میشود. یکی از مشکلات شایع داده در دادهکاوی پایین بودن کیفیت داده است. مجموعه داده استفاده شده در این پژوهش، دارای موارد و علائم اضافه زیادی بود. مانند کاراکترهای انگلیسی، اعداد، لینکها و کاراکترهای خاص (@ ، # و ... ). تمامی این موارد از مجموعه داده پاکسازی شدهاند. البته در مورد هشتگها، کلمه یا کلمات همراه با علامت # در متن نگه داشته شده زیرا دارای بار معنایی و احساسی میباشد و فقط علامت # از متون حذف شده است و از آنها به عنوان یک ویژگی استفاده شده است، زیرا در اکثر مواقع، هشتگ استفاده شده در واقع خلاصهای از حس نویسنده را انتقال میدهد. پاکسازی داده قبل از شروع پردازش کلمات میتواند تأثیر بسیار زیادی در عملکرد روش ارائه شده داشته باشد. در این تحقیق، پیشپردازش متون با عمل نرمالسازی شروع میشود تا فاصلهها و نیمفاصلههای موجود در مجموعه داده، اصلاح شوند. در مرحله بعدی جملهسازی و توکنسازی انجام میشود که ابتدا جملات هر توییت جداسازی میشوند و بعد هر کلمه به شکل جداگانه درآمده و به مدل داده میشود. مرحله بعد، ریشهیابی هست که کلمات به حالت اولیه خود بازگردانده میشوند که برای این کار از کتابخانههای آماده پایتون از جمله هضم³⁰ و Persian-Stemmer استفاده شده است. البته با توجه به پیچیده بودن زبان فارسی و غلطهای املایی موجود در مجموعه داده استفاده شده و همچنین نوشتن جملات به شکل محاورهای، باعث شده که در برخی موارد نتیجه خوبی به دست نیاید. مرحله آخر، حذف ایستواژهها میباشد که در واقع کلماتی هستند که حاوی هیچ احساس خاصی نیستند و صرفا باعث طولانیتر شدن جملات و کمتر شدن دقت الگوریتمها میشوند. در این تحقیق در ارتباط با ایستواژهها لیستی در نظر گرفته شده است که نسبت به ایستواژههای کتابخانههای فارسی پایتون، نتیجه بهتری ارائه میدهد. بعد از انجام تمامی مراحل پیشپردازش اگر در مجموعه داده، تککاراکتر ایجاد شود، با توجه به این موضوع که نمیتوان برای تک کاراکترها قطبش تعیین کرد، حذف میگردند. همچنین کلماتی که تعداد تکرار آنها کمتر از حد باشد(در این پژوهش عدد 40 در نظر گرفته شده است) حذف میگردند.

در اکثر پژوهشها ، شکلکها به عنوان علائم اضافه پاک میشوند. در این پژوهش برای جلوگیری از حذف شکلکها و به علت اهمیت آنها در تشخیص حس نویسنده، شکلک‌ها به کلیدواژه تبديل شدند. برای یکپارچه شدن و سادهتر شدن، تمامی شکلکهای موجود در مجموعه داده با حس مربوط به آن شکلک، جایگزین شده است. برای شکلکهایی که انتقالدهنده حس مثبت بودند از کلمه "مثبت" و برای شکلکهایی که انتقالدهنده حس منفی بودند کلمه "منفی" در نظر گرفته شده است.

جدول 1-تبدیل شکلکها

شکلکها	واژه جایگزین
:) ، :)) ، :-) ، =) ، ^_^	مثبت
:( ، :(( ، :-( ، =(	منفی

2-4- ویژگیهای استفاده شده

برای شناسايي خودکار وجود يا عدم وجود طعنه در متن ورودی، طبقهبندي به اين هدف طراحی شد که با استفاده از ويژگیهای استخراج شده طعنه از روی متن توييتها و بهکمک روش TF-IDF با داده‌های موجود آموزش داده شد. خروجی اين مدل تعيين کننده وجود يا عدم وجود طعنه در متن ورودی می‌باشد. اين خروجی به همراه کليدواژه‌های استخراج شده از توييت‌ها به روش TF-IDF برای شناسايي احساس يا قطبش متن به طبقه‌بند ترکیبی بعدی داده می‌شود.

3-4- طبقهبندهای استفاده شده

برای ساخت الگوریتم طبقه‌بند ترکيبی سه طبقه‌بند پايه نایو بیز، ماشین بردار پشتیبان و شبکه عصبی سه لایه استفاده شده است. برای طبقهبند ترکیبی روش بوت استرپ بهکار برده شده است. بوت استرپ تکنیکی قدرتمند است که با نمونه برداری از حداقل برچسب‌های همزمان، مشکل وابستگی به برچسب را حل میکند. این روش بهکمک تکنیک نمونه‌گیری با جایگذاری (بازنمونه‌گیری) سعی می‌کند که بهترین برآورد را برای خطای طبقه‌بندها با توجه به حجم نمونه محدود، بهدست آورد. البته نمونه‌های حاصل از بازنمونه‌گیری، مستقل از یکدیگر هستند. در این پژوهش، با توجه به بررسی انجام شده بر روی الگوریتم پایه، از ماشین بردار پشتیبان خطی استفاده شده است. علت انتخاب اين طبقه‌بند، عملکرد بهتر آن در مقایسه با دیگر طبقه‌بندهای پايه بهکار برده شده در این پژوهش بوده است. نتایج حاصل از اعمال طبقهبندهای پايه با استفاده از اعتبارسنجی متقابل با 6 فولد ارزيابی شد.

5- ارزیابی روش پیشنهادی

برای ارزيابی روش پيشنهادی از مجموعه داده شامل 8000 توییت جمعآوری شده با برچسبهای قطبش چهارگانه و وجود يا عدم وجود طعنه استفاده شده است. همانطوری که در بخش قبل توضيح داده شد، طبقهبند مجزايي برای شناسايي طعنه بهکمک داده‌های موجود طراحی شد. مراحل کار به اين صورت است که متن ورودی ابتدا توسط طبقهبند اول برای شناسايي وجود و يا عدم وجود طعنه بررسی میشود سپس نتيجه بررسی به همراه ساير ويژگیهای استخراج شده از متن برای تشخيص قطبش متن به طبقهبند ترکيبی دوم ارسال میشود. در نهایت عملکرد کلی الگوریتم مورد بررسی و ارزیابی قرار میگيرد. برای بدست آوردن تاثير درنظر گرفتن طعنه، ارزيابیهايي انجام شده به دو صورت با وجود ويژگی طعنه و بار ديگر بدون وجود آن انجام شده است که نتايج حاصل در ادامه و در دو بخش مجزا آورده شده‌اند. در بررسی عملکرد، سه معیار F1 ،Percision و Accuracy تعیین کننده هستند که Accuracy یا همان صحت، عملکرد کلی الگوریتم را نشان میدهد و معمولا همین معیار است که نشاندهندهی بهبود یا عدم بهبود یک روش نسبت به روشهای قبلی است.

1-5- ارزیابی تشخیص قطبش الگوریتمها با استفاده از طعنه

نتایجی که در جدول شماره 4-1 آمده است، حاصل استفاده از 8000 دادهای که شامل 4 برچسب ]1-و0و1و2[ بوده است که در واقع برای هر کدام از برچسبهای مذکور، 2000 تا داده وجود دارد. همچنین 1530 داده دارای برچسب طعنه و 6470 داده برچسب بدون طعنه دارند. طبقهبندهای استفاده شده در این قسمت شامل[Ensemble, Naive Bayes, Linear SVC, SVC, MLP] میباشد. در اینجا از طبقهبند شبکه عصبی با سه لایه استفاده شده است. همانطور که توضیح داده شد، در این پژوهش از روش اعتبار سنجی متقابل K-Fold استفاده شده است که با توجه به تجربه بهدست آمده و سعی و خطا تعداد فولدها برابر با 6 قرار داده شده است. همچنین در ارتباط با طبقهبند ترکیبی از روش بوت استرپ استفاده میشود و طبقهبند پایه برای این کار، طبقهبند Linear SVC است که نتایج بهتری نسبت به بقیه طبقهبندها داشته است. نتایجی که در جدول زیر دیده میشود، مربوط به پیشبینی انجام شده توسط مدل برای تشخیص طعنه میباشد.

جدول 2- نتایچ تشخیص طعنه

طبقهبند	Accuracy	Precision	F1	Recall
N.B	90%	92%	90%	90%
MLP	90%	92%	92%	92%
SVC	92%	94%	93%	93%
Linear SVC	93%	93%	94%	94%
Ensemble	96%	93%	93%	94%

همچنین نتایجی که در جدول زیر دیده میشود ، مربوط به پیشبینی انجام شده توسط مدل برای قطبش، با استفاده از طعنههای تشخیصی خود مدل میباشد.

جدول 3- نتایج تشخیص قطبش

طبقهبند	Accuracy	Precision	F1	Recall
N.B	89%	92%	90%	90%
MLP	90%	92%	92%	92%
SVC	91%	94%	93%	94%
Linear SVC	92%	93%	93%	93%
Ensemble	%93	%93	%93	94%

2-5- ارزیابی تشخیص قطبش الگوریتمها بدون استفاده از طعنه

برای بررسی تاثیر ویژگی طعنه بر دقت طبقهبندها، مدلی ایجاد میشود که طعنه را در نظر نگیرد. جدول شماره 4 نتايج مربوط به این حالت را نشان می‌دهد که تمام پارامترها و مقادیر آن، مانند دو جدول 2 و3 است صرفا با این تفاوت که برچسبهای مربوط به طعنه در نظر گرفته نشده است و سپس طبقهبندهای استفاده شده برای مجموعه داده مذکور ارزیابی شدهاند.

جدول 4- نتایج قطبش بدون استفاده از طعنه

طبقهبند	Accuracy	Precision	F1	Recall
N.B	77%	78%	77%	77%
Linear SVC	79%	79%	79%	80%
MLP	80%	82%	79%	80%
SVC	80%	81%	80%	80%
Ensemble	81%	82%	82%	82%

6- نتیجهگیری

در این پژوهش با استفاده از رویکرد یادگیری ماشین با نظارت، توییتهای ارائه شده افراد در توییتر با موضوعاتی کاملا متفاوت از یکدیگر مورد بررسی قرار گرفتند. پس از برچسبگذاری قطبش و طعنه و استخراج کلمات کلیدی از مجموعه داده، تقسیمبندی این دادهها با استفاده از اعتبارسنجی متقابل و به منظور فرآیند آنالیز احساس مورد آزمایش قرار گرفتند. معیار صحت هر کدام از طبقهبندهای استفاده شده، پس از آنکه ویژگی طعنه حذف شد، درصد چشمگیری کاهش پیدا کردهاند. میتوان ادعا کرد که ویژگی طعنه مطرح شده و استخراج کلمات کلیدی از جملات طعنه دار در این پژوهش، موثر و کارا بوده است.

با توجه به نتایج بهدست آمده از تعداد اجراهای مکرر، طبقهبند ترکیبی با استفاده از روش بوت استرپ نسبت به بقیه طبقهبندها بهتر عمل کرده و بعد از آن طبقهبند ماشین بردار پشتیبان بهتر از بقیه بوده است و سپس نایو بیز و شبکه عصبی با اختلاف کمی نسبت به یکدیگر، عمل کردهاند.

7- پیشنهاداتی برای کارهای آتی

برخی پیشنهادات جهت پژوهشهای آتی عبارتند از:

· در این پژوهش چهار الگوریتم از مجموعه روشهای با نظارت برای انجام فرآیند آنالیز احساس بر روی توییتهای منتشر شده در زبان فارسی مورد بررسی قرار گرفته است. دیگر روشهای طبقهبندی احساس همچون روشهای یادگیری عمیق به عنوان موضوعی برای پژوهشهای آتی مورد استفاده قرار گیرند.

· میتوان برای کارهای آتی به جمعآوری یک مجموعه داده استاندارد برای زبان فارسی پرداخت تا یک چالش بزرگ در این زمینه برطرف شود و امکان مقایسه برای تمامی افرادی که در این حوزه به تحقیق و بررسی میپردازند، ایجاد شود.

· علاوه بر شکلکها و بررسی طعنه، میتوان تکرار حروف، علامتهای تعجب، سوال و دیگر اجزای متون آنلاین را نیز مورد استفاده قرار داد و تاثیر آنها را بر تشخیص قطبش مورد بررسی قرار داد.

· در بخش پیشپردازش، برای ریشهیابی کلمات از کتابخانههای فارسی استفاده شده است که دارای نقاط ضعف زیادی میباشند. پیشنهاد میشود که این بخش بهبود داده شود.

مراجع

[1]. Pang B, Lee L, Vaithyanathan S. Thumbs up? Sentiment classification using machine learning techniques. arXiv preprint cs/0205070. 2002 May 28.

[2]. Ravi K, Ravi V. A survey on opinion mining and sentiment analysis: tasks, approaches and applications. Knowledge-based systems. 2015 Nov 1;89:14-46.

[3]. Dr. Kalpesh H. Wandra, Mehul Barot(2017). SARCASM DETECTION IN SENTIMENT ANALYSIS . In INTERNATIONAL JOURNAL OF CURRENT ENGINEERING AND SCIENTIFIC RESEARCH (IJCESR)

[4]. Dashtipour K, Hussain A, Zhou Q, Gelbukh A, Hawalah AY, Cambria E. PerSent: A freely available Persian sentiment lexicon. In International conference on brain inspired cognitive systems 2016 Nov 28 (pp. 310-320). Springer, Cham.

[5]. Hardeniya T, Borikar DA. Dictionary based approach to sentiment analysis-a review. International Journal of Advanced Engineering, Management and Science. 2016 May;2(5):239438.

[6]. Khan A, Baharudin B, Lee LH, Khan K. A review of machine learning algorithms for text-documents classification. Journal of advances in information technology. 2010 Feb;1(1):4-20.

[7]. Wilson T, Wiebe J, Hoffmann P. Recognizing contextual polarity in phrase-level sentiment analysis. InProceedings of human language technology conference and conference on empirical methods in natural language processing 2005 Oct (pp. 347-354).

[8]. Hui-Hsin Wu, A. Tsai, Richard Tzong-Han Tsai, J. Hsu. Building a Graded Chinese Sentiment Dictionary Based on Commonsense Knowledge for Sentiment Analysis of Song Lyrics. Journal of Information Science & Engineering. 2013 Jul 1;29(4).

[9]. Shams M, Shakery A, Faili H. A non-parametric LDA-based induction method for sentiment analysis. InThe 16th CSI international symposium on artificial intelligence and signal processing (AISP 2012) 2012 May 2 (pp. 216-221). IEEE.

[10]. Basiri ME, Naghsh-Nilchi AR, Ghasem-Aghaee N. Sentiment prediction based on dempster-shafer theory of evidence. Mathematical Problems in Engineering. 2014 Apr 27;2014.

[11]. Dashtipour K, Gogate M, Adeel A, Hussain A, Alqarafi A, Durrani T. A comparative study of persian sentiment analysis based on different feature combinations. In International conference in communications, signal processing, and systems 2017 Jul 14 (pp. 2288-2294). Springer, Singapore.

[12]. Heikal M, Torki M, El-Makky N. Sentiment analysis of Arabic tweets using deep learning. Procedia Computer Science. 2018 Jan 1;142:114-22.

[13]. Rahimi Z, Noferesti S, Shamsfard M. Applying data mining and machine learning techniques for sentiment shifter identification. Language Resources and Evaluation. 2019 Jun;53(2):279-302.

[14]. Dashtipour K, Gogate M, Adeel A, Ieracitano C, Larijani H, Hussain A. Exploiting deep learning for Persian sentiment analysis. In International conference on brain inspired cognitive systems 2018 Jul 7 (pp. 597-604). Springer, Cham.

[15]. Alharbi AS, de Doncker E. Twitter sentiment analysis with a deep neural network: An enhanced approach using user behavioral information. Cognitive Systems Research. 2019 May 1;54:50-61.

[16]. Prasad AG, Sanjana S, Bhat SM, Harish BS. Sentiment analysis for sarcasm detection on streaming short text data. In2017 2nd International Conference on Knowledge Engineering and Applications (ICKEA) 2017 Oct 21 (pp. 1-5). IEEE.

[17]. Ren Y, Ji D, Ren H. Context-augmented convolutional neural networks for twitter sarcasm detection. Neurocomputing. 2018 Sep 25;308:1-7.

[18]. Mehndiratta P, Sachdeva S, Soni D. Detection of sarcasm in text data using deep convolutional neural networks. Scalable Computing: Practice and Experience. 2017 Sep 9;18(3):219-28.

[19]. Ahuja R, Bansal S, Prakash S, Venkataraman K, Banga A. Comparative study of different sarcasm detection algorithms based on behavioral approach. Procedia computer science. 2018 Jan 1;143:411-8.

[20]. Rohanian M, Salehi M, Darzi A, Ranjbar V. Convolutional Neural Networks for Sentiment Analysis in Persian Social Media. arXiv preprint arXiv:2002.06233. 2020 Feb 14.

[21]. Bokaee Nezhad, Zahra & Deihimi, Mohammad. (2022). Analyzing Iranian Opinions toward COVID-19 Vaccination. IJID Regions. 3. 10.1016/j.ijregi.2021.12.011.

[22]. Govindan, Vithyatheri & Balakrishnan, Vimala. (2022). A machine learning approach in analysing the effect of hyperboles using negative sentiment tweets for sarcasm detection. Journal of King Saud University - Computer and Information Sciences. 34. 10.1016/j.jksuci.2022.01.008.

[23]. Ben Meriem, Amina & Hlaoua, Lobna & Romdhane, Lotfi. (2021). A fuzzy approach for sarcasm detection in social networks. Procedia Computer Science. 192. 602-611. 10.1016/j.procs.2021.08.062.

[1] نویسنده مسئول:ميترا ميرزارضايي، mirzarezaee@srbiau.ac.ir

Opinion Mining

[2] Sentiment Analysis

[3] Pang

[4] Lee

[5] Natural Language Processing

[6] Baharudin

[7] TheresaWilson

[8] Charng Rurng Tsai

[9] yahoo dictionary

[10] google translator

[11] google

[12] yahoo

[13] Support Vector Machine

[14] Dempster Shafer

[15] Part of speech

[16] Heikal

[17] Convolution Neural Network (CNN)

[18] Long short term memory (LSTM)

[19] MultiLayer Perceptron(MLP)

[20] Prasad

[21] Gaussian Naive Bayes

[22] Logistic Regression

[23] Random Forest

[24] Ren

[25] Mehndiratta

[26] Ahuja

[27] random forest

[28] Govindan

[29] Meriem

[30] Hazm

Share To

Article Url

Improving polarity identification in sentiment analysis using sarcasm detection and machine learning algorithms in Persian tweets

Rimag

Links

Related Centers

Technical Support

Official pages