ارائه ی مدلی برای عقیده کاوی در سطح ویژگی برای نظرات کاربران هتل ها
محورهای موضوعی :
1 - دانشگاه صنعتی خواجه نصیرالدین طوسی
2 - دانشکده مهندسی صنایع، دانشگاه صنعتی خواجه نصیرالدین طوسی، ایران
کلید واژه: تجزيه و تحليل احساسات, عقیده کاوی , الگوریتم ژنتیک, تجزیه و تحلیل نظرات در سطح ویژگی, داده کاوی,
چکیده مقاله :
امروزه بررسی نظرات و عقاید کاربران در بستر اینترنت بخش مهمی از فرآیند تصمیم گیری مردم در رابطه با انتخاب یک محصول یا استفاده از خدمات ارایه شده را شامل می شود. با وجود بستر اینترنت و دسترسی ساده به وبلاگ های مربوط به نظرات در زمینه صنعت گردشگری و هتلداری، منابع غنی و عظیمی از عقاید بصورت متن موجود می باشد که افراد میتوانند از روش های متن کاوی برای کشف عقاید دیگران استفاده کنند. با توجه به اهمیت نظر و عقاید کاربران در صنایع و بویژه صنعت گردشگری و هتلداری، مباحث عقیدهکاوی و تحلیل احساسات و کاوش متون نوشته شده توسط کاربران مورد توجه متصدیان امور قرار گرفته است . در این مقاله یک روش ترکیبی و جدید بر اساس یک رویکرد رایج در تحلیل احساسات، استفاده از واژگان برای تولید ویژگی هایی برای طبقه بندی بار احساسی نظرات ارائه شده است. بدین صورت که دو روش ساخت فهرست واژگان یکی با استفاده از روش های آماری و دیگری با استفاده از الگوریتم ژنتیکی ارائه شده است. واژگان فوق الذکر با فرهنگ واژگان احساس عمومی و استاندارد لیو بینگ آمیخته می شوند تا دقت طبقه بندی افزایش یابد.
Nowadays, online review of user’s sentiments and opinions on the Internet is an important part of the process of people deciding whether to choose a product or use the services provided. Despite the Internet platform and easy access to blogs related to opinions in the field of tourism and hotel industry, there are huge and rich sources of ideas in the form of text that people can use text mining methods to discover the opinions of. Due to the importance of user's sentiments and opinions in the industry, especially in the tourism and hotel industry, the topics of opinion research and analysis of emotions and exploration of texts written by users have been considered by those in charge. In this research, a new and combined method based on a common approach in sentiment analysis, the use of words to produce characteristics for classifying reviews is presented. Thus, the development of two methods of vocabulary construction, one using statistical methods and the other using genetic algorithm is presented. The above words are combined with the Vocabulary of public feeling and standard Liu Bing classification of prominent words to increase the accuracy of classification
[1].Kumar Ravi , Vadlamani Ravi. (2015) A survey on opinion mining and sentiment analysis: Tasks, approaches and applications. Knowledge-Based Systems.
[2].Zhang, Z., Zhang, Z., & Yang, Y. (2016) The power of expert identity: How websiterecognized expert reviews influence travelers' online rating behavior.Tourism Management, 55, 15–24.
[3].García-Pablos, A., Cuadros, M., & Linaza, M. T. (2016). Automatic analysis of textual hotel reviews. Information Technology & Tourism, 16(1), 45–69.
[4].Zhang Dapenga, Tu Jinghuaa, Zhou Lingxua,Yu Zhiyuan. (2020) Higher tourism specialization, better hotel industry efficiency? . International Journal of Hospitality Management
[5].Jorge A. Balazs, Juan D. Vel´asquez (2015)."Opinion Mining and Information Fusion: A Survey", Information Fusion.
[6].Luis Martin-Domingo,Juan Carlos Martín,Glen Mandsberg. (2019) Social media as a resource for sentiment analysis of Airport Service Quality (ASQ). Journal of Air Transport Management.
[7].Cheng, Kewei (2017). Unsupervised Sentiment Analysis with Signed Social Networks.Proceeding of the Thirty-First AAAI Conference on Artificial Intelligence, Febryary, pp3429-3435.
[8].Lui, T. W., Bartosiak, M., Piccoli, G., & Sadhya, V. ( 2018) Online review response strategy and its effects on competitive performance,Tourism Management.
[9].H.Keshavarz et al.(2017) Accurate frequency-based lexicon generation for opinion mining. Journal of Intelligent and Fuzzy System.
[10].Hamidreza Keshavarz, and Mohammad Saniee Abadeh. (2017) ALGA: Adaptive lexicon. Knowledge Based Systems.
[11].M.Mowlaei et al. (2020). Aspect-Based Sentiment Analysis using Adaptive Aspect-Based Lexicons. Pre-prof.
[12].D. H. a. C. K. J.S. Breese. (1998) Empirical analysis of predictive algorithms for collaborative filtering. in Conference on Uncertainty in Artificial Intelligence.
[13].K. M. E. Vozalis. (2003) Analysis of recommender systems’ algorithms. in Computer Mathematics and its Applications.
[14].Kashfia Sailunaz, Reda Alhajj. (2019) Emotion and Sentiment Analysis from Twitter Text. Computational Science.
[15].T.Chinsha et al. (2015) A syntactic approach for aspect based opinion mining. Proceedings of the 2015 IEEE 9th International Conference on Semantic Computing, pp.
[16].Amani K Samha et al. (2014) Aspect-Based Opinion Extraction from Customer, Computation and Language,April.
[17].M.Asghar,A Khan,SR Zahra, S Ahmad,FM Kundi. (2019) Aspect-based opinion mining framework using heuristic
patterns.Cluster Computing.Springer.22,7181-7199 [18].D. Tang, F. Wei, N. Yang, M. Zhou, T. Liu, and B. Qin. (2014). Learning Sentiment-Specific Word Embedding for Twitter
Sentiment Classification. Learning Sentiment-SpecificWord Embedding for Twitter Sentiment Classification.June. [19]. Mohammad.A et al. (2020) Using Lexicon-Based Opinion Mining to Gauge Customer Satisfaction. International Journal of Innovative Technology and Exploring Engineering (IJITEE),February.
[20].Samha.A (2020) Sentiment Analysis of Customers Opinions on Hotel Stays using Voted Classifier. Creative Commons Attribution 4.0 International License,May.
[21].Asch, Vincent Van. (2013). Macro- and micro-averaged evaluation measures.
[22].B. Liu. ( 2012) Sentiment Analysis and Opinion Mining. Morgan & Claypool Publishers.
[23].Boo, S., & Busser, J. A. (2018) Meeting planners' online reviews of destination hotels: A twofold content analysis approach. Tourism Management, 66(6), 287–301.
[24].Ali Ahania, Mehrbakhsh Nilashib ,Othman Ibrahimc , Louis Sanzognia ,Scott Weaven. (2019) Market segmentation and travel choice prediction in Spa hotels through TripAdvisor’s online reviews. International Journal of Hospitality Management, july, pp52-77.
[25].D.Tang et al. (2016). Aspect Level Sentiment Classification with Deep. Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. (pp. 214 224).
[26].Gerald Petz, Michał Karpowicz, Harald Fürschuß, Andreas Auinger, Václav Strˇítesky, Andreas Holzinger. (2015) Reprint of: Computational approaches for mining user’s opinions on the Web 2.0. Information Processing and Management.
[27].Hu, Y. H., Chen, Y. L., & Chou, H. L. (2017). "Opinion mining from online hotel reviews – a text summarization approach. Information Processing & Management.53(2), 436–449.
[28].K. Khan, B. B.Baharudin, A. Khan, and Fazal-e-Malik. (2009). Mining Opinion from Text Documents: A Survey. 3rd IEEE International Conference on Digital Ecosystems and Technologies.
[29].Li, J., Xu, L., Tang, L., Wang, S., & Li, L. (2018) Big data in tourism research: A literature review. Tourism Management.
[30]. Singh. M, T. Nafis, and N. Mani. ( 2016) Sentiment Analysis and Similarity Evaluation for Heterogeneous-Domain Product
Reviews. Computer Applications, vol. 144. [31].Ashraf Elnagar, Yasmin S. Khalifa and Anas Einea,( 2018). Hotel Arabic-Reviews Dataset Construction for Sentiment Analysis Applications,Springer, November,pp35-72.
[32].M.R. Martinez-Torresa , S.L. Tora. (2019) A machine learning approach for the identification of the deceptive reviews in the hospitality sector using unique attributes and sentiment orientation. Tourism Management.
[33].Pang, Bo, and Lillian Lee. (2008) Opinion mining and sentiment analysis. Foundations and Trends® in Information Retrieval. 2.1–2, pp. 1-135.
[34].Tsai, C. Y., Wang, M. T., & Tseng, H. T. (2015). The impact of tour guides' physical attractiveness, sense of humor, and seniority on guide attention and efficiency. Journal of Travel & Tourism Marketing, 33(6), 1–13.
[35].Amani K Samha, Yuefeng Li, Jinglan Zhang.(2019) Text Mining in Hotel Reviews: Impact of Words Restriction in Text Classification. in 1th International Conference on Knowledge Discovery and Information Retrieval.
[36].Zhan, Xing Fang and Justin (2015). Sentiment analysis using product review data. Big Data, pp. 2-5.
[37].Zhiping Houa, Fasheng Cuia, Yongheng Menga, Tonghui Lianb, Caihua Yuc. (2019) Opinion mining from online travel reviews: A comparative analysis of Chinese major OTAs using semantic association analysis. Tourism Management.
دو فصلنامه علمي فناوري اطلاعات و ارتباطات ایران | سال سیزدهم، شمارههاي49و50، پاییز و زمستان 1400 صص: 85_102 |
|
ارائهی مدلی برای عقیدهکاوی در سطح ویژگی سند برای نظرات کاربران هتلها
شهریار محمدی * الهام خلج**
*دانشیار، دانشکده مهندسی صنایع، گروه مهندسی فناوری اطلاعات، دانشگاه صنعتی خواجه نصیرالدین طوسی
** كارشناس ارشد دانشکده مهندسی صنایع، گروه مهندسی فناوری اطلاعات، دانشگاه صنعتی خواجه نصیرالدین طوسی
تاریخ دریافت: 04/11/1399 تاریخ پذیرش: 29/03/1400
نوع مقاله: پژوهشی
چکيده
امروزه بررسی نظرات و عقاید کاربران در بستر اینترنت بخش مهمی از فرآیند تصمیمگیری مردم در رابطه با انتخاب محصول یا استفاده از خدمات را شامل میشود. با وجود اینترنت و دسترسی ساده به وبلاگهای مربوط به نظرات در زمینه صنعت گردشگری و هتلداری، منابع غنی و عظیمی از عقاید بصورت متن موجود میباشد که میتوان از روشهای متن کاوی برای کشف دانش نهفته در این متون استفاده کرد. با توجه به اهمیت نظرات و عقاید کاربران در صنایع، بهویژه صنعت گردشگری و هتلداری، مباحث عقیدهکاوی و تحلیل احساسات مورد توجه متصدیان امور قرار گرفته است. در این مقاله یک روش ترکیبی و جدید بر اساس یک رویکرد رایج در تحلیل احساسات، استفاده از واژگان و الگوریتم ژنتیک برای تولید ویژگیهایی برای طبقهبندی بار احساسی نظرات ارائه شده است. بدینصورت که دو روش ساخت فهرست واژگان یکی با استفاده از روشهای آماری و دیگری با استفاده از الگوریتم ژنتیک ارائه شدهاست. واژگان فوق الذکر با فرهنگ واژگان احساس عمومی و استاندارد لیو بینگ آمیخته میشوند. نتایج نشان میدهد روش پیشنهادی از روشهای پایه براساس واژهنامههای احساسی روی این مجموعه داده بهتر عمل کرده و معیارهای ارزیابی صحت، دقت، بازخوانی و معیار F با استفاده از روش پیشنهادی، بهترتیب 94.65، 94.53، 93.89 و 95.17 میباشند.
واژههاي كليدي: متن کاوی، عقیده کاوی، تحلیل احساسات در سطح ویژگی، داده کاوی، الگوریتم ژنتیک، طبقه بندی.
1- مقدمه
تجزیه و تحلیل احساسات1 با هدف کشف خودکار نگرش اساسی انسانها نسبت به یک موجودیت انجام میشود. در حال حاضر، تجزیه و تحلیل احساسات از دادههای متنی به طور گستردهای برای ارزیابی رضایت مشتری و تجزیه و تحلیلها استفاده میشود [1] و [2].
تحلیل احساس و عقیده کاوی2 با استفاده از الگوریتمهای دادهکاوی و متنکاوی به صورت سیستماتیک و بدون نیاز به مطالعه تمامی متنهای موجود، عقاید، احساسات، ارزیابیها، رفتارها و گرایشهای کاربران را که بهصورت دادههای متن بیان شدهاند را آنالیز میکند. افزایش اهمیت تحلیلاحساس با رشد رسانههای اجتماعی مانند توئیتر، شبکههای اجتماعی، نظرسنجیهای آنلاین، وبلاگها و همچنین سهولت بازیابی آنلاین نظرات کاربران همزمان شدهاست. در پژوهش پیرمحمدیانی و محمدی بیان شدهاست که امروزه سیستمهای تحلیلاحساس تقریبا در همهی زمینهها مورد استفاده قرار میگیرند، زیرا آرا و عقاید در تمام فعالیتهای انسانی مهم بوده و تاثیر کلیدی بر فرآیندهای تصمیمگیری دارند[3]. در مطالعهی ژانگ و همکاران3 با اشاره به تاثیر توسعهی سریع فناوریهای وب 2.0 و محتوای تولید شده توسط کاربر4 ، به تحلیل و بررسی نظرات آنلاین دربارهی سفر در صنعت گردشگری پرداخته شده است. همچنین وبسایتهایی نظیرTripAdvisor5، Expedia6 که گردشگران نظرات، عقاید و تجربیات خود در استفاده از خدمات ارایه شده را به اشتراک میگذارند، معرفی شده است، این نوع وبسایتها محبوبترین منابع اطلاعاتی برای کسب اطلاعات در راستای تهیه برنامهی سفر و نحوهی رزرو بلیط و هتل هستند [4]. براساس پژوهش پابلوس و همکاران7 فنآوری تجزیه و تحلیل متن مبتنی بر پردازش زبان طبیعی8 میتواند بطور خودکار مقادیر زیادی از بررسیها و نظرات مشتری را از منظر مفهوم کلمه، بهکارگیرد. این روش به طور گستردهای در شناسایی موضوع و استخراج مفهوم نظر و متن، مورد استفاده قرارمیگیرد [5].
در اکثر مقالات مطالعه شده، پایه و اساس تحلیل احساس مبنی برشمارش کلمات احساسی و تعیین بار مثبت و یا منفی کل متن است[2، 6، 7] و [8، 9] نقطه ضعف این روش آن است که ممکن است در یک متن چند ویژگی بیان شده باشد و محاسبهی بار معنایی کلی نتایج دقیقی به همراه نداشته باشد. به عنوان مثال جملهی " دسترسی به مراکز خرید از هتل خوب است اما غذاها کیفیت مناسبی ندارند." در این نظر دو ویژگی مکان هتل و غذا مورد نظر بوده پس طبقهبندی کلی نظر مناسب نیست و توجه به هر دو ویژگی مناسبتر است.
اخیرا این موضوع مورد توجه دانشمندان فناوری اطلاعات قرار گرفته و روشهای مختلفی را مورد بررسی قرار دادهاند [8،10، 11، 12] اما کمتر از الگوریتم های فراابتکاری استفاده شده و همچنین با توجه به میزان سودآوری صنعت گردشگری و تاثیر مستقیم تجربه و نظر سایر گردشگران برای انتخاب دوباره خدمات ارایهشده و یا پیشنهاد انتخاب به سایرین، لزوم پرداختن بیشتر به این موضوع احساس میشود. بنابراین در این مقاله صنعت گردشگری و هتلداری مورد بررسی قرار گرفته است که در مقالههای قبلی کمتر مورد توجه بوده همچنین در این مقاله علاوه بر تعیین مثبت و یا منفی بودن نظرات در داده های متنی ویژگیهای خاص مربوط به هتل مورد توجه قرارگرفته، دراین مقاله ازروش پیشنهادی جدید ترکیب الگوریتم ژنتیک و فرهنگ واژگان احساسی استفاده شده است. تحلیل احساسات مشتریان در محیطهایی مثل خدمات گردشگری و هتلداری، بیمه، موسسات مالی و بانکها، خردهفروشیها، شرکتهای تجارت الکترونیک و فروش آنلاین و... میتواند بسیار کاربردی باشد[5].
1-1 هدف از تحقیق
این پژوهش بهدنبال راه حلی برای بهبود تحلیل حجم عظیمی از نظرات متنی میباشد که معمولا ساختار نیافته یا نیمهساختار هستند و برای انجام این کار سعی میشود طبقهبندی رتبهی احساسی واژگان دقیقتر از روشهای قبلی محاسبه گردد. سؤالاتی که در این پژوهش به آنها پرداخته میشود به شرح زیر هستند:
ü تأثیر بهرهگیری از الگوریتم ژنتیک بر بهبود پارامترهای ارزیابی طبقهبندی واژگان احساسی به چه صورت است؟
ü آیا طبقه بندی واژگان احساسی با روش ترکیبی بیان شده که ویژگیهای خاصی را نیز در نظر میگیرد، نتایج بهتری از روشهای پایه به همراه دارد؟
عقیدهکاوی یک فنآوری است که به طور خودکار با استفاده از ابزار و نرم افزارهای تجزیه و تحلیل متن، از جمله زبانرایانه و پردازش زبان طبیعی، دانستههای کامنتهای آنلاین را استخراج میکند. این نرمافزارها نظرها، ارزیابیها، نگرشها و احساس مردم را نسبت به سازمانها، اشخاص، افراد، موضوعها، اقدامها و ویژگیهای آنها را تجزیه و تحلیل میکند [1، 2، 13].
با توجه به گزارشUNEP9 در سال2016، برای هر دو کشور پذیرنده گردشگر و فرستندهی گردشگر، صنعتگردشگری کمک چشمگیری به تولید منافع اقتصادی آنان میکند. توسعهی صنعت گردشگری تا حد زیادی به رضایت مشتریان در خدمات هتل وابسته بوده و در نتیجه تخصص دراین زمینه یکی از عوامل مهم برای توسعهی این صنعت است. مطالعهی ژانگ و همکاران10 نشان میدهد اثربخشی کیفیت و خدمات ارایه شده در هتلها در تقویت صنعتگردشگری سهم بسزایی دارد[6]. طبق پژوهش بالاز و همکاران11، نظرات نقش اساسی را در فرآیند تصمیمگیری افراد و سازمانها دارند زیرا تأثیر عمیقی بر روی نگرش و اعتقادات افراد میگذارد. عقیدهکاوی و تحلیلاحساسات باعث میشود تا مشاغل تجارت الکترونیکی بتوانند دانش بیشتری از مشتریان و محصولات خود کسب کنند بدون اینکه هزینه نظرسنجیها را بپردازند [7].
کلیه تکنیکهای مورد استفاده برای استخراج نظر و عقیده میتوانند به دو طبقه اصلی تقسیم شوند:
ü رویکردهای مبتنی بر واژهها: این روش واژههای دارای باراحساسی متن را با تکیه بر یک فرهنگ واژگان احساسی و رویکرد دانشزبانی، طبقهبندی میکند که شامل یک رویکرد مبتنی بر بدنه و یک رویکرد مبتنی بر فرهنگ لغت است.
ü رویکرد یادگیری ماشین: از الگوریتمهای یادگیری ماشین بهرهمیبرد و میتواند به سه گروه تقسیم شود: یادگیری نظارت شده، یادگیری نیمه نظارت شده و یادگیری بدون نظارت [1، 2، 13].
در مقالهی سینگ و همکاران12 از این رویکرد برای کشف دانستههای نظرات متنی مربوط به محصولات مختلف با استفاده از یک روش طبقهبندی برای تجزیه و تحلیل، استفاده میشود[15].
2-1 سطوح عقیده کاوی
· استخراج افکار در سطح سند، احساسات غالب و کلی را بهجای موارد و جزئیات مطرح در مباحث در نظر میگیرد [13]. وظیفهی عقیده کاوی درسطح سند تعیین قطبیت کلی یک سند است که شامل چند جمله است.
· عقیده کاوی در سطح جمله، بطور ویژه متمرکز بر هر جمله است. خواه جمله بیانشده گرایش مثبت، منفی یا خنثی داشته باشد. طبقهبندی ذهنی یکی دیگر از وظایف در سطح جمله است که بخشهای ذهنی و عینی اسناد را استخراج میکند. مسئله تجزيه و تحليل مبتني بر سطح جمله نيز بههمين صورت تعريف ميشود با اين تفاوت که نتيجه تشخيص احساس براي هر جمله به طورجداگانه بررسي ميشود [16].
· استخراج ويژگيهای ارائهشده در یک متن یا نظر و بیان گرايش احساس مثبت و یا منفي بر روي آن ها، تجزيهوتحليل احساسات و یا عقیده کاوی در سطح ويژگي سند ناميده ميشود[9].
2-2 رویکردهای متفاوت برای عقیدهکاوی و تحلیل احساسات
رویکردهای مبتنی بر واژگان و نظارت نشده13: این رویکرد، در تعیین گرایش مثبت یا منفی متن بااستفاده از مجموعه قوانین و اکتشافهای حاصل از دانش و قواعد زبان شناسی مورد استفاده است. اقدامات معمول برای اجرای مرحله اول، علامتگذاری هرکلمه وتعیین گرایش احساسی مربوط به آن با کمک یک فرهنگ واژگان احساسی و در مرحله دوم، ترکیب کلمات و تحلیل احساسی و تاثیر ترکیب کلمات و درآخر، بررسی اینکه ترکیبها 14چگونه بر قطبیت و گرایش تأثیر میگذارند و این را در نمره احساسات نهایی منعکس میکنند. در نهایت مراحل بعدی شامل جمع بندی و مصورسازی نظر به کمک نرم افزار میباشد.
رویکردهای مبتنی بر یادگیری با نظارت15: با نام روشهای مبتنی بر یادگیری ماشین یا روشهای آماری برای طبقهبندی احساسات شناخته میشوند و از الگوریتمهای دادهکاوی تشکیلشده که الگوهای زیربنایی را از دادههای آموزش داده شده یا برچسب گذاریشده یاد میگیرند، سپس در مرحله بعدی الگوریتم برای طبقهبندی دادههای جدید بدون برچسب کلاس پیش بینی میشود، و سپس با استفاده از بازنمایی کلاسهای پیدا شده توسط الگوریتم به عنوان ورودی برای عقیده کاوی استفاده میشوند.
رویکردهای مبتنی بر مفهوم: این رویکرد شامل استفاده از علم هستی شناسی برای پشتیبانی از عقیده
کاوی و تحلیل احساسات است. هستی شناسی به عنوان مدلی تعریف می شود که دانش یک حوزه¬ی معین را برای کامپیوتر با دستورهای اگر و آنگاه مفهوم سازی می کند. معمولاً به صورت نمودارهایی ارائه می شود که در آن مفاهیم مدنظر، به گره¬های مرتبط با هم و بصورت متصل کشیده می شوند.
جدول 1. مروری کلی برمهمترین مقالات مطالعه شده مختص صنعت هتلداری
|
2-3 مراحل اصلی فرآیند
شامل جمع آوری داده ها، پیش پردازش متن، فرآیند اصلی، جمع بندی نتایج و تجسم بوسیله ی نمودارها و شکل ها است[5]. مرحله جمع آوری داده ها: در حال حاضر برای دستیابی به این کار دو رویکرد وجود دارد.
اول از طریق رابط برنامهنویسی وب سایت16 و دوم استفاده از خزندههای وب17 به منظور دستیابی به دادهها از وب سایتهای مورد نظر است.
مرحله پیش پردازش متن: متداول ترین تکنیک ها عبارتند از:
1- نشانه گذاری18 : که عملکرد آن باعث جدا کردن رشته متن کامل به لیستی از کلمات جداگانه میشود.
2- یافتن ریشه و بنکلمه 19: برای مثال واژههای شخص، اشخاص، شخصیت به بن آنها یعنی شخص تبدیل میشوند .
3- حذف کلمات بیاثر20: عملکرد آن باعث حذف واژگانی که برای ساخت زبان کاربرد داشته اما در محتوای معنایی آن تاثیر ندارند میشود. برخی از این کلمات درزبان انگلیسی ، a ، the و هستند.
4- بخشبندی جمله21: عملکرد آن باعث تبدیل پاراگرافها به جملات میشود.
5- برچسب گذاری بخشی از گفتار22: عملکرد آن باعث برچسب خوردن هرکلمه، یک جمله یا بخشی از گفتار است. مانند صفت، اسم، فعل، ضربالمثل یا پیشگفتار. کاربرد این روش به عنوان ویژگی فرآیند یادگیریماشین استفاده میشود.
3- روش پیشنهادی
در این مقاله، دو فرهنگ واژگان نظر آگاه بهزمینه با روشهاي FBSA23و ALGA24 بر روي مجموعه داده آموزشی نظرات ساخته میشود [17]. سپس، بر روي هر مجموعهداده، با استفاده از هرکدام از این دو فرهنگ واژگان نظر، ویژگیهایی محاسبه
میشوند. این ویژگیها در کنار ویژگیهای محاسبه شده با فرهنگ واژگان نظر عام منظوره لیوبینگ25 قرار میگیرند و به
این ترتیب، براي ویژگیهای حاصل، انتخاب ویژگی توسط آزمون t 26صورت میگیرد.
آزمون t برای تعیین اختلاف میانگین یک گروه با یک مقدار پیش فرض و یا میانگینهای دو گروه به کار میروند .در واقع، آزمون t یک نوع آمار استنباطی است برای تعیین اینکه آیا بین میانگین دو گروه اختلاف معنی داری وجود دارد یاخیر، چرا که
ممکن است در ویژگیهای خاصی مرتبط باشند. در انتها، مدلی براي دستهبندي از روي مجموعه دادههاي آموزشی ساخته میشود و بر روي مجموعه داده آزمایشی اعمال میشود.
روش FBSA مبتنی بر ایجاد فرهنگ واژگان احساسی با استفاده از کامنتها و نظرات است که با تناوب و میزان تکرار کلمات، بار احساسی آنها مشخص میشود و روش ALGA
فرهنگ واژگان احساسی نظرات و عقاید بیان شدهی متنی را با استفاده از الگوریتم ژنتیک میسازد [12] .
در روش پیشنهادی، در این بخش که از تولید واژگان توسط FBSA استفاده میشود، از روش تحلیل عبارات مبتنی بر فرکانس به دلیل تخمین دقیق رتبههای کلمات مثبت ومنفی استفاده شده است. در روش FBSA برای یافتن بار احساسی واژگان تمام کلمات در نظر گرفته میشود و یکی از مزیتهای این روش عدم حذف کلمات توقف27 است زیرا میتواند در نظرات هتلها تعیین کننده باشد. بدین صورت که رتبهی عبارت برای هر کلمه براساس فرکانسی از کلمات در مجموعه دادههای آموزشی محاسبه میشود. اگر فرض شود که p مجموعه داده داشته باشیم، D1 تا Dp شامل نظرات و برچسبها هستند که نیمی از آنها شامل نظرات مثبت و نیمی از آنها دارای نظرات منفی هستند. بنابراین، مجموعه دادههای آموزش و تست با مدل اعتبارسنجیk -دسته28 تقسیم میشوند. در این روش نمونه اصلی بهطور تصادفی به زیرنمونههایی با اندازه k تقسیم شده و در هر مرحله یک زیر نمونه مورد تحلیل قرار میگیرد.
از زیرنمونههای k، که در هرمرحله بصورت تصادفی بدست آمدهاند، یک زیرنمونه منفرد بهعنوان دادههای آزمایشی برای اعتبارسنجی الگوریتم و مدل ذخیره شده و زیرنمونههای دیگر که درواقع تعداد آنها حالا k-1 شدهاست نقش دادههای آموزشی را خواهند داشت. فرایند اعتبارسنجی، که k بار تکرار میشود، هر بار بصورت تصادفی مجموعه دادهای را انتخاب میکند، با هر یک ازاین نمونههای k دقیقا یک بار دادهها اعتبارسنجی میشوند. نتایج k میتواند برای برآورد میانگین مورد استفاده قرار بگیرد. در این روش همه مشاهدات برای آموزش و اعتبار مورد استفاده قرار میگیرند، و هر مشاهده برای اعتبارسنجی بهطور دقیق استفاده میشود و این مورد برتری این روش نسبت به نمونهگیری تصادفی تکراری است. لازم به ذکر است در این مقاله K برابر با 10 در نظر گرفته شده است. بنابراین، برای هر کلمه wj در مجموعه Diدادههای آموزشی، دو مقدار تجمعی تعریف میشود: فرکانسهای مثبت و منفی29.
(1)
در رابطهی (1) اگر کلاس مثبت باشد، از این رابطه استفاده میشود.
(2)
در رابطهی (2) اگر کلاس منفی باشد، از این رابطه استفاده میشود.
در این روابط، ni تعداد رکوردها در Di ، شماره رکورد k در مجموعه داده Di و تعداد رخدادها در wi در است. در دیگر کلمات، و تعداد رخدادی از wi در رکوردهای مثبت و منفی در Di مجموعه داده هستند.
در این روش، Di رکوردهای مجموعه دادههای آموزشی را شامل میشود و رکوردهای تست را در برنمیگیرد. مقایسه freq + و freq− تنها زمانی معنیدار است که تعداد سوابق مثبت و منفی برابر است زیرا رکوردهای تست در نظر گرفته نشده و بنابراین، دادههای آموزشی و تست برابر نیست.
به همین دلیل، از ضریب مبتنی بر سوابق در کلاسهای مثبت و منفی استفاده شده است و سپس فرکانس نرمال با استفاده از رابطهی (3) محاسبه میشود:
(3)
بنابراین، و تعداد رکوردهای مثبت ومنفی را در Di مجموعه داده نشان میدهند. در رابطهی (4) از رتبه بندی عبارت برای هر کلمه در واژگان استفاده میشود که این مقدار برای هر کلمه محاسبه میشود:
(4)
در رابطهی فوق مقدار رتبه بین 1- تا 1+ است. هر چقدر این عدد به 0 نزدیکتر باشد، این کلمه به فاعل یا همان کلمهی ویژگی، نزدیکتر است. رتبهی نزدیک به 1+ مثبت بودن کلمه و رتبهی نزدیک به 1- منفی بودن کلمه را نشان میدهد. بطور مثال اگر کلمهی Love 28 بار در عبارت بصورت جداگانه ظاهر شود، و 3 بار بصورت منفی که 2 بار در یک نظر و 1 بار در نظر دیگر ، درمجموع بصورت و نمایش داده میشود. پس از این مرحله، همان طور که در رابطهی (4) نشان داده شد، رتبهی کلمه پس از نرمال شدن محاسبه میشود. در ادامه پنج ویژگی برای طبقه بندی مجموعه دادهها بصورت زیر معرفی شده اند:
· Fpos: تعداد رتبههای کلمات مثبت در نظرات
· Fneg: تعداد رتبههای کلمات منفی در نظرات
· Pwords: تعداد کلمات مثبت دررکورد براساس رتبه
· Nword: تعداد کلمات منفی در رکورد براساس رتبه
· Score: مجموع همهی رتبهها در نظرات
در این روش، تولید واژگان مبتنی بر تحلیل عبارات فرکانسی به معنی این است که واژگان تولید شده در عبارت برای کل متن استفاده میشود. از آنجا که استثنائی برای مواردی است که نیاز است طبقه بندی شود، واژگان براساس مجموعه دادههای آموزشی تولید میشوند.
هر رکورد در مجموعه داده (هر نظر) باید به یک بردار ویژگی تبدیل شود. فرض شود که یک رکورد شامل “It is good” است، بردار ویژگی توسط جدول (2) محاسبه میشود.
جدول 2. بردار ویژگی It is good [17]
Score | NWoreds | PWords | FNeg | FPos |
0.663 | 1 | 2 | -0.186 | 0.849 |
در روش پیشنهادی هر رکورد به چندین ویژگی براساس طول جمله تبدیل میشود که در جدول(2) به پنج ویژگی تقسیم شده است. سپس این مدل برای مجموعه آموزشی ایجاد و برای مجموعه تست بکارمیرود.
هسته بردارویژگی از ویژگیهای فوق الذکر ساخته شده که بهصورت زیر است و در جدول (3) نشان داده شده است. این جدول درواقع، نمونهای از محاسبه ویژگیها برای یک رکورد خاص است که که با روش FBSA ایجاد شده است.
جدول 3. واژگان ساده ایجاد شده توسط روش FBSA [17]
Of | Good | Is | For | It |
-0.074 | +0.0621 | -0.186 | +0.307 | +0.228 |
واژگان نیز براساس دادههای آموزشی ایجاد میشود و برای محاسبهی ویژگیها براساس داده آموزش و تست بکار میرود. در این روش تفاوت بین کلمات بدون هشتگ(#) و با هشتگ نیز در نظر گرفته میشود، کلماتی که باهشتگ در نظر گرفته میشوند، نشان دهنده تاکید و مهم بودن است. لذا، در برخورد با چنین کلماتی به دو صورت رفتار میشود و این کلمات در مجموعه آموزشی بسته به مثبت یا منفی بودن نظر 2 بار شمارش می شوند .
در این مرحله فهرست واژگان احساسی مبتنی بر تحلیل فرکانس ساخته شد، در ادامه به تولید واژگان براساس ABALGA پرداخته میشود تا در نهایت این واژگان باهم ادغام شوند.
3-2 نحوهی استخراج ویژگیها و جنبههای مختلف مطرح شده در متن نظرات
در این مقاله از روش IOB- encoding که در کتابخانهی nltk.corpus.reader با دستور import ConllChunkCorpusReader فراخوانی می شود که، برای استخراج جنبههای مختلف و صریح بیان شده درهر توئیت استفاده شده است. در این روش کلمات به کار رفته در توئیتها برچسب گذاری میشوند که در آن B-POS نشانهی جنبهای است که در ابتدای توئیت شناسایی شده B، نشانهی شروع جنبهی جدید و O نشانهی عدم شناسایی به عنوان جنبه و ویژگی میباشد. نمونهای از خروجی در جدول (4) نمایش داده شده است.
جدول 4. توئیت های برچسب گذاری شده با IOB- encoding
Words:| Bathroom was clean , but bed is not comfort |
Labels:| B-POS O O O O B O O O |
در این مقاله از مجموعه دادهی مورد نظر 1000 توئیت بررسی شد و پنج ویژگی با جنبهی اصلی مختص هتل شناسایی شد و به صورتی که در جدول (5) نمایش داده شده، دستهبندی گردید تا بتوان جنبههای مهم را شناسایی و بار احساسی کلمات مطرح شده را در نظرات حول این ویژگیها شناسایی کرد .
جدول 5. دسته بندی جنبههای استخراج شده
Room | Meal | Service | Location | Value |
Bed Bathroom View Shower Air condition Bedsheets Tv Furniture
| Breakfast Lunch Dinner Coffee Tea Drink Restaurant Bar
| Check-in Check-out Staff Ticket Transport
| Railway View Airport Mall Far Close Near Metro distance market | Price Amount Rate Cheap Worth Low Money Economic Fee expensive |
در این مقاله یادگیری فهرست واژگان تطبیق شده با ویژگیها، با استفاده از الگوریتم ژنتیک و در سطح توییت طراحی شدهاست. هر توییت ممکن است یک جمله کوتاه یا یک جمله طولانی از 140 کاراکتر تا 280 کاراکتر باشد. روش پیشنهادی برای نظرات کاربران صنعت هتلداری استفاده میشود و در این مقاله متن نظرهای کوتاهتر و یا بلندتر مدنظر قرار نگرفته است.
در الگوریتم پیشنهادی، یک توالی ژنی تعریف میشود تا زمانی که کلمات موجود در مجموعه آموزش، مشغول یادگیری واژگان هستند، ادامه مییابد. هر ژن در توالی ژن ذکر شده دارای نمرهای برای کلمه مربوطه است. به عبارت دیگر، درصدد بهینه سازی رتبهی احساسی واژگان هستیم که این بهینه سازی با عملیات کراس آور و جهش که در الگوریتم ژنتیک در جهت ارائه بهترین راه حل صورت میگیرد، انجام میشود که درادامه تشریح شده است. در ALGA ، رتبههای کلمات، ژنها هستند. کمبود ALGA در مشکلات مبتنی بر جنبه از ساختار نظرات ناشی میشود.
بطور مثال در تحلیل نظرات، گاهی به هر توئیت یک برچسب نسبت داده میشود که این برچسب برای کل کلمات در نظر گرفته میشود. از طرفی دیگر هر جمله ممکن است جنبههای مختلفی داشته باشد که ناشی از بخشهای مختلف نظرمطرح شده باشد که نیاز به تجدید نظر دارد لذا همانطور که در بخش قبلی توضیح داده شد، جنبههای مختلف بیان شده درهر توئیت استخراج میشود.
3-3-1 ادبیات تحقیق (الگوریتم ژنتیک)
امروزه الگوریتم ژنتیک جایگاه ویژهای در میان الگوریتمهای بهینه سازی برای حل مسائل پیچیده دارد زیرا از لحاظ محاسباتی ساده، در عین حال قدرتمند است، همچنین در هر مرحله فضای جستجو در مجموعهی داده محدود نمیشود[19].
اﻟﮕﻮرﯾﺘﻢﻫﺎي ﻓﺮااﺑﺘﮑﺎري ﻫﻤﭽﻮن اﻟﮕﻮرﯾﺘﻢ ژﻧﺘﯿﮏ، یکی از الگوریتم های جستجو به حساب میآید و از ﻃﺮﯾﻖ ﺗﻌﺎﻣﻞ ﺑﺎ اﻋﻀﺎ، در ﭘﯽ ﯾﺎﻓﺘﻦ ﺟﻮاب ﺑﻬﯿﻨﻪي ﺳﺮاﺳﺮي ﻫﺴﺘﻨﺪ. در ﻫﻤﻪ اﯾﻦ اﻟﮕﻮرﯾﺘﻢ ﻫﺎ، ﺟﻮابﻫﺎي ﺑﻬﺘﺮ، ﺷﺎﻧﺲ ﺑﯿﺸﺘﺮي ﺑﺮاي ﺣﻀﻮر در ﺗﮑﺮارﻫﺎي ﺑﻌﺪي الگوریتم و ﺗﻮﻟﯿﺪ ﻧﺴﻞ ﺑﻌﺪ دارﻧﺪ که این ویژگی خاص " حیات مناسبترین30" موجب یافتن نتایج بهتر است[18].
ﺷﺮط ﭘﺎﯾﺎن اﻟﮕﻮرﯾﺘﻢ، رﺳﯿﺪن ﺑﻪ ﺣﺪاﮐﺜﺮ ﺗﻌﺪاد ﺗﮑﺮار از ﭘﯿﺶ ﺗﻌﯿﯿﻦ ﺷﺪه، ﻋﺪم ﺑﻬﺒﻮد ﺟﻮاب در ﭼﻨﺪ ﺗﮑﺮار ﭘﯿﺎﭘﯽ میباشد[20].
3-3-2 پیش پردازش
مراحل پیش پردازش در ABALGA شامل موراد زیر است:
ü جداسازی کلمات در هر بررسی31
ü حذف کلمات توقف
ü واژهای فیلتر شده براساس برچسبهای مثبت یا منفی
ü لمس کردن کلمات باقی مانده (به جز اصطلاح جنبه)
ü ساخت مجموعه ای از کلمات ریشه32 از مرحله قبل
ü حذف کلمات با فرکانس کمتر از 3
ü گرفتن پنجره با اندازه ثابت در حدود اصطلاحات
بعنوان نمونهای از پیش پردازش که در موارد بالا ذکر شد، منظور از جداسازی، تشخیص مرز کلمات در متون است، بدین صورت که متن را به دنبالهای از کلمات تبدیل میکند.
در مورد دوم، حذف کلمات توقف، برخی از کلمات همانند is ، the و... که ارزش احساساتی ندارند، از جمله حذف میشوند.
در مرحلهی فیلتر کردن حذف یا نگهداری برخی از کلمات میتواند در نظر گرفته شود. همچنین در مراحل بعد بازگردان شکل کلمه به حالت ریشه و بن، حذف کلمات کمتر از سه حرفی که ارزش محاسباتی ندارند.
در مرحلهی آخر، گرفتن پنجره با اندازه پنج در حدود جنبه یا اصطلاح room میتواند در توئیت “ The room was clean and I satisfied the view is good.” بصورت زیر در نظر گرفته میشود.در این مرحله تعداد کلمات توقف هم شمارش میشود و جدول (6) نشان داده شده است.
جدول6. پنجرهی کلمات در حدود جنبه
|
مرحلهی پیشپردازش هم برای مجموعه دادههای آموزش و هم
در ادامه الگوریتم ABALGA شامل ساختار کروموزومها33، تابع ایجاد34، برازندگی35 و تابع جهش36 و تابع کراس آور37 و انتخاب والد ها تشریح خواهند شد.
3-3-3 ساختار کروموزوم ها
کروموزمها در در الگوریتم ABALGA اطلاعات زیر را نگهداری میکنند:
· ژنها
· برازندگی
· سن
· استراتژی
موازی سازی با مجموعه ای از کلمات ریشه ذکر شده در بخش پیش پردازش، به عنوان یکی از پارامترهای ورودی در ABALGA ، یک توالی ژنی به طول یکسانی در این مجموعه قرار دارد. هر ژن برای یک کلمه ریشهی مربوطه در ورودی دارای یک رتبهی شناور در محدوده 1- تا 1 است. در مرحلهی اول رتبهها بهصورت تصادفی به هر ژن بصورت عددی در بازهی 1 - تا 1 داده میشود.
تابع برازندگی برای از بین بردن محاسبات زائد و سرعت بخشیدن بهکار میرود و در کروموزومها ذخیره میشود.
در روش پیشنهادی برای هر توالی ژن، تابع برازندگی فقط یک بار در جهت سرعت بخشیدن به روند، محاسبه میشود مگر اینکه با جهش یا کراس آور تغییر کند[19].
پارامتر سن تعداد دفعاتی را که توالی فعلی پس از انجام جهش یا کراس آور شکست خورده است، را شمارش میکند.
پس از رسیدن به حداکثر سنی، الگوریتم، کروموزومها را از مخزن پدر حذف میشوند و کروموزوم فرزند ایجاد میشود. این روند بعد از عمل جهش و کراس آور بوجود میآید[19].
کروموزوم همچنین اطلاعات استراتژی را که یکی از توابع ایجاد، جهش یا کراس آور است، ذخیره میکند و نشان میدهد که کدام عملکرد منجر به کروموزوم فعلی شده است.
3-3-4 تابع ایجاد
تابع ایجاد بعنوان ورودی طولی از کلمات را میگیرد و لیستی با همان طول را تولید میکند که حاوی مقادیر شناور تصادفی در دامنه 1- تا1+ است که در واقع رتبه کلمات در مجموعه کلمات است. بطور مثال مقدار ژن مربوطه واژه “polite” در کروموزم 1 میتواند 0.31+ باشد که نشانگر درجه احساسات نسبتاً مثبت براي واژهی مذكور است ، در حالي كه در كروموزوم 2 ، مقدار ژن مربوطه ميتواند 0.46- باشد ، كه نشان دهنده رتبه احساسات منفي است. نمونهای از این توالی در جدول (7) نشان داده شده است.
جدول7. نمونه ای از توالی های ژن ها در الگوریتم ژنتیک
Polite | fair | danger | warm | clean | Far | near | کلمات |
+0.80 | +0.23 | -0.42 | +0.25 | +0.53 | -0.78 | +0.45 | توالی 1 |
-0.14 | -0.36 | -0.17 | +0.41 | +0.32 | -0.51 | +0.32 | توالی 2 |
+.012 | +.048 | -0.45 | -0.36 | +0.41 | -0.65 | -.021 | توالی 3 |
+0.79 | -0.22 | +0.31 | -0.52 | +0.23 | +0.12 | +0.63 | توالی 4 |
3-3-5 برازندگی
در روش پیشنهادی تابع پاداش و مجازات38 الگوریتم ABALGA متفاوت از ALGA است. عملکرد پاداش و مجازات دوباره در مقایسه با تابع پاداش و مجازات منفرد در ALGA طراحی شده است. با دادن Dm مجموعه داده و با استفاده از Lk واژگان برای هر کلمهی ریشه یابی شده، lem(wi) در wiپنجره اطراف واژهی جنبهی مربوطه در الگوریتم ABALGA از رابطهی (5) محاسبه میشود:
(5)
بطوریکه بصورت رابطهی (6) محاسبه میشود:
(6)
در رابطهی (5)، رتبهای از هر کلمهی lemmatized ، wj در Wiپنجره اطراف واژهی جنبهی مربوطه است. در رابطهی (6) رتبهی احساسات یک کلمه در یک پنجره را بیان میکند، اگر کلمهای با بار منفی قبل از کلمهی جاری باشد، در محاسبه رتبهی پنجره معکوس میشود. لیستی از کلمات با بارمنفی در جدول(8) نشان داده شده است.
جدول 8. لیست کلمات منفی [17]
Hardly | Nerever | rarely | Barely | No | n’t | Not |
برای تمام پنجرههایی که حاوی اصطلاح جنبه هستند، محاسبه میشود. اگر رتبه برای یک پنجره مثبت باشد، برچسب جنبه مربوط به عنوان مثبت و در غیر این صورت منفی شمارش میشود. بنابراین ، پیش بینی برچسب مبتنی بر ABALGA در پنجره به شرح زیر محاسبه میشود:
(7)
در روش پیشنهادی از تابع برازندگی برای قیاس کردن کروموزمها استفاده میشود. الگوریتم ABALGA دارای دوهدف است: هدف اصلی این است که تعداد تطبیقها را حداکثر کند. درواقع کروموزومی که تعداد تطبیق بالاتری داشته باشد نسبت به دیگر کروموزمها ارجح خواهد بود. اگر حالت تطبیقها محاسبه شده یکسان باشد، در تابع برازندگی، مقدار قدرمطلق تفاضل برای بدست آوردن رتبه استفاده میشود. دیگر هدف این است که به تعداد تطبیق na به صفر برسد.
این عملکرد پاداش و مجازات تجدید نظر شده ABALGA ، در روش ما ، شبیه به ALGA [18] است.
3-3-6 تابع جهش
عملکرد جهش یک توالی ژنی و تابع برازندگی و همچنین پنجرههای اطراف اصطلاحات را به عنوان پارامترهای ورودی در نظر میگیرد و برای بهبود تابع برازندگی خود سعی در تغییر تابع برازندگی قبلی دارد. واژگان کاندیدا در پنجره عبارتهایی هستند که برچسب محاسبه شده از رابطهی (7) با برچسب ابعاد واقعی آن مطابقت نداشته است.
3-3-7 تابع کراس آور
توالی ژن به نامهای والدین و اهداکنندهها و مقادیر تابع برازندگی آنها، پارامترهای ورودی تابع کراسآور الگوریتم ABALGA است. هنگامیکه ژنهای والدین و اهداکننده یکسان هستند، از تابع ایجاد برای جایگزینی ژنهای اهداکننده با توالی ژن جدید استفاده میشود زیرا توالی ژنهای یکسان در مخزن والدین مطلوب نیستند. اگر این محدودیت ارضا نشود، سپس، به تعداد تصادفی از دفعات، در دامنه 1 تا 10 ، تابع در ژنهای اهدا کننده که ژنهای مشابه آنها در ژنهای والدینی که یکسان نیستند، قرار میدهد. سپس ژنهای مستقر در نسخهای از ژنهای والدین استخراج و جایگزین میشوند. در صورت پیشرفت پس از این جایگزینی، تابع ژنهای فعلی را برمیگردانند و در صورت عدم پیشرفت، تابع دوباره سعی میکند تا به یک آستانه حداکثر برسد، سپس در آن مرحله آخرین نسخه کپی شده ژنهای والدین را برمیگرداند.
3-3-8 انتخاب والدین
هدف اصلی ﺳﻮق دادن ﺟﺴﺘﺠﻮ ﺑﻪ ﺑﺨﺸﻬﺎﯾﯽ از ﻓﻀﺎ ﮐﻪ اﻣﮑﺎن ﯾﺎﻓﺘﻦ ﺟﻮاﺑﻬﺎي ﺑﺎ ﮐﯿﻔﯿﺖ ﺑﺎﻻﺗﺮ وﺟﻮد دارد.در ﻫﺮ ﻧﺴﻞ ﺗﻌﺪادي از ﻋﻨﺎﺻﺮ ﺟﻤﻌﯿﺖ اﯾﻦ ﻓﺮﺻﺖ را ﭘﯿﺪا ﻣﯽ ﮐﻨﻨﺪ ﮐﻪ ﺗﻮﻟﯿﺪ ﻣﺜﻞ ﮐﻨﻨﺪ. ﺑﻪ اﯾﻦ ﻋﻨﺎﺻﺮ ﮐﻪ از ﻣﯿﺎن ﺟﻤﻌﯿﺖ اﻧﺘﺨﺎب ﻣﯽ ﺷﻮﻧﺪ، واﻟﺪﯾﻦ ﻣﯽ ﮔﻮﯾﻨﺪ.
به این منظور در ابتدا همهی واژهها به عنوان والد شناخته میشوند، سپس در هر مرحله با استفاده از تابع برازندگی که در قسمت قبلی توضیح داده شد هر کروموزومی که تعداد تطبیق بالاتری داشته باشد به عنوان والد انتخاب می شود[19].
به منظور طبقه بندی نظرات ، واژگان FBSA ، ABALGA، فرهنگ واژگان SentiWordNet ، و فرهنگ واژگان احساسی لیو بینگ با یکدیگر ترکیب شده و برای رتبه دهی کلمات استفاده میشوند. بدین صورت که اندازه پنجره 5 در نظر گرفته میشود و کلمات بیان شده در توئیت به عنوان دامنهی ورودی به این پنجرهها و امتیازات شمارش شدهی زیر بعنوان ویژگیها برای هر جنبه استخراج میشوند. بنابراین، ویژگیهای استخراج شده برای هر پنجره بصورت زیر هستند:
ScoreSum: مجموع رتبههای کلمه در پنجره بر طبق واژگان
NormalizedScoreSum: مجموع رتبه کلمات در یک پنجره با توجه به واژگان استفاده شده طول، نشانهها، از پنجره تقسیم میشود.
DistSum: مجموع، هر کلمه ، از نمرات تقسیم شده با فاصله آن از اصطلاحات.
PosCount: تعداد کلمات، در پنجره فعلی، با توجه به واژگان در حال استفاده، دارای رتبهی مثبت است.
NegCount: تعداد کلمات، در پنجره فعلی، با توجه به واژگان در حال استفاده، دارای رتبهی منفی است.
CountSum: تعداد کلمات با نمره مثبت منهای تعداد کلمات با نمره منفی ، در پنجره فعلی ، مطابق واژگان در حال استفاده.
PosSum: مجموع رتبههای مثبت کلمات در پنجره فعلی برای واژگان جاری
NegSum: مجموع رتبههای منفی کلمات در پنجره فعلی برای واژگان جاری
طبقه بندهای متعددی شامل درخت تصمیم ، درخت تصادفی ، جنگل تصادفی ، ماشین بردار پشتیبان، بیزین و طبقه بندی نزدیکترین همسایگی برای روش پیشنهادی در نظر گرفته میشود. در روش پیشنهادی، واژگان لیو بینگ بعنوان پشتیبان اصلی در الگوریتمFBSA یا ABALGAاستفاده میشود.
بنابراین؛ واژگان SentiWordNet بعنوان اخرین لایه برای رتبه دهی کلمه بصورت رابطهی (8)، (9) و (10) محاسبه میشود:
(8)
(9)
(10)
در روابط فوق، p(i) ، N(i) و O(i) رتبههای مفعولی هستند. در واقع تعداد Synset برای wi است.
درنهایت، رتبه نهایی برای هر کلمه با استفاده از واژگان SentiWordNet با استفاده از رابطهی (11) محاسبه میشود:
(11)
ABALGA واژگان احساسی را بهصورت پویا و FBSA احساسات درون کلمات را بصورت استاتیک (ثابت) ضبط میکنند، رتبه کلمات احساسی بصورت پویا، ممکن است نادرست نشان داده شود و از سوی دیگر، واژگان استاتیک رتبه دقیقتری از احساسات ارائه میدهند اما قادر به در نظر گرفتن رتبهی احساسی در یک متن نیستند. از اینرو، ادغام واژگان پویا و استاتیک معیارهای عملکرد را در مقایسه با استفاده از تنها یک نوع واژگان افزایش میدهد لذا این الگوریتم رتبهدهی احساسی واژگان در این مقاله برای استخراج ویژگیهای کلمات در نظر گفته شده است.
در روش پیشنهادی، پس از پیش پردازش مجموعه دادهی نظرات کاربران، به استخراج ویژگیهای متا پرداخته شد.در این روش، از یک روش ترکیبی و جدید با استفاده ازروش FBSA که مبتنی بر ایجاد فرهنگ واژگان نظر با استفاده از میزان تکرار و تناوب کلمات است و ABALGA که فرهنگ واژگان احساس نظر را با استفاده ازالگوریتم ژنتیک میسازد استفاده و در مرحلهی نهایی به طبقه بندی مجموعه دادهی نظرات صنعت هتلداری پرداخته شد.
درشکل(1) مراحل کلی بیان شده در روش پیشنهادی را نشان میدهد.
[1] نویسنده مسئول: شهریار محمدی mohammadi@kntu.ac.ir
[2] Opinion Mining
1 Sentiment Analysis
[3] Zhang et al.
[4] user generated content
[5] www. TripAdvisor.com
[7] Pablos et al.
[8] Natural language processing) NLP)
[9] United Nations Environment Program
[10] Zhang et al.
[11] Balazs et al.
[12] Singh et al.
[13] Unsupervised Lexicon-based Approaches
[14] N-grams
[15] Supervised Learning-based Approaches
[16] API
[17] Web crawlers
[18] Tokenization
[19] Stemming or lemmizitation
[20] Stopword Removal
[21] Sentence Segmentation
[22] Part-of-Speech (POS)
[23] Frequency Based Sentiment Analysis (FBSA)
[24] Adaptive Lexicon learning using a Genetic Algorithm (ALGA)
[25] Bing Liu’s Opinion Lexicon English.
[26] t-test
[27] Stop-Word
[28] K-Fold
[29] positive and negative frequencies
[30] Survival of the fittest
[31] tokenization of words in each review
[32] lemmatized
[33] Chromosome structure
[34] Create
[35] Fitness
[36] Mutate function
[37] Crossover function
[38] Reward and Penalty
در این بخش مجموعه دادهی مورد نظر مورد تحلیل قرار گرفت ونتایج حاصل از تحلیل هایی که توسط الگوریتمهای مربوطه در مدل پیشنهادی بکار رفته بود با نتایج دیگر مقاله ها مقایسه شد.نتایج حاصل نشان داد که مدل پیشنهادی نسبت به مقالههای قبلی عملکرد مناسبتری دارد.
4-1 مجموعه دادهها
در این مقاله مجموعه دادهای متنی مرتبط با نظرات کاربرانی که از خدمات هتل استفاده کردهاند، فراهم شده که شامل لیستی از نام هتلهای اروپایی و نظرات وعقاید متنی به زبان انگلیسی توسط کاربرانی1 که قبلا از خدمات هتل مربوطه استفاده کردهاند میباشد که از سایت کگل2 فراهم آورده شده است.
سایت کگل به پژوهشگران این امکان را میدهد تا مجموعه داده های مناسب مقاله در زمینه علم داده را پیدا کنند همچنین اگر مجموعه داده ای دارند که نیاز به تحلیل دارد را منتشر کنند و با کمک افراد حرفه ای و متخصص در یک محیط دانش مبتنی بر وب ، دانش پنهان در مجموعه داده را کشف و مدلهای مناسب و کاربردی بسازند.
مجموعه داده منتخب این مقاله شامل داده های متنی 1493 هتل با مقادیر رتبهبندی شده منحصربفرد در اروپا میباشد. این مجموعه دادهها شامل 515000 نظر مشتری است که همگی به زبان انگلیسی بیان شدهاند. برای تحلیل بیشتر، مکانهای جغرافیایی هتلهای مختلف در این مجموعه داده در نظر گرفته شده که در قالب فایلی باپسوند CSV تهیه و تنظیم شده است.
مجموعه دادهی فوق الذکر دارای 17 ستون است، که عناوین آن عبارت است از:
1)Hotel_Address,2)Additional_Number_of_Scoring,3)Review_Date,4)Average_Score,5)Hotel_Name,6)Reviewer_Nationality,7)Negative_Review,8)Review_Total_Negative_Word_Counts,9)Total_Number_of_Reviews,10)Positive_Review,11)Review_Total_Positive_Word_Counts,12)Total_Number_of_Reviews_Reviewer_Has_Given,13)Reviewer_Score,Tags,14)days_since_review,15)lat,16)lng, 17)Sty
ما در این پژوهش تنها ستون نظرات مثبت و نظرات منفی کلاسبندی شده را در نظر میگیریم. که نمونهی آن در شکل زیر نمایش داده شدهاست.
Positive_Review | Negative_Review |
Location of hotel was good | I am so angry I made this post…. |
Very nice and amazing hotel | No negative |
Very clean and staff are polite | Rooms are nice but elderly a bit difficult |
Great location | My room was dirty |
Foods are delicious | Im sad because of food.. |
شکل 2. نمونهای از مجموعه داده
4-2 معیارهای ارزیابی
در مطالعات قبلی صورتگرفته روی دادههای متنی ازجمله روی دادههای مربوط به صنعت گردشگری و هتلداری، از معیارهای ارزیابی صحت3، بازخوانی4، دقت5و معیارF 6 استفاده شده است، لذا برای مقایسه مدل پیشنهادی این مقاله با سایر روشها از معیار های فوق که از معیارهای اصلی سنجش میزان دقت مدلها میباشد، استفاده گردیدهاست.
4-2-1 دقت، بازخوانی و ماتریس درهم ریختگی7
ماتریس درهم ریختگی يك ماتريس مربعي NدرN ميباشد كه N همان تعداد برچسب ها وكلاسهاي مشخص شده در دسته بند تعریف شده است. پارامترهای مرتبط با دقت و بازخوانی توسط الگوریتمهای دادهکاوی بطور کلی و بخصوص در موضوع مقاله تحلیل احساسات و عقیدهکاوی بصورت زیر تعريف ميشوند:
پارامتر8TP بیان کنندهی تعداد ويژگيهايي است که به درستي توسط مدل انتخاب شده به عنوان ويژگي بازیابی شدهاند .
پارامتر FP9 مبین تعداد ويژگيهايي است که به صورت نادرست توسط مدل انتخاب شده به عنوان ویژگی بازیابی شدهاند.
پارمتر 10TN مربوط به تعداد ويژگيهايي است که به درستي توسط مدل انتخاب شده به عنوان ويژگي بازیابی نشدهاند.
پارامتر 11FN مربوط به تعداد ويژگيهايي است که به نادرستي توسط مدل انتخاب شده به عنوان ويژگي بازیابی شده اند.
با استفاده از پارامترهای تعریف شده در بالا و اطلاعات بازیابی شده توسط الگوریتم های متن کاوی میتوانیم کارایی مدل های مختلف را با استفاده از رابطههای زیر ارزیابی کنیم.
(12) Precision = TP/ (TP +FP)
(13) Recall = TP/ (TP+FN)
معیار Precision دررابطه (12) ميزان دقت مدل انتخاب شده را مشخص ميکند ومیزان برچسبهاي درست را نشان ميدهد
معیار Recall دررابطه (13) بیان کننده نسبت تعداد دادههای متنی درست دستهبندی شده که توسط ما برچسب زده شده در یک کلاس خاص، به تعداد کل دادههای متنی است که باید در همان کلاس خاص دستهبندی شوند.
برای ارزیابی عملکرد دستهبندها بسیار مورد استفاده قرار میگیرد و از ترکیب دو پارامتر دقت و بازخوانی حاصل میشود.این معیار ترکیبی به صورت زیر بدست میآید:
(14) F-measure= 2*((precision*recall)/ (precision+recall)
صحت معیاری است که در روشهای ارایه شده در دادهکاوی برای طبقه بندیها کاربرد داشته و به میزان نزدیکی پیش بینیهای مدل پیشنهادی با میزان اندازه گیری شده با مقدار واقعی اشاره دارد و بوسیلهی رابطهی (15) به صورت تقسیم تعداد کلماتی که به درستی طبقهبندیشدهاند به تعداد کل کلمات در مجموعه داده مورد نظرمحاسبه میشود.
(15)
4-3-1 محیط آزمایش و شبیه سازی مدل پیشنهادی
الگوریتم مدل پیشنهادی این مقاله در محیط برنامه نویسی آنا کوندا13 که یک توزیع متن باز برای زبانهای برنامه نویسی پایتون و R میباشدو در غالب نرم افزار اسپایدر14 و نرم افزار R پیادهسازی شده است.
4-3-2 پارامترهای استفاده شده برای ارزیابی مدل پیشنهادی
برای ارزیابی نتایج حاصل شده از روش و مدل پیشنهاد شده با سایر روشها از سه معیار بیان شده در قسمت قبلی یعنی دقت، صحت و معیار بازخوانی، مورد استفاده قرارگرفته اند.
4-3-3 نتایج تحلیل روش پیشنهادی
در این مقاله، نظرات کاربران به خوب(مشتری راضی) و بد (مشتری ناراضی)تقسیم میشود. بدین شکل که رتبه کلی نظرات بد بصورت ratings <5 و نظرات خوب بصورت ratings >=5 میباشند که در شکل(3) نشان داده شده است.
شکل (3) دسته بندی نظرات خوب و بد
حال در ادامه با توجه به جنبههای استخراج شده باتوجه به اینکه کلمههای دستهبندی شده در هر گروه دقیقا چندبار در سند ظاهر میشود و اهمیت نسبی آنها برای متصدیان امور جهت اتخاذ تصمیمات مقتضی در نمودار(1) و نمودار(2) به ترتیب تعداد و درصد تکرار آنها و در نمودار(3) امتیاز بار احساسی استنباط شده از آنها را نشان داده شده است.
نمودار(1) تعداد تکرار جنبههای استخراج شده
نمودار(2) درصد تکرار جنبههای استخراج شده
نمودار (3) امتیاز بار احساسی ویژگیهای استخراج شده
پس از استخراج ویژگیهای ترکیبی، الگوریتم ژنتیک جهت بهینه سازی واژگان بکاررفته که در شکل(3) نشان داده شده است.
شکل (3) همگرایی بهینه سازی ویژگیها
شکل(3) نشان میدهد الگوریتم ژنتیک پس از 300 بار تکرار به بهترین تابع برازندگی خود میرسد و همگرا میشود.
در جدول (9) معیارهای دقت، صحت و F در مرحلهی آخر که ادغام وطبقهبندی میباشد مرحله به مرحله نشان داده شده است.
|
نتایج مراحل ادغام و طبقه بندی | Precision | Recall |
ScoreSum | 90.4 | 90.5 |
NormalizedScoreSum | 91.8 | 91.8 |
DistSum | 90.6 | 90.7 |
PosCount | 91.9 | 92.0 |
NegCount | 94.8 | 93.2 |
CountSum | 92.0 | 92.0 |
PosSum | 94.1 | 94.0 |
نتیجه نهائی | 95.17 | 93.89 |
4-3-4 مقایسه طبقه بندیها در روش پیشنهادی
در این بخش به مقایسه طبقهبندهای مختلف مانند نایو بیزین ، ماشین بردار پشتیبان و رگرسیون لجستیک15 در روش پیشنهادی پرداخته میشود. شکلهای (4)، (5) و(6) نشان دهندهی نرخ صحت تشخیص نظرات مثبت و منفی میباشد.
شکل (4) منحنی ROC و نمرات AUC ازطبقه بندی NB
همانطور که از شکلهای (6)، (7) و(8) مشخص است، سطح زیر نمودار طبقهبند بیزین بیشتر بوده و نسبت به دو طبقهبند ماشین بردار پشتیبان و رگرسیون عملکرد بهتری دارد. درحالیکه روش ماشین بردار پشتیبان در رده دوم و روش رگرسیون در رده سوم قرار دارد.
شکل (5) منحنیROC ونمرات AUC از ماشین بردار پشتیبان
شکل (6) منحنیROC و نمرات AUC از رگرسیون لجستیک
همانطور که در اشکال فوق نشان دادهشده، سطح زیر نمودار الگوریتم ماشین بردار پشتیبان با وجود نزدیکی به نایوبیزین بیشتر است،بنابراین از عملکرد خوبی نسبت آن و نسبت به رگرسیون لیجستیک برخوردار است و در رده دوم قرار دارد.
شکلهای (7)، (8)و (9) صحت در کانفیوژن ماتریس را براساس برچسبهای واقعی و پیشگویی شده نشان میدهد.
شکل (7) ماتریس کانفیوژن با طبقه بند بیزین
شکل (8) ماتریس کانفیوژن با طبقه بند ماشین بردار پشتیبان
شکل (9) ماتریس کانفیوژن با طبقه بند رگرسیون
سپس همانطور که در جدول(10) و (11) نشان داده شده، به منظور آزمایش اینکه آیا الگوریتم ژنتیک انتخابی دارای پاسخ بهینه بوده یا خیر، نتایج استفاده از طبقه بندها را قبل و بعد از استفاده از این الگوریتم محاسبه میکنیم.
جدول (10) معیارهای ارزیابی طبقه بندها قبل از استفاده از الگوریتم ژنیک پیشنهادی
طبقه بند | Accuracy | Precision | Recall | F-measure |
بیزین | 90.65 | 91.54 | 92.73 | 92.13 |
SVM | 89.36 | 90.69 | 88.17 | 89.41 |
لجستیک رگریون | 81.53 | 82.15 | 83.46 | 82.80 |
جدول (11) معیارهای ارزیابی طبقه بندها بعد از استفاده از الگوریتم ژنتیک پیشنهادی
طبقه بند | Accuracy | Precision | Recall | F-measure |
بیزین | 94.65 | 95.17 | 93.89 | 94.53 |
SVM | 92.79 | 94.59 | 90.77 | 92.64 |
لجستیک رگریون | 88.29 | 84.44 | 86.46 | 85.44 |
4-3-5 مقایسه واژگان مدل پیشنهادی با روشهای دیگر
در این قسمت به تحلیل و بررسی و مقایسه معیارهای صحت، دقت و معیار F در مقالات مبتنی بر روش واژگان و روش پیشنهادی با سایر روشها نظیر SentiWordNet [15]، سامها [16]، روش ترکیبی واژه نامه و corpus-based [17] و یادگیری عمیق [18] پرداختهایم.
روش پیشنهادی خود را با نتایج چند مقاله که تنها با استفاده از روش محاسبهی واژگان احساسی کارکردهاند مقایسه کردیم و نتایج نشان داد روش ترکیبی ما با با فرضیات مطرح شده و تعداد ویژگی های بیان شده، نسبت به روش این مقالات که بر اساس روش واژگان احساسی هستند، برتری قابل وضوحی دارد که در جدول (12) به مقایسه کمی این روشها پرداخته شده است.
جدول (12) مقایسه معیارهای ارزیابی واژگان با روش پیشنهادی
Accuracy | Precision | F-measure | |
SentiWordNet [21] | 79.75 | 90.1 | 78.3 |
سامها [22] | 56 | 61 | 60 |
ترکیب روش واژهنامه و corpus-based [23] | 85 | 73 | 78 |
یادگیری عمیق [24] | 83 | 84.7 | 83.6 |
روش پیشنهادی | 94.65 | 95.17 | 94.53 |
4-3-6 مقایسه تحلیل نظرات هتل هادرمدل پیشنهادی با روشهای دیگر
در این بخش به مقایسه معیار صحت بدست آمده ازطبقه بندی مدل پیشنهادی با سایر روشها روی مجموعه دادههای نظرات مربوط به هتل مانند، نظرکاوی[8] روش رای گیریی [18] و روش استخراج نظرات [9] پرداخته شده است. در شکل (10) این مقایسه نشان داده شده است.
|
شکل (10)مقایسه تحلیل نظرات هتل روش پیشنهادی با سایر روشها
5- نتیجه گیری و پیشنهاد برای تحقیقات آتی
عقیده کاوي، تجزیهوتحلیل احساسات نیز نامیده میشود که فرآیندی براي کشف عقیدهي کاربران درباره موضوع یا محصول یا مسئلهي خاصی است. موضوع میتواند یک خبر، رویداد، محصول، فیلم، موقعیت هتل،خدمات ارایه شده در هتل و ... باشد. عقیدهکاوي و تحلیلاحساسات موضوعی تحقیقاتی در حوزه متن کاوي، پردازش زبان طبیعی و وب کاوي میباشد.
عقیده کاوي و تحلیل احساسات سیستماتیک زیرشاخه ای ازعلم دادهکاوي است که براي کسب دانش نهفته ومخفی در مجموعه دادههای متنی ساختار نیافته با حجم بالا بهکار میرود. مجموعه دادههای متنی میتواند نظرو عقیده مطرحشده یا کامنتهاي کاربران در شبکههای اجتماعی یا وبسایت های خاص مرتبط با موضوع مورد نظر باشد، بازخورد و تجربهی مشتري در استفاده از هر محصول یا موضـوع خـاص یـا هر تاپیک دیگري باشد.
این مقاله بر روي استخراج آرا و عقاید در قالب سند، جملـه و تحلیـل احساسـات در سطح ویژگی بر روی مجموعه دادههای نظرات کاربران هتل ارایه شد. در روش پیشنهادی، هدف، تعیین گرایش احساسی متن و طبقهبندي آن به دستههاي مثبت و منفـی است. در مدل ارایه شده در این مقاله علاوه بر تعیین گرایش کلی احساسی داده های متنی مورد آزمایش و تعیین قطبیت کلی مثبت یا منفی، ویژگیهای مهم بیان شده در آرا مهم کاربران هتلها که بیشتر مدنظرشان بوده نیز استخراج شده است. آگاهی از این ویژگیها، به هتلداران و یا سایر ذینفعان ایـن امکـان را میدهد که از مهمترین شاخصههای مدنظر مشتریان آگاه شوند و از این دانش در راستای سیاستگذاری بهتر و در صورت لزوم تغییر رویکرد و در نهایت کسب سود بیشتر استفاده کنند.
در روش پیشنهادي عـلاوه بر طبقهبندي نظرات، مجموع ویژگیهاي بیان شده در نظرات کاربران هتلها براي هر یک از هتلها براساس رتبههای مثبت و منفی استخراج شد.
نتایج بدست آمده نشان دهندهی دقت بالاي مدل پیشنهادی این مقاله در انتخاب ویژگیها میباشد. با تحلیل و بررسی نتایج مشخص شد نظرات متنی کاربرانی که ویژگیهاي شاخصتری برای هتل ابراز میکنند، تعداد صفات بیشتری براي وصف واژهها و ویژگیهای مد نظرشان استفاده میکنند، نتایج نشان میدهد که این روش بسـیار بهتر از روشهاي مبتنی بر فرکانس واژهها عمل میکند. علاوه بر این با مقایسه این روش با سایر روشها دریافت شد که نتایج نشان دهنده بهبود نتیجهی بدست آمده از طبقه بندي در این پژوهش نسبت به روشهاي پیشین است.
5-1 پیشنهادهای آینده
در کارهاي آینده میتوان از روش بیان شده در مجموعه دادههای بزرگتر و متنوعتر و نیز در مورد سایر خدمات و کالاهای مختلف و نیز روش مشابهی را برای دادههای به زبان فارسی به کاربرد، مدل پیشنهاد شده تنها جنبههای صریح مطرح شده در متن نظر را در بررسی میکند میتوان با یافتن جنبههای ضمنی مطرح شده مدل را بهبود داد تا تصویر جامعی از کلیهی عقاید مطرح شده را دراختیار متصدیان امورقرار دهیم.
در این مقاله جنبههای مطرح شده در قالب پنج ویژگی بیان شد، میتوان با افراد خبره مشورت کرد و جنبههای بیشتری را درنظر گرفت، همچنین میتوان مدل پیشنهادی این مقاله را با سایر مدلها و الگوریتم ها ترکیب و نتایج بدست آمده را بررسی کرد.
در نهایت با طراحی شبکه واژگان احساسی جداگانه براي تحلیل هر دسته نظرات در موضوعات مختلف همانند رستوران، نقاط دیدنی، خدمات فرودگاهی و دیگر موارد، تاثیر آن را بر بهبـود نتایج بدست آمده بررسی نمود. با توجه به اینکه بار احساسی ومعنای ادراک شده از یک واژه در کالاها و خدمات مختلف با یکدیگر متفـاوت است، طراحی وساخت فرهنگ واژگان احساسی خاص منظوره براي زمینه های مختلف میتواند موجب بهبود نتایج حاصل شده از پژوهشهای قبلی گردد.
[1] K. Ravi, V. Ravi, “A survey on opinion mining and sentiment analysis: Tasks, approaches and applications,”Knowledge-BasedSystems, vol.89, pp.14-46, November 2015.
[2] J. A. Balazs, J. D. Vel´asquez, “Opinion Mining and Information Fusion: A Survey,” Information Fusion, vol.27, pp95-110, 2016.
[3] ر. پیرمحمدیانی و ش. محمدی ” معیارهای ارزیابی ارزش اثرگذاری کاربران رسانه¬های اجتماعی چارچوبی براساس کاوش رسانه¬های اجتماعی،“ در دوفصلنامه علمی فناوری اطلاعات و ارتباطات ایران، صفحات109-125، بهار و تابستان 1398.
[4] Z. Zhang, Z. Zhang & Y. Yang, “The power of expert identity: How website recognized expert reviews influence travelers' online rating behavior,” Tourism Management, vol.55, pp15–24, August 2016.
[5] G. Pablos, M. Cuadros, & M. T. Linaza, “Automatic analysis of textual hotel reviews,” Information Technology & Tourism, vol.16(1), pp45–69, 2016.
[6].M.R. Martinez-Torresa , S.L. Tora. (2019) A machine learning approach for the identification of the deceptive reviews in the hospitality sector using unique attributes and sentiment orientation. Tourism Management.
.
[7] C. Y. Tsai, M. T. Wang, & H. T. Tseng, “ The impact of tour guides' physical
attractiveness, sense of humor, and seniority on guide attention and efficiency.” Journal of Travel & Tourism Marketing, vol.33, pp1–13, 2015.
[8]A. S. Mohammad & M. Al Kadri, “Using Lexicon-Based Opinion Mining to Gauge Customer Satisfaction,” International Journal of Innovative Technology and Exploring Engineering (IJITEE), vol.9, February 2020
[9]A. Ahania, M. Nilashib,O. Ibrahimc, L. Sanzognia & S. Weaven, “ Market segmentation and travel choice prediction in Spa hotels through TripAdvisor’s online reviews,” International Journal of Hospitality Management, vol.80, pp52-77, July 2019.
[10] T. W. Lui, M. Bartosia, G. Piccoli, & V. Sadhya, “Online review response strategy and its effects on competitive performance,” Tourism Management, vol.67, pp180-190, August 2018.
[12] M. E. Mowlaei, M. Saniee Abadeh, H. Keshavarz, “ Aspect-Based Sentiment Analysis using Adaptive Aspect-Based Lexicons,” Expert System with Applications, vol.148, June 2020.
[13] L. M. Domingo, J. C. Martín, G. Mandsberg. “ Social media as a resource for sentiment analysis of Airport Service Quality (ASQ),” Journal of Air Transport Management, vol.78, pp106-115, July 2019
[14] D. Zhang, J. Tu, L. Zhou & Z. Yu, “Higher tourism specialization, better hotel industry efficiency?,” International Journal of Hospitality Management, 2020.
[15]T. Chinsha & J. Shibily, “ A syntactic approach for aspect based opinion mining,” Proceedings of the 2015 IEEE 9th International Conference on Semantic Computing, pp81-88, March 2015.
[16]A. K. Samha, Y. Li & J. Zhang. “Aspect-Based Opinion Extraction from Customerreviews,” Computation and Language, April 2014.
[17] H. Keshavarz & M. Saniee Abadeh, “Accurate frequency-based lexicon generation for opinion mining,” Journal of Intelligent and Fuzzy System, September 2017.
[18] H. Keshavarz & M. Saniee Abadeh, “ALGA: Adaptive lexicon learning using genetic algorithm for sentiment analysys of microblogs,” Knowledge Based Systems, vol.122, pp1-16, April 2017
[19] S. Katoch, S. S. Chauhan & V. Kumar, “ A review on genetic algorithm: past, present, and future,” Multimedia Tools and Applications, vol.80, pp8091-8126, 2021.
[120] م. امین طوسی و ه . عزتی ”الگوریتم ژنتیک آگاه از بهترین عضو با کاربرد در رنگآمیزی و بعدمتریک گراف،“ در دوفصلنامه علمی فناوری اطلاعات و ارتباطات ایران، صفحات143-154، بهار و تابستان 1399.
[21] T. Chinsha & J. Shibily, “ A syntactic approach for aspect based opinion mining,” Proceedings of the 2015 IEEE 9th International Conference on Semantic Computing, pp81-88, March 2015.
[22] A. K. Samha, Y. Li & J. Zhang. “Aspect-Based Opinion Extraction from Customerreviews,” Computation and Language, April 2014.
[23] M. Z. Asghar, A Khan, S. R. Zahra, S. Ahmad & F. M. Kundi, “ Aspect-based opinion mining framework using heuristic patterns,” Cluster Computing, Springe, vol.22, pp7181-7199, August 2019
[24] D. Tang, F. Wei, N. Yang, M. Zhou, T. Liu, & B. Qin, “Learning Sentiment-Specific Word Embedding for Twitter Sentiment Classification,” Learning Sentiment-SpecificWord Embedding for Twitter Sentiment Classification, vol.1, June 2014.
[25] K. Sailunaz, R. Alhaj, “ Emotion and Sentiment Analysis from Twitter Text,” Computational Science, vol36, September 2019.
[26] Y. H. Hu, Y. L. Chen, & H. L. Chou, “Opinion mining from online hotel reviews – a text summarization approach,” Information Processing & Management, vol.53, pp436–449, March 2017.
[27] J. Li, L. Xu, L. Tang, S. Wang, S., & L. Li, “Big data in tourism research: A literature review,” Tourism Management, vol.68, pp301-323, October 2018.
[28] D. Zhang, J. Tu, L. Zhou & Z. Yu, “Higher tourism specialization, better hotel industry efficiency?,” International Journal of Hospitality Management, 2020.
[29] K. Cheng, J. Li, J. Tang, H. Liu, “Unsupervised Sentiment Analysis with Signed Social Networks,” Proceeding of the Thirty-First AAAI Conference on Artificial Intelligence, vol.31, pp3429-343, 2017.
[1] 515K hotel reviews in Europe
[2] WWW.Kaggle.com
[3] Accuracy
[4] Recall
[5] Precision
[6] F-Measure
[7] Confusion matrix
[8] True Positive
[9] False Positive
[10] True Negative
[11] False Negative
[13] AnaConda
[14] Spyder
[15] Logistic Regression
Abstract
Nowadays, examining the review and opinions of users on the Internet is an important part of the process of people deciding whether to choose a product or use a service. Despite the Internet and easy access to blogs related to opinions in the field of tourism and hotel industry, there are rich and vast sources of ideas in the form of text that various text mining methods can be used to discover the knowledge hidden in these texts. Due to the importance of users' opinions and ideas in industries, especially the tourism and hotel industry, the topics of opinion mining and sentiment analysis have been considered by those in charge. In this article, a new and combined method based on a common approach in sentiment analysis is used. Vocabulary and genetic algorithms have been proposed to produce features for classifying sentiments load. Thus, two methods of constructing vocabulary, one using statistical methods and the other using genetic algorithm are presented. The above words are combined with Liu Bing's general and standard sense vocabulary. The results show that the proposed method works better than the basic methods based on sentiment lexicons on this data set and the criteria for assessing accuracy, precision, Recall and F-measure in the classifiers after using the proposed method are 94.65, 94.53, 93.89, 95.17.
Keywords: text mining, opinion mining, aspect-base sentiment analysis, data mining, genetic algorithm, classificatio