Improving Opinion Aspect Extraction Using Domain Knowledge and Term Graph
Subject Areas : ICTMohammadreza Shams 1 , Ahmad Baraani 2 , Mahdi Hashemi 3
1 - University of Isfahan
2 - University of Isfahan
3 - University of Isfahan
Keywords: Text mining, Opinion mining, Word2Vec, Aspect Extraction, Domain Knowledge, Term Graph,
Abstract :
With the advancement of technology, analyzing and assessing user opinions, as well as determining the user's attitude toward various aspects, have become a challenging and crucial issue. Opinion mining is the process of recognizing people’s attitudes from textual comments at three different levels: document-level, sentence-level, and aspect-level. Aspect-based Opinion mining analyzes people’s viewpoints on various aspects of a subject. The most important subtask of aspect-based opinion mining is aspect extraction, which is addressed in this paper. Most previous methods suggest a solution that requires labeled data or extensive language resources to extract aspects from the corpus, which can be time consuming and costly to prepare. In this paper, we propose an unsupervised approach for aspect extraction that uses topic modeling and the Word2vec technique to integrate semantic information and domain knowledge based on term graph. The evaluation results show that the proposed method not only outperforms previous methods in terms of aspect extraction accuracy, but also automates all steps and thus eliminates the need for user intervention. Furthermore, because it is not reliant on language resources, it can be used in a wide range of languages.
[1] Wang, Rui, Deyu Zhou, Mingmin Jiang, Jiasheng Si, and Yang Yang. "A survey on opinion mining: From stance to product aspect." IEEE Access, no. 7, pp. 41101-41124, 2019.
[2] A. Yadollahi, A. G. Shahraki, and O. R. Zaiane, "Current state of text sentiment analysis from opinion to emotion mining," ACM Computing Surveys, vol. 50, no. 2, p. 25, 2017.
[3] M. Tubishat, N. Idris, and M. Abushariah, "Implicit aspect extraction in sentiment analysis: Review, taxonomy, oppportunities, and open challenges," Information Processing & Management, vol. 54, no. 4, pp. 545-563, 2018. [4] A. G. Pablos, M. Cuadros, and G. Rigau, "W2VLDA: Almost Unsupervised System for Aspect Based Sentiment Analysis," Expert Systems with Applications, vol. 91, p. 127-137, 2018. [5] T. A. Rana and Y. Cheah, "Aspect extraction in sentiment analysis: comparative analysis and survey," Artificial Intelligence Review, vol. 46, no. 4, pp. 459-483, 2016. [6] P. P. Tribhuvan, S. G. Bhirud, and R. R. Deshmukh, "Product Features Extraction for Feature Based Opinion Mining using Latent Dirichlet Allocation," International Journal of Computer Science and Engineering, vol. 5, Issue 10, 2017. [7] Ma, Baizhang, Dongsong Zhang, Zhijun Yan, and Taeha Kim. "An LDA and synonym lexicon based approach to product feature extraction from online consumer product reviews." Journal of Electronic Commerce Research, no. 4, p. 304, 2013. [8] Samha, Amani K., Yuefeng Li, and Jinglan Zhang. "Aspect-based opinion extraction from customer reviews." arXiv preprint arXiv:1404.1982, 2014. [9] Konjengbam, Anand, Neelesh Dewangan, Nagendra Kumar, and Manish Singh. "Aspect ontology based review exploration." Electronic Commerce Research and Applications, pp. 62-71, 2018. [10] Lazhar, Farek, and Tlili-Guiassa Yamina. "Mining explicit and implicit opinions from reviews." International Journal of Data Mining, Modelling and Management, no. 1, pp. 75-92, 2016. [11] Oneata, Dan. "Probabilistic latent semantic analysis." In Proceedings of the Fifteenth conference on Uncertainty, pp. 1-7. 1999. [12] D. M. Blei, A. Y. Ng, and M. I. Jordan, "Latent dirichlet allocation," Journal of machine Learning research, vol. 3, no. Jan, pp. 993-1022, 2003. [13] Xu, Hua, Fan Zhang, and Wei Wang. "Implicit feature identification in Chinese reviews using explicit topic mining model." Knowledge-Based Systems, vol. 76, pp. 166-175, 2015. [14] Z. Chen and B. Liu, "Mining topics in documents: standing on the shoulders of big data," Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining, pp. 1116-1125: ACM, 2014. [15] Karmaker Santu, Shubhra Kanti, Parikshit Sondhi, and ChengXiang Zhai. "Generative feature language models for mining implicit features from customer reviews." In Proceedings of the 25th ACM international on conference on information and knowledge management, pp. 929-938, 2016. [16] M. Shams and A. Baraani-Dastjerdi, "Enriched LDA (ELDA): Combination of latent Dirichlet allocation with word co-occurrence analysis for aspect extraction," Expert Systems with Applications, vol. 80, pp. 136-146, 2017. [17] Bagheri, Ayoub, Mohamad Saraee, and Franciska De Jong. "Care more about customers: Unsupervised domain-independent aspect detection for sentiment analysis of customer reviews." Knowledge-Based Systems, vol. 52, pp. 201-213, 2013. [18] C. Zhang, H. Wang, L. Cao, W. Wang, and F. Xu, "A hybrid term–term relations analysis approach for topic detection," Knowledge-Based Systems, vol. 93, pp. 109-120, 2016. [19] H. Sayyadi and L. Raschid, "A graph analytical approach for topic detection," ACM Transactions on Internet Technology (TOIT), vol. 13, no. 2, p. 4, 2013. [20] Chen, Zhiyuan, and Bing Liu. "Topic modeling using topics from many domains, lifelong learning and big data." In International conference on machine learning, pp. 703-711, 2014. [21] Newman, David, Youn Noh, Edmund Talley, Sarvnaz Karimi, and Timothy Baldwin. "Evaluating topic models for digital libraries." In Proceedings of the 10th annual joint conference on Digital libraries, pp. 215-224. 2010.
دو فصلنامه علمي فناوري اطلاعات و ارتباطات ایران | سال پانزدهم، شمارههاي 55 و 56، بهار و تابستان 1402 صفحات:1 تا14 |
|
Improving Opinion Aspect Extraction Using Domain Knowledge and Term Graph
MohammadReza Shams*, Ahmad Baraani**, Mehdi Hashemi ***
* Assistant Professor, Department of Computer Engineering, Shahreza Higher Education Center, University of Isfahan, Iran
** Professor, Department of Software Engineering, Faculty of Computer Engineering, University of Isfahan, Iran
*** Master's degree, Department of Software Engineering, Faculty of Computer Engineering, University of Isfahan, Iran
Abstract
With the advancement of technology, analyzing and assessing user opinions, as well as determining the user's attitude toward various aspects, have become a challenging and crucial issue. Opinion mining is the process of recognizing people’s attitudes from textual comments at three different levels: document-level, sentence-level, and aspect-level. Aspect-based Opinion mining analyzes people’s viewpoints on various aspects of a subject. The most important subtask of aspect-based opinion mining is aspect extraction, which is addressed in this paper. Most previous methods suggest a solution that requires labeled data or extensive language resources to extract aspects from the corpus, which can be time consuming and costly to prepare.
In this paper, we propose an unsupervised approach for aspect extraction that uses topic modeling and the Word2vec technique to integrate semantic information and domain knowledge based on term graph. The evaluation results show that the proposed method not only outperforms previous methods in terms of aspect extraction accuracy, but also automates all steps and thus eliminates the need for user intervention. Furthermore, because it is not reliant on language resources, it can be used in a wide range of languages.
Keywords: Text mining, Opinion mining, Word2Vec, Aspect Extraction, Domain Knowledge, Term Graph
بهبود استخراج جنبههای متن با استفاده از دانش دامنه و گراف کلمات
محمدرضا شمس*1، احمد براآنی**، مهدی هاشمی ***
* استادیار گروه مهندسی کامپیوتر، مرکز آموزش عالی شهرضا، دانشگاه اصفهان، ایران
** استاد گروه مهندسی نرم افزار، دانشکده مهندسی کامپیوتر، دانشگاه اصفهان، ایران
*** کارشناسی ارشد، گروه مهندسی نرم افزار، دانشکده مهندسی کامپیوتر، دانشگاه اصفهان، ایران
تاریخ دریافت: 03/10/1400 تاریخ پذیرش: 31/05/1401
نوع مقاله: پژوهشی
چكیده
با گسترش روزافزون علم و فناوری، تحلیل نظرات کاربران و تعیین نحوه نگرش کاربر به موضوعهای مختلف به یک امر مهم تبدیل شده است. نظرکاوی فرایند استخراج نگرش افراد از روی نظرات نوشته شده است که در سه سطح سند، جمله و جنبه قابل انجام است. در سطح جنبه، نظر افراد در خصوص جنبههای مختلف یک موضوع بررسی میشود. مهمترین زیر بخش نظرکاوی جنبهگرا، استخراج جنبه است که موضوع اصلی این پژوهش میباشد. در بسیاری از روشهای ارائه شده برای استخراج جنبه، راه حل مورد نظر نیاز به مجموعه یادگیری اولیه و یا منابع زبانی وسیع دارند که تهیه چنین دادههایی بسیار زمانبر و پرهزینه است.
در این مقاله، رویکردی بدون نظارت برای استخراج جنبه مبتنی بر مدل موضوعی و بردار کلمات پیشنهاد میشود که از ایجاد گراف کلمات برای ادغام اطلاعات معنایی و دانش دامنه استفاده میکند. نتایج ارزیابیها نشان از این دارد که روش پیشنهادی نه تنها باعث بهبود دقت استخراج جنبه در مقایسه با سایر روشهای پیشین شده است، بلکه تمامی مراحل به صورت خودکار و بدون دخالت کاربر انجام میشود و بدلیل عدم وابستگی به منابع زبانی، در زبانهای مختلف قابل اجرا میباشد.
واژگان کلیدی: متنکاوی، نظرکاوی، بردار کلمات، استخراج جنبه، دانش دامنه، گراف کلمات
[1] نویسنده مسئول: محمدرضا شمسm.r.shams@shr.ui.ac.ir×
1. مقدمه
امروزه با توجه به فراگیرشدن شبکههای اجتماعی، ابزارهای گفتگو و چت، وبلاگهای شخصی، مقالههای علمی، سایتها و فروشگاههای اینترنتی، متنهای تولید شده توسط کاربران که شامل بیان نظرات و احساسات کاربر در مورد برخی از موضوعات روز است به طور قابل
توجهی افزایش یافته است. همین امر سبب شده است تا تحلیل و بررسی انسانی این حجم زیاد از اطلاعات غیرممکن باشد. بنابراین استخراج خودکار نظر، از متنهای برخط با هدف کشف موضوعات مربوط به نظر کاربر، به یک امر ضروری تبدیل شده است ]1[. درواقع با استفاده از نتایج این کاوش میتوان به این نتیجه رسید که کاربران مختلف در مورد یک موضوع چگونه فکر میکنند، چه پیشنهادی در مورد آن موضوع دارند و نقاط قوت و ضعف آن را در چه چیزی میبینند.
نظرکاوی تعیین نگرش نویسنده نسبت به یک موضوع است که با استفاده از تکنیکهای پردازش زبان طبیعی1 و یادگیری ماشین2 انجام میشود ]2[.
نظرکاوی به سه سطح اصلی بهنامهای سطح سند، سطح جمله و سطح جنبه تقسیم میشود. هدف اصلی تحلیل احساسات در سطح جمله و سند، بررسی کلی و پیدا کردن احساس عمومی جمله یا سند است، درحالیکه هدف آن در سطح جنبه، پیدا کردن احساس کاربر در مورد هر جنبه است ]3[.
نظرکاوی جنبهگرا از سه بخش اصلی به نامهای استخراج جنبه3، شناسایی کلمه یا نظر قطبی برای هر جنبه استخراج شده و در نهایت دستهبندی و خلاصهسازی جنبهها تشکیل شده است ]4[. در بخش استخراج جنبه، تمام جنبههای هر نظر استخراج میشوند که هدف اصلی این پژوهش میباشد. بهطور مثال در جمله «دیروز این لپتاپ رو خریدم. صفحهنمایش خوبی دارد ولی کیبوردش خوب نیست.» کلمهی «لپتاپ» موضوع نظر و دو کلمهی «صفحهنمایش» و «کیبورد» به عنوان جنبههای این موضوع شناخته میشوند.
روشهای استخراج جنبه بهطور کلی به سه نوع دستهبندی به نامهای دستهبندی نظارتی، بدوننظارت و نیمهنظارتی تقسیم میشوند. دستهبندی بدوننظارت از هیچ نوع داده برچسب گذاریشدهای برای استخراج جنبه استفاده نمیکند. دستهبندی بانظارت از دادههای برچسب گذاریشده برای استخراج جنبهها استفاده میکند و در نهایت دستهبندی نیمهنظارتی از هر دو نوع داده برچسب گذاریشده و بدون برچسب گذاری برای استخراج جنبه استفاده میکند ولی معمولاً تعداد دادههای برچسب خورده مورد استفاده کمتر است.
در روشهای بانظارت، تهیه دادههای برچسب خورده اولیه مناسب برای هر دامنه و زبان بسیار سخت، زمانبر و پرهزینه است که همین امر سبب میشود تا استفاده از این دسته از روشها محدود شود. بر همین اساس بیشتر پژوهشها از روش بدوننظارت و یا نیمهنظارتی استفاده کردهاند ]5[.
مدل موضوعی4 یک روش بدون نظارت برای طبقهبندی اسناد است. در روشهای مبتنی بر مدل موضوعی، اسناد ترکیبی از موضوعها میباشند، درحالیکه یک موضوع توزیعی احتمالی بر روی تمام لغات است. مدل موضوعی، مدلی تولیدی بر روی اسناد بوده که فرایند احتمالاتی سادهای را جهت تولید اسناد مشخص میکند. سپس برای هر لغت درون سند، موضوعی را به تصادف براساس این توزیع انتخاب کرده و لغتی را از آن موضوع انتخاب میکند. به عبارتی مدل موضوعی خوشههایی از کلمات ایجاد میکند که هر خوشه بیانگر یک موضوع میباشد. مدل موضوعی هیچگونه فرضی دربارهی ترتیب ظاهرشده لغات در سند نداشته و ترتیب کلمات را کاملا نادیده میگیرد. تنها اطلاعات موثر در مدل، تعداد دفعات تولید لغات در مدل میباشد. این فرض در مدل موضوعی به عنوان کیسه لغات5 شناخته میشود و به مدلهایی که بر پایه این فرض ساخته میشوند، مدلهای کیسهای میگویند ]6[ و ]7[.
تخصیص پنهان دیریکله6 یا LDA یک شبکه بیز و مدل تولیدی احتمالاتی و یکی از محبوبترین روشهای مدل موضوعی است. هر سند از موضوعهای مختلف تشکیل شده است و هر موضوع نیز دارای کلمات مختلفی است که به آن تعلق دارد. هدف LDA یافتن موضوعاتی است که یک سند براساس کلمات موجود در آن، به آنها تعلق دارد. ضعف اصلی روشهای مبتنی بر LDA این است که به مجموعه داده بزرگی نیاز دارد تا نتایج قابل قبولی ارائه دهند و در صورتی که مجموعه داده کوچک باشد دقت این الگوریتمها به طور محسوسی کاهش پیدا میکنند. همچنین این دسته از الگوریتمها، عموماً موضوعها و جنبههای متناقضی را شناسایی میکنند که غیرقابل قبول است.
دسته دیگر، روشهای مبتنی بر الگوریتم بردار کلمات7 هستند. در این دسته به کمک شبکه عصبی، برای نمایش تمام کلمات، یک بردار با اندازه ثابت و کوچک در نظر گرفته میشود و در فاز آموزش مدل، با اعداد مناسب برای هر کلمه این بردار محاسبه و ایجاد میشود. بهطور خلاصه، این الگوریتم از یکی از دو روش کیف لغات پیوسته8 و یا Skip-gram برای ساخت بردارهای کلمات استفاده میکند. هر دو روش یک شبکه عصبی ساده هستند که بدون وجود لایه پنهانی زیاد که در اغلب روشهای شبکه عصبی وجود دارد، بردارهای مورد نیاز را به کمک چند قانون ساده ایجاد میکنند. در روش کیف لغات پیوسته(CBOW) ، ابتدا به ازای هر کلمه یک بردار با طول مشخص و با اعداد تصادفی ایجاد میشود. سپس به ازای هر کلمه از یک سند یا متن، تعدادی مشخص از کلمات بعد و قبل آن به شبکه عصبی داده میشود (به غیر از خود کلمه فعلی) و سپس با استفاده از شبکه عصبی، بردار کلمه فعلی تولید میشود (یا به عبارتی از روی کلمات قبل و بعد یک لغت، آن لغت حدس زده میشود) و بردار جدید با مقادیر قبلی بردار لغت جایگزین میشوند. زمانی که این کار بر روی تمام لغات در تمام متون انجام گیرد، بردارهای نهایی لغات، همان بردارهای مطلوب ما هستند. روش Skip-gram برعکس این روش کار میکند. به این صورت که بر اساس یک کلمه داده شده، تلاش میکند تا چند کلمه قبل و بعد آن را تشخیص دهد و با تغییر مداوم اعداد بردارهای کلمات، نهایتاً به یک وضعیت باثبات میرسد که همان بردارهای نهایی میباشند.
مشکل استفاده از بردار کلمات به تنهایی این است که هر کلمهای که نیاز باشد برای آن بردار ایجاد شود باید به صورت دستی انتخاب شود که اینکار باعث میشود هزینه اجرا برای تعداد زیاد کلمات به شدت بالا برود. همچنین بردار کلمات صرفا کلمات مشابه را دستهبندی میکند که نتیجه اینکار از هدف این پژوهش که استخراج جنبه است بسیار متفاوت است.
در نتیجه در این مقاله روشی مبتنی بر ترکیب LDA و بردار کلمات ارائه میشود که به آن دانش دامنه گفته می شود و به منظور استخراج جنبهها، گرافی از کلمات به صورت G = (V, E) تشکیل میشود که یک گراف بدون جهت است و رأسهای آن (V) نمایانگر یک کلمه است و هر یال آن (E) نمایانگر رابطه بین دو گره است. هر یال و رابطه بین دو گره با استفاده از معیار شباهت بین کلمات ایجاد شده و درنهایت خوشهبندی میشود تا جنبهها استخراج شوند.
از مزایای این روش پیشنهادی در مقایسه با مطالعات پیشین، میتوان به این اشاره کرد که دانش مورد نیاز برای خوشهبندی از ترکیب مدلهای موضوعی و بردار کلمات ایجاد میگردد تا از نقاط قوت هر دو روش در کنار هم استفاده شود. در ضمن تمامی مراحل به صورت کاملاً خودکار و بدون دخالت کاربر انجام میشود و دانش مورد استفاده نیز به صورت خودکار به مدل اضافه میشود. همچنین این روش نیاز به داده برچسب خوردهی اولیه ندارد و کاملا به صورت بدون نظارت پیادهسازی شده است، به همین جهت هزینه اولیه آن بسیار کم است. علاوه بر این، در این روش از هیچ منبع زبانی استفاده نمیشود و به همین دلیل به راحتی در زبانهای مختلف قابل اجرا میباشد.
مهمترین نوآوریهای روش پیشنهادی به صورت زیر قابل دستهبندی است:
· استفاده از بردار کلمات به منظور غنیسازی نتایج الگوریتم LDA
· استفاده از شباهت بین کلمات به عنوان دانش دامنه
· روش پیشنهادی کاملا مستقل از زبان بوده و بر روی هر زبانی قابل اجراست.
· در روش پیشنهادی تمامی مراحل کاملا خودکار بوده و بدون کمک کاربر انجام میشوند.
در ادامه این مقاله، در بخش 2 مطالعات پیشین انجام شده در حوزه استخراج جنبه در نظرکاوی جنبهگرا در سه زیر بخش روشهای مبتنی بر لغتنامه و هستانشناسی، مدلهای موضوعی و مبتنی بر گراف مورد بررسی قرار گرفته است. در بخش 3 گامهای روش پیشنهادی به صورت مفصل شرح داده شده است. در بخش ۴ نتایج ارزیابی روش پیشنهادی شرح داده شده است و در نهایت در بخش پایانی جمعبندی و نتیجهگیری مقاله آمده است.
۲. مطالعات پیشین
همانطور که در فصل قبل اشاره شد، روشهای استخراج جنبه به سه نوع دستهبندی به نامهای دستهبندی بانظارت، دستهبندی بدون نظارت و دستهبندی نیمهنظارتی تقسیم میشوند.
در روشهای بانظارت، الگوریتمهایی که مورد استفاده قرار میگیرند از مجموعه دادهی برچسب گذاریشدهای برای آموزش مدل استفاده میکنند. اکثر روشهای بانظارت از الگوریتمهای یادگیری ماشین استفاده میکنند. بهطور کلی روشهای بانظارت با توجه به اینکه به دادههای برچسبگذاری شده احتیاج دارند بسیار پرهزینه هستند. مجموعه دادههای برچسب خورده برای بسیاری از موضوعات در زبانهای مختلف دردسترس نیست که همین امر سبب میشود تا دقت این روشها برای مجموعه دادههای مختلف مناسب نباشد. از طرف دیگر این روشها بر روی هر دامنه اطلاعاتی نمیتوانند اجرا شوند چرا که برچسبگذاری همه دامنههای موجود به صورت دستی و با کمک انسان، امری بسیار پرهزینه و غیرمعقول است. باید توجه شود که بعضی از کلمات ممکن است در دو دامنه مختلف معنای بسیار متفاوتی ارائه دهند. به طور مثال کلمه «غیرقابل پیشبینی» در دامنه فیلم، مثبت تلقی میشود ولی در دامنه کارکرد اتومبیل، معنای منفی دارد.
روشهای بدون نظارت، از دادههای بدون برچسب برای استخراج جنبه استفاده میکنند و الگوریتمهایی که در این روشها استفاده میشوند نیازی به آموزش اولیه ندارند. روشهای نیمهنظارتی از هر دو داده برچسبخورده و بدون برچسب برای استخراج جنبه از متن استفاده میکنند. باتوجه به مشکلات و هزینههای زیادی که در روشهای بانظارت وجود داشت، روشهای بدون نظارت و نیمهنظارتی محبوبیت قابل توجهی بدست آوردند و بیشتر پژوهشهای موجود در بخش استخراج جنبه به این دو روش اختصاص یافتهاند. مطالعات حوزه بدون نظارت و نیمه نظارتی به سه روش کلی به نامهای روشهای مبتنی بر لغتنامه و هستان شناسی، روشهای مبتنی بر مدل موضوعی و روشهای مبتنی بر گراف تقسیم میشود.
1.2. روشهای مبتنی بر لغتنامه و هستانشناسی
در این روشها، از اطلاعات موجود در لغتنامه و یا هستانشناسی برای استخراج جنبه استفاده میشود. در پژوهش انجام شده در مقاله ]8[ روشی با ترکیب الگوریتم احتمالاتی LDA با یک لغتنامه از کلمات مترادف، برای استخراج جنبه از مجموعه نظرات به زبان چینی معرفی شد. آنها همچنین عبارتهای اسمی را به عنوان جنبه فرض کرده و با ترکیب آنها با خروجی الگوریتم LDA یک لیست تحت عنوان جنبههای کاندید ایجاد کردند و سپس آن لیست را با لغتنامه کلمات مترادف گسترش دادند.
در مقاله ]9[ یک روش نیمهنظارتی برای استخراج جنبه معرفی شد. در این روش آنها به صورت دستی یک لیست از جنبهها تهیه کردند و با استفاده از این لیست و لغتنامه وردنت9 جنبههای مشابه از نظرات مختلف استخراج شد.
هستانشناسی جنبه، مفاهیم موجود در یک دامنه و همچنین روابط بین آنها را به شکل یک ساختار درختی سلسله مراتبی نشان میدهد ]10[. در مقاله ]10[ با استفاده از دانش معنایی و شباهت معنایی، درخت هستانشناسی جنبه ساخته شد. در این روش ابتدا عبارتهایی که نقش اسم در جمله دارند به عنوان کاندیدی برای جنبه استخراج میشود و سپس کلماتی که در نظرهای مختلف از یک حد آستانه مشخص بیشتر ظاهر شدند به عنوان جنبه شناسایی میشوند.
در مقاله ]11[ یک روش با استفاده از روابط معنایی بین مفاهیم، ویژگیها و افراد در هستانشناسی برای استخراج جنبهها معرفی شد. در ابتدا نظراتی که هیچ جنبه صریحی در آنها وجود نداشت را استخراج کردند. آنها شش نوع رابطه وابستگی بین کلمات نظر و جنبههای مرتبط با آن درنظر گرفتند و سپس با استفاده از این روابط معنایی و نظرات استخراج شده در هستانشناسی، جنبههای نظرات استخراج شد. همچنین در ]12[ از یک هستانشناسی در زبان عربی برای بهبود استخراج جنبه کمک گرفته شده است.
روشهای مبتنی بر لغتنامه و هستانشناسی به راحتی قابل اجرا هستند و استفاده از آنها باعث بهبود دقت در استخراج جنبه شده است. اما دقت این دسته از روشها بسیار وابسته به لغتنامه و روابطی است که از قبل تعریف شده است. باتوجه به افزایش سریع متون آنلاین و گسترش دادهها، تهیه و بهروزرسانی لغتنامه برای هر دامنه و زبان بسیار پرهزینه و زمانبر خواهد بود.
۲.۲. روشهای مبتنی بر مدل موضوعی
روشهای مبتنی بر مدل موضوعی به صورت گسترده برای استخراج و دستهبندی جنبهها در نظرکاوی جنبهگرا مورد استفاده قرار گرفته است. روشهای مدل موضوعی فرض میکنند که هر سند از ترکیبی از موضوعات یا جنبههای مختلف و هر موضوع از توزیعی از کلمات تشکیل شده است. بهطور کلی در این دسته از روشها، الگوریتمهای احتمالاتی بر روی اسناد مختلف اعمال میشود و سپس خوشههایی از کلمات ایجاد میشود که هر خوشه نمایانگر یک موضوع در سند است، بهطوریکه هر موضوع با توزیع احتمالی بر روی کلمات مشخص میشود.
تاکنون الگوریتم متفاوتی برای مدلسازی موضوعی ارائه شده است که از معروفترین آنها میتوان به مدل آنالیز احتمالی معنایی مخفی10 (pLSA) ]13[، تخصیص دیریکله پنهان (LDA) ]14[ و روش ماشین بولتزمن محدود11 (RBM) ]15[ اشاره نمود. پژوهشهای بسیاری با استفاده از این روشها انجام شده است. همه این مدلها یک متغیر پنهان (موضوع) را بین سند و کلمات برای تحلیل توزیع معنایی شناسایی میکنند.
در سالهای اخیر، پژوهشهای مختلفی با استفاده از مدل موضوعی مبتنی بر دانش دامنه انجام شده است. در این پژوهشها از دانشهای مختلف برای راهنمایی مدل موضوعی استفاده شده است تا موجب بهبود دقت استخراج جنبه شوند. در پژوهشهای مختلف این دانشها به دو صورت خودکار و نیمهخودکار استخراج و استفاده شدهاند. بدیهی است که روشهایی که به صورت غیرخودکار از دانش دامنه استفاده میکنند نیازمند هزینه اولیه میباشند.
در مقاله ]16[، یک روش مبتنی بر مدل موضوعی با استفاده از الگوریتم تخصیص دیریکله پنهان و دو محدودیت «کلمات پیوند لازم» و «کلمات پیوند ناپذیر» ارائه شده است. در این روش از ترکیب محدودیتهای ذکر شده با ارتباطات معنایی، دانش دامنه برای جنبههای صریح ایجاد شده، و از این دانش برای استخراج جنبه بهره گرفته شده است. محدودیت پیوند-لازم به این معنی است که دو کلمه باید در یک موضوع باشند ولی محدودیت پیوند ناپذیر به این معنی است که دو کلمه نمیتوانند در یک موضوع مشابه باشند. در مقاله ]17[ نیز یک روش مشابه این رویکرد برای دادههای حجیم، با استفاده از مدل موضوعی و استخراج دانش به صورت خودکار معرفی شده است. در ]18[ دانش مورد نیاز برای بهبود الگوریتم تخصیص دیریکله پنهان از طریق شکستن جملات به بخشهای مختلف به ترتیبی که هر بخش در خصوص یک جنبه باشد استخراج شده است و در ]19[ این دانش با استفاده از یادگیری عمیق و استفاده از مدلهای زبانی از پیش آموزش دیده شده ایجاد گردیده است.
در مقاله ]20[ از یک مدل احتمالی برای استخراج جنبه استفاده شده است. در این روش، نظرات با استفاده از مدل زبانی مولد12 احتمالی مدلسازی شدند. این نظرات نشاندهنده ارتباط بین جملات و جنبهها با استفاده از متغیرهای پنهان است. آنها ابتدا به صورت دستی جنبههای صریح موجود در نظرات را مشخص و برچسبگذاری کردند و این دانش به صورت نیمهخودکار برای آموزش مدل استفاده شده است و درنهایت با استفاده از مدل نهایی، کل جنبهها استخراج میشوند.
در مقاله ]21[ مدلی برای استخراج جنبه مبتنی بر مدل موضوعی ارائه شد. در این مقاله با ترکیب روابط همرخدادی به عنوان دانش دامنه و الگوریتم تخصیص دیریکله پنهان، استخراج جنبه برای هر سند انجام شد که باعث بهبود دقت استخراج جنبهها شد. در این روش، در ابتدا جنبههای اولیه بر اساس الگوریتم LDA شناسایی میشوند و سپس با یک روند تکرارشونده ، دانش دامنه به صورت خودکار و با استفاده از روابط همرخدادی و جنبههای مشابه هر موضوع مرتبط استخراج میشود. با هر تکرار این مرحله کیفیت دانش بهتر شده و باعث بهبود کیفیت جنبههای استخراج شده خواهد شد. درنهایت دانش دامنه استخراج شده به مدل LDA تزریق میشود و جنبههای موجود در اسناد با استفاده از مدل جدید استخراج میشود. این روش وابستگی به زبان ندارد و بر روی هر مجموعه زبانی قابل اجرا است.
در ]22[ نویسندگان ساختاری کامل بر مبنای مدل آنالیز احتمالی معنایی مخفی پیشنهاد کردهاند که همه زیربخشهای نظرکاوی جنبهگرا از جمله استخراج جنبه را پوشش میدهد.
در سالهای اخیر روشهای مبتنی بر مدل موضوعی به صورت گسترده برای استخراج جنبه و دستهبندی آنها استفاده شده است. اما یک ضعف این روشها این است که به مجموعه داده بزرگی نیاز دارند تا نتایج قابل قبولی ارائه دهند و در صورتی که مجموعه داده کوچک باشد دقت این الگوریتمها به طور محسوسی کاهش پیدا میکنند. همچنین این دسته از الگوریتمها، عموماً موضوعها و جنبههای متناقضی را شناسایی میکنند که با قضاوت انسانی همخوانی ندارد.
3.۲. روشهای مبتنی بر گراف
در این دسته از روشها، نظرات به گراف کلمات تبدیل میشوند. گرههای این گراف را میتواند کلمه، جمله و یا نظر تشکیل دهد. درنهایت از الگوریتمهای خوشهبندی گراف استفاده میشود تا جنبههای موجود در سند، استخراج شوند.
در مقاله ]23[ یک روش مبتنی بر گراف برای استخراج جنبه معرفی شد. در این روش، کلمههای نظر به عنوان گرههای گراف در نظر گرفته شد و سپس این گراف با یک گراف از مجموعه جنبههای صریح ترکیب شد و در آخر برای وزندهی به یالهای این گراف از همرخدادی بین کلمات استفاده شد. در نهایت با استفاده از یک الگوریتم خوشهبندی، جنبهها استخراج شدند.
در مقاله ]24[ یک رویکرد مبتنی بر گراف و با ادغام اطلاعات معنایی بدست آمده از مدل موضوعی و روابط همرخدادی بین کلمات معرفی شد. در این روش، با استفاده از انواع روابط موجود در گراف متنی و مدل موضوعی، چالش نحوه استفاده از همرخدادی در مدل موضوعی را به خوبی برطرف شد. در این روش، کلمات، گرههای گراف را تشکیل میدهند و وزن هر یال براساس ادغام الگوریتم LDA به عنوان یک مدل موضوعی و روابط همرخدادی بین کلمات محاسبه میشود. در این روش برای ساخت گراف اولیه، هر دو گره که رابطه همرخدادی نزدیکی و بیشتر از یک حد آستانه مشخصی داشته باشند، به یکدگیر متصل میشوند که این گرهها کلمات پرتکرار همرخداد نامیده میشوند.
در مقاله ]25[ یک روش مبتنی بر گراف برای شناسایی موضوع و استخراج جنبه معرفی شده است. در این روش، با استفاده از یک الگوریتم به نام گراف کلیدی و براساس رابطه همرخدادی بین کلمات، سند به گراف تبدیل میشود. سپس با استفاده از روشهای تشخیص جامعه، گراف به چندین جامعه تقسیم میشود و درنهایت هر جامعه بهعنوان یک موضوع درنظر گرفته میشود و گرههای عضو در جامعه به عنوان جنبههای موضوع شناخته میشوند.
بهطور کلی در این پژوهشها از دانشهای محدودی مانند همرخدادی کلمات و توزیع کلمات استفاده شده است و سایر دانشهای موجود در متن نادیده گرفته شده است، درحالیکه استفاده از دانشهای دیگر، درصورتی که دانش صحیح باشد میتواند باعث بهبود دقت تشخیص و استخراج جنبهها شود.
3. راهحل پیشنهادی
در این پژوهش روشی ارائه شده است که از مدل موضوعی و شباهت بین کلمات به عنوان دانش دامنه برای ساخت گراف کلمات و سپس استخراج صحیح جنبهها استفاده میکند. در شکل 1، شبه کد روش پیشنهادی آمده است. ورودی روش پیشنهادی مجموعهدادهای از متون مختلف در موضوعات متفاوت است و خروجی آن جنبههای متعلق به هر موضوع است. در روش پیشنهادی، پس از انجام پیشپردازشهای مرسوم (خط 1)، با استفاده از روش LDA به عنوان یکی از روشهای اصلی مدل موضوعی، جنبههای اولیه مجموعه داده استخراج میشوند (خطوط 2 تا 4). سپس مجموعهای از ترکیب همه جنبههای یک موضوع در خط 5 شکل میگیرد.
در مرحله بعد و در خطوط 6 تا 10 الگوریتم، با استفاده از یک روش مبتنی بر شبکه عصبی بهنام بردار کلمات، نتایج مرحله اول غنیسازی میشود و کلمات مشابه برای هر کلمه از نتایج مرحله اول، بدست میآید. از آنجا که در روش بردار کلمات شباهت بین کلمات محاسبه میشود ولی نتایج مرحله اول به صورت احتمال است، لازم است تا نتیجه بردار کلمات پس از ترکیب در خط 11 به احتمال تبدیل شود؛ در مرحله سوم با استفاده از یک نسبت ریاضی احتمال هر کلمه محاسبه میشود (خط 12). سپس نتایج مرحله اول و سوم تجمیع میشود (خط 13) و در مرحله بعد در خطوط 14 تا 18، شباهت بین کلمات در هر جنبه به عنوان دانش مورد استفاده، محاسبه میشود و سپس گراف کلمات تشکیل میشود (خط 19).
درنهایت در خط آخر شبهکد پیشنهادی، یک الگوریتم خوشهبندی روی گراف اعمال میشود تا جنبههای موجود در هر دامنه بهطور صحیح استخراج شود. هر خوشه شناسایی شده، یک جنبه از موضوع در نظر گرفته میشود و هر خوشه به عنوان جنبه، شامل کلماتی مرتبط و با معنی است.
Algorithm: Proposed aspect extraction method | |
Input: Documents, D = {D1, D2, ..., Dn}
Output: Aspects for each domain, T = {T1, T2, …, Tn} | |
Preprocessing(D) | 1- |
For each domain corpus Di ∈ D | 2- |
Ai ←LDA(Di) | 3- |
End for | 4- |
A ← ⋃i Ai | 5- |
For each domain corpus Di ∈ D | 6- |
For each word Wi ∈ A | 7- |
Bi ←Word2Vec (Wi, Di) | 8- |
End for | 9- |
End for | 10- |
B ← ⋃i Bi | 11- |
B ← SimToProbability (B) | 12- |
C ← Merge (A, B) | 13- |
For each word Wi ∈ C | 14- |
For each word Xi ∈ C | 15- |
S ← Similarity (Wi, Xi) | 16- |
End for | 17- |
End for | 18- |
G ← CreateGraph (C) | 19- |
T ← SpectralClustering (G) | 20- |
شکل 1. شبه کد روش پیشنهادی
در ادامه این بخش، هر یک از گامهای روش پیشنهادی به طور کامل شرح داده میشود. اما پیش از آن و برای درک بهتر از روش پیشنهادی مثالی از اجرای الگوریتم ذکر میشود. این مثال، مربوط به اجرای روش پیشنهادی بر روی اسنادی در زمینه «لپتاپ» است. در مرحله اول الگوریتم LDA روی اسناد اعمال میشود و جنبههای اولیه آن ساخته میشوند.
به عنوان مثال، یک جنبه نمونه از خروجی این مرحله شامل کلماتی مانند «صفحهنمایش، کیفیت، حافظه، تصویر، اروپا و ...» است که واضح است بعضی از کلمات آن مانند «حافظه» و «اروپا» به اشتباه در این گروه قرار گرفتهاند و ارتباط معنایی زیادی با سایر کلمات (که مربوط به صفحهنمایش است) ندارد. در مرحله بعد الگوریتم بردار کلمات بر روی اسناد اولیه و نتایج خروجی مرحله قبل اعمال میشود. نتیجه خروجی این مرحله، گروهی از کلمات برای هر لغت در مرحله اول است که این کلمات بیشترین شباهت را به آن لغت دارند. بهطور مثال در این مرحله برای کلمه «صفحهنمایش» کلماتی نظیر «رزولوشن، روشنایی، کیبورد، مانیتور، ناراحت و ...» شناسایی میشوند. باز هم واضح است که بعضی از کلمات آن مانند «کیبورد» و «ناراحت» به اشتباه در این دسته قرار گرفتهاند.
در مرحله بعد نتیجه این دو مرحله با یکدیگر تجمیع میشود و سپس در مرحله پنجم شباهت بین هر دو کلمه محاسبه میشود و یک ماتریس ایجاد میگردد. به عنوان مثال، وزن بین دو کلمه «صفحهنمایش، رزولوشن» بیشتر از «صفحهنمایش، اروپا» تعیین میشود. در قدم بعد، با استفاده اطلاعات موجود یک گراف کلمات تشکیل میشود که هر گرهی آن بیانگر یک کلمه مانند «صفحهنمایش» است و هر یال بین دو گره برابر با وزنی است که در مرحله قبل به عنوان شباهت آن دو کلمه محاسبه شده است. همزمان، یال بین کلماتی که مشابهت کمتری با یکدیگر دارند حذف میشوند. در نهایت یک الگوریتم خوشهبندی روی گراف اعمال میشود که نتیجه آن تشکیل تعدادی خوشه از گراف کلمات میباشد که هر خوشه بیانگر یک جنبه است بهطوریکه هر جنبه را گروهی از کلماتی تشکیل دادهاند که بیشترین ارتباط معنایی را با یکدیگر دارند.
1.3. اعمال الگوریتم LDA پایه
در مرحله اول، الگوریتم LDA بر روی هر دامنه از مجموعه داده اجرا میشود. LDA فرض میکند که هر سند جنبههای مختلفی را نمایش میدهد، به عبارت دیگر یعنی هر سند از کلماتی تشکیل شده است که هر یک متعلق به یک جنبه است و نسبت جنبههای داخل یک متن با همدیگر متفاوت است. همچنین در این روش فرض میشود که هر جنبه توزیعی روی مجموعه کلمات است. به عبارت دیگر، کلماتی که در یک جنبه دارای احتمال بالایی هستند، کلمات مربوط به آن جنبه میباشند. نتیجه خروجی این الگوریتم شامل جنبههای شناسایی شده است که در هر جنبه، کلمات مربوط به آن وجود دارد.
2.3. غنیسازی نتایج مرحله اول با استفاده از بردار کلمات
به منظور غنیسازی جنبههای استخراجی از LDA، الگوریتم بردار کلمات بر روی هر دامنه از مجموعه داده اجرا میشود. در این روش به کمک شبکه عصبی یک بردار با اندازه کوچک و ثابت برای نمایش تمام لغات و متون در نظرگرفته شده و با اعداد مناسب در فاز آموزش مدل، این بردار برای هر لغت محاسبه میشود. در این بردار هر ستون، فقط یک عدد را نمایش می دهد که نماینده میزان شباهت با کلمه یا ویژگی مورد نظر است. نتیجه خروجی این الگوریتم برای هر کلمه از خروجی مرحله اول، یک گروه کلمات با شباهت زیاد به آن کلمه میباشد.
۳.۳. تبدیل شباهت به احتمال در نتایج مرحله قبل
نتایج حاصل از الگوریتم LDA اعمال شده در مرحله اول شامل جنبههای شناسایی شده است که در هر جنبه، کلمات مربوط به آن با احتمالی مشخص به آن موضوع (جنبه) وجود دارد. درحالی که نتایج حاصل از غنیسازی صورت گرفته با استفاده از الگوریتم بردار کلمات در مرحله دوم دستههای از کلمات است که هر دسته متشکل از میزان شباهت کلمات به یک لغت از خروجی مرحله اول است. برای اینکه بتوان از نتیجه خروجی دو مرحله قبل در ادامه الگوریتم استفاده شود لازم است تا نسبت تشابه خروجی مرحله دوم به احتمال تغییر پیدا کند تا بتوان نتایج مرحله اول و دوم رو تجمیع کرد. برای تبدیل نمودن شباهت به احتمال، با استفاده از رابطه (۱) میزان شباهت هر کلمه W به مجموع همه کلمات دسته مورد نظر(M) تقسیم میشود.
(1) |
|
(2) |
|
(3) |
|
(4) |
|
(5) |
|
(6) |
|
شکل ۵. ارزیابی خوشههای بدست آمده با استفاده از معیار پیمانگی |
همانطور که در شکل ۵ مشخص است، معیار پیمانگی با استفاده از اعمال روش پیشنهادی در موضوع لپتاپ، بیشتر از الگوریتمهای پایه است و درنتیجه خوشههای بهتری در گراف روش پیشنهادی ایجاد شده است. البته باید توجه کرد که از آنجایی که کلمات معرف در یک حوزه خاص (لپتاپ)، گرههای گراف هستند، اکثر این کلمات احتمال تکرار زیادی با یکدیگر دارند، پس وجود یال بین خوشههای مختلف نیز بسیار محتمل است. همین دلیل باعث شده معیار پیمانگی در حالت کلی برای روش پیشنهادی و سایر روشهای مورد مقایسه کم باشد. نکته بعد در مورد شکل 5، این است که با افزایش تعداد جنبهها احتمال تکرار کلمات در جنبههای مختلف زیاد شده پس عملاً وزن یالهای بین جنبهها زیاد شده و معیار پیمانگی کاهش مییابد.
4.4.بررسی اثربخشی بردار کلمات در روش پیشنهادی
روش پیشنهادی در این مقاله، به صورت چارچوب کلی است که میتوان در هر یک از گامهای آن از روشها و الگوریتمهای مختلفی استفاده کرد. به منظور بررسی اثربخشی بردار کلمات در روش پیشنهادی، به بررسی استفاده از الگوریتم 18Bert در ساخت بردار کلمات پرداخته میشود. Bertیک مدل زبانی از پیشساخته توسط گوگل است که از روی محموعه وسیعی از متون زبان انگلیسی آموزش دیده است ]30[. در شکل 6، روش پیشنهادی در این مقاله با جایگزینی بردار کلمات با مدل زبانی Bert ارزیابی شده است.
شکل 6. مقایسه نتایج با استفاده از الگوریتم بردار کلمات و Bert با معیار انسجام موضوع |
همانطور که در شکل 6 مشخص است، معیار انسجام موضوع با استفاده از الگوریتم بردار کلمات نتایج بهتری دارد. از دلایل این امر میتوان به این اشاره کرد که الگوریتم بردار کلمات بر روی مجموعه داده هدف، آموزش داده شده است اما الگوریتم Bert به دلیل اینکه نیاز به پردازش بسیار زیادی دارد از مدل پیش آموزش دیده استفاده شده که همین امر سبب میشود تا نتایج الگوریتم بردار کلمات بهتر گردد.
5.4. ارزیابی روش پیشنهادی در مجموعه داده فارسی
همانگونه که بیان شد روشپیشنهادی برای استخراج جنبه از هیچ منبع زبانی خاص استفاده نمیکند و صرفاً بر پایه الگوریتمهای احتمالاتی شکل گرفته است. به همین دلیل به سادگی میتوان از آن در زبانهای مختلف بهره گرفت. به منظور اثبات صحت این ادعا در این بخش، روش پیشنهادی بر روی زبان فارسی بررسی و ارزیابی شده است.
مجموعه داده مورد استفاده مربوط به بیش از 3000 هزار سند در زمینه لپتاپ به زبان فارسی است که در مقاله ]21[ معرفی و مورد استفاده قرار گرفته است. نتایج مربوط به اجرای روش پیشنهادی و الگوریتمهای پایه در شکل 7 آمده است.
منطبق بر شکل 7، روش پیشنهادی در زبان فارسی بهتر از روشهای پایهای عمل کرده است و جنبههای منسجمتری در تعداد مختلف جنبهها ایجاد نموده است. این ارزیابی نشان میدهد که استفاده از روش پیشنهادی در زبانهایی نظیر فارسی که از نظر منابع زبانی محدودیت دارند، میتواند بسیار راهگشا و کاربردی باشد. در بخش بعد به جمعبندی این مقاله پرداخته خواهد شد.
شکل 7. ارزیابی طبق معیار انسجام موضوع در مجموعه داده فارسی
۵. جمعبندی
در اغلب مطالعات انجام شده در حوزه استخراج جنبه تنها از رابطه همرخدادی به عنوان دانش دامنه استفاده شده است و سایر اطلاعات و دانشهای موجود در متن نادیده گرفته شده است. به همین منظور در این پژوهش از شباهت بین کلمات به عنوان دانش دامنه در کنار مدل موضوعی و گراف کلمات استفاده شده است که همین امر موجب بهبود دقت استخراج جنبه شده است. درکنار این موضوع، استفاده از تجمیع نتایج الگوریتم LDA و بردار کلمات، باعث انسجام بیشتر جنبههای استخراجی شده است. همچنین برخلاف بسیاری از مطالعات پیشین، روش پیشنهادی نیازی به منابع زبانی ندارد از اینرو وابسته به زبان خاصی نیست و بر روی هر مجموعه زبانی قابل اجرا میباشد. برای اثبات صحت این ادعا، روش پیشنهادی علاوه بر انگلیسی بر روی مجموعه دادهای به زبان فارسی نیز ارزیابی شده است.
روش پیشنهادی با دقت مناسبی که در استخراج جنبهها دارد میتواند در فرایندهای مختلف پردازش زبان طبیعی از جمله نظرکاوی سطح جنبه، خلاصهسازی متن و تولید خودکار متن، کاربرد فراوانی داشته باشد. همچنین عدم وابستگی به زبان نوشته، روش پیشنهادی را در زبانهای از جمله فارسی که منابع زبانی محدود دارند کارآمد میسازد. البته لازم به ذکر است که مطالعات انجام شده در حوزه استخراج جنبه هنوز در ابتدای راه قرار دارد. در آینده و برای بهبود ساختار پیشنهادی میتوان از سایر اطلاعات متنی نیز به عنوان دانش دامنه بهره گرفت. به عنوان مثال از اطلاعات متنی مانند n-گرام و یا افزودن کلمات مرتبط (که میتواند از مدلهای زبانی از پیش آموزش دیده شده بدست آید)، اطلاعات معنایی هر زبان و غیره به عنوان دانش دامنه میتوان استفاده کرد و اثر هر یک را در نتایج مورد بررسی قرار داد. همچنین روش پیشنهادی در قالب یک چارچوب کلی پیشنهاد شده که در هر یک از گامهای آن میتوان از روش مختلف جهت افزایش دقت بهره گرفت. برای مثال در استخراج جنبههای اولیه میتوان از هر مدل موضوعی جدیدی به جای LDA استفاده کرد. همچنین در ایجاد بردار کلمات و خوشهبندی گراف نیز، روشهای دیگری میتواند جایگزین روش مورد استفاده در چارچوب ارائه شده در این مقاله گردد.
مراجع
[2] A. Yadollahi, A. G. Shahraki, and O. R. Zaiane, “Current State of Text Sentiment Analysis from Opinion to Emotion Mining,” ACM Comput. Surv., vol. 50, no. 2, pp. 1–33, Mar. 2018, doi: 10.1145/3057270.
[3] M. Tubishat, N. Idris, and M. A. M. Abushariah, “Implicit aspect extraction in sentiment analysis: Review, taxonomy, oppportunities, and open challenges,” Inf. Process. Manag., vol. 54, no. 4, pp. 545–563, Jul. 2018, doi: 10.1016/j.ipm.2018.03.008.
[4] A. García-Pablos, M. Cuadros, and G. Rigau, “W2VLDA: Almost unsupervised system for Aspect Based Sentiment Analysis,” Expert Syst. Appl., vol. 91, pp. 127–137, 2018, doi: 10.1016/j.eswa.2017.08.049.
[5] W. Zhang, X. Li, Y. Deng, L. Bing, and W. Lam, “A Survey on Aspect-Based Sentiment Analysis: Tasks, Methods, and Challenges,” Mar. 2022, [Online]. Available: http://arxiv.org/abs/2203.01054.
[6] T. A. Rana and Y.-N. Cheah, “Aspect extraction in sentiment analysis: comparative analysis and survey,” Artif. Intell. Rev., vol. 46, no. 4, pp. 459–483, Dec. 2016, doi: 10.1007/s10462-016-9472-z.
[7] P. P. Tribhuvan, S. G. Bhirud, and R. R.Deshmukh, “Product Features Extraction for Feature Based Opinion Mining using Latent Dirichlet Allocation,” Int. J. Comput. Sci. Eng., vol. 5, no. 10, pp. 128–131, Oct. 2017, doi: 10.26438/ijcse/v5i10.128131.
[8] B. Ma, D. Zhang, Z. Yan, and T. Kim, “An LDA and Synonym Lexicon Based Approach to Product Feature Extraction from Online Consumer Product Reviews,” J. Electron. Commer. Res., vol. 14, no. 4, pp. 304–314, 2013, doi: 10.1016/j.im.2015.02.002.
[9] A. K. Samha, Y. Li, and J. Zhang, “Aspect-Based Opinion Extraction from Customer reviews,” Apr. 2014, [Online]. Available: http://arxiv.org/abs/1404.1982.
[10] A. Konjengbam, N. Dewangan, N. Kumar, and M. Singh, “Aspect ontology based review exploration,” Electron. Commer. Res. Appl., vol. 30, pp. 62–71, Jul. 2018, doi: 10.1016/j.elerap.2018.05.006.
[11] F. Lazhar and T. G. Yamina, “Mining explicit and implicit opinions from reviews,” Int. J. Data Mining, Model. Manag., vol. 8, no. 1, p. 75, 2016, doi: 10.1504/IJDMMM.2016.075966.
[12] S. Behdenna, F. Barigou, and G. Belalem, “An Ontology-Based Approach to Enhance Explicit Aspect Extraction in Standard Arabic Reviews,” Int. J. Comput. Digit. Syst., vol. 11, no. 1, pp. 277–287, Jan. 2022, doi: 10.12785/ijcds/110123.
[13] T. Hofmann, “Probabilistic Latent Semantic Analysis,” Jan. 2013, [Online]. Available: http://arxiv.org/abs/1301.6705.
[14] D. M. Blei, A. Y. Ng, and M. I. Jordan, “Latent dirichlet allocation,” J. Mach. Learn. Res., vol. 3, pp. 993–1022, 2003.
[15] N. Zhang, S. Ding, J. Zhang, and Y. Xue, “An overview on Restricted Boltzmann Machines,” Neurocomputing, vol. 275, pp. 1186–1199, Jan. 2018, doi: 10.1016/j.neucom.2017.09.065.
[16] H. Xu, F. Zhang, and W. Wang, “Implicit feature identification in Chinese reviews using explicit topic mining model,” Knowledge-Based Syst., vol. 76, pp. 166–175, Mar. 2015, doi: 10.1016/j.knosys.2014.12.012.
[17] Z. Chen and B. Liu, “Mining topics in documents: Standing on the Shoulders of Big Data,” in Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining - KDD ’14, 2014, pp. 1116–1125, doi: 10.1145/2623330.2623622.
[18] B. Ozyurt and M. A. Akcayol, “A new topic modeling based approach for aspect extraction in aspect based sentiment analysis: SS-LDA,” Expert Syst. Appl., vol. 168, p. 114231, Apr. 2021, doi: 10.1016/j.eswa.2020.114231.
[19] M. Venugopalan and D. Gupta, “An enhanced guided LDA model augmented with BERT based semantic strength for aspect term extraction in sentiment analysis,” Knowledge-Based Syst., vol. 246, p. 108668, Jun. 2022, doi: 10.1016/j.knosys.2022.108668.
[20] S. K. Karmaker Santu, P. Sondhi, and C. Zhai, “Generative Feature Language Models for Mining Implicit Features from Customer Reviews,” in Proceedings of the 25th ACM International on Conference on Information and Knowledge Management, Oct. 2016, pp. 929–938, doi: 10.1145/2983323.2983729.
[21] M. Shams and A. Baraani-dastjerdi, “Enriched LDA ( ELDA ): Combination of latent Dirichlet allocation with word co-occurrence analysis for aspect extraction,” Expert Syst. Appl., vol. 80, pp. 136–146, 2017, doi: 10.1016/j.eswa.2017.02.038.
[22] M. Shams, N. Khoshavi, and A. Baraani-Dastjerdi, “LISA: Language-Independent Method for Aspect-Based Sentiment Analysis,” IEEE Access, vol. 8, pp. 31034–31044, 2020, doi: 10.1109/ACCESS.2020.2973587.
[23] A. Bagheri, M. Saraee, and F. de Jong, “Care more about customers: Unsupervised domain-independent aspect detection for sentiment analysis of customer reviews,” Knowledge-Based Syst., vol. 52, pp. 201–213, Nov. 2013, doi: 10.1016/j.knosys.2013.08.011.
[24] C. Zhang, H. Wang, L. Cao, W. Wang, and F. Xu, “A hybrid term–term relations analysis approach for topic detection,” Knowledge-Based Syst., vol. 93, pp. 109–120, Feb. 2016, doi: 10.1016/j.knosys.2015.11.006.
[25] H. Sayyadi and L. Raschid, “A Graph Analytical Approach for Topic Detection,” ACM Trans. Internet Technol., vol. 13, no. 2, pp. 1–23, Dec. 2013, doi: 10.1145/2542214.2542215.
[26] Z. Chen and B. Liu, “Topic Modeling using Topics from Many Domains, Lifelong Learning and Big Data,” in Proceedings of the 31st International Conference on Machine Learning - ICML ’14, 2014, vol. 32, pp. 703–711.
[27] D. Newman, Y. Noh, E. Talley, S. Karimi, and T. Baldwin, “Evaluating topic models for digital libraries,” in Proceedings of the 10th annual joint conference on Digital libraries - JCDL ’10, 2010, p. 215, doi: 10.1145/1816123.1816156.
[29] M. E. J. Newman, “Modularity and community structure in networks,” Proc. Natl. Acad. Sci., vol. 103, no. 23, pp. 8577–8582, Jun. 2006, doi: 10.1073/pnas.0601602103.
[30] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,” Oct. 2018, [Online]. Available: http://arxiv.org/abs/1810.04805.
[1] Natural Language Processing
[2] Machine Learning
[3] Aspect Extraction
[4] Topic model
[5] Bag of Words
[6] Latent Dirichlet allocation
[7] Word2vec
[8] Continuous bag-of-words (CBOW)
[9] WordNet
[10] Probabilistic latent semantic analysis
[11] Restricted Boltzmann machine
[12] Generative language model
[13] Laplacian
[14] Topic Coherence
[15] Modularity
[16] Accuracy
[17] Kappa
[18] Bidirectional Encoder Representations from Transformers
The rights to this website are owned by the Raimag Press Management System.
Copyright © 2017-2024