نظرکاوی افزايشی با استفاده از یادگيری فعال بر روی جريان متون
محورهای موضوعی : مهندسی برق و کامپیوتر
1 - دانشگاه خوانسار
کلید واژه:
چکیده مقاله :
نظرکاوی امروزه به عنوان یکی از کاربردهای پراهمیت پردازش زبان طبیعی مطرح است که به دلیل بالابودن حجم و نرخ نظرات تولیدشده نیاز به روشهای ويژهای برای پردازش دارد. امروزه با توجه به ماهيت جريان دادهای نظرات کاربران در شبکههای اجتماعی و سایتهای تجارت الکترونيکی، استفاده از الگوريتمهای دستهبندی غير افزايشی باعث میگردد به مرور زمان کارايي مدل يادگرفتهشده برای کاوش نظرات کاهش یافته و عملاً غير قابل استفاده شود. علاوه بر این به دليل نامحدودبودن تعداد نظرات، امکان برچسبگذاری تمام نظرات برای ایجاد نمونههای آموزشی جديد و به روزرسانی مدل یادگرفتهشده وجود ندارد. از آنجا که ممکن است نظرات جديد دارای واژگان جديد بوده و یا توزيع دستههای قطبيت تغيير کند، رانش مفهوم نيز میبايست در نظرکاوی افزايشی پشتيبانی گردد. در اين مقاله یک روش جدید برای یادگيری قطبيت متون به صورت افزايشی ارائه میگردد که با استفاده از یادگيری فعال جریان دادهای، متون ارزشمند برای بهروز رسانی مدل دستهبندی را انتخاب میکند و پس از تعيين برچسب آنها توسط متخصص انسانی، از آنها برای بهبود مدل دستهبندی بهره میگيرد. روش پيشنهادی به صورت برخط و بدون نياز به ذخيره متون، با استفاده از تعداد محدودی متون برچسبخورده آموزش میبیند و قادر به تشخيص و پشتيبانی از رانش مفهوم میباشد. روش پيشنهادی با روشهای شاخص افزايشی و غير افزايشی، با استفاده از مجموعه دادههای معتبر و معيارهای ارزيابی استاندارد مقايسه و ارزيابی میشود.
Today, opinion mining is one the most important applications of natural language processing which requires special methods to process documents due to the high volume of comments produced. Since the users’ opinions on social networks and e-commerce websites constitute an evolving stream, the application of traditional non-incremental classification algorithm for opinion mining leads to the degradation of the classification model as time passes. Moreover, because the users’ comments are massive, it is not possible to label enough comments to build training data for updating the learned model. Another issue in incremental opinion mining is the concept drift that should be supported to handle changing class distributions and evolving vocabulary. In this paper, a new incremental method for polarity detection is proposed which with the application of stream-based active learning selects the best documents to be labeled by experts and updates the classifier. The proposed method is capable of detecting and handling concept drift using a limited labeled data without storing the documents. We compare our method with the state of the art incremental and non-incremental classification methods using credible datasets and standard evaluation measures. The evaluation results show the effectiveness of the proposed method for polarity detection of opinions.
