استفاده از خوشهبندی تکاملی برای تشخیص موضوع در بلاگنویسی کوچک با لحاظنمودن اطلاعات شبکه اجتماعی
محورهای موضوعی : electrical and computer engineering
الهام سادات َعلوی
1
,
هدی مشایخی
2
,
حمید حسنپور
3
,
باقر رحیمپور کامی
4
1 - دانشگاه صنعتی شاهرود
2 - دانشگاه صنعتی شاهرود
3 - دانشگاه صنعتی شاهرود
4 - دانشگاه علوم و فنون مازندران
کلید واژه: تشخیص موضوعخوشهبندی تکاملیشبکه اجتماعی مدل احتمالاتی,
چکیده مقاله :
متون کوتاه رسانههای اجتماعی مانند توییتر اطلاعات زیادی در مورد موضوعهای داغ و افکار عمومی ارائه میدهند. برای درک بهتر اطلاعات دریافتی از شبکههای اجتماعی، شناسایی و ردیابی موضوع امری ضروری است. در بسیاری از روشهای ارائهشده در این زمینه، تعداد موضوعها باید از پیش مشخص باشد و نمیتواند در طول زمان تغییر کند. از این منظر، این روشها برای دادههای در حال افزایش و پویا مناسب نیستند. همچنین مدلهای تکاملی موضوعی غیر پارامتری به دلیل مشکل کمبود دادهها، بر روی متون کوتاه عملکرد مناسبی ندارند. در این مقاله، یک مدل خوشهبندی تکاملی جدید ارائه کردهایم که به طور ضمنی از فرایند رستوران چینی وابسته به فاصله (dd-CRP) الهام گرفته است. در روش ارائهشده برای حل مشکل کمبود دادهها، از اطلاعات شبکه اجتماعی در کنار شباهت متنی، برای بهبود ارزیابی شباهت بین توییتها استفاده شده است. همچنین در روش پیشنهادی، برخلاف اکثر روشهای مطرحشده در این زمینه، تعداد خوشهها به صورت خودکار محاسبه میشود. در واقع در این روش، توییتها با احتمالی متناسب با شباهتشان به هم متصل میشوند و مجموعهای از این اتصالها یک موضوع را تشکیل میدهد. برای افزایش سرعت اجرای الگوریتم، از یک روش خلاصهسازی مبتنی بر خوشهبندی استفاده نمودهایم. ارزیابی روش بر روی مجموعه داده واقعی که در طول دو ماه و نیم از شبکه اجتماعی توییتر جمعآوری شده است، انجام میشود. ارزیابی به صورت خوشهبندی متون و مقایسه بین آنها میباشد. نتایج ارزیابی نشان میدهد که روش پیشنهادی نسبت به روشهای مقایسهشده دارای انسجام موضوعی بهتری بوده و میتواند به طور مؤثر برای تشخیص موضوع بر روی متون کوتاه رسانههای اجتماعی استفاده گردد.
Short texts of social media like Twitter provide a lot of information about hot topics and public opinions. For better understanding of such information, topic detection and tracking is essential. In many of the available studies in this field, the number of topics must be specified beforehand and cannot be changed during time. From this perspective, these methods are not suitable for increasing and dynamic data. In addition, non-parametric topic evolution models lack appropriate performance on short texts due to the lack of sufficient data. In this paper, we present a new evolutionary clustering algorithm, which is implicitly inspired by the distance-dependent Chinese Restaurant Process (dd-CRP). In the proposed method, to solve the data sparsity problem, social networking information along with textual similarity has been used to improve the similarity evaluation between the tweets. In addition, in the proposed method, unlike most methods in this field, the number of clusters is calculated automatically. In fact, in this method, the tweets are connected with a probability proportional to their similarity, and a collection of these connections constitutes a topic. To speed up the implementation of the algorithm, we use a cluster-based summarization method. The method is evaluated on a real data set collected over two and a half months from the Twitter social network. Evaluation is performed by clustering the texts and comparing the clusters. The results of the evaluations show that the proposed method has a better coherence compared to other methods, and can be effectively used for topic detection from social media short texts.
