خوشهبندی اسناد مبتنی بر آنتولوژی و رویکرد فازی
محورهای موضوعی : فناوری اطلاعات و دانش
1 -
2 -
کلید واژه: خوشهبندی اسناد, گراف هستان شناسی, معیار شباهت, سیستم اسنتاج فازی,
چکیده مقاله :
دادهکاوی که به عنوان استخراج دانش از پایگاه دادهها نیز شناخته میشود، روالی برای استخراج دانش ناشناخته از داده است. کاوش اسناد بر اساس روشهای داده کاوی به استخراج اطلاعات و دانش از اسناد میپردازد. خوشهبندی اسناد یکی از مهمترین روشهای کاوش اسناد است که دستهبندی بدون سرپرست اسناد به گروههای مختلف میباشد. سیستمهای رایج بازیابی اطلاعات و خوشهبندی اسناد بر کلمات کلیدی استوار میباشند. با توجه به اینکه کلمات کلیدی مختلف میتوانند برای توصیف یک مفهوم استفاده شوند، این سیستمها میتوانند نتایج نادرست و ناقصی را ایجاد نمایند. همچنین روابط معنایی ممکن است بین کلمات موجود باشد که شناسایی آنها نیاز به استخراج دانش دامنه مورد نظر دارد. مهمترین گامها در خوشهبندی اسناد نحوهی نمایش اسناد و معیار اندازهگیری شباهت بین آنها است. این تحقیق بر بهبود کارایی خوشهبندی اسناد تمرکز دارد. الگوریتم خوشهبندی اسناد در سه گام پیشنهاد شده است: نمایش اسناد، اندازهگیری شباهت بین اسناد، سیستم استنتاج فازی به منظور اندازهگیری شباهت نهایی بین اسناد. در نهایت پس از انجام این سه گام، با استفاده از الگوریتم خوشهبندی پایین به بالا خوشهبندی اسناد صورت میپذیرد. در گام اول، اسناد بر اساس دانش دامنه به صورت یک گراف آنتولوژی نمایش داده میشوند. این روش بر خلاف روش مبتنی بر کلمات کلیدی، بر مفاهیم دامنه استوار میباشد و یک سند را بر اساس مفاهیم موجود در آن، به صورت زیرگرافی از آنتولوژی دامنه نمایش میدهد. مفاهیم استخراج شده گرههای گراف را تشکیل میدهند. برای هر گره با توجه به فرکانس مفهوم، وزن محاسبه میگردد. روابط موجود بین مفاهیم سند، یالهای گراف و میزان این ارتباط اوزان یالها را مشخص مینماید. در گام دوم برای هر سند بر اساس نمایش گرافی استخراج شده از مرحلهی اول، مفاهیم کلی و جزئی و یالهای اصلی مشخص میگردند. شباهت بین هر جفت از اسناد در سه مقدار و بر اساس این سه عامل محاسبه میشود. در گام سوم سیستم استنتاج فازی با سه ورودی و یک خروجی طراحی شده است. ورودیها مفاهیم کلی، مفاهیم جزئی و یالهای اصلی میباشند و خروجی میزان شباهت بین دو سند است. مجموعهای از قوانین فازی برای موتور استنتاج فازی در نظر گرفته شده است که بر اساس سه شباهت ورودی مقدار شباهت نهایی را تخمین میزند. در نهایت بر اساس ماتریس شباهت اسناد، الگوریتم خوشهبندی سلسله مراتبی پایین به بالا به منظور خوشهبندی اسناد اعمال میگردد. برای ارزیابی الگوریتم پیشنهادی، نتایج با نتایج حاصل از روشهای naïve Bayes ، دو الگوریتم مبتنی بر هستان شناسی و یک الگوریتم آماری مقایسه شده است. نتایج به دست آمده نشان میدهند که روش پیشنهاد شده مقادیر F-measure و Accuracy را بهبود میدهد. همچنین مقادیر FP و Error به میزان قابل توجهی کاهش مییابد.
Data mining, also known as knowledge discovery in database, is the process to discover unknown knowledge from a large amount of data. Text mining is to apply data mining techniques to extract knowledge from unstructured text. Text clustering is one of important techniques of text mining, which is the unsupervised classification of similar documents into different groups. The most important steps in document clustering are how documents are represented and the measurement of similarities between them. By giving a new ontological representation and a similarity measure, this research focuses on improving the performance of text clustering. The text clustering algorithm has been investigated in three aspects: ontological representation of documents, documents similarity measure, fuzzy inference system to measuring the final similarities. Ultimately, the clustering is carried out by bottom-up hierarchical clustering. In the first step, documents are represented as ontological graph according to domain knowledge. In contrast to keywords method, this method is based on domain concepts and represents a document as subgraph of domain ontology. The extracted concepts of document are the graph nodes. Weight is measured for each node in terms of concept frequency. The relation between documents’ concepts specifies the graph edges and the scope of the concepts’ relation determines the edge’s weight. In the second step, a new similarity measure has been presented proportional to the ontological representation. For each document, main and detailed concepts and main edges are determined. The similarity of each couple of documents is computed in three amounts and according to these three factors. In the third step, the fuzzy inference system with three inputs and one output has been designed. Inputs are the similarities of main concepts, detailed concepts and the main edges of two documents and the output is final similarities of the two documents. In final step, a bottom-up hierarchical clustering algorithm is used to clustering the documents according to final similarity matrix. In order to evaluate, the offered method has been compared with the results of Naïve Bayes method and ontology based algorithms. The results indicate that the proposed method improves the precision, recall, F-measure and accuracy and produces more meaningful results.