-
دسترسی آزاد مقاله
1 - مروری برمتون ارزیابی موتورهای کاوش: رویکرد کمی، کیفی و ترکیبی
مهدی زینالی تازه کندیچکیده هدف: هدف از این پژوهش آن است تا متون ارزیابی موتورهای کاوش مرور و تحلیل گردیده و درنهایت متون مربوط براساس مبانی نظری موجود دسته بندی شوند. روش: این یک مقاله مروری است که با استفاده از روش کتابخانهای و با رویکردی تحلیلی، متون مربوط به ارزیابی موتورهای کاوش بررس چکیده کاملچکیده هدف: هدف از این پژوهش آن است تا متون ارزیابی موتورهای کاوش مرور و تحلیل گردیده و درنهایت متون مربوط براساس مبانی نظری موجود دسته بندی شوند. روش: این یک مقاله مروری است که با استفاده از روش کتابخانهای و با رویکردی تحلیلی، متون مربوط به ارزیابی موتورهای کاوش بررسی شده است. یافتهها: یافتههای پژوهش نشان داد که ارزیابی موتورهای کاوش با یکی از رویکردهای کمی، کیفی و ترکیبی انجام شده است. هدف از پژوهشهای رویکرد کمی تعیین عملکرد موتورهای کاوش بوده است که هرکدام از مولفههای موتورهای کاوش به صورت مجزا در یک پژوهش بررسی شده است. حوزههای پژوهشی رویکرد کمی را میتوان پوشش و همپوشانی، کیفیت چکیدهسازی و نمایهسازی، الگوریتم بازیابی، نظام توصیهگر، رابط کاربری و کیفیت رتبهبندی مدارک نام برد. در رویکرد کیفی نیز دو نوع پژوهش قوم نگاری و نظریه زمینهای مشاهده شد. در پژوهشهای قوم نگاری به توصیف رفتار اطلاعیابی کاربران پرداخته میشود. از این رو این نوع پژوهشها اطلاعات مفیدی را به منظور طراحی سیستمهای بازیابی اطلاعات به ویژه موتورهای کاوش ارائه میدهند. در نوع دیگر از رویکرد کیفی یعنی نظریه زمینهای دو حوزه پژوهشی پایبند به اصول کیفی و نیمه پایبند به اصول کیفی قابل تشخیص است. در سالهای اخیز نیز رویکرد سوم با عنوان رویکرد ترکیبی در پژوهشهای بازیابی اطلاعات مطرح گردیده است. نتیجهگیری: با بررسی روند تغییرات رویکردهای روش پژوهش مشخص میشود که این روند تغییرات بر ارزیابی بازیابی اطلاعات به ویژه موتورهای کاوش نیز تأثیرگذار بوده است. همان گونه که در روش پژوهش ابتدا روش کمی و سپس روش کیفی و در انتها روش ترکیبی مطرح گردیده است. در پژوهشهای ارزیابی بازیابی اطلاعات نیز این روند تغییرات قابل مشاهده است. پرونده مقاله -
دسترسی آزاد مقاله
2 - Computing Semantic Similarity of Documents Based on Semantic Tensors
Navid Bahrami Amir H. Jadidinejad مژده نظریExploiting semantic content of texts due to its wide range of applications such as finding related documents to a query, document classification and computing semantic similarity of documents has always been an important and challenging issue in Natural Language Process چکیده کاملExploiting semantic content of texts due to its wide range of applications such as finding related documents to a query, document classification and computing semantic similarity of documents has always been an important and challenging issue in Natural Language Processing. In this paper, using Wikipedia corpus and organizing it by three-dimensional tensor structure, a novel corpus-based approach for computing semantic similarity of texts is proposed. For this purpose, first the semantic vector of available words in documents are obtained from the vector space derived from available words in Wikipedia articles, then the semantic vector of documents is formed according to their words vector. Consequently, measuring the semantic similarity of documents can be done by comparing their semantic vectors. The vector space of the corpus of Wikipedia will cause the curse of dimensionality challenge because of the existence of the high-dimension vectors. Usually vectors in high-dimension space are very similar to each other; in this way, it would be meaningless and vain to identify the most appropriate semantic vector for the words. Therefore, the proposed approach tries to improve the effect of the curse of dimensionality by reducing the vector space dimensions through random indexing. Moreover, the random indexing makes significant improvement in memory consumption of the proposed approach by reducing the vector space dimensions. The addressing capability of synonymous and polysemous words in the proposed approach will be feasible by means of the structured co-occurrence through random indexing. پرونده مقاله -
دسترسی آزاد مقاله
3 - The Surfer Model with a Hybrid Approach to Ranking the Web Pages
Javad Paksima Homa KhajehUsers who seek results pertaining to their queries are at the first place. To meet users’ needs, thousands of webpages must be ranked. This requires an efficient algorithm to place the relevant webpages at first ranks. Regarding information retrieval, it is highly impor چکیده کاملUsers who seek results pertaining to their queries are at the first place. To meet users’ needs, thousands of webpages must be ranked. This requires an efficient algorithm to place the relevant webpages at first ranks. Regarding information retrieval, it is highly important to design a ranking algorithm to provide the results pertaining to user’s query due to the great deal of information on the World Wide Web. In this paper, a ranking method is proposed with a hybrid approach, which considers the content and connections of pages. The proposed model is a smart surfer that passes or hops from the current page to one of the externally linked pages with respect to their content. A probability, which is obtained using the learning automata along with content and links to pages, is used to select a webpage to hop. For a transition to another page, the content of pages linked to it are used. As the surfer moves about the pages, the PageRank score of a page is recursively calculated. Two standard datasets named TD2003 and TD2004 were used to evaluate and investigate the proposed method. They are the subsets of dataset LETOR3. The results indicated the superior performance of the proposed approach over other methods introduced in this area. پرونده مقاله -
دسترسی آزاد مقاله
4 - ارائه مدلی برای بازیابی اطلاعات متنی با استفاده از اعداد فاصله¬ای
هومان تحیری فرزاد قهرمانیبا گسترش و توسعه وب و افزایش محتوای آنلاین، اهمیت سیستم های بازیابی اطلاعات که بتوانند با دقت بالاتری به نیازهای اطلاعاتی کاربران پاسخ دهند، بیشتر از پیش مشخص است. یک بخش مهم در طراحی هر سیستم بازیابی اطلاعات، انتخاب روشی مناسب برای مدل کردن آن سیستم است که در این راستا چکیده کاملبا گسترش و توسعه وب و افزایش محتوای آنلاین، اهمیت سیستم های بازیابی اطلاعات که بتوانند با دقت بالاتری به نیازهای اطلاعاتی کاربران پاسخ دهند، بیشتر از پیش مشخص است. یک بخش مهم در طراحی هر سیستم بازیابی اطلاعات، انتخاب روشی مناسب برای مدل کردن آن سیستم است که در این راستا تعیین روش وزن دهی به لغات جهت بیان میزان اهمیت آنها در اسناد و پرس وجوها، نقش به سزائی دارد. روش های مختلفی در خصوص چگونگی وزن دهی به لغات ارائه شده که غالباً یک وزن عددی را تخصیص می دهند اما نمی توان با قطعیت گفت که بهترین روش وزن دهی کدام است. با توجه به ابهام و عدم قطعیتی که در این زمینه وجود دارد، در این مقاله مدلی ارائه شده که به جای استفاده از یک مقدار وزنی، با استفاده از وزن های بدست آمده از تعدادی روش وزن دهی پایه که به دقت انتخاب شده اند، برای هر لغت بازه ای از وزن ها را به عنوان یک وزن فاصله ای محاسبه می کند. در این مدل با انجام تجمیع مناسب، میزان ارتباط هر سند با پرس-وجوی ورودی نیز به صورت یک وزن فاصله ای تعیین شده و برحسب آنها می توان با استفاده از یکی از سه روش پیشنهادی، اسناد را رتبه-بندی کرد. در آزمایش های انجام شده بر روی مجموعه داده های معتبر Cranfield و Medline، اثرات نرما ل سازی طول بردار وزن های پایه، استفاده از مؤلفه های مختلف در فاکتور فرکانس لغت و فاکتور فرکانس مجموعه مورد مطالعه و بحث قرار گرفته است و مشخص شد که انتخاب مجموعه ای مناسب از روش های وزن دهی پایه برای اعمال روش پیشنهادی، به همراه استفاده از روش رتبه بندی مناسب، تأثیر به سزائی در بهبود بازدهی سیستم خواهد داشت. با انتخاب های مناسب، برای دو مجموعه داده مذکور به ترتیب MAP با مقادیر 0.43323 و 0.54580 بدست آمد. این نتایج نشان داد که روش پیشنهادی نه تنها باعث بهبود نسبت به هر یک از روش های وزن دهی پایه می شود، بلکه در مقایسه با چند روش وزن دهی پیچیده اخیر نیز بهتر عمل می کند. پرونده مقاله -
دسترسی آزاد مقاله
5 - ارائه یک موتور جستجو برای بازیابی رویداد ساختارمند از منابع خبری
علیرضا میرزائیان صادق علی اکبریتحلیل محتوای اخبار منتشرشده، یکی از مسایل مهم در حوزه بازیابی اطلاعات است. امروزه تحقیقات زیادی برای تحلیل تکتک مقالات خبری انجام شده است، در حالی که اکثر رویدادهای خبری به شکل چندین مقاله مرتبط به هم به طور مکرر در رسانهها منتشر میشوند. تشخیص رویداد، وظیفه کشف و گر چکیده کاملتحلیل محتوای اخبار منتشرشده، یکی از مسایل مهم در حوزه بازیابی اطلاعات است. امروزه تحقیقات زیادی برای تحلیل تکتک مقالات خبری انجام شده است، در حالی که اکثر رویدادهای خبری به شکل چندین مقاله مرتبط به هم به طور مکرر در رسانهها منتشر میشوند. تشخیص رویداد، وظیفه کشف و گروهبندی اسنادی را دارد که رویدادی یکسان را شرح میدهد و با ارائه یک ساختار قابل درک از گزارشهای خبری، هدایت بهتر کاربران در فضاهای خبری را تسهیل میکند. با رشد سریع و روزافزون اخبار برخط، نیاز به ایجاد موتورهای جستجو برای بازیابی رویدادهای خبری به منظور تسهیل جستجوی کاربران در این فضاهای خبری بیش از پیش احساس میشود. فرض اصلی تشخیص رویداد بر این است که به احتمال زیاد کلمات مرتبط به یک رویداد یکسان در دنیای واقعی، در اسناد و پنجرههای زمانی مشابه ظاهر میشوند. بر همین اساس ما در این تحقیق روشی گذشتهنگر و ویژگیمحور پیشنهاد میکنیم که کلمات را بر اساس ویژگیهای معنایی و زمانی گروهبندی میکند. سپس از این کلمات برای تولید یک بازه زمانی و توصیف متنی قابل درک برای انسان استفاده میکنیم. ارائه یک معماری مناسب و استفاده مؤثر از خوشهبندی جهت بازیابی رویدادها و همچنین تشخیص مناسب زمان رویداد، از نوآوریهای این پژوهش به شمار میروند. روش پیشنهادی روی مجموعه داده AllTheNews که تقریباً شامل دویست هزار مقاله از ۱۵ منبع خبری در سال 2016 میباشد ارزیابی شده و با روشهای دیگر مقایسه گردیده است. ارزیابیها نشان میدهد که روش پیشنهادی در دو معیار دقت و یادآوری نسبت به روشهای پیشین عملکرد بهتری دارد. پرونده مقاله -
دسترسی آزاد مقاله
6 - بررسی کاربردهای نظریه گراف در بازیابی اطلاعات
مریم پیروزمند امیرحسین کیهانی پور علی معینینظریه گراف بواسطه توانمندی در مدلسازی روابط پیچیده بین عناصر در مسائل مختلف، بصورت گسترده مورد استفاده قرار گرفته است. از سوی دیگر، بازیابی اطلاعات یعنی استخراج اطلاعات مورد نیاز کاربر، به عنوان یکی از مسائل مهم در دنیای الگوریتم و محاسبات مطرح است. با توجه به کارآمدی ر چکیده کاملنظریه گراف بواسطه توانمندی در مدلسازی روابط پیچیده بین عناصر در مسائل مختلف، بصورت گسترده مورد استفاده قرار گرفته است. از سوی دیگر، بازیابی اطلاعات یعنی استخراج اطلاعات مورد نیاز کاربر، به عنوان یکی از مسائل مهم در دنیای الگوریتم و محاسبات مطرح است. با توجه به کارآمدی راهکارهای مبتنی بر گراف در بازیابی اطلاعات، این مقاله، به بررسی تحلیلی و دسته بندی کاربردهای نظریه گراف در بازیابی اطلاعات، می پردازد. این راهکارها در سه دسته کلی، قابل تفکیک هستند؛ دسته نخست، شامل الگوریتمهایی می باشد که در آنها از بازنمایی گرافی دادگان در فرآیند بازیابی اطلاعات، استفاده می شود. دسته دوم پژوهشها، به حل مسئله بازیابی معنایی اطلاعات با استفاده از نظریه گراف می پردازند و نهایتا دسته سوم، مربوط به یادگیری رتبه بندی با استفاده از نظریه گراف است. این سه دسته بصورت جزئی تر در هشت زیردسته، دسته بندی شده اند. همچنین از منظر آماری، پژوهشهای صورت گرفته در هر دسته بر اساس تعداد و سال انتشار، بررسی شده اند. از جمله یافته های این مطالعه، این است که دسته سوم، هم از نظر تعداد پژوهشها و نیز سال انتشار آنها، شاخه نوظهوری محسوب می شود و میتواند حوزه تحقیقاتی جالب توجهی برای محققان محسوب شود. پرونده مقاله -
دسترسی آزاد مقاله
7 - كاربرد بازيابي هوشمند اطلاعات در جستجوي پتنت
حبیب الله اصغری آزاده شاکریدر ارزیابی درخواست ثبت اختراع، جستجو در فهرست اطلاعات قبلی نقشی بسیار مهم و حائز اهمیت دارد. عموما این جستجو توسط افراد خبره انجام می شود و فرآیندی بسیار زمان بر است. جستجو از طریق روشهای مختلف بازیابی هوشمند اطلاعات می تواند نقش موثری در فرآیند بازیابی اطلاعات همسان ای چکیده کاملدر ارزیابی درخواست ثبت اختراع، جستجو در فهرست اطلاعات قبلی نقشی بسیار مهم و حائز اهمیت دارد. عموما این جستجو توسط افراد خبره انجام می شود و فرآیندی بسیار زمان بر است. جستجو از طریق روشهای مختلف بازیابی هوشمند اطلاعات می تواند نقش موثری در فرآیند بازیابی اطلاعات همسان ایفا نماید. یکی از مهمترین مسائل مرتبط با بازیابی اسناد پتنت، ایجاد یک عبارت پرس و جوی کارآمد به منظور جستجو می باشد. از جمله شیوه های ساخت عبارت پرس و جو می توان به تولید خودکار پرس و جو از تقاضانامه ثبت پتنت اشاره نمود. همچنین در روشهای دیگر، از تمامی متن سند پتنت به عنوان پرس و جو جهت اجرای جستجو استفاده می شود. نکته حائز اهمیت آن است که غالبا به دلیل نحوه خاص نگارش اسناد پتنت و ایجاد ابهامات معنایی، گسترش عبارت پرس و جو از اهمیت ویژه ای برخوردار است. در این مقاله مجموعه تحقیقات انجام شده در خصوص بازیابی اسناد پتنت با کمک الگوریتمهای بازیابی هوشمند اطلاعات در هر دو زمینه بازیابی تک زبانی و بین زبانی مورد بررسی قرار می گیرد. همچنین معیارهای ارزیابی کیفیت بازیابی و شیوه مرتب سازی اسناد بررسی می گردد. پرونده مقاله -
دسترسی آزاد مقاله
8 - بررسی کاربردهای نظریه گراف در بازیابی اطلاعات
مریم پیروزمند امیرحسین کیهانی پور علی معینینظریه گراف بواسطه توانمندی در مدلسازی روابط پیچیده بین عناصر در مسائل مختلف، بصورت گسترده مورد استفاده قرار گرفته است. از سوی دیگر، بازیابی اطلاعات یعنی استخراج اطلاعات مورد نیاز کاربر، به عنوان یکی از مسائل مهم در دنیای الگوریتم و محاسبات مطرح است. با توجه به کارآمدی ر چکیده کاملنظریه گراف بواسطه توانمندی در مدلسازی روابط پیچیده بین عناصر در مسائل مختلف، بصورت گسترده مورد استفاده قرار گرفته است. از سوی دیگر، بازیابی اطلاعات یعنی استخراج اطلاعات مورد نیاز کاربر، به عنوان یکی از مسائل مهم در دنیای الگوریتم و محاسبات مطرح است. با توجه به کارآمدی راهکارهای مبتنی بر گراف در بازیابی اطلاعات، این مقاله، به بررسی تحلیلی و دستهبندی کاربردهای نظریه گراف در بازیابی اطلاعات، میپردازد. این راهکارها در سه دسته کلی، قابل تفکیک هستند؛ دسته نخست، شامل الگوریتمهایی میباشد که در آنها از بازنمایی گرافی دادگان در فرآیند بازیابی اطلاعات، استفاده میشود. دسته دوم پژوهشها، به حل مسئله بازیابی معنایی اطلاعات با استفاده از نظریه گراف میپردازند و نهایتا دسته سوم، مربوط به یادگیری رتبهبندی با استفاده از نظریه گراف است. این سه دسته بصورت جزئیتر در هشت زیردسته، دستهبندی شدهاند. همچنین از منظر آماری، پژوهشهای صورت گرفته در هر دسته بر اساس تعداد و سال انتشار، بررسی شدهاند. از جمله یافتههای این مطالعه، این است که دسته سوم، هم از نظر تعداد پژوهشها و نیز سال انتشار آنها، شاخه نوظهوری محسوب میشود و میتواند حوزه تحقیقاتی جالب توجهی برای محققان محسوب شود. پرونده مقاله