-
حرية الوصول المقاله
1 - Automatic Construction of Domain Ontology Using Wikipedia and Enhancing it by Google Search Engine
Sedigheh KhalatbariThe foundation of the Semantic Web are ontologies. Ontologies play the main role in the exchange of information and development of the Lexical Web to the Semantic Web. Manual construction of ontologies is time-consuming, expensive, and dependent on the knowledge of doma أکثرThe foundation of the Semantic Web are ontologies. Ontologies play the main role in the exchange of information and development of the Lexical Web to the Semantic Web. Manual construction of ontologies is time-consuming, expensive, and dependent on the knowledge of domain engineers. Also, Ontologies that have been extracted automatically from corpus on the Web might have incomplete information. The main objective of this study is describing a method to improve and expand the information of the ontologies. Therefore, this study first discusses the automatic construction of prototype ontology in animals’ domain from Wikipedia and then a method is presented to improve the built ontology. The proposed method of improving ontology expands ontology concepts through Bootstrapping methods using a set of concepts and relations in initial ontology and with the help of the Google search engine. A confidence measure was considered to choose the best option from the returned results by Google. Finally, the experiments showed the information that was obtained using the proposed method is twice more than the information that was obtained at the stage of automatic construction of ontology from Wikipedia. تفاصيل المقالة -
حرية الوصول المقاله
2 - Effective solving the One-Two Gap Problem in the PageRank algorithm
Javad Paksima Homa KhajehOne of the criteria for search engines to determine the popularity of pages is an analysis of links in the web graph, and various methods have already been presented in this regard. The PageRank algorithm is the oldest web page ranking methods based on web graph and is أکثرOne of the criteria for search engines to determine the popularity of pages is an analysis of links in the web graph, and various methods have already been presented in this regard. The PageRank algorithm is the oldest web page ranking methods based on web graph and is still used as one of the important factors of web pages on Google. Since the invention of this method, several bugs have been published and solutions have been proposed to correct them. The most important problem that is most noticed is pages without an out link or so-called suspended pages. In web graph analysis, we noticed another problem that occurs on some pages at the out degree of one, and the problem is that under conditions, the linked page score is more than the home page. This problem can generate unrealistic scores for pages, and the link chain can invalidate the web graph. In this paper, this problem has been investigated under the title "One-Two Gap", and a solution has been proposed to it. Experimental results show that fixing of the One-Two gap problem using the proposed solution. Test standard benchmark dataset, TREC2003, is applied to evaluate the proposed method. The experimental results show that our proposed method outperforms PageRank method theoretically and experimentally in the term of precision, accuracy, and sensitivity with such criteria as PD, P@n, NDCG@n, MAP, and Recall. تفاصيل المقالة -
حرية الوصول المقاله
3 - Effective Query Recommendation with Medoid-based Clustering using a Combination of Query, Click and Result Features
Elham Esmaeeli-Gohari Sajjad ZarifzadehQuery recommendation is now an inseparable part of web search engines. The goal of query recommendation is to help users find their intended information by suggesting similar queries that better reflect their information needs. The existing approaches often consider the أکثرQuery recommendation is now an inseparable part of web search engines. The goal of query recommendation is to help users find their intended information by suggesting similar queries that better reflect their information needs. The existing approaches often consider the similarity between queries from one aspect (e.g., similarity with respect to query text or search result) and do not take into account different lexical, syntactic and semantic templates exist in relevant queries. In this paper, we propose a novel query recommendation method that uses a comprehensive set of features to find similar queries. We combine query text and search result features with bipartite graph modeling of user clicks to measure the similarity between queries. Our method is composed of two separate offline (training) and online (test) phases. In the offline phase, it employs an efficient k-medoids algorithm to cluster queries with a tolerable processing and memory overhead. In the online phase, we devise a randomized nearest neighbor algorithm for identifying most similar queries with a low response-time. Our evaluation results on two separate datasets from AOL and Parsijoo search engines show the superiority of the proposed method in improving the precision of query recommendation, e.g., by more than 20% in terms of p@10, compared with some well-known algorithms. تفاصيل المقالة -
حرية الوصول المقاله
4 - مدل اثرگذاري طرح جويشگر بومي بر توسعه پايدار بر اساس شاخص هاي پايداري
محمد آزادنيا شمس السادات زاهدي عبدالرضا مجدالدين محمد رضا پورعابديدر اين مطالعه ابتدا به معرفي توسعه پايدار و شاخص هاي پايداري پرداخته شده است. پس از آن طرح جويشگر بومي، دستاوردها و پروژه هاي آن تشريح گرديده اند. انجام طرح جويشگر مجموعه اي از دستاوردهای خرد و كلان را به دنبال دارد. توسعه پايدار بر عدالت درون و بين نسلي و استفاده از أکثردر اين مطالعه ابتدا به معرفي توسعه پايدار و شاخص هاي پايداري پرداخته شده است. پس از آن طرح جويشگر بومي، دستاوردها و پروژه هاي آن تشريح گرديده اند. انجام طرح جويشگر مجموعه اي از دستاوردهای خرد و كلان را به دنبال دارد. توسعه پايدار بر عدالت درون و بين نسلي و استفاده از منابع به نحوي كه محیط زیست براي نسلهای کنونی و آینده حفظ شود و بهبود يابد توجه دارد. اين توسعه در ابتدا به محيط زيست و بعدها به اقتصاد، اجتماع، سياست و برخي موارد ديگر تاكيد نموده است. طرح جویشگر با توسعه مجموعه اي از ابزارها در صدد ارائه خدمات متنوع و جذب بیشتر کاربران و تاثیر در زندگی آنها مي باشد تا از طریق تعامل با آنان در رایا فضا ضمن کسب درآمدهای بالا، موجبات تغییر سبک زندگی ايشان را فراهم آورد. ارائه خدمات جويش نياز به مراحلي همچون خزش در وب، جمعآوري اطلاعات، دستهبندي و شاخص گذاري، ذخيرهسازي، بازيابي و ... است. در اين مقاله به بررسي و شناخت اثرات اجراي طرح جويشگر بومي بر ابعاد مختلف توسعه پايدار پرداخته شده است. براي اندازه گيري اين اثرات، شاخص هاي پايداري كه توسط نهادهاي معتبر بین المللی مطرح گرديده است، بكار گرفته شد و نقاط نظر متخصصين اين حوزه از طريق مصاحبه و پرسشنامه براي تعيين نحوه اثرگذاري مورد استفاده قرار گرفت. در نهايت مدل تحليلي اثرات اجرای طرح جویشگر بر توسعه پايدار و ابعاد آن ارايه گرديد. تفاصيل المقالة -
حرية الوصول المقاله
5 - قطعهبندی عبارات متون فارسی با استفاده از شبکههای عصبی
محمدمهدی میردامادی علیمحمد زارع بیدکی مهدی رضائیانقطعهبندی کلمات و عبارات متن، یکی از فعالیتهای اصلی در حوزه پردازش زبانهای طبیعی است. اکثر برنامههای پردازش زبانهای طبیعی به یک پیشپردازش برای استخراج کلمات متن و تشخیص عبارات احتیاج دارند. هدف اصلی و نهایی قطعهبندی عبارات، به دست آوردن کلمات معنیدار همراه با پیش أکثرقطعهبندی کلمات و عبارات متن، یکی از فعالیتهای اصلی در حوزه پردازش زبانهای طبیعی است. اکثر برنامههای پردازش زبانهای طبیعی به یک پیشپردازش برای استخراج کلمات متن و تشخیص عبارات احتیاج دارند. هدف اصلی و نهایی قطعهبندی عبارات، به دست آوردن کلمات معنیدار همراه با پیشوندها و پسوندهایشان است و این فعالیت متناسب با زبانهای طبیعی مختلف میتواند سخت یا آسان باشد. در زبان فارسی به علت وجود فاصله و نیمفاصله، عدم توجه کاربران به فاصلهگذاریها و نبود قواعد دقیق در نوشتن کلمات چندقسمتی، تشخیص و قطعهبندی کلمات چندقسمتی و مرکب با مشکلات و پیچیدگیهای خاص خود روبهرو است. در این مقاله برآنیم تا با استفاده از شبکههای عصبی، یک روش آماری برای قطعهبندی عبارات متون فارسی جهت استفاده در موتورهای جستجو ارائه کنیم. الگوریتم پیشنهادی شامل 4 فاز است که با استفاده از احتمال رخداد تککلمات و دوکلمهایهای موجود در پیکره و با دقت 6/89% عمل قطعهبندی را انجام میدهد. نتایج آزمایشات نشان دادند این روش میتواند با قطعهبندی بهتر عبارات، بهبود نسبی در کارایی روشهای معمول به وجود آورد. تفاصيل المقالة -
حرية الوصول المقاله
6 - افزایش سرعت جستجو در مدلهای مبتنی بر مجاورت
جواد پاکسيما عليمحمد زارع بيدكي ولي درهميیکی از اصلیترین چالشهای مدلهای مبتنی بر مجاورت مسأله سرعت بازیابی اطلاعات میباشد. در مدلهای مبتنی بر مجاورت مفهومی به نام فاصله تعریف میشود که برای محاسبه آن باید موقعیت کلمات پرس و جو در سند استخراج شود. این موضوع یعنی استخراج موقعیتها و محاسبه فاصلهها أکثریکی از اصلیترین چالشهای مدلهای مبتنی بر مجاورت مسأله سرعت بازیابی اطلاعات میباشد. در مدلهای مبتنی بر مجاورت مفهومی به نام فاصله تعریف میشود که برای محاسبه آن باید موقعیت کلمات پرس و جو در سند استخراج شود. این موضوع یعنی استخراج موقعیتها و محاسبه فاصلهها فرایندی زمانبر است و چون غالباً در زمان جستجو اجرا میشود از دید کاربر اهمیت بیشتری دارد. در صورتی که بتوان تعداد اسناد مورد بررسی را کاهش داد بازیابی سریعتر میشود. در این مقاله الگوریتمی به نام 3SNTK برای هرسکردن پویای اسناد در موقع جستجوی عبارت ارائه گردیده است. برای اجتناب از تخصیص بیش از حد حافظه و کاهش ریسک بروز خطا در موقع بازیابی، امتیاز تعدادی از اسناد بدون هیچ گونه هرسی محاسبه میشود (Skip-N). در این الگوریتم از سه هرم حداقل برای استخراج اسناد دارای بالاترین امتیازها استفاده شده و آزمایشها نشان میدهد که استفاده از الگوریتم پیشنهادی باعث بهبود سرعت بازیابی میگردد. تفاصيل المقالة -
حرية الوصول المقاله
7 - توزیع مؤثر اسناد برای ایجاد توازن بار بین سرورها با استفاده از شمارش رخداد کلمات در سابقه پرسوجوها
سیده ریحانه تراب جهرمی سجاد ظریف زادههدف اصلی موتورهای جستجو، یافتن مرتبطترین نتایج نسبت به پرسوجوی کاربر در سریعترین زمان ممکن است. صفحات خزششده توسط موتور جستجو بین سرورهای متعددی توزیع میشوند تا در هنگام جستجو بتوان از قدرت بازیابی و پردازش موازی آنها برای تولید سریعتر پاسخ استفاده نمود. با توجه ب أکثرهدف اصلی موتورهای جستجو، یافتن مرتبطترین نتایج نسبت به پرسوجوی کاربر در سریعترین زمان ممکن است. صفحات خزششده توسط موتور جستجو بین سرورهای متعددی توزیع میشوند تا در هنگام جستجو بتوان از قدرت بازیابی و پردازش موازی آنها برای تولید سریعتر پاسخ استفاده نمود. با توجه به تعداد بسیار زیاد صفحات وب، موتورهای جستجو سیاستهای مختلفی را برای توزیع مناسب اسناد بین سرورها انتخاب میکنند. در این مقاله، روش جدیدی برای توزیع اسناد پیشنهاد میشود که هدف آن ایجاد توازن بار کاری بین سرورها برای کاهش زمان پاسخگویی موتور جستجو میباشد. ایده اصلی، استفاده از پرسوجوهای قبلی کاربران است بدین ترتیب که به هر کلمه از کلمات موجود در سابقه پرسوجو بر حسب تعداد رخداد روزانه آن، وزنی نسبت داده میشود. سپس هر سند با توجه به مجموع وزن کلمات داخل آن، وزندهی میشود که این وزن ارتباط مستقیمی با احتمال انتخاب آن سند به عنوان پاسخ یک پرسوجو دارد. در نهایت، اسناد به نحوی بین سرورها توزیع میشوند که وزن اسناد داخل هر یک از سرورها برابر باشد. نتایج ارزیابی با استفاده از داده واقعی نشان میدهند که روش پیشنهادی قادر است توازن بار سرورها را مخصوصاً در زمان اوج ورود پرسوجوها بیش از 20% نسبت به روشهای گذشته بهبود بخشد. تفاصيل المقالة -
حرية الوصول المقاله
8 - ارائه یک موتور جستجو برای بازیابی رویداد ساختارمند از منابع خبری
علیرضا میرزائیان صادق علی اکبریتحلیل محتوای اخبار منتشرشده، یکی از مسایل مهم در حوزه بازیابی اطلاعات است. امروزه تحقیقات زیادی برای تحلیل تکتک مقالات خبری انجام شده است، در حالی که اکثر رویدادهای خبری به شکل چندین مقاله مرتبط به هم به طور مکرر در رسانهها منتشر میشوند. تشخیص رویداد، وظیفه کشف و گر أکثرتحلیل محتوای اخبار منتشرشده، یکی از مسایل مهم در حوزه بازیابی اطلاعات است. امروزه تحقیقات زیادی برای تحلیل تکتک مقالات خبری انجام شده است، در حالی که اکثر رویدادهای خبری به شکل چندین مقاله مرتبط به هم به طور مکرر در رسانهها منتشر میشوند. تشخیص رویداد، وظیفه کشف و گروهبندی اسنادی را دارد که رویدادی یکسان را شرح میدهد و با ارائه یک ساختار قابل درک از گزارشهای خبری، هدایت بهتر کاربران در فضاهای خبری را تسهیل میکند. با رشد سریع و روزافزون اخبار برخط، نیاز به ایجاد موتورهای جستجو برای بازیابی رویدادهای خبری به منظور تسهیل جستجوی کاربران در این فضاهای خبری بیش از پیش احساس میشود. فرض اصلی تشخیص رویداد بر این است که به احتمال زیاد کلمات مرتبط به یک رویداد یکسان در دنیای واقعی، در اسناد و پنجرههای زمانی مشابه ظاهر میشوند. بر همین اساس ما در این تحقیق روشی گذشتهنگر و ویژگیمحور پیشنهاد میکنیم که کلمات را بر اساس ویژگیهای معنایی و زمانی گروهبندی میکند. سپس از این کلمات برای تولید یک بازه زمانی و توصیف متنی قابل درک برای انسان استفاده میکنیم. ارائه یک معماری مناسب و استفاده مؤثر از خوشهبندی جهت بازیابی رویدادها و همچنین تشخیص مناسب زمان رویداد، از نوآوریهای این پژوهش به شمار میروند. روش پیشنهادی روی مجموعه داده AllTheNews که تقریباً شامل دویست هزار مقاله از ۱۵ منبع خبری در سال 2016 میباشد ارزیابی شده و با روشهای دیگر مقایسه گردیده است. ارزیابیها نشان میدهد که روش پیشنهادی در دو معیار دقت و یادآوری نسبت به روشهای پیشین عملکرد بهتری دارد. تفاصيل المقالة