• فهرس المقالات Search Engine

      • حرية الوصول المقاله

        1 - Automatic Construction of Domain Ontology Using Wikipedia and Enhancing it by Google Search Engine
        Sedigheh  Khalatbari
        The foundation of the Semantic Web are ontologies. Ontologies play the main role in the exchange of information and development of the Lexical Web to the Semantic Web. Manual construction of ontologies is time-consuming, expensive, and dependent on the knowledge of doma أکثر
        The foundation of the Semantic Web are ontologies. Ontologies play the main role in the exchange of information and development of the Lexical Web to the Semantic Web. Manual construction of ontologies is time-consuming, expensive, and dependent on the knowledge of domain engineers. Also, Ontologies that have been extracted automatically from corpus on the Web might have incomplete information. The main objective of this study is describing a method to improve and expand the information of the ontologies. Therefore, this study first discusses the automatic construction of prototype ontology in animals’ domain from Wikipedia and then a method is presented to improve the built ontology. The proposed method of improving ontology expands ontology concepts through Bootstrapping methods using a set of concepts and relations in initial ontology and with the help of the Google search engine. A confidence measure was considered to choose the best option from the returned results by Google. Finally, the experiments showed the information that was obtained using the proposed method is twice more than the information that was obtained at the stage of automatic construction of ontology from Wikipedia. تفاصيل المقالة
      • حرية الوصول المقاله

        2 - Effective solving the One-Two Gap Problem in the PageRank algorithm
        Javad Paksima Homa Khajeh
        One of the criteria for search engines to determine the popularity of pages is an analysis of links in the web graph, and various methods have already been presented in this regard. The PageRank algorithm is the oldest web page ranking methods based on web graph and is أکثر
        One of the criteria for search engines to determine the popularity of pages is an analysis of links in the web graph, and various methods have already been presented in this regard. The PageRank algorithm is the oldest web page ranking methods based on web graph and is still used as one of the important factors of web pages on Google. Since the invention of this method, several bugs have been published and solutions have been proposed to correct them. The most important problem that is most noticed is pages without an out link or so-called suspended pages. In web graph analysis, we noticed another problem that occurs on some pages at the out degree of one, and the problem is that under conditions, the linked page score is more than the home page. This problem can generate unrealistic scores for pages, and the link chain can invalidate the web graph. In this paper, this problem has been investigated under the title "One-Two Gap", and a solution has been proposed to it. Experimental results show that fixing of the One-Two gap problem using the proposed solution. Test standard benchmark dataset, TREC2003, is applied to evaluate the proposed method. The experimental results show that our proposed method outperforms PageRank method theoretically and experimentally in the term of precision, accuracy, and sensitivity with such criteria as PD, P@n, NDCG@n, MAP, and Recall. تفاصيل المقالة
      • حرية الوصول المقاله

        3 - Effective Query Recommendation with Medoid-based Clustering using a Combination of Query, Click and Result Features
        Elham Esmaeeli-Gohari Sajjad Zarifzadeh
        Query recommendation is now an inseparable part of web search engines. The goal of query recommendation is to help users find their intended information by suggesting similar queries that better reflect their information needs. The existing approaches often consider the أکثر
        Query recommendation is now an inseparable part of web search engines. The goal of query recommendation is to help users find their intended information by suggesting similar queries that better reflect their information needs. The existing approaches often consider the similarity between queries from one aspect (e.g., similarity with respect to query text or search result) and do not take into account different lexical, syntactic and semantic templates exist in relevant queries. In this paper, we propose a novel query recommendation method that uses a comprehensive set of features to find similar queries. We combine query text and search result features with bipartite graph modeling of user clicks to measure the similarity between queries. Our method is composed of two separate offline (training) and online (test) phases. In the offline phase, it employs an efficient k-medoids algorithm to cluster queries with a tolerable processing and memory overhead. In the online phase, we devise a randomized nearest neighbor algorithm for identifying most similar queries with a low response-time. Our evaluation results on two separate datasets from AOL and Parsijoo search engines show the superiority of the proposed method in improving the precision of query recommendation, e.g., by more than 20% in terms of p@10, compared with some well-known algorithms. تفاصيل المقالة
      • حرية الوصول المقاله

        4 - مدل اثرگذاري طرح جويشگر بومي بر توسعه پايدار بر اساس شاخص هاي پايداري
        محمد آزادنيا شمس السادات زاهدي عبدالرضا مجدالدين محمد رضا  پورعابدي
        در اين مطالعه ابتدا به معرفي توسعه پايدار و شاخص هاي پايداري پرداخته شده است. پس از آن طرح جويشگر بومي، دستاوردها و پروژه هاي آن تشريح گرديده اند. انجام طرح جويشگر مجموعه اي از دستاوردهای خرد و كلان را به دنبال دارد. توسعه پايدار بر عدالت درون و بين نسلي و استفاده از أکثر
        در اين مطالعه ابتدا به معرفي توسعه پايدار و شاخص هاي پايداري پرداخته شده است. پس از آن طرح جويشگر بومي، دستاوردها و پروژه هاي آن تشريح گرديده اند. انجام طرح جويشگر مجموعه اي از دستاوردهای خرد و كلان را به دنبال دارد. توسعه پايدار بر عدالت درون و بين نسلي و استفاده از منابع به نحوي كه محیط زیست براي نسل‌های کنونی و آینده حفظ شود و بهبود يابد توجه دارد. اين توسعه در ابتدا به محيط زيست و بعدها به اقتصاد، اجتماع، سياست و برخي موارد ديگر تاكيد نموده است. طرح جویشگر با توسعه مجموعه اي از ابزارها در صدد ارائه خدمات متنوع و جذب بیشتر کاربران و تاثیر در زندگی آنها مي باشد تا از طریق تعامل با آنان در رایا فضا ضمن کسب درآمدهای بالا، موجبات تغییر سبک زندگی ايشان را فراهم آورد. ارائه خدمات جويش نياز به مراحلي همچون خزش در وب، جمع‌آوري اطلاعات، دسته‌بندي و شاخص گذاري، ذخيره‌سازي، بازيابي و ... است. در اين مقاله به بررسي و شناخت اثرات اجراي طرح جويشگر بومي بر ابعاد مختلف توسعه پايدار پرداخته شده است. براي اندازه گيري اين اثرات، شاخص هاي پايداري كه توسط نهادهاي معتبر بین المللی مطرح گرديده است، بكار گرفته شد و نقاط نظر متخصصين اين حوزه از طريق مصاحبه و پرسشنامه براي تعيين نحوه اثرگذاري مورد استفاده قرار گرفت. در نهايت مدل تحليلي اثرات اجرای طرح جویشگر بر توسعه پايدار و ابعاد آن ارايه گرديد. تفاصيل المقالة
      • حرية الوصول المقاله

        5 - قطعه‌بندی عبارات متون فارسی با استفاده از شبکه‌های عصبی
        محمدمهدی میردامادی علی‌محمد زارع بیدکی مهدی رضائیان
        قطعه‌بندی کلمات و عبارات متن، یکی از فعالیت‌های اصلی در حوزه پردازش زبان‌های طبیعی است. اکثر برنامه‌های پردازش زبان‌های طبیعی به یک پیش‌پردازش برای استخراج کلمات متن و تشخیص عبارات احتیاج دارند. هدف اصلی و نهایی قطعه‌بندی عبارات، به دست آوردن کلمات معنی‌دار همراه با پیش أکثر
        قطعه‌بندی کلمات و عبارات متن، یکی از فعالیت‌های اصلی در حوزه پردازش زبان‌های طبیعی است. اکثر برنامه‌های پردازش زبان‌های طبیعی به یک پیش‌پردازش برای استخراج کلمات متن و تشخیص عبارات احتیاج دارند. هدف اصلی و نهایی قطعه‌بندی عبارات، به دست آوردن کلمات معنی‌دار همراه با پیشوندها و پسوندهایشان است و این فعالیت متناسب با زبان‌های طبیعی مختلف می‌تواند سخت یا آسان باشد. در زبان فارسی به علت وجود فاصله و نیم‌فاصله، عدم توجه کاربران به فاصله‌گذاری‌ها و نبود قواعد دقیق در نوشتن کلمات چندقسمتی، تشخیص و قطعه‌بندی کلمات چندقسمتی و مرکب با مشکلات و پیچیدگی‌های خاص خود روبه‌رو است. در این مقاله برآنیم تا با استفاده از شبکه‌های عصبی، یک روش آماری برای قطعه‌بندی عبارات متون فارسی جهت استفاده در موتورهای جستجو ارائه کنیم. الگوریتم پیشنهادی شامل 4 فاز است که با استفاده از احتمال رخداد تک‌کلمات و دوکلمه‌ای‌های موجود در پیکره و با دقت 6/89% عمل قطعه‌‌بندی را انجام می‌دهد. نتایج آزمایشات نشان دادند این روش می‌تواند با قطعه‌بندی بهتر عبارات، بهبود نسبی در کارایی روش‌های معمول به وجود آورد. تفاصيل المقالة
      • حرية الوصول المقاله

        6 - افزایش سرعت جستجو در مدل‌‌های مبتنی بر مجاورت
        جواد پاک‌سيما علي‌محمد زارع بيدكي ولي درهمي
        یکی از اصلی‌‌ترین چالش‌‌های مدل‌‌های مبتنی بر مجاورت مسأله سرعت بازیابی اطلاعات می‌‌باشد. در مدل‌‌های مبتنی بر مجاورت مفهومی به نام فاصله تعریف می‌‌شود که برای محاسبه آن باید موقعیت کلمات پرس و جو در سند استخراج شود. این موضوع یعنی استخراج موقعیت‌‌ها و محاسبه فاصله‌‌ها أکثر
        یکی از اصلی‌‌ترین چالش‌‌های مدل‌‌های مبتنی بر مجاورت مسأله سرعت بازیابی اطلاعات می‌‌باشد. در مدل‌‌های مبتنی بر مجاورت مفهومی به نام فاصله تعریف می‌‌شود که برای محاسبه آن باید موقعیت کلمات پرس و جو در سند استخراج شود. این موضوع یعنی استخراج موقعیت‌‌ها و محاسبه فاصله‌‌ها فرایندی زمان‌‌بر است و چون غالباً در زمان جستجو اجرا می‌‌شود از دید کاربر اهمیت بیشتری دارد. در صورتی که بتوان تعداد اسناد مورد بررسی را کاهش داد بازیابی سریع‌‌تر می‌‌شود. در این مقاله الگوریتمی به نام 3SNTK برای هرس‌کردن پویای اسناد در موقع جستجوی عبارت ارائه گردیده است. برای اجتناب از تخصیص بیش از حد حافظه و کاهش ریسک بروز خطا در موقع بازیابی، امتیاز تعدادی از اسناد بدون هیچ گونه هرسی محاسبه می‌‌شود (Skip-N). در این الگوریتم از سه هرم حداقل برای استخراج اسناد دارای بالاترین امتیازها استفاده شده و آزمایش‌‌ها نشان می‌‌دهد که استفاده از الگوریتم‌‌ ‌‌پیشنهادی باعث بهبود سرعت بازیابی می‌‌گردد. تفاصيل المقالة
      • حرية الوصول المقاله

        7 - توزیع مؤثر اسناد برای ایجاد توازن بار بین سرورها با استفاده از شمارش رخداد کلمات در سابقه پرس‌وجوها
        سیده ریحانه تراب جهرمی سجاد ظریف زاده
        هدف اصلی موتورهای جستجو، یافتن مرتبط‌ترین نتایج نسبت به پرس‌وجوی کاربر در سریع‌ترین زمان ممکن است. صفحات خزش‌شده توسط موتور جستجو بین سرورهای متعددی توزیع می‌شوند تا در هنگام جستجو بتوان از قدرت بازیابی و پردازش موازی آنها برای تولید سریع‌تر پاسخ استفاده نمود. با توجه ب أکثر
        هدف اصلی موتورهای جستجو، یافتن مرتبط‌ترین نتایج نسبت به پرس‌وجوی کاربر در سریع‌ترین زمان ممکن است. صفحات خزش‌شده توسط موتور جستجو بین سرورهای متعددی توزیع می‌شوند تا در هنگام جستجو بتوان از قدرت بازیابی و پردازش موازی آنها برای تولید سریع‌تر پاسخ استفاده نمود. با توجه به تعداد بسیار زیاد صفحات وب، موتورهای جستجو سیاست‌های مختلفی را برای توزیع مناسب اسناد بین سرورها انتخاب می‌کنند. در این مقاله، روش جدیدی برای توزیع اسناد پیشنهاد می‌شود که هدف آن ایجاد توازن بار کاری بین سرورها برای کاهش زمان پاسخ‌گویی موتور جستجو می‌باشد. ایده اصلی، استفاده از پرس‌وجوهای قبلی کاربران است بدین ترتیب که به هر کلمه از کلمات موجود در سابقه پرس‌وجو بر حسب تعداد رخداد روزانه آن، وزنی نسبت داده می‌شود. سپس هر سند با توجه به مجموع وزن کلمات داخل آن، وزن‌دهی می‌شود که این وزن ارتباط مستقیمی با احتمال انتخاب آن سند به عنوان پاسخ یک پرس‌وجو دارد. در نهایت، اسناد به نحوی بین سرورها توزیع می‌شوند که وزن اسناد داخل هر یک از سرورها برابر باشد. نتایج ارزیابی با استفاده از داده واقعی نشان می‌دهند که روش پیشنهادی قادر است توازن بار سرورها را مخصوصاً در زمان اوج ورود پرس‌وجوها بیش از 20% نسبت به روش‌های گذشته بهبود بخشد. تفاصيل المقالة
      • حرية الوصول المقاله

        8 - ارائه یک موتور جستجو برای بازیابی رویداد ساختارمند از منابع خبری
        علیرضا میرزائیان صادق علی اکبری
        تحلیل محتوای اخبار منتشرشده، یکی از مسایل مهم در حوزه بازیابی اطلاعات است. امروزه تحقیقات زیادی برای تحلیل تک‌تک مقالات خبری انجام شده‌ است، در حالی که اکثر رویدادهای خبری به شکل چندین مقاله مرتبط به هم به طور مکرر در رسانه‌ها منتشر می‌شوند. تشخیص رویداد، وظیفه کشف و گر أکثر
        تحلیل محتوای اخبار منتشرشده، یکی از مسایل مهم در حوزه بازیابی اطلاعات است. امروزه تحقیقات زیادی برای تحلیل تک‌تک مقالات خبری انجام شده‌ است، در حالی که اکثر رویدادهای خبری به شکل چندین مقاله مرتبط به هم به طور مکرر در رسانه‌ها منتشر می‌شوند. تشخیص رویداد، وظیفه کشف و گروه‌بندی اسنادی را دارد که رویدادی یکسان را شرح می‌دهد و با ارائه یک ساختار قابل درک از گزارش‌های خبری، هدایت بهتر کاربران در فضاهای خبری را تسهیل می‌کند. با رشد سریع و روزافزون اخبار برخط، نیاز به ایجاد موتورهای جستجو برای بازیابی رویدادهای خبری به منظور تسهیل جستجوی کاربران در این فضاهای خبری بیش از پیش احساس می‌شود. فرض اصلی تشخیص رویداد بر این است که به احتمال زیاد کلمات مرتبط به یک رویداد یکسان در دنیای واقعی، در اسناد و پنجره‌های زمانی مشابه ظاهر می‌شوند. بر همین اساس ما در این تحقیق روشی گذشته‌نگر و ویژگی‌محور پیشنهاد می‌کنیم که کلمات را بر اساس ویژگی‌های معنایی و زمانی گروه‌بندی می‌کند. سپس از این کلمات برای تولید یک بازه زمانی و توصیف متنی قابل درک برای انسان استفاده می‌کنیم. ارائه یک معماری مناسب و استفاده مؤثر از خوشه‌بندی جهت بازیابی رویدادها و همچنین تشخیص مناسب زمان رویداد، از نوآوری‌های این پژوهش به شمار می‌روند. روش پیشنهادی روی مجموعه داده AllTheNews که تقریباً شامل دویست هزار مقاله از ۱۵ منبع خبری در سال 2016 می‌باشد ارزیابی شده و با روش‌های دیگر مقایسه گردیده است. ارزیابی‌ها نشان می‌دهد که روش پیشنهادی در دو معیار دقت و یادآوری نسبت به روش‌های پیشین عملکرد بهتری دارد. تفاصيل المقالة