• فهرس المقالات Similarity

      • حرية الوصول المقاله

        1 - بهبود کارائی و دقت یافتن یال‌های پرتکرار در خلاصه سازی gMatrix از جریان گراف
        مسعود  کاظمی سید حسین خواسته حمیدرضا  رخصتی
        در سیستم‌های کاربردی، گراف‌ها با دامنه وسیعی از راس‌ها وجود دارند و یال‌ها به سرعت زیادی در قالب جریان گراف تولید می‌شوند. یکی از مسائل موجود در جریان‌های گراف سنگین که به صورت لحظه‌ای وارد می‌شوند پیدا کردن زیرگراف‌های پرتکرار است. خلاصه‌های جریان مبتنی بر طرح، مانند c أکثر
        در سیستم‌های کاربردی، گراف‌ها با دامنه وسیعی از راس‌ها وجود دارند و یال‌ها به سرعت زیادی در قالب جریان گراف تولید می‌شوند. یکی از مسائل موجود در جریان‌های گراف سنگین که به صورت لحظه‌ای وارد می‌شوند پیدا کردن زیرگراف‌های پرتکرار است. خلاصه‌های جریان مبتنی بر طرح، مانند count-min، اطلاعات گره‌های پرتکرار را با دقت قابل قبولی نگهداری می‌کنند ولی ساختار گراف اصلی را از دست می‌دهند. از بین این روش‌ها، gMatrix ساختاری می‌باشد که مشخصات گراف اصلی را نیز حفظ می‌کند. این روش از توابع درهم‌ساز مختلف، برای ذخیره‌ی خلاصه‌ی جریان گراف استفاده کرده و به کمک این توابع و معکوس آنها، زیرگراف‌های پرتکرار را به‌دست می‌آورد. به دلیل داشتن حجم کمتر از جریان اصلی، gMatrix معمولا به پرس و جوها با دقت بالایی پاسخ نمی‌دهد. همچنین این روش از مشکل مرتبه‌ی زمانیِ بالا در پاسخ به پرس‌ و جو‌‌ها هم رنج می‌برد. در این مقاله روش جدیدی ارائه شده است که به ازای هزینه‌ی کمِ حافظه‌ی مصرفی، زمان پاسخگویی به پرس و جو زیرگراف پرتکرار را به صورت چشم‌گیری کاهش می‌دهد. همچنین الگوریتم ارایه شده با افزایش استقلال بین توابع در هم سازی با استفاده از روش شباهت برداری کُساین، احتمال برخورد عناصر در هم سازی شده را کاهش می‌دهد. نتایج آزمایشات تجربی که به زبان C++ پیاده‌سازی شده است و بر روی داده‌های شبکه اجتماعی فرندستر اجرا شده است، نشان می‌دهد که روش پیشنهادی برای یافتن زیرگراف‌های پرتکرار پیچیدگی زمانی و دقت یافتن این زیر گراف‌ها را بهبود می‌بخشد. تفاصيل المقالة
      • حرية الوصول المقاله

        2 - A Persian Fuzzy Plagiarism Detection Approach
        Shima Rakian Faramarz Safi Esfahani Hamid Rastegari
        Plagiarism is one of the common problems that is present in all organizations that deal with electronic content. At present, plagiarism detection tools, only detect word by word or exact copy phrases and paraphrasing is often mixed. One of the successful and applicable أکثر
        Plagiarism is one of the common problems that is present in all organizations that deal with electronic content. At present, plagiarism detection tools, only detect word by word or exact copy phrases and paraphrasing is often mixed. One of the successful and applicable methods in paraphrasing detection is fuzzy method. In this study, a new fuzzy approach has been proposed to detect external plagiarism in Persian texts which is called Persian Fuzzy Plagiarism Detection (PFPD). The proposed approach compares paraphrased texts with the aim to recognize text similarities. External plagiarism detection, evaluates through a comparison between query document and a document collection. To avoid un-necessary comparisons this tool employs intelligent technology for comparing, suspicious documents, in different levels hierarchically. This method intends to conformed Fuzzy model to Persian language and improves previous methods to evaluate similarity degree between two sentences. Experiments on three corpora TMC, Irandoc and extracted corpus from prozhe.com, are performed to get confidence on proposed method performance. The obtained results showed that using proposed method in candidate documents retrieval, and in evaluating text similarity, increases the precision, recall and F measurement in comparing with one of the best previous fuzzy methods, respectively 22.41, 17.61, and 18.54 percent on the average. تفاصيل المقالة
      • حرية الوصول المقاله

        3 - A fuzzy approach for ambiguity reducing in text similarity estimation (case study: Persian web contents)
        حمید آهنگربهان غلامعلی منتظر
        Finding similar web contents have great efficiency in academic community and software systems. There are many methods and metrics in literature to measure the extent of text similarity among various documents and some its application especially in plagiarism detection s أکثر
        Finding similar web contents have great efficiency in academic community and software systems. There are many methods and metrics in literature to measure the extent of text similarity among various documents and some its application especially in plagiarism detection systems. However, most of them do not take ambiguity inherent in word or text pair’s comparison as well as structural features into account. As a result, pervious methods did not have enough accuracy to deal vague information. So using structural features and considering ambiguity inherent word improve the identification of similar contents. In this paper, a new method has been proposed that taking lexical and structural features in text similarity measures into consideration. After preprocessing and removing stopwords, each text was divided into general words and domain-specific knowledge words. Then, the two lexical and structural fuzzy inference systems were designed to assess lexical and structural text similarity. The proposed method has been evaluated on Persian paper abstracts of International Conference on e-Learning and e-Teaching (ICELET) Corpus. The results shows that the proposed method can achieve a rate of 75% in terms of precision and can detect 81% of the similar cases. تفاصيل المقالة
      • حرية الوصول المقاله

        4 - De-lurking in Online Communities Using Repost Behavior Prediction Method
        Omid R. B. Speily
        Nowadays, with the advent of social networks, a big change has occurred in the structure of web-based services. Online community (OC) enable their users to access different type of Information, through the internet based structure anywhere any time. OC services are am أکثر
        Nowadays, with the advent of social networks, a big change has occurred in the structure of web-based services. Online community (OC) enable their users to access different type of Information, through the internet based structure anywhere any time. OC services are among the strategies used for production and repost of information by users interested in a specific area. In this respect, users become members in a particular domain at will and begin posting. Considering the networking structure, one of the major challenges these groups face is the lack of reposting behavior. Most users of these systems take up a lurking position toward the posts in the forum. De-lurking is a type of social media behavior where a user breaks an "online silence" or habit of passive thread viewing to engage in a virtual conversation. One of the proposed ways to improve De-Lurking is the selection and display of influential posts for each individual. Influential posts are so selected as to be more likely reposted by users based on each user's interests, knowledge and characteristics. The present article intends to introduce a new method for selecting k influential posts to ensure increased repost of information. In terms of participation in OCs, users are divided into two groups of posters and lurkers. Some solutions are proposed to encourage lurking users to participate in reposting the contents. Based on actual data from Twitter and actual blogs with respect to reposts, the assessments indicate the effectiveness of the proposed method. تفاصيل المقالة
      • حرية الوصول المقاله

        5 - DBCACF: A Multidimensional Method for Tourist Recommendation Based on Users’ Demographic, Context and Feedback
        Maral  Kolahkaj Ali Harounabadi Alireza Nikravan shalmani Rahim Chinipardaz
        By the advent of some applications in the web 2.0 such as social networks which allow the users to share media, many opportunities have been provided for the tourists to recognize and visit attractive and unfamiliar Areas-of-Interest (AOIs). However, finding the appropr أکثر
        By the advent of some applications in the web 2.0 such as social networks which allow the users to share media, many opportunities have been provided for the tourists to recognize and visit attractive and unfamiliar Areas-of-Interest (AOIs). However, finding the appropriate areas based on user’s preferences is very difficult due to some issues such as huge amount of tourist areas, the limitation of the visiting time, and etc. In addition, the available methods have yet failed to provide accurate tourist’s recommendations based on geo-tagged media because of some problems such as data sparsity, cold start problem, considering two users with different habits as the same (symmetric similarity), and ignoring user’s personal and context information. Therefore, in this paper, a method called “Demographic-Based Context-Aware Collaborative Filtering” (DBCACF) is proposed to investigate the mentioned problems and to develop the Collaborative Filtering (CF) method with providing personalized tourist’s recommendations without users’ explicit requests. DBCACF considers demographic and contextual information in combination with the users' historical visits to overcome the limitations of CF methods in dealing with multi- dimensional data. In addition, a new asymmetric similarity measure is proposed in order to overcome the limitations of symmetric similarity methods. The experimental results on Flickr dataset indicated that the use of demographic and contextual information and the addition of proposed asymmetric scheme to the similarity measure could significantly improve the obtained results compared to other methods which used only user-item ratings and symmetric measures. تفاصيل المقالة
      • حرية الوصول المقاله

        6 - اندازه¬گیری میزان تشابه مسیرهای جهت¬دار بر روی داده¬های هندسی
        محمد فرشی زینب سعیدی
        در این مقاله به بررسی مسئله تشابه زیر در حوزه فاصله فرشه می پردازیم. یک مسیر جهت‌دار به عنوان ورودی و یک پاره‌خط افقی که در لحظه پرس‌و‌جو توسط کاربر ارائه می‌شود، داده شده اند، هدف پیش‌پردازش و ذخیره مسیر جهت‌دار در یک ساختمان داده است به طوری که با توجه به اطلاعا أکثر
        در این مقاله به بررسی مسئله تشابه زیر در حوزه فاصله فرشه می پردازیم. یک مسیر جهت‌دار به عنوان ورودی و یک پاره‌خط افقی که در لحظه پرس‌و‌جو توسط کاربر ارائه می‌شود، داده شده اند، هدف پیش‌پردازش و ذخیره مسیر جهت‌دار در یک ساختمان داده است به طوری که با توجه به اطلاعات ذخیره شده در ساختمان داده بتوان زیرمسیری از مسیر جهت‌دار را گزارش کرد که فاصله فرشه میان زیرمسیر گزارش‌شده و پاره‌خط افقی بین تمام زیرمسیرهای ممکن مینیمم باشد. تا آنجایی که ما اطلاع داریم هیچ‌گونه نتیجه تئوری برای این مسئله گزارش نشده است. در این مقاله اولین الگوریتم ابتکاری برای مسئله ارائه شده است و به دلیل عدم ارائه الگوریتمی برای حل این مسئله در گذشته، صرفاً کیفیت الگوریتم ارائه شده بر روی چند پایگاه داده بررسی می‌گردد. تفاصيل المقالة
      • حرية الوصول المقاله

        7 - جاودانگی قرآن و ارتباط آن با نخستین مفسران قرآن (اهل بیت علیهم السلام)
        مریم  اسحاق زاده سید محمد  نورالهی
        از دیگر ویژگی های عام و فراگیرقران جاودانگی آن است، قرآن درعین حال که دارای اصولی ثابت ولایتغیر است، همگام با زمان وجلوتر ار آن پیش می رود؛ ودر هرعصر ونسل وحقایقی جدید و بِکر ودست نخورده ازان کشف می شود مامعتقدیم «جاودانگی» محور مناسبی برای پیوند این دسته از ویژگی های ق أکثر
        از دیگر ویژگی های عام و فراگیرقران جاودانگی آن است، قرآن درعین حال که دارای اصولی ثابت ولایتغیر است، همگام با زمان وجلوتر ار آن پیش می رود؛ ودر هرعصر ونسل وحقایقی جدید و بِکر ودست نخورده ازان کشف می شود مامعتقدیم «جاودانگی» محور مناسبی برای پیوند این دسته از ویژگی های قرآن است. به ویژه آن که، اصول ورهنمودهای تفصیری قابل توجهی از اهل بیت این است که قرآن بیان گر خطوط کلی واصول اساسی است.و از مباحث مهم که تقریبا در تمام کتب تفسیر وعلوم قرآنی ، از دیدگاه های مختلف مورد بررسی قرار گرفته است مسئله متشابهات است که در اینجا از زاویه جاودانگی قرآن به آن پرداخته می شود. به طور قطع بخشی از متشابهات ناشی از قصور الفاظ در بیان معانی ژرف و عمیق قرآنی است .وهرکس متشابه قرآن را به محکم رد کند به صراز مستقیم هدایت شده است از دیگر ویژگی های قرآن که ریشه در جاودانگی قرآن دارد ،بحث ناسخ ومنسوخ است نکته بسیار مهم که در لسان اهل بیت بارها برآن تاکید شده است،بازشناسی ناسخ ومنسوخ است دلیل آن روشن است چرا که باید معلوم باشد که آنچه مطلوب اللهی چیست ؟ واینکه از رهنمود های تفسیری اهل بیت لزوم شناخت دقیق ناسخ ومنسوخ و استفاده به جا از آن تفسیر می باشد. تفاصيل المقالة
      • حرية الوصول المقاله

        8 - بازشناسی مقاوم به نویز ارقام مشابه فارسی مبتنی بر شبکه LSTM و ویژگی های طیفی گفتار
        شیما طبیبیان
        یکی از چالش‌های بازشناسی ارقام مجزای فارسی، مشابهت تلفظ برخی از ارقام مانند "صفر و سه"، "نه و دو" و "پنج، هفت و هشت" می‌باشد. این چالش منجر به بازشناسی یک رقم به جای رقم مشابه شده و دقت بازشناسی را کاهش می‌دهد. در این مقاله، یک راهکار ترکیبی مبتنی بر حافظه کوتاه‌مدت مان أکثر
        یکی از چالش‌های بازشناسی ارقام مجزای فارسی، مشابهت تلفظ برخی از ارقام مانند "صفر و سه"، "نه و دو" و "پنج، هفت و هشت" می‌باشد. این چالش منجر به بازشناسی یک رقم به جای رقم مشابه شده و دقت بازشناسی را کاهش می‌دهد. در این مقاله، یک راهکار ترکیبی مبتنی بر حافظه کوتاه‌مدت ماندگار (LSTM) و مدل مخفی مارکف (HMM) برای رفع چالش مذکور ارائه شده که نرخ بازشناسی ارقام فارسی مبتنی بر HMM را به طور متوسط 2% و در بهترین حالت 8% بهبود داده است. با توجه به تشدید چالش بازشناسی ارقام مشابه فارسی در شرایط نویزی، در ادامه کار مقاوم‌سازی بازشناسی ارقام مشابه فارسی مورد توجه قرار گرفت. به منظور افزایش مقاومت بازشناس مبتنی بر LSTM، از ویژگی‌های مقاوم به نویز مستخرج از طیف گفتار مانند آنتروپی طیفی، درجه از هم پاشی، فرکانس نیمساز، همواری طیفی، فرمانت اول و نرخ گذار از صفر مبتنی بر تابع همبستگی استفاده گردید. استفاده از این ویژگی‌ها، ضمن کاهش تعداد ویژگی‌ها برای بازشناسی ارقام مشابه فارسی از 39 ضریب به حداکثر 4 و حداقل 1 ضریب، به طور متوسط به ترتیب بهبود 10، 13، 15 و 13 درصدی مقاومت بازشناس ارقام مشابه را در شرایط متنوع نویزی (30 حالت مختلف حاصل از پنج نوع نویز سفید، صورتی، همهمه، کارخانه و ماشین و شش نسبت سیگنال به نویز 5-، 0، 5، 10، 15 و 20 دسی‌بل) در مقایسه با بازشناس‌های مبتنی بر HMM، LSTM، شبکه باور عمیق با ویژگی‌های مل کپستروم و شبکه عصبی کانولوشنی با ویژگی‌های مل اسپکتوگرام به همراه دارد. تفاصيل المقالة