• فهرست مقالات Text mining

      • دسترسی آزاد مقاله

        1 - ارائه مدلی برای استخراج اطلاعات از مستندات متنی، مبتنی بر متن‌کاوی در حوزه یادگیری الکترونیکی
        سمیه آهاری
        هنگامی‌که شبکه‌های کامپیوتری ستون اصلی علم و اقتصاد شد، حجم زیادی از مستندات در دسترس قرار گرفتند. به همین منظور، برای استخراج اطلاعات مفید از روش‌های متن‌کاوی استفاده می‌شود. متن‌کاوی یک حوزه پژوهشی مهم در کشف اطلاعات ناشناخته، فرضیات، و حقایق جدید به‌وسیله استخراج اطل چکیده کامل
        هنگامی‌که شبکه‌های کامپیوتری ستون اصلی علم و اقتصاد شد، حجم زیادی از مستندات در دسترس قرار گرفتند. به همین منظور، برای استخراج اطلاعات مفید از روش‌های متن‌کاوی استفاده می‌شود. متن‌کاوی یک حوزه پژوهشی مهم در کشف اطلاعات ناشناخته، فرضیات، و حقایق جدید به‌وسیله استخراج اطلاعات از اسناد مختلف است. همچنین متن‌کاوی آشکار کردن اطلاعات پنهان با استفاده از روشی است که در یک طرف توانایی مقابله با تعداد زیادی کلمات و ساختارهایی در زبان طبیعی را نشان می‌دهد و از طرف دیگر اجازه مدیریت ابهام و شک را می‌دهد. علاوه بر آن، متن‌کاوی به عنوان داده‌کاوی متن بیان می‌شود که معادل با تجزیه و تحلیل متون است و به فرایند استخراج اطلاعات از متن می‌پردازد و اطلاعات با کیفیت بالا را از میان الگوها و فرایندها استخراج می‌کند. همچنین به عنوان داده‌کاوی متن یا کشف دانش از پایگاه ‌داده‌های متنی شناخته می‌شود و به فرایند استخراج الگوها یا دانش از اسناد متنی بیان می‌شود. روش تحقیق در این کار بدین صورت است که ابتدا به بررسی پژوهش‌های انجام شده در حوزه متن‌کاوی با تأکید بر روش‌ها و کاربردهای آن در آموزش الکترونیکی پرداخته شد. در طی این مطالعات، پژوهش‌های مرتبط در حوزه آموزش الکترونیکی طبقه‌بندی گردیدند. پس از طبقه‌بندی پژوهش‌ها، مسائل و راهکارهای مرتبط با مسائل مطرح شده در آن کارها، استخراج شدند. در همین راستا، در این مقاله ابتدا به تعریف متن‌کاوی پرداخته می‌شود. سپس فرایند متن‌کاوی و حوزه‌های کاربرد متن‌کاوی در آموزش الکترونیکی مورد بررسی قرار می‌گیرند. در ادامه روش‌های متن‌کاوی معرفی شده و تک تک این روش‌ها در حوزه آموزش الکترونیکی مطرح می‌گردد. در انتها ضمن استنتاج نکات مهم مطالعات انجام شده، مدلی جهت استخراج اطلاعات برای بهره‌برداری از روش‌های متن‌کاوی در یادگیری الکترونیکی پیشنهاد می‌شود. پرونده مقاله
      • دسترسی آزاد مقاله

        2 - کشف گزارش¬های نقص محصول از متن نظرات آنلاین کاربران
        نرگس نعمتی فرد محرم منصوری زاده مهدی سخائی نیا
        با توسعه وب 2 و شبکه های اجتماعی، مشتریان و کاربران نظرهای خود را درباره ی محصولات مختلف با یکدیگر به اشتراک می گذارند. این نظرها به عنوان یک منبع ارزشمند، جهت تعیین جایگاه کالا و موفقیت در بازاریابی، می تواند مورد استفاده قرار گیرد. استخراج نواقص گزارش شده از میان حج چکیده کامل
        با توسعه وب 2 و شبکه های اجتماعی، مشتریان و کاربران نظرهای خود را درباره ی محصولات مختلف با یکدیگر به اشتراک می گذارند. این نظرها به عنوان یک منبع ارزشمند، جهت تعیین جایگاه کالا و موفقیت در بازاریابی، می تواند مورد استفاده قرار گیرد. استخراج نواقص گزارش شده از میان حجم زیاد نظرهایی که توسط کاربران تولید شده از مشکلات عمده این زمینه تحقیقاتی است. مشتریان و مصرف کنندگان با مقایسه محصولات تولیدکنندگان مختلف نقاط قوت و ضعف محصولات را در قالب نظرهای مثبت و منفی بیان می نمایند. طبقه بندی نظرات بر اساس واژگان حسی مثبت و منفی در متن نظر به اسناد حاوی گزارش نقص و فاقد آن نتیجه درست و دقیقی در پی ندارد. چون گزارش نواقص صرفاً در نظرات منفی صورت نمی گیرد. ممکن است که مشتری نسبت به یک کالا حس مثبتی داشته باشد و با این حال در نظر خود یک نقص را گزارش نماید. بنابراین چالش دیگر این زمینه تحقیقاتی طبقه بندی درست و دقیق نظرات است. برای حل این مشکلات و چالش ها، در این مقاله روشی موثر و کارا برای استخراج نظرهای حاوی گزارش نقص محصول از نظرهای آنلاین کاربران ارائه گردیده است. بدین منظور طبقه بند جنگل تصادفی برای تشخیص گزارش نقص و تکنیک بدون ناظر مدل سازی موضوعی تخصیص پنهان دیریکله را برای ارائه ی خلاصه ای از گزارش نقص بکار گرفته شدند. برای تحلیل و ارزیابی روش پیشنهادی از داده های وب سایت آمازون استفاده شده است. نتایج نشان داد جنگل تصادفی حتی با تعداد کم داده های آموزشی عملکرد قابل قبولی برای کشف گزارش نقص دارد. نتایج و خروجی های استخراج شده از اسناد حاوی گزارش نقص، شامل خلاصه ی گزارش نقص جهت سهولت در تصمیم گیری تولیدکنند-گان، یافتن الگوهای وجود گزارش نقص در متن به صورت خودکار و کشف جنبه هایی از محصول که بیشترین گزارش نقص مربوط به آنها می باشد، نشان دهنده توانایی روش تخصیص پنهان دیریکله است. پرونده مقاله
      • دسترسی آزاد مقاله

        3 - به‌کارگیری وب‌کاوی در پیش‌بینی جهت قیمت سهام گروه محصولات شیمیایی در بورس اوراق بهادار
        امیر دایی امیدمهدی عبادتی کیوان  برنا
        پیش‌بینی بازارها از جمله سهام به دلیل حجم بالای معاملات و نقدینگی برای محققان و سرمایه‌گذاران دارای جذابیت بوده است. توانایی پیش‌بینی جهت قیمت ما را قادر می‌سازد با کاهش ریسک و اجتناب از ضرر و زیان مالی، به بازده بالاتری دست‌یابیم. اخبار نقش مهمی در فرایند ارزیابی قیمت چکیده کامل
        پیش‌بینی بازارها از جمله سهام به دلیل حجم بالای معاملات و نقدینگی برای محققان و سرمایه‌گذاران دارای جذابیت بوده است. توانایی پیش‌بینی جهت قیمت ما را قادر می‌سازد با کاهش ریسک و اجتناب از ضرر و زیان مالی، به بازده بالاتری دست‌یابیم. اخبار نقش مهمی در فرایند ارزیابی قیمت فعلی سهام دارد. توسعه روش‌های داده‌کاوی، هوش محاسباتی و الگوریتم‌های یادگیری ماشین سبب ایجاد مدل‌های جدیدی در پیش‌بینی شده‌اند. هدف از این پژوهش ذخیره سازی اخبار خبرگزارها و استفاده از روش‌های متن کاوی و الگوریتم ماشین بردار پشیبان به منظور پیش‌بینی جهت قیمت روز آینده سهم است. بدین منظور خبرها منتشر شده در 17 خبرگزاری با استفاده از یک خزگشر موضوعی به زبان پی‌اچ‌پی ذخیره و دسته‌بندی شده است. سپس با استفاده از روش‌های متن‌کاوی و الگوریتم ماشین بردار پشتیبان و کرنل‌های مختلف به پیش‌بینی جهت قیمت سهام گروه محصولات شیمیایی در بورس اوراق بهادار پرداخته می‌شود. دراین مطالعه از 300 هزار خبر در دسته‌های سیاسی و اقتصادی و قیمت‌های سهام 25 شرکت منتخب در بازه زمانی آبان تا اسفند 97 در 122 روز معاملاتی استفاده شده است. نتایج نشان می‌دهد با مدل ماشین بردار پشتیبان با کرنل خطی می‌توان به صورت میانگین 83 درصد جهت قیمت‌ها را پیش‌بینی کرد. با استفاده از کرنل‌های غیرخطی و معادله درجه 2 ماشین بردار پشتیبان صحت پیش‌بینی به صورت میانگین تا 85 درصد افزایش می‌یابد و سایر کرنل‌ها نتایج ضعیف‌تری از خود نشان می‌دهند. پرونده مقاله
      • دسترسی آزاد مقاله

        4 - An Effective Method of Feature Selection in Persian Text for Improving the Accuracy of Detecting Request in Persian Messages on Telegram
        zahra khalifeh zadeh Mohammad Ali Zare Chahooki
        In recent years, data received from social media has increased exponentially. They have become valuable sources of information for many analysts and businesses to expand their business. Automatic document classification is an essential step in extracting knowledge from چکیده کامل
        In recent years, data received from social media has increased exponentially. They have become valuable sources of information for many analysts and businesses to expand their business. Automatic document classification is an essential step in extracting knowledge from these sources of information. In automatic text classification, words are assessed as a set of features. Selecting useful features from each text reduces the size of the feature vector and improves classification performance. Many algorithms have been applied for the automatic classification of text. Although all the methods proposed for other languages are applicable and comparable, studies on classification and feature selection in the Persian text have not been sufficiently carried out. The present research is conducted in Persian, and the introduction of a Persian dataset is a part of its innovation. In the present article, an innovative approach is presented to improve the performance of Persian text classification. The authors extracted 85,000 Persian messages from the Idekav-system, which is a Telegram search engine. The new idea presented in this paper to process and classify this textual data is on the basis of the feature vector expansion by adding some selective features using the most extensively used feature selection methods based on Local and Global filters. The new feature vector is then filtered by applying the secondary feature selection. The secondary feature selection phase selects more appropriate features among those added from the first step to enhance the effect of applying wrapper methods on classification performance. In the third step, the combined filter-based methods and the combination of the results of different learning algorithms have been used to achieve higher accuracy. At the end of the three selection stages, a method was proposed that increased accuracy up to 0.945 and reduced training time and calculations in the Persian dataset. پرونده مقاله
      • دسترسی آزاد مقاله

        5 - «ديده¬باني فناوري» با ابزار « فناوري اطلاعات»
        کیارش جهانپور
        اطلاعات موجود در اختراعات (Patents) و مقالات منبع مناسبي از دانش مدون مي‌باشند که نظارت بر روند تکامل اين اختراعات «ديده باني فناوري» ناميده مي شود. هدف ديده‌باني فناوري جمع‌آوري فرآيند و يکپارچه سازي اطلاعات فني اي است که براي بازيگران عرصه اقتصادي مفيد مي باشد. ديده ب چکیده کامل
        اطلاعات موجود در اختراعات (Patents) و مقالات منبع مناسبي از دانش مدون مي‌باشند که نظارت بر روند تکامل اين اختراعات «ديده باني فناوري» ناميده مي شود. هدف ديده‌باني فناوري جمع‌آوري فرآيند و يکپارچه سازي اطلاعات فني اي است که براي بازيگران عرصه اقتصادي مفيد مي باشد. ديده باني فناوري هوشياري و آگاهي را در تمامي سطوح علم و فناوري جهاني از طريق فنوني کارآمد حفظ مي کند. فنوني قدرتمند مبتني بر فناوري اطلاعات مانند متن کاوي، داده-کاوي، فن کاوي و متن- داده کاوي که هم‌اکنون براي شناسايي و استخراج داده هاي مرتبط از متون علم و فناوري وجود دارند که خصوصاً در استنباط عقلايي از داده هاي غيرمتجانس و از هم گسيخته مفيد مي باشند. طي فرآيند ديده باني فناوري، شاخص هاي مهم ديده باني شناسايي شده، اطلاعات لازم براي رديابي آنها مشخص مي شود و پس از تحليل و پردازش اين اطلاعات با ابزار فناوري اطلاعات نتايج به صورت گزارش توزيع و نشر مي شوند و در فرآيند تصميم گيري که مقصد غايي اين فرآيند است استفاده مي شوند. اين مطالعه به شناخت هر چه بهتر و بيشتر ابعاد ديده باني فناوري (Technology Watch Aspects) در حوزه‌هاي مرتبط کمک نموده است. هدف از ارائه اين مقاله معرفي مهمترين ابزارها، روش ها، فرآيند و حوزه هاي مرتبط با ديده باني فناوري مي باشد. در ارائه ي نتايج مباحث در اين مقاله سعي شده است حوزه هاي مستعد براي پژوهش هاي آينده معرفي شوند. پرونده مقاله
      • دسترسی آزاد مقاله

        6 - مدلسازی بازاریابی توصیه ای الکترونیکی بر مبنای متن کاوی نظرات کاربران، رویکردی نوین بر تجارت‌اجتماعی
        الهام رمضانی علی  رجب زاده قطری وحید برادران مریم شعار
        هدف از این مقاله ارائه مدل توصیهای الکترونیکی در تجارت اجتماعی مبتنی بر رویکرد متن‌کاوی نظرات کاربران در سایت‌های فروش‌اینترنتی است. به دلیل جدید بودن پژوهش‌ها در این حوزه و بهره‌گیری از روش متن‌کاوی نظرات کابران برای بیان متغیرهای این نوع از مدل بازاریابی، این پژوهش از چکیده کامل
        هدف از این مقاله ارائه مدل توصیهای الکترونیکی در تجارت اجتماعی مبتنی بر رویکرد متن‌کاوی نظرات کاربران در سایت‌های فروش‌اینترنتی است. به دلیل جدید بودن پژوهش‌ها در این حوزه و بهره‌گیری از روش متن‌کاوی نظرات کابران برای بیان متغیرهای این نوع از مدل بازاریابی، این پژوهش از نوع پژوهش‌های اکتشافی، توسعه‌ای است. روش مورد استفاده در این پژوهش، ترکیبی از کیفی و کمی است. در این راستا با مطالعۀ پژوهش‌های پیشین و همچنین دریافت، پیش پردازش و تحلیل 11‌هزار نظر آنلاین مشتریان در مورد محصولات دیجیتالی، انتخاب کلمات پرتکرار با برچسب مثبت صورت گرفت سپس با استفاده از الگوریتم Word2vec متغیرهای مدل بازاریابی توصیهای ‌الکترونیکی با تکنیک متن‌کاوی استخراج شد و بدین‌شکل مدل بازاریابی توصیه‌ای الکترونیکی ارائه شد. برازش مدل استخراج ‌شده نیز بر اساس نظرات متخصصین و کاربران سایت‌های فروش اینترنتی در ایران به کمک پرسشنامه و با ابزار آماری حداقل مربعات جزئی مورد بررسی قرار گرفت. نمونه آماری نیز به دلیل نامحدود بودن جامعۀ آماری طبق فرمول کوکران 384 برآورد شد که به منظور بررسی و ارائه مدل نهایی از رویکرد معادلات ‌ساختاری با نرم افزار PLS Smart استفاده شد. نتایج پژوهش نشان می‌دهد که تعامل مشتری، کیفیت پیام و تصویر ذهنی مشتری تاثیر مثبت و معناداری بر پلت‌فرم و جذابیت کانال توصیهای الکترونیکی خواهند داشت و در نهایت این دو متغیر تاثیر مثبت و معناداری بر رفتار مشتری و برند کسب‌و‌کار، خواهند داشت. این مدل، ابعاد تازه‌ای از متغیرهای توصیهای الکترونیکی را مورد تاکید قرار می‌دهد که برای فعالان و صاحبان کسب‌و‌کارها و بازاریابان راهگشا خواهد بود. پرونده مقاله
      • دسترسی آزاد مقاله

        7 - ارائه یک موتور جستجو برای بازیابی رویداد ساختارمند از منابع خبری
        علیرضا میرزائیان صادق علی اکبری
        تحلیل محتوای اخبار منتشرشده، یکی از مسایل مهم در حوزه بازیابی اطلاعات است. امروزه تحقیقات زیادی برای تحلیل تک‌تک مقالات خبری انجام شده‌ است، در حالی که اکثر رویدادهای خبری به شکل چندین مقاله مرتبط به هم به طور مکرر در رسانه‌ها منتشر می‌شوند. تشخیص رویداد، وظیفه کشف و گر چکیده کامل
        تحلیل محتوای اخبار منتشرشده، یکی از مسایل مهم در حوزه بازیابی اطلاعات است. امروزه تحقیقات زیادی برای تحلیل تک‌تک مقالات خبری انجام شده‌ است، در حالی که اکثر رویدادهای خبری به شکل چندین مقاله مرتبط به هم به طور مکرر در رسانه‌ها منتشر می‌شوند. تشخیص رویداد، وظیفه کشف و گروه‌بندی اسنادی را دارد که رویدادی یکسان را شرح می‌دهد و با ارائه یک ساختار قابل درک از گزارش‌های خبری، هدایت بهتر کاربران در فضاهای خبری را تسهیل می‌کند. با رشد سریع و روزافزون اخبار برخط، نیاز به ایجاد موتورهای جستجو برای بازیابی رویدادهای خبری به منظور تسهیل جستجوی کاربران در این فضاهای خبری بیش از پیش احساس می‌شود. فرض اصلی تشخیص رویداد بر این است که به احتمال زیاد کلمات مرتبط به یک رویداد یکسان در دنیای واقعی، در اسناد و پنجره‌های زمانی مشابه ظاهر می‌شوند. بر همین اساس ما در این تحقیق روشی گذشته‌نگر و ویژگی‌محور پیشنهاد می‌کنیم که کلمات را بر اساس ویژگی‌های معنایی و زمانی گروه‌بندی می‌کند. سپس از این کلمات برای تولید یک بازه زمانی و توصیف متنی قابل درک برای انسان استفاده می‌کنیم. ارائه یک معماری مناسب و استفاده مؤثر از خوشه‌بندی جهت بازیابی رویدادها و همچنین تشخیص مناسب زمان رویداد، از نوآوری‌های این پژوهش به شمار می‌روند. روش پیشنهادی روی مجموعه داده AllTheNews که تقریباً شامل دویست هزار مقاله از ۱۵ منبع خبری در سال 2016 می‌باشد ارزیابی شده و با روش‌های دیگر مقایسه گردیده است. ارزیابی‌ها نشان می‌دهد که روش پیشنهادی در دو معیار دقت و یادآوری نسبت به روش‌های پیشین عملکرد بهتری دارد. پرونده مقاله
      • دسترسی آزاد مقاله

        8 - بهبود استخراج جنبه های متن با استفاده از دانش دامنه و گراف کلمات
        محمدرضا شمس احمد براآنی مهدی هاشمی
        با گسترش روزافزون علم و فناوري، تحلیل نظرات کاربران و تعیین نحوه نگرش کاربر به موضوعهاي مختلف به یک امر مهم تبدیل شده است. نظرکاوي فرایند استخراج نگرش افراد از روي نظرات نوشته شده است که در سه سطح سند، جمله و جنبه قابل انجام است. در سطح جنبه، نظر افراد در خصوص جنبههاي م چکیده کامل
        با گسترش روزافزون علم و فناوري، تحلیل نظرات کاربران و تعیین نحوه نگرش کاربر به موضوعهاي مختلف به یک امر مهم تبدیل شده است. نظرکاوي فرایند استخراج نگرش افراد از روي نظرات نوشته شده است که در سه سطح سند، جمله و جنبه قابل انجام است. در سطح جنبه، نظر افراد در خصوص جنبههاي مختلف یک موضوع بررسي ميشود. مهمترین زیر بخش نظرکاوي جنبهگرا، استخراج جنبه است که موضوع اصلي این پژوهش ميباشد. در بسیاري از روشهاي ارائه شده براي استخراج جنبه، راه حل مورد نظر نیاز به مجموعه یادگیري اولیه و یا منابع زباني وسیع دارند که تهیه چنین دادههایي بسیار زمانبر و پرهزینه است. در این مقاله، رویکردي بدون نظارت براي استخراج جنبه مبتني بر مدل موضوعي و بردار کلمات پیشنهاد ميشود که از ایجاد گراف کلمات براي ادغام اطلاعات معنایي و دانش دامنه استفاده ميکند. نتایج ارزیابيها نشان از این دارد که روش پیشنهادي نه تنها باعث بهبود دقت استخراج جنبه در مقایسه با سایر روشهاي پیشین شده است، بلکه تمامي مراحل به صورت خودکار و بدون دخالت کاربر انجام ميشود و بدلیل عدم وابستگي به منابع زباني، در زبانهاي مختلف قابل اجرا ميباشد. پرونده مقاله