Presenting a model for extracting information from text documents, based on text-mining in the field of e-learning
Subject Areas : GeneralAhmadAgha kardan 1 , Mina Kaihani nejad 2
1 -
2 -
Keywords:
Abstract :
۱٬۵۸۱ / ۵٬۰۰۰ When computer networks became the mainstay of science and economics, a large amount of documentation became available. For this purpose, text mining methods are used to extract useful information. Text mining is an important research field in discovering unknown information, hypotheses, and new facts by extracting information from various documents. Also, text mining is revealing hidden information using a method that shows the ability to deal with a large number of words and structures in natural language on the one hand, and allows the management of ambiguity and doubt on the other hand. In addition, text mining is defined as data mining of text, which is equivalent to text analysis and deals with the process of extracting information from text and extracting high quality information from patterns and processes. It is also known as text data mining or knowledge discovery from text databases and is defined as the process of extracting patterns or knowledge from text documents. The research method in this work is as follows: firstly, the research conducted in the field of text mining was investigated with an emphasis on its methods and applications in electronic education. During these studies, related researches were classified in the field of e-learning. After classifying the researches, issues and solutions related to the issues raised in those works were extracted. In this regard, in this article, the definition of text mining will be discussed first. Then the process of text mining and the fields of application of text mining in e-learning are examined. In the following, text mining methods are introduced and each of these methods is discussed in the field of electronic education. At the end, while deducing the important points of the conducted studies, a model for extracting information for the use of text mining methods in e-learning is proposed.
[1] Cristobal Romero, Sebastian Ventura, Enrique Garcia; “Data mining in course management systems: Moodle case study and tutorial”, Spain, Computers & Education 51 (2008) 368–384.
[2] Cristóbal Romero, Sebastián Ventura, Senior; “Educational Data Mining: A Review of the State-of-the-Art” Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEETransactions on Issue Date,,VOL: 40 Issue:6,On page(s): 601 – 618, 2010.
[3] Vishal Gupta, Gurpreet S. Lehal; “ A Survey of Text Mining Techniques and Applications” Journal of emerging technologies in web intelligence,VOL. 1, NO. 1, Aug.2009.
[4] Jong Hwan Suh, Chung Hoon Park, Si Hyun Jeon; “Applying text and data mining techniques to forecasting the trend of petitions filed to e-People” Information and Communication Technology Research and Development Center, Expert Systems with Applications 37, 7255–7268, 2010.
[5] Khaled Hammouda1 and Mohamed Kamel; "Data Mining in e-Learning", E-Learning Networked Environments and Architectures Advanced Information and Knowledge Processing, Springer, Part IV, 374-404,2007.
[6] Andreas Hotho, Andreas N¨urnberger, Gerhard Paaß; “A Brief Survey of Text Mining” machine learning, May 2005.
[7] Maomi Ueno; “Data mining and text mining technologies for collaborative learning in an ILMS “Samurai” Nagaoka University of Technology,on Advanced Learning Technologies, In IEEE international Conference on Advanced Learning Technologies, Washington, DC,1052-1053, 2004.
[8] Marta Zorrilla, Diego García,Elena Álvarez; “A Decision Support System to improve e-Learning Environments” Lausanne, Switzerland ,ACM, EDBT 2010, March 22-26, 2010.
[9] Youngjoong Ko, Jungyun Seo,” An effective sentence-extraction technique using contextual information and statistical approaches for text summarization”, Available online 4 March 2008, Pattern Recognition Letters 29 (2008) 1366–1371.
[10] Raymond J. Mooney,Razvan Bunescu,”Mining Knowledge from Text Using Information Extraction”, Department of Computer Sciences,University of Texas at Austin,1 University Station C0500, Austin, TX 787120233,2005.
[11] Shiqun Yin, Yuhui Qiu, Jike Ge; “ Research and Realization of Text Mining Algorithm on web”, International Conference on Computational Intelligence and Security Workshops, CISW,on ,413 - 416 ,15-19 Dec. 2007.
[12] Dirk Thorleuchter,Dirk Van den Poel,Anita Prinzie,”Mining ideas from textual information”, Expert Systems with Applications 37 (2010) 7182–7188.
[13] K. Rajaraman, Ah-Hwee Tan,"Topic Detection, Tracking and Trend Analysis Using Self-organizing Neural Networks", Kent Ridge Digital Labs,21 Heng Mui Keng Terrace, Singapore 119613,2001.
[14] P. van Mulbregt, I. Carp, L. Gillick, S. Lowe and J. Yamron, "Text Segmentation and Topic Tracking on Broadcast News via a Hidden Markov Model Approach", Dragon Systems, Inc,320 Nevada, Street Newton, MA 02460,1998.
[15] J.P. Yamron, I. Carp, L. Gillick, S. Lowe, and P. van Mulbregt,” Topic Tracking in a News Stream”, Dragon Systems, Inc. 320 Nevada Street, Newton, MA 02460,1999.
[16] Jon Fiscus, George Doddington, John Garofolo, Alvin Martin, "NIST’S 1998 Topic Detection and Tracking Evaluation (TDT2) ", National Institute of Standards and Technology, MD 20899-8940 USA,Aug 2007.
[17] Hubert Jin, Rich Schwartz, Sreenivasa Sista, Frederick Walls, "Topic Tracking for Radio, TV Broadcast, and Newswire", BBN Technologies70 Fawcett Street, Cambridge,MA, 02138.
Cambridge, MA 02138,Apr 1999.
[18] Minqing Hu,Bing Liu,” Mining and Summarizing Customer Reviews”, Department of Computer Science,University of Illinois at Chicago,851 South Morgan Street, Chicago, IL 60607-7053,2009.
[19] Yuen-Hsien Tseng, Chi-Jen Lin, Yu-I Lin,”Text mining techniques for patent analysis”, Available online 26 January 2007, Information Processing and Management 43 (2007) 1216–1247.
[20] Li Yu, Qiang Li,”A Novel Web Text Mining Method based on Semantic Polarity Analysis”,2009.
[21] Amelia Zafra, Cristóbal Romero, Sebastián Ventura,” Multiple instance learning for classifying students in learning management systems”, Department of Computer Science and Numerical Analysis, University of Cordoba, Spain, Expert Systems with Applications 38 (2011) 15020–15031.
[22] Ioannis Kazanidis, Stavros Valsamidis, Theodosios Theodosiou, Sotirios Kontogiannis," PROPOSED FRAMEWORK FOR DATA MINING IN E-LEARNING: THE CASE OF OPEN E-CLASS" IADIS International Conference Applied Computing 2009, Democritus University of Thrace, 2009.
[23] Jason J. Jung,” Social grid platform for collaborative online learning on blogosphere:A case study of eLearning BlogGrid”, Department of Computer Engineering, Yeungnam University, Dae-Dong, Gyeongsan, Republic of Korea, Expert Systems with Applications 36 (2009) 2177 2186.
[24] Bjornar Larsen and Chinatsu Aone,"Fast and Effective Text Mining Using Linear-time Document Clustering", SRA International, Inc. 4300 Fair Lakes Cow-l, Fairfax, VA 22033,1999.
[25] Fu-Ren Lin, Lu-Shih Hsieh, Fu-Tai Chuang,” Discovering genres of online discussion threads via text mining”, Computers & Education 52 (2009) 481–495.
[26] ursun Delen *, Martin D. Crossland,” Seeding the survey and analysis of research literature with text mining”, Department of Management Science and Information Systems, Expert Systems with Applications 34 (2008) 1707–1720.
فصلنامه علمي- پژوهشي فناوري اطلاعات و ارتباطات ایران | سال چهارم، شمارههاي 11 و 12، بهار و تابستان 1391 صص:47-54 |
|
ارائه مدلی برای استخراج اطلاعات از مستندات متنی، مبتنی بر متنکاوی در حوزه یادگیری الکترونیکی
احمد آقا کاردانà مینا کیهانی نژاد1àà
à استادیار، دانشگاه امیرکبیر (پلی تکنیک تهران)، آزمایشگاه پیشرفته فناوریهای یادگیری الکترونیکی
àà دانشجوی کارشناس ارشد، دانشگاه امیرکبیر (پلی تکنیک تهران)، آزمایشگاه پیشرفته فناوریهای یادگیری الکترونیکی
تاريخ دريافت: 20/02/1391 تاريخ پذيرش: 23/11/1391
چکيده
1 نویسنده عهدهدار مکاتبات (mina_keyhaninejad@aut.ac.ir)
|
كليد واژگان: دادهکاوی، متنکاوی، آموزش الکترونیکی، یادگیری الکترونیکی، سیستم مدیریت یادگیری
1- مقدمه
دادهکاوي يا کشف دانش در پايگاه داده (KDD1)، استخراج خودکار الگوهاي جالب و مفهومي از مجموعه داده بزرگ است. بعضي وظايف و روشهاي مفيد دادهکاوي، آمار، مجازيسازي، خوشهبندي، طبقهبندي و قوانين انجمني هستند]1[. دادهکاوي را ميتوان به عنوان فرايند استخراج اطلاعات مفيد از داده تعريف کرد]2[. متنکاوي، دگرگوني روي زمینهای است که دادهکاوي ناميده ميشود و سعي بر يافتن الگوهاي جالب از پايگاه دادههاي بزرگ دارد. متنکاوي همچنين به عنوان تحليل متن هوشمند، شناخته ميشود. متن دادهکاوی یا کشف دانش در متن (2KDT)، عموماً به فرایند استخراج اطلاعات و دانش جالب از متون ساختنیافته اشاره دارد]3[.
متنکاوي يا کشف دانش از متن، براي اولين بار توسط Feldman و همکاران [FD95] به آن توجه شد. روشهاي بازيابي و استخراج اطلاعات در متنکاوی از پردازش زبان طبيعي (NLP3) استفاده ميکنند و آنها را با الگوريتمها و روشهاي KDD، دادهکاوي، ماشين يادگيري و آمار مرتبط ميکنند. بنابراين، يک رويه مشابه با فرآيند KDD انتخاب ميشود. متن کاوي ميتواند همچنين مشابه دادهکاوي به عنوان کاربرد الگوريتمها و روشها در زمینه يادگيري ماشين و آمار به متن با هدف يافتن الگوهاي مفيد تعريف شود. به همين منظور لازم است نتيجتاً متن پيش پردازش شود. بسياري نويسندهها روشهاي استخراج اطلاعات و پردازش زبان طبيعي را به منظور استخراج داده از متن استفاده ميکنند. متنکاوي، کشف بهوسيله اطلاعات ناشناخته قبلی و استخراج خودکار اطلاعات از منابع نوشته شده مختلف است]4[.
متنکاوي شبيه دادهکاوي است، به جز اينکه ابزارهاي دادهکاوي براي مديريت داده ساخت يافته پايگاه دادهها طراحي ميشود، اما متنکاوي ميتواند با داده نيمه ساخت يافته يا ساخت نيافته مانند پست الکترونيکي، اسناد متون کامل و فايلهاي HTML، سروکار داشته باشد. در نتيجه، متنکاوي يک راه حل بسيار بهتر براي سازمانها است. با اين وجود، بيشتر تحقيقات و تلاشهاي گسترده روي کوششهاي دادهکاوي که داده ساخت يافته استفاده ميکند، مرکزيت مييابد]3[.
2- فرایند متنکاوی
در این قسمت فرایند متنکاوی شرح داده شده است، که شامل مراحل زیر است:
جمع آوری اسناد: در ابتدای متنکاوی به جمعآوری اسناد پرداخته میشود.
پیش پردازش: شامل پیش پردازش متون و پیش پردازش ادبی است.
ü پیش پردازش متون: بر روی مجموعهي اسناد جمع آوری شده، نشانهگذاری4، حذف کلمه توقف یافته5 و ریشهیابی6 انجام میشود]5[.
ü پیش پردازش ادبی: پیش پردازش ادبی، برای افزایش اطلاعات عبارتها بکار رود. بدین منظور دیدگاههای، برچسب گذاری ادات سخن7 ، تیکه کردن متن8 ، ابهام زدایی حس کلام9 و تجزیه کردن10 را مکرراً اعمال میکند]6[.
ساخت مدل: در این مرحله، يک مدل دادهای بر پايه گراف اصطلاحات اسناد ساخته و خصوصیات آنها استخراج میشوند.
تجزیه و تحلیل الگو: تحليل الگوها، براي کشف مشابهتهای بين اسناد بر پايه اصطلاحات مهم اعمال ميشود که بهوسيله خوشهبندي براي شکل دهي گروههاي اسناد و استخراج اصطلاحات کلیدی بکار میرود.
دانش سطح بالا: فرايندی که بهوسيله استخراج اصطلاحات کليدي از خوشهها و تعيين هويت موضوع هر خوشه نتيجه ميشود]5[.
فرایند متنکاوی پیشنهادی این مقاله در شکل 1، نمایش داده شده است. همانطور که در این شکل مشاهده میشود، از مرحله پیشپردازش، ساخت مدل و تجزیه و تحلیل الگو با جمعآوری اسناد ارتباط دو سویه بر قرار است. در مرحله آخر، بدست آمدن دانش نهایی، ارتباط یک سویه با اسناد اولیه وجود دارد.
شکل 1: مراحل فرایند متنکاوی شامل جمعآوری اسناد، پیش پردازش، ساخت مدل، تحلیل الگو و استخراج دانش است که با خطهای ارتباطی یک سویه و دو سویه با هم در ارتباطند.
3- متنکاوی در یادگیری الکترونیکی
امروزه آموزش الکترونیکی که از روش یادگیری الکترونیکی استفاده میکند در مقایسه با روشهای آموزش واقعی از محبوبیّت قابل توجهی برخوردار شده است. محیط یادگیری الکترونیکی، یک سیستم یادگیری بر خط است که به منظور کمک به مدیریت دروس آموزشی برای یادگیرندگان، طراحی شده است که آن را سیستم مدیریت دروس11 یا سیستم مدیریت یادگیری12 نامیدهاند.
متنکاوی در حوزههای مختلف آموزش الکترونیکی کاربرد دارد و از آن جمله؛ تهیه خلاصهای از کیفیت دانش یادگیرندگان، تهیه خلاصه فرایندهای یادگیری یادگیرندگان، تهیه خلاصهای از فرایندهای مباحثات یادگیرندگان، یافتن یادگیرندگانی که به کمک اساتید نیاز دارند، تجزیه و تحلیل محتوای آموزش الکترونیکی و تجزیه و تحلیل مشخصات هر یادگیرنده در مباحثات میتوان نام برد. بر اساس موارد ذکر شده در بالا، منافع زیر در یادگیری الکترونیکی فراهم میشوند:
ü اساتید میتوانند فرایندهای یادگیری یادگیرندگان را بشناسند و دانش آنها را به منظور دادن بعضی مقدمات آموزشهای مؤثر برای یادگیرندگان تعیین کنند.
ü اساتید میتوانند محتوای یادگیری الکترونیکی را تجزیه و تحلیل کنند و بهبود بخشند.
ü اساتید میتوانند مباحثاتی را که به طور کلی یادگیرندگان به آن میپردازند را به دست آورند.
ü یادگیرندگان میتوانند کیفیت دانش و فرایندهای یادگیری خود را به وسیله خویش تشخیص دهند]7[.
4- روشهای متنکاوی
در سالهای اخیر، محققان شروع به بررسی روشهای متنکاوی برای کمک به ساختارها، مدیران، اساتید و یادگیرندگان کردهاند تا سیستمهای یادگیری الکترونیکی را بهبود بخشند. روشهای متنکاوی به قرار زیر هستند.
استخراج اطلاعات13: نقطه شروع برای رایانهها تحلیل متون ساخت نایافته به منظور استخراج اطلاعات است. نرم افزار استخراج اطلاعات، عبارات کلیدی را استخراج و ارتباطات متون را تعیین هویت میکند. این روش میتواند بسیار مفید باشد وقتی که با حجم زیاد متون سروکار دارد.
پیگردی عناوین14 : سیستم پیگردی عناوین برای نگهداری پروفایل و اسناد کاربران، بکار میرود و بر اساس آنها، اسناد دیگری برای کاربران پیش بینی میکند. این سیستم بر اساس تاریخ خواندن اسناد توسط کاربران استنتاج میکند و از میان اطلاعات، اسناد مناسب هر کاربر را انتخاب میکند.
خلاصهسازی15: یکی از روشهای مفید و قابل توجه، ابزار خلاصهسازی متون است. هدف ابزارهای خلاصهسازی متون، کاهش طول جزئیات یک سند است در حالی که نکته های اصلی و مفهوم کلی آنها را حفظ میکند ]3[.
گروهبندی16: روش گروهبندی در متنکاوی، عبارت است از تعیین هویت عناوین اصلی که از شمارش کلمهها در اسناد از پیش تعریف شده به دست میآیند. ابزار گروهبندی، اسناد را بر اساس، بیشترین محتوا روی یک عنوان مخصوص، درجهبندی میکند.
خوشهبندی17: روش خوشهبندی در متنکاوی، گروه کردن اسناد مشابه بر پایه محتوای آنها است ]4[. به طوری که اسنادی که دارای خصوصیات و ویژگیهای مشابه هستند در یک دسته قرار میگیرند.
پیوند مفاهیم18: ابزارهای پیوند مفاهیم، اسناد مرتبط را بهوسیلهی تعیین هویت مفاهیم با هم پیوند میدهد. ابزارهاي پيوند مفاهیم است که ممکن است با استفاده از روشهای جستجوي سنتي آنها را نیابند. پيوند مفاهیم يک محتواي ارزشمند در متنکاوي است]3[.
مصوّرسازی اطلاعات19: مصوّرسازی گرافیکی اطلاعات، اطلاعات قابل درک بهتری بهوسیله متون خالص مبتنی بر توصیفها، فراهم میکند. همچنین، این روش، کمک میکند تا مجموعههای اسناد بزرگ استخراج شوند]6[.
پرسش و پاسخ20: حوزه کاربرد دیگر پردازش زبان طبیعی، سؤالهای زبان طبیعی است که با روش پاسخگوی سؤالها، بهترین پاسخ را مییابد.
قوانین انجمنی21: قوانین انجمنی روشی است برای کشف ارتباطهایی میان یک مجموعه بزرگ متغیرها که در مجموعهی دادهها استفاده میشوند.
5- مروری بر متنکاوی در آموزش الکترونیکی
در این قسمت مروری بر کارهای مرتبط آموزشی با استفاده از روشهای متنکاوی در یادگیری الکترونیکی میشود.
5-1- استخراج اطلاعات آموزشی
امروزه با توجه به رشد سريع حجم متون در پایگاه دادهها به خصوص در شبکهی جهاني اينترنت، كار استخراج اطلاعات از متون، اهميت یافته و مورد بررسی محققان قرار گرفته است. اساتید ابزارهای بسیار کمی برای نمایش و پیگیری فعالیتهای دانشجویان و توانایی کمی برای کشف و حل مشکلات یادگیرندگان در این سیستم آموزشی را دارند. بنابراین، گرفتن تصوری واضح از هر یادگیرنده یا گروه و پیشرفت آنها در دروس، در طولترم سخت و برای استاد زمانبر است. اما در همان زمان، این سیستمهای استخراج اطلاعات مقدار زیاد اطلاعات را ذخیره میکنند که بسیار ارزشمند و قابل استخراج است. همچنین میتوانند برای تحلیل رفتار، پیشبینی کارایی، نمره نهایی و گروهبندی یادگیرندگان بر حسب اولویتهای آنها استفاده شوند]8[.
دیدگاههایی که در حوزه استخراج اطلاعات استفاده میشوند، شامل تجزیه، تحلیل و دوباره سازی اسناد است. دیدگاههای دیگر شامل تعیین هویت و استخراج اطلاعات نیمه ساخت یافته مهم، استخراج کلمات و عبارات کلیدی از اسناد است که نشانهگذاری و تطبیق عبارات را استفاده میکنند. این روش سهم قابل توجهای را در آموزش الکترونیکی به منظور توانایی در استخراج خودکار اطلاعات مفید، دارا است ]5[.
روش استخراج اطلاعات آماري پيوندي با استفاده از جملات bi-gram pseudo، نماينده روشهای آماري در روش خلاصهسازي متون است و در روش استخراج اطلاعات آماري پيوندی پيشنهادي نیز، استفاده میشود ]9[. درک زبان طبيعي به طور کامل، هنوز دور از توانایی فناوری فعلی است. وجود روشهایی چون استخراج اطلاعات هستند که با دقت مناسب، توانايي شناسايي چندين نوع موجودیت در متون و تعيين برخی ارتباطات بین آنها، زبان طبیعی را بیان میکنند ]10[.
اين مقاله]11[، الگوريتمی مورد بحث قرار میدهد که چگونگی یافتن صفحات وب مورد درخواست کاربر را با استفاده از روشهای متنکاوي یا چگونگی استخراج و بيان ویژگیهای متون را نشان میدهد. در این مقاله]12[، استخراج ايدههایی که برای حل مسائل فنی بکار میروند به عنوان فرايند استخراج ايدههاي جديد و مفيد از متون ساخت نايافته است.
5-2- پیگردی عناوین آموزشی
ردیابی یا پیگردی عناوین، یکی از روشهای متنکاوی است که برای حجم زیاد متون کاربرد دارد. در این مقاله ]13[، مسئله کشف عناوین و پيگردي22، از يک جريان اسناد متني پردازش میشود. در این مقاله ]14[ جزئیات ویژگیها، کارایی قطعهبندی23 و تقسیم سیستمهای پیگردی به وسیلهی سیستمهای اژدها24 برای کشف عناوین و ارزیابی پیگردی ارائه میشوند.
در این مقاله]15[، سیستم پیگردی عناوین مبتنی بر مدل یونی گرام توصیف میشود و بهوسیله سیستمهای اژدها برای کشف عناوین و ارزیابی پیگردی ارائه شد. این مقاله ]16[، خلاصهی وظایف کشف و پیگردی عناوین و نتایج ارزیابی آنها را ارائه میکند. همچنین این مقاله ]17[، سیستم پیگردی را برای کشف عناوین و پروژه منابع چندگانه اطلاعات در شکل متون، ارائه میکند.
5-3- خلاصهسازی محتوای آموزشی
در چندین سال اخیر با توجه به رشد روز افزون داده و اطلاعات و گسترش منابع اطلاعاتی از جمله اینترنت نیاز مبرمی برای خلاصهسازی متون پیدا شده است. در سیستمهای آموزش الکترونیکی، با کمک نرم افزارهای خلاصهسازی میتوان یادداشتها و نکاتی که یادگیرندگان در انجمنهای بحث و گفتگو مطرح میکنند را خلاصه کرد.
در مقاله ]9[، مقایسه بین روش پيشنهادي با استفاده از اطلاعات متني و روشهای دیگر خلاصهسازی متون در "با عنوان25" و "بدون عنوان26" برای خلاصهسازی سند مجزا بیان شده است. هدف اين مقاله ]18[، استخراج و خلاصه کردن ویژگیهای مشتريان محصولات است.
اين مقاله ]19[، روش استخراج خلاصه متنکاوي را توصيف میکند که با فرايند تحليلي استفاده شده بهوسیلهی تجزيه و تحليل ثبت اختراع مطابقت میکند. در اين مقاله]20[، روش تجزيه و تحليل تقارن معنايي27 فناوری رایانه براي تحليل اطلاعات به طور خودکار بکار میرود و آنچه که کاربران به آن علاقه دارند را خلاصه میکند.
5-4- روشهای دیگر
در این قسمت نیز به دیگر روشهای متنکاوی اشاره شده است که برای حجم زیاد متون و کاربردهای آموزشی بکار برده میشوند. امروزه با حجم وسیعی از اطلاعات روبه رو هستیم که قصد ذخیره سازی و نمایش آنها را داریم. از روشهای مدیریت دادهها در سیستم آموزش الکترونیکی میتوان به خوشهبندی یادگیرندگان بر اساس مشخصات مشابه آنها، اشاره کرد ]21[. هدف خوشهبندی، جداسازی یادگیرندگان بر اساس بهکارگیری الگوهای استخراج شده از دادهی سیستم یادگیری الکترونیکی است که میتواند بر حسب شباهت محتوای صفحات وب درسی باشد ]22[.
در این مقاله ]23[، یک روش خوشهبندی رمان کاربر28 به منظور سازماندهی جوامع برای یک مجموعه یادگیرندگان همفکر در یادگیری مشارکتی بر روی سیستم BlogGrid، پیشنهاد میشود. در این مقاله ]24[، یک روش شناسی برای اندازهگیری کیفیت سلسله مراتب خوشه در عبارات اندازه F 29معرفی میشود و نتایج مقایسهی الگوریتمهای مختلف آزمایشها ارائه میشوند.
روش دیگر متنکاوی، گروهبندی متون است که به کاربر یک دید کلی از آنچه که در متون وجود دارد، میدهد. هدف آن، پیشبینی برآورد ارزش ناشناخته یک متغیر است که یادگیرنده را توصیف میکند. هدف این روش، ایجاد گروههای یادگیرندگان بر حسب ویژگیهای شخصی آنها است ]25[.
همچنین در مقاله]26[، روشهای استفاده شده براي انجام متنکاوي روي مجموعههاي اطلاعات متني مورد بحث و ارزيابي قرار میگیرد.
یکی دیگر از روشهای متنکاوی، مصوّرسازی اطلاعات است. هدف تحلیل و مصوّرسازی اطلاعات، برجسته کردن اطلاعات مفید و حمایت از تصمیمگیری است. در محیط آموزش الکترونیکی، این روش، میتواند به مربیان و اساتید کمک کند تا فعالیتهای درسی یادگیرندهها را تحلیل کنند و در نتیجه یک دید کلی در مورد یادگیری یادگیرندگان بدست آورند.
همچنین با استفاده از روش پیوند مفاهیم، ابزارهایی در یادگیری الکترونیکی وجود دارند که اسناد مرتبط را به وسیلهی تعیین هویت مفاهیم با یکدیگر پیوند میزند.
روش کاربردی ديگر متنکاوی، پاسخگوی سؤال است. چنین روشی در آموزش الکترونیکی نیز کاربرد دارد به این صورت که سؤالهاي یادگیرندگان در موارد گوناگون مطرح شود و سپس توسط اساتید/مدیران پاسخ داده شوند.
در روش قوانین انجمنی، هدف، فراهم کردن بازخورد برای حمایت مدیر، اساتید و نویسندگان دروس در تصمیم گیریها است (در مورد این که چطور یادگیری یادگیرندگان و سازماندهی منابع آموزشی مؤثرتر، بهبود یابند).
6- ارائه راهکاری بر اساس مدل پیشنهادی
هدف اولیهی روش استخراج اطلاعات، تعیین هویت دادهها و ارتباطات بین آنها در متون است. الگوریتمهای استخراج اطلاعات ممکن است لغتنامههایی را برای تعیین هویت برخی شرایط و الگوهای ادبی بکار برند. این روش از پتانسیل بالایی در آموزش الکترونیکی به واسطه توانایی استخراج خودکار اطلاعات مفید برخوردار است. همچنین طبق بررسیها و مطالعات انجام شده روشهای همچون پیگردی عناوین، خوشهبندی، گروهبندی و خلاصهسازی متون نسبت به دیگر روشهای متنکاوی کاربرد بیشتری در یادگیری الکترونیکی جهت استخراج اطلاعات دارند.
جهت کاربردیتر کردن فرایند متنکاوی در حوزه یادگیری الکترونیکی، راهکاری بر اساس مدلی که در شکل 3 آمده است، پیشنهاد میشود. این مدل پیشنهادی فرایند متنکاوی را به منظور استخراج اطلاعات (دانش) نشان میدهد.
شکل 3: ترکیب روشهای متنکاوی کاربردیتر در فرایند متنکاوی جهت استخراج اطلاعات
با توجه به شکل 3، در مییابیم که، اولین مرحله در مدل پیشنهادی عبارت است از گردآوری اسناد. در این مرحله متون و اسناد ادبی برای انجام فرایند متنکاوی جمعآوری میشود. سپس بررسی مجموعه اسناد گردآوری شده در واحد "پیشپردازش اسناد" به منظور پیش پردازش قالب و ویژگیهای آن اسناد انجام میگیرد. این مرحله پیشپردازش به صورت زیر صورت میگیرد:
§ نشانهگذاری: تعيين هويت تمام کلمهها (فرايند شکستن يک جريان متن به کلمهها، عبارتها، نمادها و ديگر عناصر معنيدار به نام نشانه) است.
§ حذف کلمه توقف یافته: کلمههای مکرر مانند، "و"، "یک" و "یا" حذف میشوند.
§ ریشهیابی: کاهش شکلهاي مختلف يک کلمه به يک شکل مجزاء است.
§ برچسبگذاری ادات سخن: ماهیت کلمات عبارات را مشخص میکند. مانند، اسم، فعل و صفت برای هر عبارت.
§ ابهامزدایی حس کلام: برای حل و فصل ابهام در معنای تک واژهها یا عبارات تلاش میکند.
§ تجزیه کردن: یک درخت تجزیه کامل جمله را تولید میکند. در نتیجه تجزیه، میتوان ارتباط هر کلمه در جمله با دیگر کلمات را پیدا کند.
در قدم بعد خروجی واحد"پیشپردازش اسناد" به واحد "ساخت مدل" داده میشود. 5 روش، استخراج اطلاعات، پیگردی عناوین، خوشهبندی، گروهبندی و خلاصهسازی متون برای ساخت و اجرای مدل اعمال می شوند. این ترکیب روشهای متنکاوی واحد "ساخت مدل" نسبت به دیگر ترکیبات روشهای متنکاوی کاربرد بیشتری دارد. بدست آمدن این ترکیب بر اساس مطالعات انجام شده در این روشها بدست آمده است. هنگامیکه قصد بر آن است که مدل ساخته شود، میتوان از هر کدام این روشها به تنهایی یا ترکیبی از آنها استفاده شود. همچنین تمام نکاتی که در تعاریف این روشها بیان شد، رعایت میشود. بنابراین مراحل ساخت مدل به صورت زیر انجام میگیرند:
· ارائه سند (فضای گراف اسناد)
· استخراج خصوصیات اصطلاحات اسناد (بر اساس روشهای متنکاوی ذکر شده در شکل 3)
نتایج واحد ساخت مدل، میتوانند در واحد "سیستمهای اطلاعاتی و مدیریتی" قرار گیرند و تجزیه و تحلیل شوند. مراحل این قسمت بدین صورت هستند:
· محاسبه شباهتها
· استخراج اصطلاحات کلیدی
در خروجی اطلاعات مفیدی شامل، خوشههای اسناد، عناوین خوشهها و اصطلاحات کلیدی استخراج شده، در قالب دانش نهایی نتیجه می شوند.
با بکارگیری شکل 3، در سیستم يادگيري الکترونیکی به صورت زیر عمل میشود:
· ابتدا به جمعآوری داده پرداخته میشود. سیستم یادگیری الکترونیکی به وسیله یادگیرندگان استفاده میشود و اطلاعات آنها در پایگاه داده سیستم ذخیره میشود.
· پیش پردازش داده: داده پاک میشود و به یک شکل مناسب استخراج شده، انتقال مییابد. به منظور پیش پردازش داده سیستم مدیریت یادگیری، ابزار مدیر پایگاه داده یا بعضی ابزارهای پیش پردازش مخصوص را به کار میبرد.
· اعمال روشهای متنکاوی به منظور ساخت مدل: روشهای متنکاوی برای ساختن و اجرا کردن مدلی اعمال میشود که دانش مورد علاقه کاربران (اساتید، یادگیرندگان و مدیران) را کشف و خلاصه میکند.
· تجزیه و تحلیل و استقرار نتایج: نتیجه و مدل به دست آمده توسط اساتید تفسیر شده و برای عملیات بیشتری به کار میرود. اساتید میتوانند اطلاعات مکشوف را برای تصمیمگیری در مورد فعالیتهای درسی یادگیرندگان به منظور بهبود یادگیری آنان به کار برند.
با استفاده از روشهای متنکاوی، مسیرهایی برای اساتید فراهم می شود تا دروس بر خط را تولید کنند و با استفاده از آنها یادگیرندگان را به یادگیری الکترونیکی مؤثرتری رهنمون کنند.
شناخت در مورد یادگیرندگان، یکی از مفاهیم کلیدی برای موفقیت آموزش بر خط است. چه انگیزههایی، یادگیرندگان در محیط یادگیری بر خط دارند؟ چه چیز آنها از اساتید یاد میگیرند و چه نمیآموزند؟ اینها سؤالهای مهمی به منظور شکلدهی فعالیتهای آموزشی هستند. در محیطهای یادگیری سنتی، اساتید توانایی دیدن یادگیرندگان را به طور حضوری دارند. اما، این فرصت در محیط یادگیری الکترونیکی وجود ندارد. یکی از راههای قابل اجرا، جمعآوری اطلاعات اداره نظرسنجی و پرسشنامه از یادگیرندگان است. این کاربرد سؤال برانگیز است و ممکن نیست به هیچ وجه طبیعت درست یادگیرندگان را منعکس کند. تعامل یادگیرندگان در محیطهای آموزش الکترونیکی سرنخهای مختلفی در مورد ویژگیهای یادگیرندگان میدهد.
با بهکارگیری روشهای متنکاوی برای یادگیری همکارانه در سیستم آموزش الکترونیکی، نتایج زیر حاصل شدند:
§ کشف یادگیرندگانی که فرایندهای یادگیری بی قاعده و بدون اصولی در آموزش الکترونیکی دارند.
§ توانایی تجزیه و تحلیل مفاهیم و مفاد درسی بر خط برای یادگیری الکترونیکی
§ توانایی تجزیه و تحلیل و ثبت داده یادگیری یادگیرندگان با استفاده از درخت تصمیم
§ به دست آوردن آنتروپی (واحد اندازهگیری بی نظمی در یک مجموعه) بر پایه تجزیه و تحلیلها در تابلو مباحثات یادگیرندگان
در شکل 4، نمودار فراوانی مقالاتی را نشان میدهد که در مورد روش های متنکاوی بحث و مطالعه شده است.
شکل 4: نمودار فراوانی مقالات در مورد روشهای متنکاوی
7- نتيجه گيري و مطالعات آتی
هدف از این مقاله، فراهم آوردن نگرشی بر روشهای متنکاوی در آموزش الکترونیکی و بررسی آنها است. متنکاوی به عنوان کشف دانش در متون شناخته میشود و عموماً به فرایند استخراج اطلاعات و دانش مورد نظر از متون ساخت نایافته اشاره میکند. مسئله کشف دانش از متون، استخراج مفاهیم صریح و ضمنی و ارتباط معنایی بین مفاهیمی است که از روشهای پردازش زبان طبیعی استفاده میکنند.
روشهای متنکاوی به منظور بهبود یادگیری و آموزش در ارتباطات مجازی، ممکن است مورد استفاده قرار گیرند. متنکاوی در این مسیر، روشهایی را برای آموزش مربوط به یادگیرندگان به منظور تصمیم گیریهای مؤثر در مورد روش تدریس، مدل پیشرفت و سرمایهگذاری در زیرساخت، فراهم میآورد.
اخیراً، متنکاوی آموزشی به یک زمینه تحقیقاتی در حال ظهور تبدیل شد که برای استخراج دانش و کشف الگوها از سیستم آموزش الکترونیکی مورد استفاده هستند. این سیستم آموزشی در حال حاضر پیش روی تعدادی از مسائل از قبیل شناسایی نیازهای یادگیرندگان، آموزش شخصی و پیشبینی کیفیت تعاملات یادگیرندهها است. متنکاوی آموزشی مجموعهای از روشها را فراهم میکنند، که میتواند کمک کند تا نظام آموزشی بر این مسائل غلبه کند. کار متنکاوی آموزشی اجازه شناسایی و موقعیتیابی اطلاعات برای پردازشهای آموزش الکترونیکی که نیاز به بهبود دارند، یا آنها که خیلی خوب کار انجام میدهند و میتوانند به عنوان نمونههای خوب استفاده شوند، است. متنکاوی آموزشی در این زمینه امکان تجزیه و تحلیل، بهتر فهمیدن و یاد گرفتن فرایندهای آموزشی را با استفاده از روشهای متنکاوی، بررسی میکند. این کار به طور کلی امکان تمرکز روی عملکرد سیستم مدیریت یادگیری و استخراج فرایند مدل دادهای را میدهد. به علاوه، اجازه شناسایی راههای مؤثر بیشتری برای فرایند تدریس را میدهد که میتواند به منظور ارتقاء فرایندهای آموزشی مورد استفاده قرار گیرند.
همچنین متنکاوی در حوزههای زیر در آموزش الکترونیکی کاربرد دارد:
· تهیه خلاصهای از کیفیت دانش یادگیرندهها
· تهیه خلاصه فرآیندهای یادگیری یادگیرندهها
· تهیه خلاصهای از فرآیندهای مباحثات یادگیرندهها
· پیش بینی کیفیت دانش یادگیرندهها در آینده
· یافتن یادگیرندههایی که به کمک اساتید نیاز دارند.
· تجزیه و تحلیل محتوای آموزش الکترونیکی
برای محورهای مطالعه آتی میتوان، گسترش روشهای يادگيري نيمه نظارتي براي استخراج اطلاعات، ساختن لغتنامههای رضایتمند با روشهای بهتر، متنکاوي يک چهارچوب مجزا که هر دو داده ساخت یافته و ساخت نيافتهي يک دامنه مخصوص براي استخراج دانش کاملتر هستند و پردازش خودکار پیغامهای تکنيکي روي تابلو بحث، ايميل و لاگهاي پيغام مستقيم را، نام برد.
مراجع
[1] Cristobal Romero, Sebastian Ventura, Enrique Garcia; “Data mining in course management systems: Moodle case study and tutorial”, Spain, Computers & Education 51 (2008) 368–384.
[2] Cristóbal Romero, Sebastián Ventura, Senior; “Educational Data Mining: A Review of the State-of-the-Art” Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEETransactions on Issue Date,,VOL: 40 Issue:6,On page(s): 601 – 618, 2010.
[3] Vishal Gupta, Gurpreet S. Lehal; “ A Survey of Text Mining Techniques and Applications” Journal of emerging technologies in web intelligence,VOL. 1, NO. 1, Aug.2009.
[4] Jong Hwan Suh, Chung Hoon Park, Si Hyun Jeon; “Applying text and data mining techniques to forecasting the trend of petitions filed to e-People” Information and Communication Technology Research and Development Center, Expert Systems with Applications 37, 7255–7268, 2010.
[5] Khaled Hammouda1 and Mohamed Kamel; "Data Mining in e-Learning", E-Learning Networked Environments and Architectures Advanced Information and Knowledge Processing, Springer, Part IV, 374-404,2007.
[6] Andreas Hotho, Andreas N¨urnberger, Gerhard Paaß; “A Brief Survey of Text Mining” machine learning, May 2005.
[7] Maomi Ueno; “Data mining and text mining technologies for collaborative learning in an ILMS “Samurai” Nagaoka University of Technology,on Advanced Learning Technologies, In IEEE international Conference on Advanced Learning Technologies, Washington, DC,1052-1053, 2004.
[8] Marta Zorrilla, Diego García,Elena Álvarez; “A Decision Support System to improve e-Learning Environments” Lausanne, Switzerland ,ACM, EDBT 2010, March 22-26, 2010.
[9] Youngjoong Ko, Jungyun Seo,” An effective sentence-extraction technique using contextual information and statistical approaches for text summarization”, Available online 4 March 2008, Pattern Recognition Letters 29 (2008) 1366–1371.
[10] Raymond J. Mooney,Razvan Bunescu,”Mining Knowledge from Text Using Information Extraction”, Department of Computer Sciences,University of Texas at Austin,1 University Station C0500, Austin, TX 787120233,2005.
[11] Shiqun Yin, Yuhui Qiu, Jike Ge; “ Research and Realization of Text Mining Algorithm on web”, International Conference on Computational Intelligence and Security Workshops, CISW,on ,413 - 416 ,15-19 Dec. 2007.
[12] Dirk Thorleuchter,Dirk Van den Poel,Anita Prinzie,”Mining ideas from textual information”, Expert Systems with Applications 37 (2010) 7182–7188.
[13] K. Rajaraman, Ah-Hwee Tan,"Topic Detection, Tracking and Trend Analysis Using Self-organizing Neural Networks", Kent Ridge Digital Labs,21 Heng Mui Keng Terrace, Singapore 119613,2001.
[14] P. van Mulbregt, I. Carp, L. Gillick, S. Lowe and J. Yamron, "Text Segmentation and Topic Tracking on Broadcast News via a Hidden Markov Model Approach", Dragon Systems, Inc,320 Nevada, Street Newton, MA 02460,1998.
[15] J.P. Yamron, I. Carp, L. Gillick, S. Lowe, and P. van Mulbregt,” Topic Tracking in a News Stream”, Dragon Systems, Inc. 320 Nevada Street, Newton, MA 02460,1999.
[16] Jon Fiscus, George Doddington, John Garofolo, Alvin Martin, "NIST’S 1998 Topic Detection and Tracking Evaluation (TDT2) ", National Institute of Standards and Technology, MD 20899-8940 USA,Aug 2007.
[17] Hubert Jin, Rich Schwartz, Sreenivasa Sista, Frederick Walls, "Topic Tracking for Radio, TV Broadcast, and Newswire", BBN Technologies70 Fawcett Street, Cambridge,MA, 02138.
Cambridge, MA 02138,Apr 1999.
[18] Minqing Hu,Bing Liu,” Mining and Summarizing Customer Reviews”, Department of Computer Science,University of Illinois at Chicago,851 South Morgan Street, Chicago, IL 60607-7053,2009.
[19] Yuen-Hsien Tseng, Chi-Jen Lin, Yu-I Lin,”Text mining techniques for patent analysis”, Available online 26 January 2007, Information Processing and Management 43 (2007) 1216–1247.
[20] Li Yu, Qiang Li,”A Novel Web Text Mining Method based on Semantic Polarity Analysis”,2009.
[21] Amelia Zafra, Cristóbal Romero, Sebastián Ventura,” Multiple instance learning for classifying students in learning management systems”, Department of Computer Science and Numerical Analysis, University of Cordoba, Spain, Expert Systems with Applications 38 (2011) 15020–15031.
[22] Ioannis Kazanidis, Stavros Valsamidis, Theodosios Theodosiou, Sotirios Kontogiannis," PROPOSED FRAMEWORK FOR DATA MINING IN E-LEARNING: THE CASE OF OPEN E-CLASS" IADIS International Conference Applied Computing 2009, Democritus University of Thrace, 2009.
[23] Jason J. Jung,” Social grid platform for collaborative online learning on blogosphere:A case study of eLearning BlogGrid”, Department of Computer Engineering, Yeungnam University, Dae-Dong, Gyeongsan, Republic of Korea, Expert Systems with Applications 36 (2009) 2177 2186.
[24] Bjornar Larsen and Chinatsu Aone,"Fast and Effective Text Mining Using Linear-time Document Clustering", SRA International, Inc. 4300 Fair Lakes Cow-l, Fairfax, VA 22033,1999.
[25] Fu-Ren Lin, Lu-Shih Hsieh, Fu-Tai Chuang,” Discovering genres of online discussion threads via text mining”, Computers & Education 52 (2009) 481–495.
[26] ursun Delen *, Martin D. Crossland,” Seeding the survey and analysis of research literature with text mining”, Department of Management Science and Information Systems, Expert Systems with Applications 34 (2008) 1707–1720.
[1] 1 Knowledge Discovery in Database
[2] Knowledge Discovery in Text
[3] Natural Language Processing
[4] Tokenization
[5] Stop-Word Removal
[6] Stemming
[7] Part-of-Speech tagging (POS)
[8] Text Chunking
[9] Word Sense Disambiguation (WSD)
[10] Parsing
[11] Course Management system (CMS)
[12] Learning Management System (LMS)
[13] Information Extraction
[14] Topic Tracking
[15] Summarization
[16] Categorization
[17] Clustering
[18] Concept Linkage
[19] Information Visualization
[20] Question Answering
[21] Association Rule
[22] Topic Detection and Tracking(TDT)
[23] Segmentation
[24] Dragon System
[25] With Title
[26] Without Title
[27] Semantic Polarity Analysis
[28] Novel User Clustering
[29] FMeasure