قطعهبندی عبارات متون فارسی با استفاده از شبکههای عصبی
الموضوعات :محمدمهدی میردامادی 1 , علیمحمد زارع بیدکی 2 , مهدی رضائیان 3
1 - دانشگاه یزد
2 - دانشگاه یزد
3 - دانشگاه یزد
الکلمات المفتاحية: پردازش زبانهای طبیعی شبکههای عصبی قطعهبندی موتور جستجو,
ملخص المقالة :
قطعهبندی کلمات و عبارات متن، یکی از فعالیتهای اصلی در حوزه پردازش زبانهای طبیعی است. اکثر برنامههای پردازش زبانهای طبیعی به یک پیشپردازش برای استخراج کلمات متن و تشخیص عبارات احتیاج دارند. هدف اصلی و نهایی قطعهبندی عبارات، به دست آوردن کلمات معنیدار همراه با پیشوندها و پسوندهایشان است و این فعالیت متناسب با زبانهای طبیعی مختلف میتواند سخت یا آسان باشد. در زبان فارسی به علت وجود فاصله و نیمفاصله، عدم توجه کاربران به فاصلهگذاریها و نبود قواعد دقیق در نوشتن کلمات چندقسمتی، تشخیص و قطعهبندی کلمات چندقسمتی و مرکب با مشکلات و پیچیدگیهای خاص خود روبهرو است. در این مقاله برآنیم تا با استفاده از شبکههای عصبی، یک روش آماری برای قطعهبندی عبارات متون فارسی جهت استفاده در موتورهای جستجو ارائه کنیم. الگوریتم پیشنهادی شامل 4 فاز است که با استفاده از احتمال رخداد تککلمات و دوکلمهایهای موجود در پیکره و با دقت 6/89% عمل قطعهبندی را انجام میدهد. نتایج آزمایشات نشان دادند این روش میتواند با قطعهبندی بهتر عبارات، بهبود نسبی در کارایی روشهای معمول به وجود آورد.
[1] م. محمدی جنقرا و م. آنالویی، "استخراج كلمات كليدی اسناد فارسی،" سيزدهمين كنفرانس سالانه انجمن كامپيوتر ايران، جزیره کیش، اسفند 1386.
[2] B. Habert, et al., "Towards tokenization evaluation," in Proc. 1st Int.l Conf. on Language Resources and Evaluation, LREC, vol. 1, pp. 427-431, Spain, May 1998.
[3] س. کیانی و م. شمسفرد، "تعیین مرز کلمات و عبارات در متون نوشتاری فارسی،" چهاردهمين كنفرانس سالانه انجمن كامپيوتر ايران، تهران، اسفند 1387.
[4] س. م. غفوری، س. راحتی، م. ر. پهلواننژاد و ع. عظیمیزاده، "نرمالساز متون فارسی،" پانزدهمین کنفرانس بینالمللی سالانه انجمن کامپیوتر ایران، تهران، اسفند 1388.
[5] M. Shamsfard, S. Kiani, and Y. Shahedi, "Step - 1: standard text preparation for Persian Language," in Proc. of the 3rd Workshop on ComputationalApproaches to Arabic Script-based Languages MTSummit XII, Ottawa, Canada, 2009.
[6] T. Chung and D. Gildea, "Unsupervised tokenization for machine translation," in Proc. of the 2009 Conf. on Empirical Methods in Natural Language Processing, vol. 2, pp. 718-726, Singapore, Aug. 2009.
[7] O. Frunza, "A trainable tokenizer, solution for multilingual texts and compound expression tokenization," in Proc. of the 6th Int. Conf. on Language Resources and Evaluation, LREC'08, Marrakech, May 2008.
[8] J. Grana, M. A. Alonso, and M. Vilares, "A common solution for tokenization and part - of - speech tagging," in Proc. of the 5th Int. Conf. on Text, Speech, and Dialogue, TSD'02, vol. 1, pp. 3-11, London, Sep. 2002.
[9] T. V. Nguyen, H. K. Tran, T. T. Nguyen, and H. Nguyen, "Word segmentation for vietnamese text categorization: an online corpus approach," in Proc. 4th IEEE Int. Conf. in Computer Science, Research, Innovation and Vision of the Future, RIVF'06, Hochiminh, Vietnam, Feb. 2006.
[10] V. Tesprasit, P. Charenpornsawat, and V. Sornlertlamvanich, "Learning phrase break detection in thai text - to - speech," in Proc. of 8th European Conf. on Speech Communication and Technology, Geneva, Switzerland, Sep. 2003.
[11] S. Kiani, T. Akhavan, and M. Shamsfard, "Developing a persian chunker using a hybrid approach," in Proc. of IEEE Int. Multiconf. on. Computer Science and Information Technology, IMCSIT'09, vol. 1, pp. 227-234, Oct. 2009.
[12] BijanKhan Corpus, http://ece.ut.ac.ir/dbrg/Bijankhan/, 2012.
[13] Parsijoo Search Engine, http://www.parsijoo.ir, 2012.