قطعه‌بندی عبارات متون فارسی با استفاده از شبکه‌های عصبی

الموضوعات :

محمدمهدی میردامادی ¹ , علی‌محمد زارع بیدکی ² , مهدی رضائیان ³

1 - دانشگاه یزد
2 - دانشگاه یزد
3 - دانشگاه یزد

تاريخ الإرسال : 17 الأحد , صفر, 1437 تاريخ التأكيد : 18 الإثنين , صفر, 1437 تاريخ الإصدار : 20 الجمعة , جمادى الأولى, 1435

الکلمات المفتاحية: پردازش زبان‌های طبیعی شبکه‌های عصبی قطعه‌بندی موتور جستجو,

ملخص المقالة :

قطعه‌بندی کلمات و عبارات متن، یکی از فعالیت‌های اصلی در حوزه پردازش زبان‌های طبیعی است. اکثر برنامه‌های پردازش زبان‌های طبیعی به یک پیش‌پردازش برای استخراج کلمات متن و تشخیص عبارات احتیاج دارند. هدف اصلی و نهایی قطعه‌بندی عبارات، به دست آوردن کلمات معنی‌دار همراه با پیشوندها و پسوندهایشان است و این فعالیت متناسب با زبان‌های طبیعی مختلف می‌تواند سخت یا آسان باشد. در زبان فارسی به علت وجود فاصله و نیم‌فاصله، عدم توجه کاربران به فاصله‌گذاری‌ها و نبود قواعد دقیق در نوشتن کلمات چندقسمتی، تشخیص و قطعه‌بندی کلمات چندقسمتی و مرکب با مشکلات و پیچیدگی‌های خاص خود روبه‌رو است. در این مقاله برآنیم تا با استفاده از شبکه‌های عصبی، یک روش آماری برای قطعه‌بندی عبارات متون فارسی جهت استفاده در موتورهای جستجو ارائه کنیم. الگوریتم پیشنهادی شامل 4 فاز است که با استفاده از احتمال رخداد تک‌کلمات و دوکلمه‌ای‌های موجود در پیکره و با دقت 6/89% عمل قطعه‌‌بندی را انجام می‌دهد. نتایج آزمایشات نشان دادند این روش می‌تواند با قطعه‌بندی بهتر عبارات، بهبود نسبی در کارایی روش‌های معمول به وجود آورد.

المصادر:

[1] م. محمدی جنقرا و م. آنالویی، "استخراج كلمات كليدی اسناد فارسی،" سيزدهمين كنفرانس سالانه انجمن كامپيوتر ايران، جزیره کیش، اسفند 1386.
[2] B. Habert, et al., "Towards tokenization evaluation," in Proc. 1st Int.l Conf. on Language Resources and Evaluation, LREC, vol. 1, pp. 427-431, Spain, May 1998.
[3] س. کیانی و م. شمس‌فرد، "تعیین مرز کلمات و عبارات در متون نوشتاری فارسی،" چهاردهمين كنفرانس سالانه انجمن كامپيوتر ايران، تهران، اسفند 1387.
[4] س. م. غفوری، س. راحتی، م. ر. پهلوان‌نژاد و ع. عظیمی‌زاده، "نرمال‌ساز متون فارسی،" پانزدهمین کنفرانس بین‌المللی سالانه انجمن کامپیوتر ایران، تهران، اسفند 1388.
[5] M. Shamsfard, S. Kiani, and Y. Shahedi, "Step - 1: standard text preparation for Persian Language," in Proc. of the 3rd Workshop on ComputationalApproaches to Arabic Script-based Languages MTSummit XII, Ottawa, Canada, 2009.
[6] T. Chung and D. Gildea, "Unsupervised tokenization for machine translation," in Proc. of the 2009 Conf. on Empirical Methods in Natural Language Processing, vol. 2, pp. 718-726, Singapore, Aug. 2009.
[7] O. Frunza, "A trainable tokenizer, solution for multilingual texts and compound expression tokenization," in Proc. of the 6th Int. Conf. on Language Resources and Evaluation, LREC'08, Marrakech, May 2008.
[8] J. Grana, M. A. Alonso, and M. Vilares, "A common solution for tokenization and part - of - speech tagging," in Proc. of the 5th Int. Conf. on Text, Speech, and Dialogue, TSD'02, vol. 1, pp. 3-11, London, Sep. 2002.
[9] T. V. Nguyen, H. K. Tran, T. T. Nguyen, and H. Nguyen, "Word segmentation for vietnamese text categorization: an online corpus approach," in Proc. 4th IEEE Int. Conf. in Computer Science, Research, Innovation and Vision of the Future, RIVF'06, Hochiminh, Vietnam, Feb. 2006.
[10] V. Tesprasit, P. Charenpornsawat, and V. Sornlertlamvanich, "Learning phrase break detection in thai text - to - speech," in Proc. of 8th European Conf. on Speech Communication and Technology, Geneva, Switzerland, Sep. 2003.
[11] S. Kiani, T. Akhavan, and M. Shamsfard, "Developing a persian chunker using a hybrid approach," in Proc. of IEEE Int. Multiconf. on. Computer Science and Information Technology, IMCSIT'09, vol. 1, pp. 227-234, Oct. 2009.
[12] BijanKhan Corpus, http://ece.ut.ac.ir/dbrg/Bijankhan/, 2012.
[13] Parsijoo Search Engine, http://www.parsijoo.ir, 2012.

شارک

عنوان URL للمقالة

قطعه‌بندی عبارات متون فارسی با استفاده از شبکه‌های عصبی

رایمگ

الروابط

المراكز ذات الصلة

دعامة

الصفحات الرسمية