یک روش توزیع‌شده برای استخراج چندتایی‎های فارسی- انگلیسی

الموضوعات :

سیده سارا میرمبین ¹ , محمد قاسم زاده ² , امین نظارات ³

1 - دانشگاه یزد
2 - مهندسی کامپیوتر
3 - دانشگاه پیام نور یزد

تاريخ الإرسال : 21 الأحد , رمضان, 1440 تاريخ التأكيد : 22 الثلاثاء , ربيع الأول, 1441 تاريخ الإصدار : 18 الإثنين , رمضان, 1441

الکلمات المفتاحية: الگوریتم توزیع‌شدهپیکره‌های متنیترجمه ماشینیچندتایی‎ها,

ملخص المقالة :

این پژوهش در حوزه ترجمه ماشینی و در رابطه با استخراج چندتایی‌ها از پیکره‌های دوزبانه به وسیله اسپارک است. در این رابطه، مهم‌ترین چالش این است که عملیات بایستی بر روی پیکره‌های متنی بزرگ انجام شود لذا بایستی به صورت توزیع‌شده و با بهره‌گیری از راهکارها و ابزارهای تحلیل داده‌های حجیم، طراحی و پیاده‌سازی شود. در واقع هنگام ترجمه متون، به وفور با چندتایی‌هایی مواجه می‌شویم که بایستی چندتایی‌های متناظر با هر کدام را بیابیم و در ترجمه‌مان درج کنیم، این کار می‌تواند از طریق جستجو در پیکره‌هایی که شامل چندتایی‌ها و ترجمه متناظر با آنها است انجام شود. روش‌های موجود، این کار را به صورت غیر توزیع‌شده انجام می‌دهند، لذا ضمن این که نیاز به زمان زیادی دارند، نمی‌توانند از پیکره‌های خیلی بزرگ بهره ببرند. برای رفع این نارسایی، در این پژوهش یک روش توزیع‌شده ارائه گردیده که فاصله بین بخش‌های چندتایی‌ها را نیز لحاظ می‌کند. راه‌حل پیشنهادی به صورت توزیع‌شده، تمام چندتایی‌های ممکن را از جملات پیکره تک‌زبانه استخراج نموده و با استفاده از ضریب همبستگی، چندتایی‌های معتبر جداشده را با استفاده از پیکره دوزبانه ترجمه می‌کند. روش پیشنهادی روی یک کلاستر محاسباتی با 64 گیگابایت حافظه اصلی و پردازنده 24هسته‌ای، در محیط اسپارک پیاده‌سازی گردید. داده‌های آزمایش شامل پیکره‌های فارسی و انگلیسی تک‌زبانه و نیز پیکره دوزبانه، حاوی به‌ طور متوسط 100 هزار جمله بودند. نتایج آزمایشی نشان می‌دهند که بدین طریق، زمان اجرا به شدت کاهش و کیفیت ترجمه نیز به طور قابل ملاحظه‌ای بهبود می‌یابد.

المصادر:

[1] ا. سادات علوی، ﻫ. مشایخی، ح. حسن‌پور و ب. رحیم‌پور کامی، "استفاده از خوشه‌بندی تکاملی برای تشخیص موضوع در بلاگ‌نویسی کوچک با لحاظ‌نمودن اطلاعات شبکه اجتماعی،" نشريه مهندسي برق و مهندسي كامپيوتر ايران، ب- مهندسي كامپيوتر، جلد 17، شماره 4، صص. 286-277، زمستان 1398.
[2] دبيرخانه شورای عالی اطلاع‌رسانی، ‌جمع‌آوری اطلاعات چالش‌ها و روش‌های ترجمه ماشینی زبان انگلیسی به فارسی و بالعکس،‌ شورای عالی اطلاع‌رسانی، مستند شماره 1/1/2537/190، دانشگاه علم و صنعت ايران، تهران، 1388.
[3] م. عاصی، "پردازش دستوري زبان فارسي با رايانه،" نامه فرهنگستان، جلد 1، شماره 1، صص. 51-29، اسفند 1383.
[4] ش. عباسی، "داده‌های عظیم تعاریف و چالش‌ها،" مجموعه مقالات کنفرانس بین‌المللی سیستم‌های غیر خطی و بهینه‌سازی کامپیوتر، 13 صص.، شیراز، دبی، امارات متحده عربی، خرداد 1394.
[5] م. جهانی، "نو پرداز"، شرکت نوپرداز، 19/03/1397. [درون‌خطی]. Available: https://nopardazco.com. [دستيابی در 22/ 05/ 1398].
[6] C. Dyer, A. Cordova, A. Mont, and J. Lin, "Fast, easy, and cheap: construction of statistical machine translation models with mapreduce," in Proc. of the 3rd Workshop on Statistical Machine Translation, pp. 199-207, Columbus, OH, USA, Jun. 2008.
[7] ا. نظارات و ط. موسوی میانگاه، "طراحی و پیاده‌سازی یک سامانه بازیابی اطلاعات دوزبانه با استفاده از پیکره‌های زبانی،" پژوهش‌نامه پردازش و مدیریت اطلاعات (علوم و فناوری اطلاعات سابق)، جلد 27، شماره 2، صص. 211-198، زمستان 1390.
[8] T. Mousavimiyangah, "Constructing a large-scale English-Persian parallel corpus," Meta, vol. 54, no. 1, pp. 181-188, Jan. 2009.
[9] Y. Zhou, C. Zong, and B. Xu, "Bilingual chunk alignment in statical machine translation," in Proc. Int. Conf. on System Man and Cybernetics, pp. 1401-1406, Hague, The Netherlands, 10-13 Oct. 2004.
[10] M. Murata, T. Ohno, S. Matsubara, and Y. Inagaki, "Construction of chunk-aligned bilingual lecture corpus for simultaneous machine translation," in Proc. of the 7th Conf. on International Language Resources and Evaluation, LREC'10, pp. 1765-1770, Valletta, Malta, 19-21 May 2010.

شارک

عنوان URL للمقالة

یک روش توزیع‌شده برای استخراج چندتایی‎های فارسی- انگلیسی

رایمگ

الروابط

المراكز ذات الصلة

دعامة

الصفحات الرسمية