یک روش توزیعشده برای استخراج چندتاییهای فارسی- انگلیسی
الموضوعات :سیده سارا میرمبین 1 , محمد قاسم زاده 2 , امین نظارات 3
1 - دانشگاه یزد
2 - مهندسی کامپیوتر
3 - دانشگاه پیام نور یزد
الکلمات المفتاحية: الگوریتم توزیعشدهپیکرههای متنیترجمه ماشینیچندتاییها,
ملخص المقالة :
این پژوهش در حوزه ترجمه ماشینی و در رابطه با استخراج چندتاییها از پیکرههای دوزبانه به وسیله اسپارک است. در این رابطه، مهمترین چالش این است که عملیات بایستی بر روی پیکرههای متنی بزرگ انجام شود لذا بایستی به صورت توزیعشده و با بهرهگیری از راهکارها و ابزارهای تحلیل دادههای حجیم، طراحی و پیادهسازی شود. در واقع هنگام ترجمه متون، به وفور با چندتاییهایی مواجه میشویم که بایستی چندتاییهای متناظر با هر کدام را بیابیم و در ترجمهمان درج کنیم، این کار میتواند از طریق جستجو در پیکرههایی که شامل چندتاییها و ترجمه متناظر با آنها است انجام شود. روشهای موجود، این کار را به صورت غیر توزیعشده انجام میدهند، لذا ضمن این که نیاز به زمان زیادی دارند، نمیتوانند از پیکرههای خیلی بزرگ بهره ببرند. برای رفع این نارسایی، در این پژوهش یک روش توزیعشده ارائه گردیده که فاصله بین بخشهای چندتاییها را نیز لحاظ میکند. راهحل پیشنهادی به صورت توزیعشده، تمام چندتاییهای ممکن را از جملات پیکره تکزبانه استخراج نموده و با استفاده از ضریب همبستگی، چندتاییهای معتبر جداشده را با استفاده از پیکره دوزبانه ترجمه میکند. روش پیشنهادی روی یک کلاستر محاسباتی با 64 گیگابایت حافظه اصلی و پردازنده 24هستهای، در محیط اسپارک پیادهسازی گردید. دادههای آزمایش شامل پیکرههای فارسی و انگلیسی تکزبانه و نیز پیکره دوزبانه، حاوی به طور متوسط 100 هزار جمله بودند. نتایج آزمایشی نشان میدهند که بدین طریق، زمان اجرا به شدت کاهش و کیفیت ترجمه نیز به طور قابل ملاحظهای بهبود مییابد.
[1] ا. سادات علوی، ﻫ. مشایخی، ح. حسنپور و ب. رحیمپور کامی، "استفاده از خوشهبندی تکاملی برای تشخیص موضوع در بلاگنویسی کوچک با لحاظنمودن اطلاعات شبکه اجتماعی،" نشريه مهندسي برق و مهندسي كامپيوتر ايران، ب- مهندسي كامپيوتر، جلد 17، شماره 4، صص. 286-277، زمستان 1398.
[2] دبيرخانه شورای عالی اطلاعرسانی، جمعآوری اطلاعات چالشها و روشهای ترجمه ماشینی زبان انگلیسی به فارسی و بالعکس، شورای عالی اطلاعرسانی، مستند شماره 1/1/2537/190، دانشگاه علم و صنعت ايران، تهران، 1388.
[3] م. عاصی، "پردازش دستوري زبان فارسي با رايانه،" نامه فرهنگستان، جلد 1، شماره 1، صص. 51-29، اسفند 1383.
[4] ش. عباسی، "دادههای عظیم تعاریف و چالشها،" مجموعه مقالات کنفرانس بینالمللی سیستمهای غیر خطی و بهینهسازی کامپیوتر، 13 صص.، شیراز، دبی، امارات متحده عربی، خرداد 1394.
[5] م. جهانی، "نو پرداز"، شرکت نوپرداز، 19/03/1397. [درونخطی]. Available: https://nopardazco.com. [دستيابی در 22/ 05/ 1398].
[6] C. Dyer, A. Cordova, A. Mont, and J. Lin, "Fast, easy, and cheap: construction of statistical machine translation models with mapreduce," in Proc. of the 3rd Workshop on Statistical Machine Translation, pp. 199-207, Columbus, OH, USA, Jun. 2008.
[7] ا. نظارات و ط. موسوی میانگاه، "طراحی و پیادهسازی یک سامانه بازیابی اطلاعات دوزبانه با استفاده از پیکرههای زبانی،" پژوهشنامه پردازش و مدیریت اطلاعات (علوم و فناوری اطلاعات سابق)، جلد 27، شماره 2، صص. 211-198، زمستان 1390.
[8] T. Mousavimiyangah, "Constructing a large-scale English-Persian parallel corpus," Meta, vol. 54, no. 1, pp. 181-188, Jan. 2009.
[9] Y. Zhou, C. Zong, and B. Xu, "Bilingual chunk alignment in statical machine translation," in Proc. Int. Conf. on System Man and Cybernetics, pp. 1401-1406, Hague, The Netherlands, 10-13 Oct. 2004.
[10] M. Murata, T. Ohno, S. Matsubara, and Y. Inagaki, "Construction of chunk-aligned bilingual lecture corpus for simultaneous machine translation," in Proc. of the 7th Conf. on International Language Resources and Evaluation, LREC'10, pp. 1765-1770, Valletta, Malta, 19-21 May 2010.