کاربست انواع جانمایی کلمات پیشآموزشدادهشده در مدلهای یادگیری عمیق برای تولید عنوان از متون فارسی
محورهای موضوعی : مهندسی برق و کامپیوترمحمد ابراهیم شناسا 1 , بهروز مینایی بیدگلی 2
1 - دانشکده برق و کامپیوتر، دانشگاه آزاد اسلامی واحد علوم و تحقیقات، ایران
2 - دانشكده مهندسي كامپيوتر، دانشگاه علم و صنعت، ايران
کلید واژه:
چکیده مقاله :
با پیدایش روشهای یادگیری عمیق، مدلهای دنباله به دنباله با هدف ترجمه ماشینی یک جمله مبدأ به یک جمله مقصد ارائه شدند و از همین ایده برای ترجمه یا تبدیل یک متن به شکل خلاصهشده آن استفاده گردیده است. خلاصههایی که به این روش تولید میشوند از نظر ساختاری خواناتر بوده و معمولاً معنای کاملی را به خواننده منتقل میکنند. در چنین ساختارهایی برای بازنمایی معنایی واژهها از بردارهای جانمایی کلمات استفاده میشود که در آن، وزن هر کلمه با توجه به کلمات مجاور آن از یک پیکره بزرگ آموزش داده میشود. در حالت کلی وزن این بردارها با انتخاب یک پنجره مجاورت برای هر کلمه بهدست میآید؛ اما در مدلهای زبانی بافتاری مانند برت برای محاسبه وزن این کلمات از مبدلهای چندلایه استفاده میشود که به تمامی کلمات موجود در متن توجه میکنند. تاکنون مقالات متعددی نشان دادهاند که مدلهای زبانی بافتاری بهدلیل قابلیت ریزتنظیم وزنها برای انجام یک وظیفه پردازش زبان طبیعی خاص، موفقتر از سایر روشهای جانمایی کلمات عمل میکنند؛ اما بررسی عملکرد وزن اولیه این مدلها برای کاربست در تولید عنوان در زبان فارسی مورد توجه قرار نگرفته است. در این مقاله به بررسی رفتار جانمایی کلمات بهصورت پیشآموزشدادهشده و بدون ریزتنظیم آنها در تولید عنوان از متون فارسی میپردازیم. برای یادگیری مدل از «علمنت» که یک پیکره فارسی شامل حدود 350 هزار جفت چکیده و عنوان مقالات علمی میباشد، استفاده شده است. نتایج نشان میدهند استفاده از مدل برت حتی بدون ریزتنظیم وزنهای آن در بهبود کیفیت عناوین فارسی تولیدشده تأثیرگذار بوده و معیار 1-ROUGE را در فارسی به 42% میرساند که بهتر از سایر مدلهای جانمایی است.
Inspired by sequence-to-sequence models for machine translation, deep-learning based summarization methods were presented. The summaries generated this way, are structurally more readable and usually convey the complete meaning to the reader. In these methods, embedding vectors are used for semantic representation, in which the weight of each word vector is learned according to its neighboring words from a large corpus. In static word embedding, the weight of the vectors is obtained by choosing a proximity window for each word. But in contextual ones like BERT, multilayer transformers are applied to calculate the weight of these vectors, which pay attention to all the words in the text. So far, several papers have shown that contextual word embedding are more successful than the other ones due to the ability of fine-tuning the weights to perform a specific natural language processing task. However, the performance of the initial weights of these vectors is not investigated for headline generation from Persian texts. In this paper, we will investigate the behavior of pre-trained word embedding variants without fine-tuning in deep headline generation from Persian texts. To train the headline generation model, "Elam Net" is used, which is a Persian corpus containing about 350 thousand pairs of abstracts and titles of scientific papers. The results show that the use of BERT model, even without fine-tuning its weights, is effective in improving the quality of generated Persian headlines, bringing the ROUGE-1 metric to 42%, which is better than the other pre-trained ones.
