A Novel Model based on Encoder-Decoder Architecture and Attention Mechanism for Automatic Abstractive Text Summarization
Subject Areas :hasan aliakbarpor 1 , mohammadtaghi manzouri 2 , amirmasoud rahmani 3
1 -
2 -
3 -
Keywords: Deep learning, Abstractive summarization, Encoder-decoder architecture, Auxiliary attention mechanism, Linguistic features,
Abstract :
By the extension of the Web and the availability of a large amount of textual information, the development of automatic text summarization models as an important aspect of natural language processing has attracted many researchers. However, with the growth of deep learning methods in the field of text processing, text summarization has also entered a new phase of development and abstractive text summarization has experienced significant progress in recent years. Even though, it can be claimed that all the potential of deep learning has not been used for this aim and the need for progress in this field, as well as considering the human cognition in creating the summarization model, is still felt. In this regard, an encoder-decoder architecture equipped with auxiliary attention is proposed in this paper which not only used the combination of linguistic features and embedding vectors as the input of the learning model but also despite previous studies that commonly employed the attention mechanism in the decoder, it utilized auxiliary attention mechanism in the encoder to imitate human brain and cognition in summary generation. By the employment of the proposed attention mechanism, only the most important parts of the text rather than the whole input text are encoded and then sent to the decoder to generate the summary. The proposed model also used a switch with a threshold in the decoder to overcome the rare words problem. The proposed model was examined on CNN / Daily Mail and DUC-2004 datasets. Based on the empirical results and according to the ROUGE evaluation metric, the proposed model obtained a higher accuracy compared to other existing methods for generating abstractive summaries on both datasets.
[1] M. Dey and D. Das, "A Deep Dive into Supervised Extractive and Abstractive Summarization from Text," in Data Visualization and Knowledge Engineering: Springer, 2020, pp. 109-132.
[2] T. Shi, Y. Keneshloo, N. Ramakrishnan, and C. K. Reddy, "Neural abstractive text summarization with sequence-to-sequence models," ACM Transactions on Data Science, vol. 2, no. 1, pp. 1-37, 2021.
[3] A. M. Al-Numai and A. M. Azmi, "The Development of Single-Document Abstractive Text Summarizer During the Last Decade," in Trends and Applications of Text Summarization Techniques: IGI Global, 2020, pp. 32-60.
[4] S. Chakraborty, X. Li, and S. Chakraborty, "A more abstractive summarization model," arXiv preprint arXiv:2002.10959, 2020.
[5] L. Abualigah, M. Q. Bashabsheh, H. Alabool, and M. Shehab, "Text Summarization: A Brief Review," in Recent Advances in NLP: The Case of Arabic Language: Springer, 2020, pp. 1-15.
[6] Y. Dong, "A survey on neural network-based summarization methods," arXiv preprint arXiv:1804.04589, 2018.
[7] F. Zhao, B. Quan, J. Yang, J. Chen, Y. Zhang, and X. Wang, "Document Summarization using Word and Part-of-speech based on Attention Mechanism," in Journal of Physics: Conference Series, 2019, vol. 1168, no. 3: IOP Publishing, p. 032008.
[8] D. Suleiman and A. Awajan, "Deep Learning Based Abstractive Text Summarization: Approaches, Datasets, Evaluation Measures, and Challenges," Mathematical Problems in Engineering, vol. 2020, 2020.
[9] H. Lin and V. Ng, "Abstractive Summarization: A Survey of the State of the Art," in Proceedings of the AAAI Conference on Artificial Intelligence, 2019, vol. 33, pp. 9815-9822.
[10] W. Kryściński, N. S. Keskar, B. McCann, C. Xiong, and R. Socher, "Neural text summarization: A critical evaluation," arXiv preprint arXiv: 1908.08960, 2019.
[11] X. Xiang, G. Xu, X. Fu, Y. Wei, L. Jin, and L. Wang, "Skeleton to Abstraction: An Attentive Information Extraction Schema for Enhancing the Saliency of Text Summarization," Information, vol. 9, no. 9, p. 217, 2018.
[12] S. Song, H. Huang, and T. Ruan, "Abstractive text summarization using LSTM-CNN based deep learning," Multimedia Tools and Applications, vol. 78, no. 1, pp. 857-875, 2019.
[13] H. P. Luhn, "The automatic creation of literature abstracts," IBM Journal of research and development, vol. 2, no. 2, pp. 159-165, 1958.
[14] I. Sutskever, O. Vinyals, and Q. V. Le, "Sequence to sequence learning with neural networks," in Advances in neural information processing systems, 2014, pp. 3104-3112.
[15] A. M. Rush, S. Chopra, and J. Weston, "A neural attention model for abstractive sentence summarization," arXiv preprint arXiv:1509.00685, 2015.
[16] D. Bahdanau, K. Cho, and Y. Bengio, "Neural machine translation by jointly learning to align and translate," arXiv preprint arXiv: 1409.0473,2014.
[17] S. Chopra, M. Auli, and A. M. Rush, "Abstractive sentence summarization with attentive recurrent neural networks," in Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2016, pp. 93-98.
[18] W. Zeng, W. Luo, S. Fidler, and R. Urtasun, "Efficient summarization with read-again and copy mechanism," arXiv preprint arXiv:1611.03382, 2016.
[19] S. Shen, Y. Zhao, Z. Liu, and M. Sun, "Neural headline generation with sentence-wise optimization," arXiv preprint arXiv:1604.01904, 2016.
[20] S. Takase, J. Suzuki, N. Okazaki, T. Hirao, and M. Nagata, "Neural headline generation on abstract meaning representation," in Proceedings of the 2016 conference on empirical methods in natural language processing, 2016, pp. 1054-1059.
[21] T. Wang, P. Chen, K. Amaral, and J. Qiang, "An experimental study of LSTM encoder-decoder model for text simplification," arXiv preprint arXiv:1609.03663, 2016.
[22] Q. Chen, X. Zhu, Z. Ling, S. Wei, and H. Jiang, "Distraction-based neural networks for document summarization," arXiv preprint arXiv:1610.08462, 2016.
[23] A. See, P. J. Liu, and C. D. Manning, "Get to the point: Summarization with pointer-generator networks," arXiv preprint arXiv:1704.04368, 2017.
[24] K. Al-Sabahi, Z. Zuping, and Y. Kang, "Bidirectional attentional encoder-decoder model and bidirectional beam search for abstractive summarization," arXiv preprint arXiv:1809.06662, 2018.
[25] K. Yao, L. Zhang, D. Du, T. Luo, L. Tao, and Y. Wu, "Dual encoding for abstractive text summarization," IEEE transactions on cybernetics, 2018.
[26] W. H. Alquliti and N. B. A. Ghani, "Convolutional Neural Network based for Automatic Text Summarization."
[27] Y. Zhang, D. Li, Y. Wang, Y. Fang, and W. Xiao, "Abstract Text Summarization with a Convolutional Seq2seq Model," Applied Sciences, vol. 9, no. 8, p. 1665, 2019.
[28] R. Nallapati, B. Zhou, C. Gulcehre, and B. Xiang, "Abstractive text summarization using sequence-to-sequence rnns and beyond," arXiv preprint arXiv:1602.06023, 2016.
[29] T. Mikolov, K. Chen, G. Corrado, and J. Dean, "Distributed Representations of Words and Phrases and their Compositionality, Nips," 2013.
[30] W. Yoon, Y. S. Yeo, M. Jeong, B.-J. Yi, and J. Kang, "Learning by Semantic Similarity Makes Abstractive Summarization Better," arXiv preprint arXiv:2002.07767, 2020.
[31] A. Graves, "Generating sequences with recurrent neural networks," arXiv preprint arXiv:1308.0850, 2013.
[32] P. Over, H. Dang, and D. Harman, "DUC in context," Information Processing & Management, vol. 43, no. 6, pp. 1506-1520, 2007.
[33] C.-Y. Lin, "ROUGE: A Package for Automatic Evaluation of Summaries," in Association for Computational Linguistic, Barcelona, Spain, 2004.
[34] A. Fan, D. Grangier, and M. Auli, "Controllable abstractive summarization," arXiv preprint arXiv:1711.05217, 2017.
[35] R. Paulus, C. Xiong, and R. Socher, "A deep reinforced model for abstractive summarization," arXiv preprint arXiv:1705.04304, 2017.
[36] W.-T. Hsu, C.-K. Lin, M.-Y. Lee, K. Min, J. Tang, and M. Sun, "A unified model for extractive and abstractive summarization using inconsistency loss," arXiv preprint arXiv:1805.06266, 2018.
[37] A. Celikyilmaz, A. Bosselut, X. He, and Y. Choi, "Deep communicating agents for abstractive summarization," arXiv preprint arXiv:1803.10357, 2018.
[38] H. Zhang, J. Xu, and J. Wang, "Pretraining-based natural language generation for text summarization," arXiv preprint arXiv:1902.09243, 2019.
[39] P. Li, L. Bing, and W. Lam, "Actor-critic based training framework for abstractive summarization," arXiv preprint arXiv:1803.11070, 2018.
[40] Q. Zhou, N. Yang, F. Wei, and M. Zhou, "Selective encoding for abstractive sentence summarization," arXiv preprint arXiv:1704.07073, 2017.
دو فصلنامه علمي فناوري اطلاعات و ارتباطات ایران | سال چهاردهم، شمارههای 51 و 52 ، بهار و تابستان 1401 صص: 55_72 |
|
مدلی جدید برپایه معماری کدگذار-کدگشا و سازوکار توجه برای خلاصهسازی چکیدهای خودکار متون
حسن علی اکبرپور* محمد تقی منظوری**1 امیر مسعود رحمانی***
* دانشجوی دکتری دانشگاه آزاد اسلامی، واحد علوم و تحقیقات، گروه مهندسی کامپیوتر، تهران، ایران
** دانشیار گروه مهندسی کامپیوتر، دانشگاه صنعتی شریف، تهران، ایران
*** استاد دانشگاه آزاد اسلامی، واحد علوم و تحقیقات، گروه مهندسی کامپیوتر، تهران، ایران
تاریخ دریافت: 11/01/1400 تاریخ پذیرش: 04/10/1400
نوع مقاله: پژوهشی
چكیده
با گسترش وب و در دسترس قرار گرفتن حجم زیادی از اطلاعات در قالب اسناد متنی، توسعه سیستمهای خودکار خلاصهسازی متون بهعنوان یکی از موضوعات مهم در پردازش زبانهای طبیعی در مرکز توجه محققان قرار گرفته است. البته با معرفی روشهای یادگیری عمیق در حوزه پردازش متن، خلاصهسازی متون نیز وارد فاز جدیدی از توسعه شده و در سالهای اخیر نیز استخراج خلاصه چکیدهای از متن با پیشرفت قابلتوجهی مواجه شده است. اما میتوان ادعا کرد که تاکنون از همه ظرفیت شبکههای عمیق برای این هدف استفاده نشده است و نیاز به پیشرفت در این حوزه توأمان با در نظر گرفتن ویژگیهای شناختی همچنان احساس میشود. در این راستا، در این مقاله یک مدل دنبالهای مجهز به سازوکار توجه کمکی برای خلاصهسازی چکیدهای متون معرفی شده است که نهتنها از ترکیب ویژگیهای زبانی و بردارهای تعبیه بهعنوان ورودی مدل یادگیری بهره میبرد بلکه برخلاف مطالعات پیشین که همواره از سازوکار توجه در بخش کدگذار استفاده میکردند، از سازوکار توجه کمکی در بخش کدگذار استفاده میکند. به کمک سازوکار توجه کمکی معرفیشده که از سازوکار ذهن انسان هنگام تولید خلاصه الهام میگیرد، بجای اینکه کل متن ورودی کدگذاری شود، تنها قسمتهای مهمتر متن کدگذاری شده و در اختیار کدگشا برای تولید خلاصه قرار میگیرند. مدل پیشنهادی همچنین از یک سوئیچ به همراه یک حد آستانه در کدگشا برای غلبه بر مشکل با کلمات نادر بهره میبرد. مدل پیشنهادی این مقاله روی دو مجموعه داده CNN/Daily Mail و DUC-2004 مورد آزمایش قرار گرفت. بر اساس نتایج حاصل از آزمایشها و معیار ارزیابی ROUGE، مدل پیشنهادی از دقت بالاتری نسبت به سایر روشهای موجود برای تولید خلاصه چکیدهای روی هر دو مجموعه داده برخوردار است.
واژگان کلیدی: یادگیری عمیق، خلاصهسازی چکیدهای، ، معماری کدگذار-کدگشا، سازوکار توجه کمکی، ویژگیهای زبانی.
[1] نویسنده مسئول: محمدتقی منظوری manzuri@sharif.edu
1. مقدمه
با توجه به رشد قابلتوجه اینترنت در سالهای اخیر، روزانه حجم زیادی از اطلاعات در قالب متن پیرامون موضوعات مختلف در سطح وب گسترده جهانی تولید میشود. این اطلاعات که معلول توسعه تکنولوژیهای اطلاعاتی و ارتباطی است، حجم عظیمی از اطلاعات دیجیتالی مناسب را در اختیار افراد، سازمانها و دولتها قرار میدهد که دسترسی سریع به مفاهیم اصلی این اطلاعات میتواند نقش قابلتوجهی در تصمیمگیری آنها ایفا کند. با اینکه این اطلاعات میتوانند راهگشای بسیاری از مسائل و تسهیلکننده تصمیمگیریها باشند، با افزایش حجم مستندات متنی و توسعه منابع اطلاعاتی، تکنیکهای بازیابی اطلاعات دیگر بهتنهایی قادر به پاسخگویی نیازهای اطلاعاتی کاربران نیستند و حجم بالای اطلاعات همانند شمشیر دو لبهای است که از یکسو میتواند برطرفکننده نیاز اطلاعاتی کاربران باشد و از سوی دیگر یافتن اطلاعات مطلوب را با چالشهایی مواجه کند [1, 2].
افزایش چشمگیر این نوع اطلاعات، وجود ابزارهایی برای ارزیابی خودکار منابع متنی را بیش از هر زمان دیگری آشکار میکند. در این میان وجود ابزارهایی که بهصورت خودکار اطلاعات مفید و خلاصه را از میان منابع مختلف در کمترین زمان استخراج کند، بیش از هر زمان دیگری احساس میشود و این مسئله محققان را در سالهای اخیر بهسوی طراحی و توسعه سیستمهای خودکار خلاصهسازی متون هدایت کرده است [3, 4]. خلاصهسازی متون یکی از موضوعات مهم در حوزه پردازش زبان طبیعی است و بهعنوان هسته مرکزی طیف گستردهای از ابزارهای پردازشگر متن مانند خلاصهسازهای ماشینی، سیستمهای تصمیمیار، سیستمهای پاسخگو و موتورهای جستجو بهحساب میآید [5, 6].
روشهای خلاصهسازی بر اساس روش تهیه خلاصه به دو دسته خلاصه استخراجی1 و چکیدهای2 تقسیم میشوند [7]. خلاصهسازی استخراجی از روشهای سنتی برای تولید خلاصه استفاده میکند که در آن قسمتهای مهم متن اصلی جدا شده و دوباره باهم ترکیب میشوند تا یک خلاصه منسجم ایجاد شود. در مقابل، خلاصهسازی چکیدهای خلاصه را بدون توجه به عبارات و جملات موجود در متن اصلی تولید کرده و هدف آن تولید خلاصهای مطابق با خلاصه تولیدشده توسط انسان است. با در نظر گرفتن این مسئله که ساختار نحوی و معنایی دو فاکتور اصلی در ارزیابی سیستمهای خلاصهسازی به شمار میآیند، هیچکدام از این دو نوع خلاصه نمیتوانند همزمان روی هر دو فاکتور تمرکز کنند [8]. در خلاصهسازی استخراجی خلاصههای تولیدشده اگرچه از جملات خود متن استخراج میشوند و ساختار نحوی درستی دارند، اما عموماً از لحاظ معنایی منسجم نیستند. علت این مشکل را میتوان منوط به این مسئله دانست که جملاتی که در متن خلاصه کنار هم قرار میگیرند، لزوماً جملاتی نیستند که در متن اصلی کنار یکدیگر قرار دارند. از طرف دیگر، در خلاصهسازی چکیدهای اگرچه خلاصه تولیدشده از لحاظ معنایی منسجم است، اما ساختار نحوی جملات تولیدشده همواره درست نیستند. مزیت این مدل خلاصهسازی این است که خلاصههای تولیدشده از لحاظ معنایی به دلیل اینکه ترتیب3 بین کلمات را در نظر گرفته و دنبالهای از کلمات کلیدی را بر اساس ترتیب بین کلمات پس از آموزش تولید میکنند، فراگیر بوده و بین جملات تولیدشده ارتباط معنایی برقرار است. اما مشکل این مدل خلاصهسازی این است جملات تولیدشده که از دنبالههای از کلمات معمولاً دارای ساختار نحوی مناسبی نمیباشند [9].
با اینکه تحقیقات متعددی در طول زمان پیرامون خلاصهسازی خودکار متون صورت گرفته است، عمده رویکردهای خلاصهسازی معطوف به خلاصهسازی استخراجی بوده است. درواقع، تحقیقات انجامشده در این حوزه بسیار متنوع بوده و روشها و رویکردهای بسیاری از قبیل انواع روشهای مبتنی بر قاعده4، روشهای آماری5 و یادگیری ماشین6، روشهای مبتنی بر تحلیلهای گفتمانی7 و روشهای مبتنی بر گراف8 برای خلاصهسازی استخراجی به کار گرفته شده است. در مقایسه با این حجم از تحقیقات که در حوزه خلاصهسازی استخراجی انجامشده، مطالعات انجامشده پیرامون خلاصهسازی چکیدهای نسبتاً محدود است. علت اینکه بیشتر تحقیقات بر خلاصهسازی استخراجی متمرکز بوده و نه خلاصهسازی چکیدهای این است که خلاصهسازی چکیدهای با مسئله تولید زبان9 سروکار دارد که بسیار دشوار و مستعد خطاهای معنایی و گرامری بسیاری است [10].
اما با معرفی روشهای یادگیری عمیق در حوزه پردازش متن، خلاصهسازی خودکار متون نیز وارد فاز جدیدی از توسعه شد و در سالهای گذشته خلاصهسازی چکیدهای با پیشرفت قابلتوجهی مواجه شده است. مدلهای خلاصهسازی چکیدهای که به دقت بالایی در سالهای اخیر دست یافتند، عموماً بر اساس معماری کدگذار-کدگشا بودند که عموماً از سازوکار توجه نیز برای افزایش دقت کدگشا در تولید خلاصه استفاده میکردند [9]. بر اساس این معماری، کدگذار متن اصلی را خوانده و معنای متن را درک میکند و متن کدگذاری شده را در اختیار کدگشا قرار میدهد. کدگشا با استفاده از مدل زبانی کلمات خلاصه را تولید کرده و وظیفه سازوکار توجه نیز تراز کردن متن ورودی و خلاصه خروجی برای تولید خلاصه با قابلیت اطمینان بالاتر است. همانطور که مشخص است، در این رویکردها به ویژگیهای شناختی و عملکرد ذهنی انسان هنگام تولید خلاصه توجهی نشده است و کل متن ورودی که ممکن است حاوی اطلاعات اضافی و غیرضروری در تولید خلاصه باشد، کدگذاری شده و در اختیار کدگشا برای تولید خلاصه قرار میگیرد. در این حالت، اگر متن اصلی حاوی اطلاعات زیادی باشد که به خلاصه ربطی نداشته باشند، رمزگذار نمیتواند بهدرستی معنای متن را کدگذاری کند و در نتیجه، کدگشا تحت تأثیر اطلاعات نامرتبط خواهد بود و پیرو آن خلاصههای تولیدشده نیز ممکن است حاوی نکات برجسته متن ورودی نباشند [11]. مشکل دیگر مدلهای خلاصهسازی چکیدهای مبتنی بر یادگیری عمیق، نادیده گرفتن تأثیر کلمات نادر در تولید خلاصه است [12].
برای غلبه بر این چالشها در مدل پیشنهادی این مقاله یک سازوکار توجه کمکی با الهام از ذهن و شناخت انسان هنگام تولید خلاصه معرفی شده است. بهطورکلی، دانشمندان علوم شناختی ذهن انسان را شبكه پیچیدهای میدانند كه اطلاعات را دریافت، نگهداری و بازیابی میكند و میتواند آن را تغییر شكل یا انتقال دهد. .به بیان کلیترو از دید علوم شناختی، ذهن را میتوان با تساهل نوعی رایانه دانست که در آن اطلاعات توسط دستگاههای ورودی مانند صفحه كلید یا نشانگر وارد سامانه میشود و سپس عملیات متفاوتی برروی آن انجام میگیرد. اطلاعات وارد شده را میتوان در رایانه ذخیره و توسط نرمافزارهای مربوطه (گاها بصورت هوشمندانه!) پردازش كرد؛ نتیجه این پردازش میتواند به خروجی رایانه تبدیل گردد.
هدف از سازوکار توجه کمکی معرفی شده در مدل پیشنهادی نیز پیروی از عملکرد ذهنی انسان هنگام تولید خلاصه است که متنی در اختیار آن قرار گرفته و خلاصهای از آن به شرطی که مفهوم اصلی متن ورودی حفظ شود، تولید شود. همانطور که انسان هنگام تولید خلاصه متن ورودی را خوانده و نکات مهم آن را علامتگذاری کرده و سپس به کمک مفاهیم مهم مشخصشده متن به تولید خلاصه میپردازد، در مدل پیشنهادی نیز سازوکار توجه همین کار را انجام میدهد. در این راستا بجای اینکه از کل متن ورودی برای تولید خلاصه استفاده شود، بخشهای مهمتر متن به کمک سازوکار توجه پیشنهادی مشخص شده و پس از آن تنها بخشهای مهم متن بجای کل متن ورودی کدگذاری شده و در اختیار کدگشا برای تولید خلاصه قرار میگیرد.
همچنین، با توجه به اینکه خلاصههای چکیدهای تولیدشده توسط معماریهای کدگذار-کدگشا عموماً از لحاظ معنایی منسجم بوده ولی دارای ساختار نحوی مناسبی نمیباشند، در مدل پیشنهادی این مقاله از ترکیب بردارهای تعبیه با ویژگیهای زبانی ازجمله نقش کلمات و موجودیتهای نامدار بهعنوان ورودی مدل یادگیری استفاده میشود. این مسئله باعث میشود که ضمن توجه به ویژگیهای زبانی، خلاصه تولیدشده نیز از لحاظ نحوی منسجمتر باشد. همچنین، با توجه به اینکه کلمات نادر موجود در متن یکی دیگر از مشکلات این شبکههای یادگیری عمیق در تولید خلاصه میباشند، مدل پیشنهادی از یک سوئیچ به همراه یک حد آستانه در کدگشا برای حل این مشکل استفاده کرده است.
بهطورکلی، سهم علمی این مقاله را میتوان بهصورت زیر بیان کرد:
1) استفاده از ترکیب بردارهای تعبیه و ویژگیهای زبانی بهعنوان ورودی مدل کدگذار-کدگشا بهمنظور تولید خلاصههایی که از لحاظ نحوی منسجم هستند.
2) استفاده از سازوکار توجه کمکی در بخش کدگذار (برخلاف سایر روشهای پیشین که از سازوکار توجه در بخش کدگشا استفاده کردند) بهمنظور استخراج اطلاعات مهم متن ورودی برای تولید خلاصههایی که از لحاظ معنایی منسجم بوده و حاوی مطالب اصلی متن ورودی هستند. در واقع، سازوکار توجه کمکی پیشنهادی از عملکرد ذهن انسان برای تولید خلاصه پیروی میکند و در آن بجای اینکه مشابه روشهای پیشین کل متن کدگذاری شده و در اختیار کدگذار برای تولید خلاصه قرار گیرد، ابتدا قسمتهای مهمتر متن شناسایی شده و کدگذاری میشوند.
3) استفاده از یک سوئیچ با حد آستانه در لایه کدگشا بهمنظور توجه به کلمات نادر هنگام تولید خلاصه. در مدل پیشنهادی برخلاف مدلهای پیشین که در آنها سوئیچ بهعنوان یک تابع فعالساز سیگموئید به کمک یک لایه خطی و بر اساس کل متن ورودی در هر مرحله زمانی مدل میشود ، از احتمال شرطی مورد استفاده در مدل دنبالهای برای مشخص کردن کلمات نادر بهره میبرد. پیرو آن اگر احتمال بهدستآمده از یک حد آستانهای بالاتر بود مدل وارد حالت تولید و در غیر این صورت وارد حالت کپی میشود.
4) مدل پیشنهادی روی دو مجموعه داده CNN/Daily Mail و DUC-2004 مورد آزمایش قرار گرفت و بر اساس نتایج حاصل از آزمایشها و معیار ارزیابی ROUGE، مدل پیشنهادی از دقت بالاتری نسبت به سایر روشهای پیشین برای تولید خلاصه چکیدهای متون برخوردار است.
بخشهای بعدی مقاله نیز بهصورت زیر سازماندهیشده است: مرور مختصری از مهمترین تحقیقات انجامشده در زمینه خلاصهسازی متون با استفاده از یادگیری عمیق در بخش دوم ارائهشده است. در بخش سوم روش پیشنهادی و جزئیات آن به تفضیل بیان شده است. بخش چهارم شامل جزئیات پیادهسازی و نتایج حاصل از آزمایشها است. توضیحاتی در راستای نتایج حاصل از پژوهش و کارهایی که در ادامه میتوان انجام داد، در بخش پنجم ارائه شده است.
2. پیشینه پژوهش
خلاصهسازی خودکار متون از اولین موضوعات تحقیقاتی در حوزه پردازش زبان طبیعی است که نظر محققان زیادی را به خود جلب کرده و پس از دههها همچنان موردتوجه است. اولین روشهای خلاصهسازی خودکار متن بر ویژگیهایی مانند فرکانس کلمات و عبارات متمرکز بود [13]. پس از آن مسئله خلاصهسازی به انواع مختلف انشقاق یافت و برای هر یک، روشها و رویکردهای متعددی پیشنهاد گردید. خلاصهسازی تک سندی، خلاصهسازی چند سندی، خلاصهسازی متمرکز بر پرسمان، خلاصهسازی پروندههای پزشکی و خلاصهسازی ایمیل از جمله انواع مختلف خلاصهسازی است که ارائه روشها و الگوریتمهای متعددی را ایجاب کرده است. با توجه به اینکه تمرکز ما در این مقاله بر روی خلاصهسازی چکیدهای با رویکرد یادگیری عمیق است، مرور تحقیقات پیشین را به این زمینه محدود کرده و در ادامه این بخش کارهای انجام شده در حوزه خلاصهسازی متون با تأکید بر خلاصهسازی چکیدهای و مدلهای یادگیری عمیق مورد بررسی قرار میگیرند.
انتشار مقاله [14] میتوان نقطه عطفی در تحقیقات پردازش متن به شمار آورد. در این مقاله یک مدل یادگیری عمیق مبتنیبر معماری کدگذار-کدگشا برای ترجمه ماشینی ارائه شد که ورودی آن جمله در زبان مبدأ و خروجی آن جمله در زبان مقصد است. در این مدل کدگذار یک شبکه حافظه کوتاه بلندمدت (LSTM)10 چندلایه است که جمله ورودی را به یک بردار با طول ثابت نگاشت میکند. رمزگشا نیز خود یک LSTM چندلایه دیگر است که است که این بردار را گرفته و دنبالهای از کلمات را بهعنوان خروجی تولید میکند. در ادامه از این مدل کدگذار و کدگشا الهامبخش مطالعات حوزه خلاصهسازی متون استفاده شد. درواقع با اینکه خلاصهسازی متون بسیار شبیه ترجمه ماشینی است، اما در خلاصهسازی دنباله خروجی همواره کوچکتر از دنباله ورودی میباشد. در این راستا، راش و همکارانش [15] یک شبکه کدگذار-کدگشا برای ترجمه ماشینی معرفی کردند که از شبکهLSTM بهره میبرد. همچنین آنها از سازوکار توجه [16] نیز بهعنوان راهکاری که هنگام رمزگشایی اطلاعات کد شده ورودی را بهعنوان یکی از پارامترها در نظر میگیرد تا فقدان احتمالی اطلاعات را جبران و کیفیت خروجی را افزایش دهد، استفاده کردند.
در ادامه کوپرا و همکارانش [17] مدلی برای خلاصهسازی جملات ارائه دادند که از مدل ارائه شده توسط راش و همکارانش [15] مشتق شده بود. در این مدل یک سازوکار توجه کانولوشنی پیشنهاد شد که بهجای موردتوجه قرار دادن تنها یک ورودی در هر مرحله از کدگشایی، از ترکیب وزندار ورودیها استفاده شد و وزنها نیز خود در فرآیند آموزش شبکه آموزش دیدند.
ژنگ و همکارانش [18] سه مدل GRU،LSTM و LSTM سلسلهمراتبی را برای خلاصهسازی متون مورد بررسی قراردادند. در این مدل همه جملات دو بار خوانده میشوند یعنی دو بار به شبکه داده میشوند. انگیزه این کار این است که همانند انسان هنگام تولید خلاصه مجدداً به متن اصلی توجه شود. این کار باعث میشود که کدگذاری جملات با دقت بالاتری صورت گیرد. شن و همکارانش [19] شبکهای کدگذار-کدگشا برای تولید سرخط یا تیتر معرفی کردند که در آن بجای استفاده از LSTM از GRU استفاده شده است. بخش کدگذار این مدل شبکهای دوطرفه11 و بخش کدگشای آن یکطرفه12 است. تاکاسا [20] نیز یک مدل برای خلاصهسازی مبتنی بر سازوکار توجه معرفی کرد تا اطلاعات مرتبط با بازنمایش معنایی چکیده (AMR) 13جملات را کدگذاری نماید. یک تجزیهگر AMR جملات را تجزیه کرده و سپس یک مدل شبکه با ساختار درختی که مجهز به سازوکار توجه است برای رمزگذاری اطلاعات نحوی و معنایی به کار میبرد.
ونگ و همکارانش نیز در پژوهشی کارایی یک شبکه کدگذار-کدگشا LSTM را برای سادهسازی14 متن مورد بررسی قرار دادند [21]. در سادهسازی متن اعمالی مانند جایگزینی کلمات دشوار با کلمات ساده، حذف کلمات زائد و سادهسازی ساختارهای نحوی پیچیده مورد توجه است. در این تحقیق کارایی شبکه کدگذار-کدگشا در انجام این اعمال با دادههای مصنوعی مورد آزمایش قرار گرفت.
در ادامه، چن و همکارانش مدل نسبتاً پیچیدهتری را برای خلاصهسازی جملات ارائه دادند [22]. در این مدل کدگذار یک شبکه دوطرفه است و سازوکار توجه بخش کدگشا نیز به وضعیت خروجی تا مرحله قبل توجه دارد. بدین صورت هنگام تولید یک خروجی در هر محله اطلاعات کد شده تا مرحله قبل نیز لحاظ میشوند. سانگ و همکارانش [12] مدلی پیشنهاد دادند که از دو بخش تشکیل شده بود. در بخش اول عبارات از سند ورودی استخراج شده و در بخش دوم متن خلاصه با استفاده از روشهای یادگیری عمیق تولید میشود. هدف اصلی مدل معرفی شده توسط آنها تأکید روی عبارات بجای کلمات بوده است.
ژاو و همکارانش [7] از ترکیب بردارهای بازنمایش کلمات و نقش کلمات در جمله با شبکههای یادگیری عمیق برای تولید خلاصه بهره بردند. در مدل معرفیشده توسط آنها ترکیب بردارهای بازنمایش کلمات و نقش کلمات به یک شبکه حافظه کوتاهمدت بلند یکطرفه داده میشود. سی و همکارانش [23] نیز مدلی را پیشنهاد کردند که از LSTM دوطرفه به همراه سازوکار توجه در کدگذار و از یکLSTM یکطرفه به همراه سازوکار توجه در بخش کدگشا بهره میبرد.مدل پیشنهادی آنها از یک شبکه تولید کننده اشارهگر ترکیبی استفاده میکند که میتواند کلمات را از طریق نوشتن متن از متن منبع کپی کند که منجر به تولید خلاصههای دقیق و منسجم میشود.
صباحی و همکارانش [24] معماری رمزگذار-رمزگشای دوطرفه را برای خلاصهسازی متون معرفی کردند که در آن رمزگذار و رمزگشای LSTM دوطرفه هستند. رمزگشای جلو با آخرین حالت مخفی کننده رمزگذار عقب شروع میشود درحالیکه رمزگشای عقب با آخرین حالت مخفی رمزگذار جلو، مقداردهی اولیه میشود. علاوه بر این ، یک مکانیسم جستجوی پرتو15 دوطرفه بهعنوان یک الگوریتم استنباط تقریبی برای ایجاد خلاصههای خروجی از مدل دو جهته ارائه شده است که مدل را قادر میسازد تا در مورد گذشته و آینده استدلال کند و در نتیجه خروجی متعادلی ایجاد کند.
یاو و همکارانش [25] نیز مدلی را ارائه دادند که از یک رمزگذار دوگانه شامل دو بخش اولیه و ثانویه بهره میبرد. رمزگذار اولیه رمزگذاری درشت را به روشی منظم انجام میدهد، درحالیکه رمزگذار ثانویه اهمیت کلمات را مدل میکند و کدگذاری ظریفتری را بر اساس متن خام ورودی و خلاصه متن خروجی تولیدشده قبلی ایجاد میکند. رمزگذاری دو سطح باهم ترکیبشده و بهعنوان ورودی کدگشا مورد استفاده قرار میگیرند تا خلاصه متنوعتری ایجاد کند که میتواند پدیده تکرار را برای تولید دنباله طولانی کاهش دهد.
لازم به ذکر است که از شبکههای عصبی کانولوشنی نیز در سالهای اخیر برای خلاصهسازی متون استفاده شده است. در این راستا، آکویلتی و همکارانش [26] از یک معماری عمیق با چندین لایه کانولوشنی و ادغام بهره بردند. ژانگ و همکارانش [27] نیز یک معماری دنبالهای با استفاده از شبکه عصبی کانولوشنی معرفی کردند که شبکه کانولوشنی در بخش کدگذار و هم کدگشا بهره میبرد. معماری پیشنهادی آنها برای افزایش توجه روی قسمتهای مهمتر متن از سازوکار توجه سلسلهمراتبی نیز بهره میبرد.
همانطور که مشخص است، با اینکه مطالعات انجام شده در این حوزه به دقت قابل توجهی در خلاصهسازی دست یافتند و توسعه روشهای یادگیری عمیق نیز باعث ایجاد انقلابی در این حوزه شده است، اما هنوز فاصله قابل توجهی بین خلاصه تولید شده توسط ماشین و انسان وجود دارد. در نتیجه میتوان ادعا کرد که در این حوزه کمتر به روشهای شناختی که به عملکرد ذهن و مغر انسان توجه دارند، پرداخته شده است. در واقع، با اینکه در سالهای اخیر همکاری دانشمندان حوزههای زبانشناسی، علومشناختی، فلسفه ذهن و هوش مصنوعی سبب شده تا گامهای مهمی در حوزه پردازش زبان طبیعی برداشته شود، اما همچنان راه برای رسیدن به وضعیت مطلوب در این حوزه به خصوص در کاربرد خلاصهسازی خودکار متون وجود دارد و نیاز است مدلهایی معرفی شوند که بتوانند ساختار ذهنی انسان را هنگام تولید خلاصه مدلسازی کنند. میتوان ادعا کرد که تأکید بر ترکیب روشهای پردازش زبان طبیعی با جنبههای شناختی متن میتواند تأثیر قابلتوجهی در جامعهای امروزی که به سمت هوشمند شدن درحرکت است، داشته باشد و نیاز به راهکارهایی است که بتوان با تکیهبر مفاهیم زبانشناسی شناختی معنا و مسیر فکری کاربران را از متن استخراج و از آن در کاربردهای مختلف پرداز زبان طبیعی به ویژه خلاصهسازی چکیدهای بهره برد.
3. متدولوژی پیشنهادی
در طول زمان معماریهای مختلفی برای پیادهسازی سیستمهای خلاصهسازی چکیدهای متون با استفاده از مفهوم یادگیری عمیق معرفی شدند که از مهمترین آنها میتوان به شبکههای عصبی برگشتی با توجه به دارا بودن خاصیت دنبالهای آنها اشاره کرد. در تولید یک خلاصه متنی ورودی یک دنبالهای طولانی از کلمات (در قالب متن) و خروجی یک خلاصه از متن ورودی است. درنتیجه میتوان این مسئله را بهعنوان مسئله دنبالهای چند به چند مدل کرد. در مدلهای دنبالهای دو جزء اصلی بهعنوان کدگذار-کدگشا وجود دارد. معماری کدگذار-کدگشا عمدتاً برای حل مشکلات دنبالهای که در آن دنباله ورودی و خروجی دارای طول متفاوتی میباشند، مورد استفاده قرار میگیرد. با اینکه معماری کدگذار-کدگشا، معماری بسیار پرکاربردی در حوزه خلاصهسازی است اما با محدودیتهایی مواجه است.
درواقع، با اینکه خلاصه تولیدشده توسط مدلهای خلاصهسازی چکیدهای از لحاظ معنایی منسجم و فراگیر است، اما عملاً دنباله تولیدشده دارای ساختار نحوی مناسبی نیست و ویژگیهای زبانی مانند نقش کلمات16 و موجودیتهای نامدار17 هنگام تولید خلاصه مدنظر قرار نمیگیرند [12, 28]. همچنین، مدلهای کدگذار-کدگشا موجود تمام محتوای متن ورودی برای تولید خلاصه مدنظر قرار میدهند و آنجایی که متن ورودی ممکن است شامل بسیاری از اطلاعات نامرتبط با خلاصه باشد، کدگذار نمیتواند بهخوبی معنای متن را کدگذاری کند [11]. نادیده گرفتن تأثیر کلمات نادر در تولید خلاصه از دیگر چالشهای مدلهای موجود است. با توجه مدلهای یادگیری عمیق داده محور میباشند، در بسیار از موارد ممکن است کلمات نادر با توجه به اینکه تعداد تکرار کمی دارند، بیاهمیت در نظر گرفته شوند درحالیکه میتوانند نقش مهمی در تولید خلاصه داشته باشند [12]. در این راستا، در این مقاله یک مدل جدید با الهام از شناخت و ذهن انسان و بر اساس معماری کدگذار-کدگشا معرفی شده است که بتواند بر این چالشها غلبه کند. مدل پیشنهادی دارای چهار بخش بازنمایش ویژگیها، کدگذار، سازوکار توجه و کدگشا است. دیاگرام مدل پیشنهادی در شکل 1 نشان دادهشده است و جزئیات آن در ادامه آمده است.
1.3 بازنمایش ویژگیها
بازنمایش ویژگیها به فرآیند تبدیل متون به بردار اشاره دارد که برای روشهای یادگیری ماشین و بهخصوص یادگیری عمیق با توجه به اینکه این روشها توانایی پردازش دادهها به فرم متن و یا رشتهای از کلمات را ندارند و به اعداد بهعنوان ورودی نیاز دارند، از اهمیت بالایی برخوردار است. برای اینکه بتوان از کلمات بهعنوان ورودی شبکه عصبی استفاده کرد، باید هر کلمه به یک بردار تبدیل شود. در مدل پیشنهادی از مدل اسکیپگرام18 برای تولید بردارهای بازنمایی استفاده خواهد شد که در آن هرکدام از کلمات به یک بردار در فضای d-بعدی نگاشت میشود. هدفی که در آموزش مدل اسکیپگرام دنبال میشود، یافتن بردارهای بازنمایی برای کلمات است. این بردارها باید طوری آموزش ببینند که از روی بردار یک کلمه بتوان کلماتی را که پیرامون آن در یک جمله قرار میگیرند تخمین زد [29].
با اینکه استفاده از بازنمایی توزیعشده کلمات در یک فضای برداری، باعث میشود تا الگوریتمهای یادگیری در کاربردهای پردازش زبانهای طبیعی، به کارایی بهتری دست یابند، اما بازنمایش توزیعشده از کلمات بهتنهایی نمیتواند مشخصکننده مفاهیم کلیدی متن ورودی بهخصوص در سیستمهای خلاصهسازی باشد. در این راستا، در مدل پیشنهادی بردارهای تعبیه بهدستآمده با ویژگیهای زبانی ازجمله نقش کلمات19 در جمله و موجودیتهای نامدار20 تلفیق خواهند شد و بردار بهدستآمده بهعنوان ورودی مورد استفاده قرار میگیرد. این مسئله باعث میشود که ضمن توجه به ویژگیهای زبانی، خلاصه تولیدشده نیز از لحاظ نحوی منسجمتر باشد.
پس از مشخص شدن نقش کلمات و موجودیتهای نامدار به ازای هر کلمه آنها در یک ماتریس ذخیره و بردار مربوط هرکدام از این ویژگیها را به کمک بردار یک-روشن نشان داده میدهد. در ادامه برای تولید بردارهای ورودی مدل پیشنهادی به ازای هر کلمه، بردار بازنشانش مربوط به هرکدام از این ویژگیها ( بردار اسکیپگرام، بردار نقش کلمات، بردار موجودیتهای نامدار) با هم تلفیقشده21 شده و یک بردار را ایجاد میکنند که بهعنوان ورودی کدگذار مورد استفاده قرار میگیرد.
لازم به ذکر است که استفاده از لایه بازنمایش ویژگیها برای تولید بردار کلمات بهعنوان ورودی شبکه کدگذار-کدگشا باعث میشود که تا الگوریتمهای یادگیری عمیق در کاربردهای پردازش زبانهای طبیعی، به کارایی بهتری دست یابند. این کارایی بهتر ناشی از گروهبندی کلمات با معانی نزدیک به هم است. درواقع، ویژگی که در این بردارها وجود دارد آن است که به کلمات با معانی مشابه بردارهای مشابهی تخصیص مییابد که این مسئله میتواند در تولید خلاصه معنادار تأثیر قابلتوجهی داشته باشد.
2.3 کدگذار
هدف کدگذار پیروی از فرآیند موجود در ذهن و شناخت انسان هنگام خواندن و فهم یک متن میباشد و پیرو آن مسئول نگاشت بردارهای متن ورودی به برداری است که نشاندهنده معنای متن است. عموماً از شبکههای عصبی برگشتی با توجه به اینکه برای پردازش دادهها با خاصیت توالی (متن) مناسب هستند در شبکههای کدگذار استفاده میشود. با توجه به اینکه شبکه عصبی برگشتی به مرور دادههای اولیه خود را فراموش کرده و قادر به حفظ وابستگیهای بلندمدت نیست و همچنین با مشکل محو شوندگی گرادیان مواجه است، از شبکه حافظه طولانی کوتاه-مدت (LSTM) در این لایه استفاده شده است در شبکه LSTM نورونهای لایه پنهان با بلوکهای حافظه جایگزین شدند. در این معماری هر لایه پنهان در شبکه برگشتی ساده با چهار لایه جایگزین میشود که مسئول حفظ یا فراموشی ورودی و حالت سلولهای قبل شبکه میباشند. مهمترین بخش یک بلوک در LSTM وجود سلول () است که در واقع خانه حافظه میباشد. بر روی حالت سلول هیچ تابع فعالسازی اعمال نمیشود و تنها اطلاعاتی به آن اضافه یا کم میشود و به همین دلیل در هنگام انتشار روبه عقب، دچار گرادیان محو شونده هم نخواهد شد. هر بلوک دارای سه دروازه میباشد که عبارتاند از دروازه فراموشی22، دروازه ورودی23 و دروازه خروجی24. هر دروازه شامل یک لایه شبکه سیگموئید و یک عملگر ضرب نقطهبهنقطه25 میباشد که وظیفه کنترل حالت سلول را بر عهده دارد [12]. روابط زیر مقادیر مختلف هر دروازه را در شبکه LSTM محاسبه مینماید.
(1) |
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(2) |
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(3) |
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(4) |
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(5) |
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(6) |
|
(7) |
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(8) |
|
(9) |
|
(10) |
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(11) |
|
(12) |
|
(13) |
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(14) |
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(15) |
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(16) |
|
( 17) |
|
(18) |
|
(19) |
|
(20) | , | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(21) |
(22) |
|
(22) |
(23) |
مدل | ROUGE-1 | ROUGE-2 | ROUGE-L |
Words-lv2k-temp-att [28] | 46/35 | 30/30 | 65/32 |
Controlled summarization [34] | 75/39 | 29/17 | 54/36 |
Pointer-Generator + Coverage [23] | 53/39 | 28/17 | 38/36 |
ML+ intra-attention [35] | 30/38 | 81/14 | 49/35 |
ATSDL [12] | 90/34 | 80/17 | - |
End2end w/inconsistency loss [36] | 68/40 | 97/17 | 13/37 |
Attentive information extractor [11] | 01/42 | 09/20 | 78/38 |
DCA MLE + SEM + RL [37] | 69/41 | 47/19 | 92/37 |
DCA MLE + SEM [37] | 11/41 | 21/18 | 03/36 |
Two-Stage decoder + RL | 71/41 | 49/19 | 79/38 |
Proposed model (مدل پیشنهادی) | 35/42 | 38/20 | 14/39 |
بهمنظور اثبات تأثیر بردارهای تعبیه، نقش کلمات و موجودیتهای نامدار روی مدل پیشنهادی، یکبار مدل پیشنهادی با بردارهای ورودی که بهصورت تصادفی مقداردهی شده بودند، یکبار با بردارهای تعبیه بهدستآمده از مدل اسکیپگرام و یکبار با تلفیق بردارهای تعبیه، نقش کلمات و موجودیتهای نامدار روی مجموعه داده CNN / Daily Mail آموزش داده شد. نتایج حاصل از آزمایشات
این بخش در شکل 6 نشان داده شده است. همانطور که مشخص است، نهتنها استفاده از بردارهای بازنمایش بهدستآمده از مدل اسکیپگرام تأثیر قابلتوجهی روی دقت خلاصه تولیدشده دارد بلکه تلفیق آن با بردارهای نقش کلمات و موجودیتهای نامدار دقت خلاصه تولیدشده را افزایش میدهد.
جدول 1. نتایج حاصل از آزمایشها بر اساس معیار ROUGE روی مجموعه داده CNN / Daily Mail
|
[1] Extractive
[2] Abstractive
[3] Collocation
[4] Rule-based
[5] Statistical
[6] Machine learning
[7] Discourse
[8] Graph-based
[9] Language generation
[10] Long Short-Term Memory
[11] Bi-directional
[12] Unidirectional
[13] Abstract Meaning Representation (AMR)
[14] Text simplification
[15] Beam search
[16] Part of Speech (POS)
[17] Named Entity (NE)
[18] Skip-gram
[19] Part of Speech (POS)
[20] Named Entity Recognition (NER)
[21] Concatenate
[22] Forget gate
[23] Input gate
[24] Output gate
[25] Point-wise multiplication operation
[26] Negative log likelihood
[27] Language model
[28] Recall-Oriented Understudy for Gisting Evaluation.
[29] https://stanfordnlp.github.io/CoreNLP/pos.html
[30] https://stanfordnlp.github.io/CoreNLP/ner.html
جدول 2. نتایج حاصل از آزمایشها بر اساس معیار ROUGE روی مجموعه داده DUC-2004
مدل | ROUGE-1 | ROUGE-2 | ROUGE-L |
ABS+[15] | 18/28 | 49/8 | 81/23 |
AC-ABS [39] | 03/32 | 99/10 | 86/27 |
Words-lv5k-1sent[28] | 61/28 | 42/9 | 24/25 |
SEASS [40] | 21/29 | 56/9 | 51/25 |
Attentive information extractor [11] | 94/33 | 99/8 | 44/28 |
C2R + Atten[17] | 97/28 | 26/8 | 06/24 |
Proposed model (مدل پیشنهادی) | 18/34 | 08/11 | 21/29 |
شکل 6. بررسی تأثیر بازنمایش ویژگیهای روی دقت مدل پیشنهادی
در بخش دوم آزمایشات این بخش تأثیر سازوکار توجه کمکی پیشنهادی سنجیده شد. در این راستا یکبار مدل پیشنهادی به همراه سازوکار توجه و یکبار بدون آن درحالیکه سایر پارامترهای آموزش مدل ثابت نگهداشته شده بودند، روی مجموعه دادهCNN / Daily Mail آموزش داده شد. نتایج حاصل از آزمایشات این بخش در شکل 7 نشان داده شده است. همانطور که مشخص است، استفاده از سازوکار توجه کمکی پیشنهادی تأثیر قابلتوجهی روی دقت خلاصههای تولیدشده دارد.
شکل 7. بررسی تأثیر سازوکار توجه کمکی روی دقت مدل پیشنهادی
شکل 8. بررسی تأثیر سوئیچ با حد آستانه روی دقت مدل پیشنهادی
در بخش سوم آزمایشات، تأثیر سوئیچ با حد آستانه پیشنهادی روی فرآیند تولید خلاصه بررسی شد. در این راستا، یکبار مدل پیشنهادی بدون استفاده از سوئیچ درحالیکه سایر پارامترهای آموزش مدل ثابت نگه داشته شده بودند، روی مجموعه دادهCNN / Daily Mail آموزش داده شد. نتایج حاصل از آزمایشات این بخش در شکل 8 نشان دادهشده است. همانطور که مشخص است، استفاده از سوئیچ دقت مدل پیشنهادی را در تولید خلاصه افزایش میدهد.
5. نتیجهگیری و کارهای آینده
امروزه افزایش بیشازپیش حجم اطلاعات متنی موجود در وب باعث پیچیده شدن دسترسی به این دادهها شده است. یکی از راهحلهای کاهش این پیچیدگی استفاده از الگوریتمهای خودکار خلاصهسازی متون میباشد. خلاصهسازی خودکار متن یکی از مهمترین کاربردهای پردازش زبان طبیعی است که هدف آن تولید یک نسخه مختصرتر از سند اصلی توسط یک برنامه رایانهای به نحوی که ویژگیها و نکات اصلی سند اولیه حفظ شود.
با اینکه در طول زمان مطالعات مختلفی پیرامون روشهای خودکار خلاصهسازی متون صورت گرفته است و محققان به نتایج قابلتوجهی در این حوزه دست یافتهاند، اما این مفهوم با توجه به کاربرد گستردهاش در حوزههای مختلف هنوز یکی از جذابترین موضوعات تحقیقاتی در حوزه پردازش زبان طبیعی به شمار میآید و نیاز به پیشرفت در این حوزه همچنان وجود دارد. از طرف دیگر، در سالهای اخیر روشهای یادگیری عمیق به پیشرفت قابلتوجهی در کاربردهای مختلف پردازش زبان طبیعی بهخصوص خلاصهسازی متون دست یافتهاند. لازم به ذکر است که با اینکه تحقیقات متعددی در راستای استفاده از روشهای یادگیری عمیق برای خلاصهسازی چکیدهای متون صورت گرفته است اما این روشها همچنان با چالشهای فراوانی در این حوزه مواجه هستند و بهنوعی در ابتدای مسیر پیشرفت قرار دارند.
با توجه به اینکه عدم توجه به ویژگیهای زبانی، ناتوانی در استخراج و تأکید روی اطلاعات با اهمیت بالاتر در کدگذار و نادیده گرفتن تأثیر کلمات نادر را میتوان بهعنوان چالشهای روشهای خلاصهسازی چکیدهای نام برد، در این مقاله یک مدل مبتنی بر معماری کدگذار-کدگشا برای خلاصهسازی چکیدهای متون معرفی شده است تا بتواند ضمن غلبه بر چالشهای موجود بهدقت بالاتری نسبت به روشهای پیشین دست یابد. مدل پیشنهادی این مقاله با توجه به این واقعیت که تولید بازنمایش توزیعشده از کلمات بهتنهایی نمیتواند مشخصکننده مفاهیم کلیدی متن ورودی باشد، از ترکیب بردارهای تعبیه با ویژگیهای زبانی ازجمله نقش کلمات در جمله و موجودیتهای نامدار بهعنوان ورودی مدل کدگذار بهره میبرد. همچنین، مدل پیشنهادی مجهز به یک سازوکار توجه کمکی در بخش کدگذار میباشد. ایده پشت سازوکار توجه کمکی معرفی شده پیروی از ذهن انسان هنگام تولید خلاصه است و هدف آن این است که بجای اینکه کل متن ورودی که ممکن است حاوی بخش زیادی از اطلاعات نامرتبط با خلاصه نهایی باشد کدگذاری شود، قسمتهای مهمتر متن استخراج و کدگذاری شده و در اختیار کدگشا قرار گیرد. لازم به ذکر است که مدل پیشنهادی برای غلبه بر مشکلات کلمات نادر در تولید خلاصه از یک از یک سوئیچ به همراه یک حد آستانه در کدگشا بهره میبرد. مدل پیشنهادی این مقاله روی دو مجموعه داده CNN / Daily Mail و DUC-2004 مورد آزمایش قرار گرفت و بر اساس نتایج حاصل از ارزیابیها مدل پیشنهادی بر اساس معیار ارزیابی ROUGE از دقت بالاتری روی هر دو مجموعه داده برای خلاصهسازی چکیدهای متون برخوردار است.
با توجه به اینکه مفاهیم خلاصهسازی چکیدهای متون و یادگیری عمیق از مهمترین موضوعات تحقیقاتی در حوزه پردازش زبان طبیعی و هوش مصنوعی بهحساب میآیند که نتایج حاصل از آنها میتواند تأثیر قابلتوجهی در دنیای واقعی داشته باشد توسعه و ادامه فرآیند پیشرفت آنها از اهمیت فراوانی برخوردار است. در ادامه این پژوهش نیز میتوان از سایر شبکههای یادگیری ژرف و یا ترکیب آنها در بخشهای کدگذار و کدگشا بهره برد. استفاده از سایر روشهای بازنمایش ویژگیها برای تولید ورودی مناسب روش پیشنهادی نیز از کارهایی است که میتوان در ادامه انجام داد. همچنین میتوان کاربرد روش پیشنهادی را در سایر حوزهها و زبانهای دیگر، بهویژه زبان فارسی سنجید.
مراجع
[1] M. Dey and D. Das, "A Deep Dive into Supervised Extractive and Abstractive Summarization from Text," in Data Visualization and Knowledge Engineering: Springer, 2020, pp. 109-132.
[2] T. Shi, Y. Keneshloo, N. Ramakrishnan, and C. K. Reddy, "Neural abstractive text summarization with sequence-to-sequence models," ACM Transactions on Data Science, vol. 2, no. 1, pp. 1-37, 2021.
[3] A. M. Al-Numai and A. M. Azmi, "The Development of Single-Document Abstractive Text Summarizer During the Last Decade," in Trends and Applications of Text Summarization Techniques: IGI Global, 2020, pp. 32-60.
[4] S. Chakraborty, X. Li, and S. Chakraborty, "A more abstractive summarization model," arXiv preprint arXiv:2002.10959, 2020.
[5] L. Abualigah, M. Q. Bashabsheh, H. Alabool, and M. Shehab, "Text Summarization: A Brief Review," in Recent Advances in NLP: The Case of Arabic Language: Springer, 2020, pp. 1-15.
[6] Y. Dong, "A survey on neural network-based summarization methods," arXiv preprint arXiv:1804.04589, 2018.
[7] F. Zhao, B. Quan, J. Yang, J. Chen, Y. Zhang, and X. Wang, "Document Summarization using Word and Part-of-speech based on Attention Mechanism," in Journal of Physics: Conference Series, 2019, vol. 1168, no. 3: IOP Publishing, p. 032008.
[8] D. Suleiman and A. Awajan, "Deep Learning Based Abstractive Text Summarization: Approaches, Datasets, Evaluation Measures, and Challenges," Mathematical Problems in Engineering, vol. 2020, 2020.
[9] H. Lin and V. Ng, "Abstractive Summarization: A Survey of the State of the Art," in Proceedings of the AAAI Conference on Artificial Intelligence, 2019, vol. 33, pp. 9815-9822.
[10] W. Kryściński, N. S. Keskar, B. McCann, C. Xiong, and R. Socher, "Neural text summarization: A critical evaluation," arXiv preprint arXiv: 1908.08960, 2019.
[11] X. Xiang, G. Xu, X. Fu, Y. Wei, L. Jin, and L. Wang, "Skeleton to Abstraction: An Attentive Information Extraction Schema for Enhancing the Saliency of Text Summarization," Information, vol. 9, no. 9, p. 217, 2018.
[12] S. Song, H. Huang, and T. Ruan, "Abstractive text summarization using LSTM-CNN based deep learning," Multimedia Tools and Applications, vol. 78, no. 1, pp. 857-875, 2019.
[13] H. P. Luhn, "The automatic creation of literature abstracts," IBM Journal of research and development, vol. 2, no. 2, pp. 159-165, 1958.
[14] I. Sutskever, O. Vinyals, and Q. V. Le, "Sequence to sequence learning with neural networks," in Advances in neural information processing systems, 2014, pp. 3104-3112.
[15] A. M. Rush, S. Chopra, and J. Weston, "A neural attention model for abstractive sentence summarization," arXiv preprint arXiv:1509.00685, 2015.
[16] D. Bahdanau, K. Cho, and Y. Bengio, "Neural machine translation by jointly learning to align and translate," arXiv preprint arXiv: 1409.0473,2014.
[17] S. Chopra, M. Auli, and A. M. Rush, "Abstractive sentence summarization with attentive recurrent neural networks," in Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2016, pp. 93-98.
[18] W. Zeng, W. Luo, S. Fidler, and R. Urtasun, "Efficient summarization with read-again and copy mechanism," arXiv preprint arXiv:1611.03382, 2016.
[19] S. Shen, Y. Zhao, Z. Liu, and M. Sun, "Neural headline generation with sentence-wise optimization," arXiv preprint arXiv:1604.01904, 2016.
[20] S. Takase, J. Suzuki, N. Okazaki, T. Hirao, and M. Nagata, "Neural headline generation on abstract meaning representation," in Proceedings of the 2016 conference on empirical methods in natural language processing, 2016, pp. 1054-1059.
[21] T. Wang, P. Chen, K. Amaral, and J. Qiang, "An experimental study of LSTM encoder-decoder model for text simplification," arXiv preprint arXiv:1609.03663, 2016.
[22] Q. Chen, X. Zhu, Z. Ling, S. Wei, and H. Jiang, "Distraction-based neural networks for document summarization," arXiv preprint arXiv:1610.08462, 2016.
[23] A. See, P. J. Liu, and C. D. Manning, "Get to the point: Summarization with pointer-generator networks," arXiv preprint arXiv:1704.04368, 2017.
[24] K. Al-Sabahi, Z. Zuping, and Y. Kang, "Bidirectional attentional encoder-decoder model and bidirectional beam search for abstractive summarization," arXiv preprint arXiv:1809.06662, 2018.
[25] K. Yao, L. Zhang, D. Du, T. Luo, L. Tao, and Y. Wu, "Dual encoding for abstractive text summarization," IEEE transactions on cybernetics, 2018.
[26] W. H. Alquliti and N. B. A. Ghani, "Convolutional Neural Network based for Automatic Text Summarization."
[27] Y. Zhang, D. Li, Y. Wang, Y. Fang, and W. Xiao, "Abstract Text Summarization with a Convolutional Seq2seq Model," Applied Sciences, vol. 9, no. 8, p. 1665, 2019.
[28] R. Nallapati, B. Zhou, C. Gulcehre, and B. Xiang, "Abstractive text summarization using sequence-to-sequence rnns and beyond," arXiv preprint arXiv:1602.06023, 2016.
[29] T. Mikolov, K. Chen, G. Corrado, and J. Dean, "Distributed Representations of Words and Phrases and their Compositionality, Nips," 2013.
[30] W. Yoon, Y. S. Yeo, M. Jeong, B.-J. Yi, and J. Kang, "Learning by Semantic Similarity Makes Abstractive Summarization Better," arXiv preprint arXiv:2002.07767, 2020.
[31] A. Graves, "Generating sequences with recurrent neural networks," arXiv preprint arXiv:1308.0850, 2013.
[32] P. Over, H. Dang, and D. Harman, "DUC in context," Information Processing & Management, vol. 43, no. 6, pp. 1506-1520, 2007.
[33] C.-Y. Lin, "ROUGE: A Package for Automatic Evaluation of Summaries," in Association for Computational Linguistic, Barcelona, Spain, 2004.
[34] A. Fan, D. Grangier, and M. Auli, "Controllable abstractive summarization," arXiv preprint arXiv:1711.05217, 2017.
[35] R. Paulus, C. Xiong, and R. Socher, "A deep reinforced model for abstractive summarization," arXiv preprint arXiv:1705.04304, 2017.
[36] W.-T. Hsu, C.-K. Lin, M.-Y. Lee, K. Min, J. Tang, and M. Sun, "A unified model for extractive and abstractive summarization using inconsistency loss," arXiv preprint arXiv:1805.06266, 2018.
[37] A. Celikyilmaz, A. Bosselut, X. He, and Y. Choi, "Deep communicating agents for abstractive summarization," arXiv preprint arXiv:1803.10357, 2018.
[38] H. Zhang, J. Xu, and J. Wang, "Pretraining-based natural language generation for text summarization," arXiv preprint arXiv:1902.09243, 2019.
[39] P. Li, L. Bing, and W. Lam, "Actor-critic based training framework for abstractive summarization," arXiv preprint arXiv:1803.11070, 2018.
[40] Q. Zhou, N. Yang, F. Wei, and M. Zhou, "Selective encoding for abstractive sentence summarization," arXiv preprint arXiv:1704.07073, 2017.
A Novel Model based on Encoder-Decoder Architecture and Attention Mechanism for Automatic Abstractive Text Summarization
Abstract:
By the extension of the Web and the availability of a large amount of textual information, the development of automatic text summarization models as an important aspect of natural language processing has attracted many researchers. However, with the growth of deep learning methods in the field of text processing, text summarization has also entered a new phase of development and abstractive text summarization has experienced significant progress in recent years. Even though, it can be claimed that all the potential of deep learning has not been used for this aim and the need for progress in this field, as well as considering the human cognition in creating the summarization model, is still felt. In this regard, an encoder-decoder architecture equipped with auxiliary attention is proposed in this paper which not only used the combination of linguistic features and embedding vectors as the input of the learning model but also despite previous studies that commonly employed the attention mechanism in the decoder, it utilized auxiliary attention mechanism in the encoder to imitate human brain and cognition in summary generation. By the employment of the proposed attention mechanism, only the most important parts of the text rather than the whole input text are encoded and then sent to the decoder to generate the summary. The proposed model also used a switch with a threshold in the decoder to overcome the rare words problem. The proposed model was examined on CNN / Daily Mail and DUC-2004 datasets. Based on the empirical results and according to the ROUGE evaluation metric, the proposed model obtained a higher accuracy compared to other existing methods for generating abstractive summaries on both datasets.
Keywords: Deep learning, Abstractive summarization, Encoder-decoder architecture, Auxiliary attention mechanism, Linguistic features
The rights to this website are owned by the Raimag Press Management System.
Copyright © 2017-2024