بازشناسی مقاوم به نویز ارقام مشابه فارسی مبتنی بر شبکه LSTM و ویژگی های طیفی گفتار

الموضوعات : مهندسی برق و کامپیوتر

1 - دانشگاه شهید بهشتی

تاريخ الإرسال : 03 الجمعة , شعبان, 1441 تاريخ التأكيد : 14 الأربعاء , جمادى الثانية, 1442 تاريخ الإصدار : 27 الإثنين , صفر, 1443

الکلمات المفتاحية: بازشناسی ارقام مجزا, زبان فارسی, مشابهت تلفظ ارقام, مدل مخفی مارکف, حافظه کوتاه‌مدت ماندگار, مقاوم‌سازی,

ملخص المقالة :

یکی از چالش‌های بازشناسی ارقام مجزای فارسی، مشابهت تلفظ برخی از ارقام مانند "صفر و سه"، "نه و دو" و "پنج، هفت و هشت" می‌باشد. این چالش منجر به بازشناسی یک رقم به جای رقم مشابه شده و دقت بازشناسی را کاهش می‌دهد. در این مقاله، یک راهکار ترکیبی مبتنی بر حافظه کوتاه‌مدت ماندگار (LSTM) و مدل مخفی مارکف (HMM) برای رفع چالش مذکور ارائه شده که نرخ بازشناسی ارقام فارسی مبتنی بر HMM را به طور متوسط 2% و در بهترین حالت 8% بهبود داده است. با توجه به تشدید چالش بازشناسی ارقام مشابه فارسی در شرایط نویزی، در ادامه کار مقاوم‌سازی بازشناسی ارقام مشابه فارسی مورد توجه قرار گرفت. به منظور افزایش مقاومت بازشناس مبتنی بر LSTM، از ویژگی‌های مقاوم به نویز مستخرج از طیف گفتار مانند آنتروپی طیفی، درجه از هم پاشی، فرکانس نیمساز، همواری طیفی، فرمانت اول و نرخ گذار از صفر مبتنی بر تابع همبستگی استفاده گردید. استفاده از این ویژگی‌ها، ضمن کاهش تعداد ویژگی‌ها برای بازشناسی ارقام مشابه فارسی از 39 ضریب به حداکثر 4 و حداقل 1 ضریب، به طور متوسط به ترتیب بهبود 10، 13، 15 و 13 درصدی مقاومت بازشناس ارقام مشابه را در شرایط متنوع نویزی (30 حالت مختلف حاصل از پنج نوع نویز سفید، صورتی، همهمه، کارخانه و ماشین و شش نسبت سیگنال به نویز 5-، 0، 5، 10، 15 و 20 دسی‌بل) در مقایسه با بازشناس‌های مبتنی بر HMM، LSTM، شبکه باور عمیق با ویژگی‌های مل کپستروم و شبکه عصبی کانولوشنی با ویژگی‌های مل اسپکتوگرام به همراه دارد.

المصادر:

[1] ف. فکری، شناسایی صحبت توسط کامپیوتر، پایان‌نامه کارشناسی ارشد، دانشگاه صنعتی شریف، دانشکده مهندسی برق، 1371.
[2] ح. بابابیک، "بازشناسی گفتار با استفاده از تلفیق مدل مخفی مارکف و شبکه عصبی،" مجموعه مقالات هفتمین کنفرانس مهندسی برق ایران، مقالات مخابرات سيستم، صص. 204-199، تهران، ایران، 29-27 اردیبهشت 1378.
[3] س. بابایی‌زاده، ا. غلام‌پور و ک. نایبی، "بهبود کارایی سیستم‌های بازشناسی گفتار گسسته با ترکیب شبکه‌های عصبی و مدل‌های مارکف پنهان،" مجموعه مقالات هفتمین کنفرانس مهندسی برق ایران، مقالات مخابرات سيستم، صص. 190-183، تهران، ایران، 29-27 اردیبهشت 1378.
[4] ش. رستم‌زاده، س. م. احدی، ح. شیخ¬زاده، نجار، "بازشناسی گفتار فارسی ناپیوسته، به صورت ناوابسته به گوینده به کمک مدل‌های پنهان مارکف با چگالی پیوسته،" مجموعه مقالات ششمین کنفرانس مهندسی برق ایران، صص. 97-93، تهران، ایران، اردیبهشت 1377.
[5] م. م. همایون‌پور و ا. نجاری، "بازشناسی ارقام ناوابسته به گوینده با استفاده از مدل پیشگوی عصبی،" مجموعه مقالات هفتمین کنفرانس مهندسی برق ایران، صص. 81-75، تهران، ایران، 29-27 اردیبهشت 1378.
[6] ا. صیادیان، ک. بدیع، م. حکاک و م. ر. بیک‌زاده، "ارائه روش آماری FPG-GMM در بازشناسی گفتار،" مجموعه مقالات هشتمین کنفرانس مهندسی برق ایران، صص. 406-398، اصفهان، ایران، 30-28 اردیبهشت 1379.
[7] ا. اکبری و ب. ناصرشریف، "بازشناسی هجاها در اعداد دورقمی فارسی به وسیله مدل مخفی مارکف،" مجموعه مقالات ششمین کنفرانس سالانه انجمن کامپیوتر ایران، صص. 437-432، اصفهان، ایران، 4-2 اسفند 1379.
[8] م. م. همایون‌پور و ج. کبودیان، "بازشناسی اعداد فارسی بر روی خط تلفن: مقایسه‌ای بین روش‌های آماری، عصبی و هیبرید،" مجله مهندسی برق، سال چهاردهم، شماره آ-56، صص. 1065-1045، پاییز 1382.
[9] دانشگاه صنعتی امیرکبیر، گزارش نهایی طرح ملی پردازش زبان فارسی، شورای پژوهش‌های علمی کشور، کمیسیون اطلاع‌رسانی و فناوری اطلاعات، صص. 68-67، 1380.
[10] J. Wu, Y. Chua, M. Zhang, H. Li, and K. C. Tan, "A spiking neural network framework for robust sound classification," Frontiers in Neuroscience, vol. 12, Article No.: 836, 17 pp., Nov. 2018.
[11] A. Wazir and J. Chuah, "Spoken Arabic digits recognition using deep learning," in Proc. IEEE Int. Conf. on Automatic Control and Intelligent Systems, I2CACIS’19, pp. 339-344, Selangor, Malaysia, 29-29 Jun. 2019.
[12] E. Swedia, A. Mutiara, and M. Subali, "Deep learning long-short term memory (LSTM) for indonesian speech digit recognition using LPC and MFCC feature," in Proc. 3rd Int. Conf. on Informatics and Computing, ICIC’18, 5 pp., Palembang, Indonesia, 17-18 Oct. 2018.
[13] N. Zerari, S. Abdelhamid, H. Bouzgou, and C. Raymond, "Bi-directional recurrent end-to-end neural network classifier for spoken Arab digit recognition," in Proc. 2nd Int. Conf. on Natural Language and Speech Processing, ICNLSP’18, 6 pp., Algiers, Algeria, 25-26 Apr. 2018.
[14] A. B. Nassif, S. Ismail, A. Imtinan, A. Mohammad, and S. Khaled, "Speech recognition using deep neural networks: a systematic review," IEEE Access, vol. 7, pp. 19143-19165, 2019.
[15] R. Sharmin, K. R. Shantanu, and R. H. Mohammad, "Bengali spoken digit classification: a deep learning approach using convolutional neural network," Procedia Computer Science, vol. 17, pp. 1381-1388, 2020.
[16] B. Zada and U. Rahim, "Pashto isolated digits recognition using deep convolutional neural network," Heliyon, vol. 6, no. 2, Article No.: e03372, 6 pp., Feb. 2020.
[17] A. Graves, D. Eck, and J. Schmidhuber, LSTM and Timewarping: Spoken Digit Recognition with a Recurrent Neural Network, Technical Report, No. IDSIA-12-03, pp. 1-9, 2003.
[18] D. Dhanashri and S. B. Dhonde, "Isolated word speech recognition system using deep neural networks," in Proc. of the Int Conf. on Data Engineering and Communication Technology, Springer, Singapore, pp. 9-17, Aug. 2017.
[19] S. Vihari, A. S. Murthy, P. Soni, and D. C. Naik, "Comparison of speech enhancement algorithms," Procedia Computer Science, vol. 89, pp. 666-676, 2016.
[20] A. Pervaiz, et al., "Incorporating noise robustness in speech command recognition by noise augmentation of training data," Sensors, vol. 20, no. 8, pp. 2326-2344, 2020.
[21] D. Grozdic, J. Slobodan, S. P. Dragana, G. Jovan, and M. Branko, "Comparison of cepstral normalization techniques in whispered speech recognition," Advances in Electrical and Computer Engineering, vol. 17, no. 1, pp. 21-26, Feb. 2017.
[22] V. Mitra, et al., "Robust features in deep-learning-based speech recognition," in S.Watanabe, M. Delcroix, F. Metze, and J.Hershey (eds) New Era for Robust Speech Recognition, Springer, Cham, pp. 187-217, 2017.
[23] D. Vazhenina and K. Markov, "End-to-end noisy speech recognition using Fourier and Hilbert spectrum features," Electronics, vol. 9, no. 7, pp. 1157-1174, 2020.
[24] S. Chang and S. Wegmann, "On the importance of modeling and robustness for deep neural network feature," in Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing, ICASSP’15, pp. 4530-4534, South Brisbane, Australia, 19-24 Apr. 2015.
[25] S. Tabibian, A. Akbari, and B. Nasersharif, "Keyword spotting using an evolutionary-based classifier and discriminative features," Engineering Applications of Artificial Intelligence, vol. 26, no. 7, pp. 1660-1670, Aug. 2013.
[26] S. A. Hejazi, R. Kazemi, and S. Ghaemmaghami, "Isolated persian digit recognition uding a hybrid HMM-SVM," in Proc. Int. Symp. on Intelligent Signal Processing and Communication Systems, 4 pp., Bangkok, Thailand, 8-11 Feb. 2009.
[27] L. Ming, Y. Wang, J. Wang, J. Wang, and X. Xie, "Speech enhancement method based on LSTM neural network for speech recognition," in Proc. 14th IEEE Int. Conf. on Signal Processing, ICSP’18, pp. 245-249, Beijing, China, 12-16 Aug. 2018.
[28] ش. طبیبیان، "بهبود بازشناسی ارقام مجزای فارسی در تلفن همراه بر مبنای کاهش خطای دسته‌بندی در سطح قاب،" مجموعه مقالات بیست و چهارمین کنفرانس ملی انجمن کامپیوتر ایرانصص. 135-128، تهران، ایران، 235-22 اسفند 1397.
[29] ش. طبیبیان، "بهبود بازشناسی ارقام مشابه فارسی مبتنی بر شبکه بازگشتی LSTM،" بیست و چهارمین کنفرانس ملی انجمن کامپیوتر ایران، صص. 438-432، تهران، ایران، 23-22 اسفند 1397.
[30] M. M. Naseri and S. Tabibian, "Improving the robustness of persian spoken isolated digit recognition based on LSTM," in Proc. 6th Int. Conf. of Signal Processing and Intelligent Systems, ICSPIS’20, 6 pp., Mashhad, Iran, 23-24 Dec. 2020.
[31] S. Hochreiter and J. Schmidhuber, "Long short term memory," Neural Computation, vol. 9, no. 8, pp. 1735-1780, 15 Nov. 1997.
[32] C. Olah, Understanding LSTM Networks, http://colah.github.io/posts/2015-08-Understanding-LSTMs/, 2015.
[33] Hidden Markov Model Toolkit (HTK), Speech vision and robotics group of the Cambridge University engineering department, http://htk.eng.cam.ac.uk/, August 2015.
[34] ش. طبیبیان، "طراحی و جمع‌آوری دادگان صوتی اعداد تک‌رقمی فارسی مبتنی بر تلفن همراه،" مجموعه مقالات چهارمین کنفرانس پردازش سیگنال و سیستم‌های هوشمند، 5 صص.، تهران، ایران، 4-4 دی 1397.
[35] A. M. Toh, R. Togneri, and S. Nordholm, "Spectral entropy as speech features for speech recognition," in Proc. of Postgraduate Electrical Engineering and Computing Symp., PEECS’05, pp. 22-25, Perth, Australia, 2005.
[36] G. Peeters, A Large Set of Audio Features for Sound Description (Similarity and Classification) in the CUIDADO Project, Cuidado Project Report, Ircam, pp. 1-25, 2004.
[37] C. Y. Lin, J. S. Rager Jang, and K. T. Chen, "Automatic segmentation and labeling for Mandarin Chinese Speech Corpora for concatenation-based TTS," Computer Linguistic Chinese Language Processing, vol. 10, pp. 145-166, 2005.
[38] P. Kathirvel, M. S. Manikandan, S. Senthilkumar, and K. P. Soman, "Noise robust zerocrossing rate computation for audio signal classification," in Proc. 3rd Int. Conf. on Trendz in Information Sciences & Computing, TISC’11, pp. 65-69, Chennai, India, 8-9 Dec. 2011.
[39] K. Dietrich and J. Peters, "Testing the correlation of word error rate and perplexity," Speech Communication, vol. 38, no. 1-2, pp. 19-28, Sept. 2002.
[40] M. D. Mahony, Sensory Evaluation of Food: Statistical Methods and Procedures, CRC Press, 1986.
[41] MathWorks, Long Short-Term Memory Networks, https://www.mathworks.com/help/deeplearning/ug/long-short-term-memory-networks.html

شارک

عنوان URL للمقالة

بازشناسی مقاوم به نویز ارقام مشابه فارسی مبتنی بر شبکه LSTM و ویژگی های طیفی گفتار

رایمگ

الروابط

المراكز ذات الصلة

دعامة

الصفحات الرسمية