بازشناسی مقاوم به نویز ارقام مشابه فارسی مبتنی بر شبکه LSTM و ویژگی های طیفی گفتار
الموضوعات :
1 - دانشگاه شهید بهشتی
الکلمات المفتاحية: بازشناسی ارقام مجزا, زبان فارسی, مشابهت تلفظ ارقام, مدل مخفی مارکف, حافظه کوتاهمدت ماندگار, مقاومسازی,
ملخص المقالة :
یکی از چالشهای بازشناسی ارقام مجزای فارسی، مشابهت تلفظ برخی از ارقام مانند "صفر و سه"، "نه و دو" و "پنج، هفت و هشت" میباشد. این چالش منجر به بازشناسی یک رقم به جای رقم مشابه شده و دقت بازشناسی را کاهش میدهد. در این مقاله، یک راهکار ترکیبی مبتنی بر حافظه کوتاهمدت ماندگار (LSTM) و مدل مخفی مارکف (HMM) برای رفع چالش مذکور ارائه شده که نرخ بازشناسی ارقام فارسی مبتنی بر HMM را به طور متوسط 2% و در بهترین حالت 8% بهبود داده است. با توجه به تشدید چالش بازشناسی ارقام مشابه فارسی در شرایط نویزی، در ادامه کار مقاومسازی بازشناسی ارقام مشابه فارسی مورد توجه قرار گرفت. به منظور افزایش مقاومت بازشناس مبتنی بر LSTM، از ویژگیهای مقاوم به نویز مستخرج از طیف گفتار مانند آنتروپی طیفی، درجه از هم پاشی، فرکانس نیمساز، همواری طیفی، فرمانت اول و نرخ گذار از صفر مبتنی بر تابع همبستگی استفاده گردید. استفاده از این ویژگیها، ضمن کاهش تعداد ویژگیها برای بازشناسی ارقام مشابه فارسی از 39 ضریب به حداکثر 4 و حداقل 1 ضریب، به طور متوسط به ترتیب بهبود 10، 13، 15 و 13 درصدی مقاومت بازشناس ارقام مشابه را در شرایط متنوع نویزی (30 حالت مختلف حاصل از پنج نوع نویز سفید، صورتی، همهمه، کارخانه و ماشین و شش نسبت سیگنال به نویز 5-، 0، 5، 10، 15 و 20 دسیبل) در مقایسه با بازشناسهای مبتنی بر HMM، LSTM، شبکه باور عمیق با ویژگیهای مل کپستروم و شبکه عصبی کانولوشنی با ویژگیهای مل اسپکتوگرام به همراه دارد.
[1] ف. فکری، شناسایی صحبت توسط کامپیوتر، پایاننامه کارشناسی ارشد، دانشگاه صنعتی شریف، دانشکده مهندسی برق، 1371.
[2] ح. بابابیک، "بازشناسی گفتار با استفاده از تلفیق مدل مخفی مارکف و شبکه عصبی،" مجموعه مقالات هفتمین کنفرانس مهندسی برق ایران، مقالات مخابرات سيستم، صص. 204-199، تهران، ایران، 29-27 اردیبهشت 1378.
[3] س. باباییزاده، ا. غلامپور و ک. نایبی، "بهبود کارایی سیستمهای بازشناسی گفتار گسسته با ترکیب شبکههای عصبی و مدلهای مارکف پنهان،" مجموعه مقالات هفتمین کنفرانس مهندسی برق ایران، مقالات مخابرات سيستم، صص. 190-183، تهران، ایران، 29-27 اردیبهشت 1378.
[4] ش. رستمزاده، س. م. احدی، ح. شیخ¬زاده، نجار، "بازشناسی گفتار فارسی ناپیوسته، به صورت ناوابسته به گوینده به کمک مدلهای پنهان مارکف با چگالی پیوسته،" مجموعه مقالات ششمین کنفرانس مهندسی برق ایران، صص. 97-93، تهران، ایران، اردیبهشت 1377.
[5] م. م. همایونپور و ا. نجاری، "بازشناسی ارقام ناوابسته به گوینده با استفاده از مدل پیشگوی عصبی،" مجموعه مقالات هفتمین کنفرانس مهندسی برق ایران، صص. 81-75، تهران، ایران، 29-27 اردیبهشت 1378.
[6] ا. صیادیان، ک. بدیع، م. حکاک و م. ر. بیکزاده، "ارائه روش آماری FPG-GMM در بازشناسی گفتار،" مجموعه مقالات هشتمین کنفرانس مهندسی برق ایران، صص. 406-398، اصفهان، ایران، 30-28 اردیبهشت 1379.
[7] ا. اکبری و ب. ناصرشریف، "بازشناسی هجاها در اعداد دورقمی فارسی به وسیله مدل مخفی مارکف،" مجموعه مقالات ششمین کنفرانس سالانه انجمن کامپیوتر ایران، صص. 437-432، اصفهان، ایران، 4-2 اسفند 1379.
[8] م. م. همایونپور و ج. کبودیان، "بازشناسی اعداد فارسی بر روی خط تلفن: مقایسهای بین روشهای آماری، عصبی و هیبرید،" مجله مهندسی برق، سال چهاردهم، شماره آ-56، صص. 1065-1045، پاییز 1382.
[9] دانشگاه صنعتی امیرکبیر، گزارش نهایی طرح ملی پردازش زبان فارسی، شورای پژوهشهای علمی کشور، کمیسیون اطلاعرسانی و فناوری اطلاعات، صص. 68-67، 1380.
[10] J. Wu, Y. Chua, M. Zhang, H. Li, and K. C. Tan, "A spiking neural network framework for robust sound classification," Frontiers in Neuroscience, vol. 12, Article No.: 836, 17 pp., Nov. 2018.
[11] A. Wazir and J. Chuah, "Spoken Arabic digits recognition using deep learning," in Proc. IEEE Int. Conf. on Automatic Control and Intelligent Systems, I2CACIS’19, pp. 339-344, Selangor, Malaysia, 29-29 Jun. 2019.
[12] E. Swedia, A. Mutiara, and M. Subali, "Deep learning long-short term memory (LSTM) for indonesian speech digit recognition using LPC and MFCC feature," in Proc. 3rd Int. Conf. on Informatics and Computing, ICIC’18, 5 pp., Palembang, Indonesia, 17-18 Oct. 2018.
[13] N. Zerari, S. Abdelhamid, H. Bouzgou, and C. Raymond, "Bi-directional recurrent end-to-end neural network classifier for spoken Arab digit recognition," in Proc. 2nd Int. Conf. on Natural Language and Speech Processing, ICNLSP’18, 6 pp., Algiers, Algeria, 25-26 Apr. 2018.
[14] A. B. Nassif, S. Ismail, A. Imtinan, A. Mohammad, and S. Khaled, "Speech recognition using deep neural networks: a systematic review," IEEE Access, vol. 7, pp. 19143-19165, 2019.
[15] R. Sharmin, K. R. Shantanu, and R. H. Mohammad, "Bengali spoken digit classification: a deep learning approach using convolutional neural network," Procedia Computer Science, vol. 17, pp. 1381-1388, 2020.
[16] B. Zada and U. Rahim, "Pashto isolated digits recognition using deep convolutional neural network," Heliyon, vol. 6, no. 2, Article No.: e03372, 6 pp., Feb. 2020.
[17] A. Graves, D. Eck, and J. Schmidhuber, LSTM and Timewarping: Spoken Digit Recognition with a Recurrent Neural Network, Technical Report, No. IDSIA-12-03, pp. 1-9, 2003.
[18] D. Dhanashri and S. B. Dhonde, "Isolated word speech recognition system using deep neural networks," in Proc. of the Int Conf. on Data Engineering and Communication Technology, Springer, Singapore, pp. 9-17, Aug. 2017.
[19] S. Vihari, A. S. Murthy, P. Soni, and D. C. Naik, "Comparison of speech enhancement algorithms," Procedia Computer Science, vol. 89, pp. 666-676, 2016.
[20] A. Pervaiz, et al., "Incorporating noise robustness in speech command recognition by noise augmentation of training data," Sensors, vol. 20, no. 8, pp. 2326-2344, 2020.
[21] D. Grozdic, J. Slobodan, S. P. Dragana, G. Jovan, and M. Branko, "Comparison of cepstral normalization techniques in whispered speech recognition," Advances in Electrical and Computer Engineering, vol. 17, no. 1, pp. 21-26, Feb. 2017.
[22] V. Mitra, et al., "Robust features in deep-learning-based speech recognition," in S.Watanabe, M. Delcroix, F. Metze, and J.Hershey (eds) New Era for Robust Speech Recognition, Springer, Cham, pp. 187-217, 2017.
[23] D. Vazhenina and K. Markov, "End-to-end noisy speech recognition using Fourier and Hilbert spectrum features," Electronics, vol. 9, no. 7, pp. 1157-1174, 2020.
[24] S. Chang and S. Wegmann, "On the importance of modeling and robustness for deep neural network feature," in Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing, ICASSP’15, pp. 4530-4534, South Brisbane, Australia, 19-24 Apr. 2015.
[25] S. Tabibian, A. Akbari, and B. Nasersharif, "Keyword spotting using an evolutionary-based classifier and discriminative features," Engineering Applications of Artificial Intelligence, vol. 26, no. 7, pp. 1660-1670, Aug. 2013.
[26] S. A. Hejazi, R. Kazemi, and S. Ghaemmaghami, "Isolated persian digit recognition uding a hybrid HMM-SVM," in Proc. Int. Symp. on Intelligent Signal Processing and Communication Systems, 4 pp., Bangkok, Thailand, 8-11 Feb. 2009.
[27] L. Ming, Y. Wang, J. Wang, J. Wang, and X. Xie, "Speech enhancement method based on LSTM neural network for speech recognition," in Proc. 14th IEEE Int. Conf. on Signal Processing, ICSP’18, pp. 245-249, Beijing, China, 12-16 Aug. 2018.
[28] ش. طبیبیان، "بهبود بازشناسی ارقام مجزای فارسی در تلفن همراه بر مبنای کاهش خطای دستهبندی در سطح قاب،" مجموعه مقالات بیست و چهارمین کنفرانس ملی انجمن کامپیوتر ایرانصص. 135-128، تهران، ایران، 235-22 اسفند 1397.
[29] ش. طبیبیان، "بهبود بازشناسی ارقام مشابه فارسی مبتنی بر شبکه بازگشتی LSTM،" بیست و چهارمین کنفرانس ملی انجمن کامپیوتر ایران، صص. 438-432، تهران، ایران، 23-22 اسفند 1397.
[30] M. M. Naseri and S. Tabibian, "Improving the robustness of persian spoken isolated digit recognition based on LSTM," in Proc. 6th Int. Conf. of Signal Processing and Intelligent Systems, ICSPIS’20, 6 pp., Mashhad, Iran, 23-24 Dec. 2020.
[31] S. Hochreiter and J. Schmidhuber, "Long short term memory," Neural Computation, vol. 9, no. 8, pp. 1735-1780, 15 Nov. 1997.
[32] C. Olah, Understanding LSTM Networks, http://colah.github.io/posts/2015-08-Understanding-LSTMs/, 2015.
[33] Hidden Markov Model Toolkit (HTK), Speech vision and robotics group of the Cambridge University engineering department, http://htk.eng.cam.ac.uk/, August 2015.
[34] ش. طبیبیان، "طراحی و جمعآوری دادگان صوتی اعداد تکرقمی فارسی مبتنی بر تلفن همراه،" مجموعه مقالات چهارمین کنفرانس پردازش سیگنال و سیستمهای هوشمند، 5 صص.، تهران، ایران، 4-4 دی 1397.
[35] A. M. Toh, R. Togneri, and S. Nordholm, "Spectral entropy as speech features for speech recognition," in Proc. of Postgraduate Electrical Engineering and Computing Symp., PEECS’05, pp. 22-25, Perth, Australia, 2005.
[36] G. Peeters, A Large Set of Audio Features for Sound Description (Similarity and Classification) in the CUIDADO Project, Cuidado Project Report, Ircam, pp. 1-25, 2004.
[37] C. Y. Lin, J. S. Rager Jang, and K. T. Chen, "Automatic segmentation and labeling for Mandarin Chinese Speech Corpora for concatenation-based TTS," Computer Linguistic Chinese Language Processing, vol. 10, pp. 145-166, 2005.
[38] P. Kathirvel, M. S. Manikandan, S. Senthilkumar, and K. P. Soman, "Noise robust zerocrossing rate computation for audio signal classification," in Proc. 3rd Int. Conf. on Trendz in Information Sciences & Computing, TISC’11, pp. 65-69, Chennai, India, 8-9 Dec. 2011.
[39] K. Dietrich and J. Peters, "Testing the correlation of word error rate and perplexity," Speech Communication, vol. 38, no. 1-2, pp. 19-28, Sept. 2002.
[40] M. D. Mahony, Sensory Evaluation of Food: Statistical Methods and Procedures, CRC Press, 1986.
[41] MathWorks, Long Short-Term Memory Networks, https://www.mathworks.com/help/deeplearning/ug/long-short-term-memory-networks.html