بازشناسي مقاوم و توأم گفتار مستقيم و تلفني با استخراج مناسب بردارهاي بازنمايي و اصلاح آنها توسط معكوس‌سازي شبكه‌هاي عصبي

الموضوعات : مهندسی برق و کامپیوتر

1 - دانشگاه صنعتي اميرکبير
2 - دانشگاه صنعتی امیرکبیر

تاريخ الإرسال : 22 الإثنين , ربيع الثاني, 1426 تاريخ التأكيد : 22 الخميس , شوال, 1426 تاريخ الإصدار : 25 الأربعاء , جمادى الأولى, 1427

الکلمات المفتاحية: بازشناسي‌ مقاوم‌گفتاربازنماييشبكه ‌‌عصبيمعكوس‌سازي,

ملخص المقالة :

در حال حاضر تلاش فراگيري براي طراحي سيستم‌هاي بازشناسي گفتار مقاوم نسبت به تنوعات گفتار صورت مي‌گيرد. يكي از اين تنوعات، گفتار تلفني نسبت به گفتار مستقيم (تهيه شده در شرايط عاري از هر گونه نويز محيط) مي‌باشد. در مقاله حاضر با بهره‌گيري از پارامترهاي طيفي LHCB و طراحي يك سري آزمايشهاي عملي مشخص مي‌گردد كه اين نوع بازنمايي براي طراحي سيستم‌هاي بازشناسي گفتار تلفني و سيستم‌هاي بازشناسي توأم گفتار مستقيم و تلفني كه مبتني بر شبكه‌هاي عصبي باشد نسبت به روش متداول MFCC مناسب‌تر است. سپس با استخراج بردارهاي بازنمايي LHCB از گفتار مستقيم و تلفني و طراحي مدل بازشناسي گفتار مبتني بر شبكه عصبي MLP، يك سيستم بازشناسي توأم گفتار مستقيم و تلفني ساخته مي‌شود. آنگاه با استفاده از معكوس‌سازي شبكه‎هاي عصبي به روش گراديان بردارهاي بازنمايي گفتار تلفني به سمت بردارهاي بازنمايي گفتار مستقيم اصلاح مي‌گردد و با تعليم شبكه ديگري روي دادگان اصلاح شده تلفني و دادگان مستقيم دست نخورده، افزايش4/1٪ در صحت بازشناسي گفتار تلفني حاصل شده است. در مرحله بعد با استفاده از معكوس سازي عمومي شبكه‌هاي عصبي هر دو دسته بردارهاي بازنمايي گفتار مستقيم و تلفني به گونه‌اي اصلاح مي‌شوند كه بيشتر حاوي اطلاعات آوايي گفتار باشند و ساير تنوعات تا جاي ممكن حذف شوند. با تعليم شبكه ديگري روي اين دادگان اصلاح شده افزايش 98/2٪ در صحت بازشناسي گفتار تلفني و 68/1٪ در صحت بازشناسي گفتار مستقيم بدست آمده است.

المصادر:

[1] S. Fouri, "Robust methods in automatic speech recognition and understanding," in Proc. Eurospeech, pp. 1993-1997, Geneva, Switzerland, 2003.
[2] Y. Gong, "Speech recognition in noisy environments: A survey," Speech Communication, vol. 16, no. 3, pp. 261-291, Apr. 1995.
[3] C. H. Lee and Q. Huo, "On adaptive decision rules and decision parameter adaptation for automatic speech recognition," in Proceedings of the IEEE, vol. 88, pp. 1241- 1269, Aug. 2000.
[4] A. Martin, J. Fiscus, B. Fisher, D. Pallet, and M. Przybocki, "System Descriptions and Performance Summary," presented at the Conversational Speech Recognition Workshop: DARPA Hub-5E Evaluation, Baltimore, Maryland, US, May 1997.
[5] D. Yuk and J. Flanagan, "Telephone speech recognition using neural networks and hidden Markov models," in Proc. ICASSP, pp. 157-160, 1999.
[6] S. Thrun, "Is learning the n-th thing any easier than learning the first?" Advances in Neural Information Processing Systems, MIT Press, 1996.
[7] S. Ben-David and R. Schuller, "Exploiting task relatedness for multiple task learning," Lecture Notes in Computer Science, vol. 2777, pp. 567 - 580,2003.
[8] C. W. Omlin and C. L. Giles, "Training second-order recurrent neural networks using hints," in Proc. of the Ninth International Conference on Machine Learning., pp. 363-368, 1992.
[9] S. Parveen and P. Green, "Multitask learning in connectionist robust ASR using recurrent neural networks," in Proc. Eurospeech, pp. 1813-1816, Geneva, Switzerland, Sep. 2003.
[10] P., Niyogi and et al. "Incorporating prior information in machine learning by creating virtual examples," in Proceedings of the IEEE, vol. 86, no. 11, pp. 2196-2209, Nov. 1998.
[11] الف. نژادقلي، بازشناخت مقاوم گفتار نسبت به تنوعات مختلف گوينده در شبكه‌هاي عصبي بازشناخت گفتار، پايان‌نامه كارشناسي ارشد، دانشگاه صنعتي اميركبير، دانشكده مهندسي پزشكي، 1382.
[12] A. Blumer, A. Ehrenfeucht, D. Haussler, and M.Warmuth, "Learnability and the Vapnik-Chervo-Nenkis dimention," J. Ass. Comput. Match., vol.36, no.4, pp. 929-965, 1989.
[13] M. Bijankhan, J. Seikhzadeghan, M. R. Roohani, Y. Samareh, K. Lucas, M. Tebyani., "FARSDAT: the speech database of Farsi spoken language," in Proc. SST-94, pp. 826-831, Perth, Australia, 1994.
[14] S. B. Davis and P. Mermelstein, "Comparison of parametric representations of monosyllabic word recognition in continuously spoken sentences," IEEE Trans. ASSP, vol. 28, no. 4, pp. 357-366, Aug. 1980.
[15] م. رحيمي‎نژاد، توسعه و بهبود كيفيت روشهاي استخراج پارامترهاي بازنمايي در سيستم‌هاي بازشناخت گفتار، پايان نامه كارشناسي ارشد، دانشگاه صنعتي اميركبير، دانشكده مهندسي پزشكي، 1381.
[16] J. Han and W. Gao, "Robust telephone speech recognition based on channel compensation," Journal of Pattern Recognition Society, vol. 32, no.6, pp. 1061-1067, Jun. 1999.
[17] C. A. Jensen, et al., "Inversion of feedforward neural networks: algorithms and applications," Proceedings of the IEEE, vol. 87, no. 9, pp. 1536-1549, Sep. 1999.
[18] R. J., Williams, "Inverting a connectionist network mapping by backpropagation of error," in Proc 8th Annu. Conf. Cognitive Science Society, pp. 859-865, 1986.

شارک

عنوان URL للمقالة

بازشناسي مقاوم و توأم گفتار مستقيم و تلفني با استخراج مناسب بردارهاي بازنمايي و اصلاح آنها توسط معكوس‌سازي شبكه‌هاي عصبي

رایمگ

الروابط

المراكز ذات الصلة

دعامة

الصفحات الرسمية