بازشناسي مقاوم و توأم گفتار مستقيم و تلفني با استخراج مناسب بردارهاي بازنمايي و اصلاح آنها توسط معكوسسازي شبكههاي عصبي
الموضوعات :منصور ولی 1 , سیدعلی سیدصالحی 2
1 - دانشگاه صنعتي اميرکبير
2 - دانشگاه صنعتی امیرکبیر
الکلمات المفتاحية: بازشناسي مقاومگفتاربازنماييشبكه عصبيمعكوسسازي,
ملخص المقالة :
در حال حاضر تلاش فراگيري براي طراحي سيستمهاي بازشناسي گفتار مقاوم نسبت به تنوعات گفتار صورت ميگيرد. يكي از اين تنوعات، گفتار تلفني نسبت به گفتار مستقيم (تهيه شده در شرايط عاري از هر گونه نويز محيط) ميباشد. در مقاله حاضر با بهرهگيري از پارامترهاي طيفي LHCB و طراحي يك سري آزمايشهاي عملي مشخص ميگردد كه اين نوع بازنمايي براي طراحي سيستمهاي بازشناسي گفتار تلفني و سيستمهاي بازشناسي توأم گفتار مستقيم و تلفني كه مبتني بر شبكههاي عصبي باشد نسبت به روش متداول MFCC مناسبتر است. سپس با استخراج بردارهاي بازنمايي LHCB از گفتار مستقيم و تلفني و طراحي مدل بازشناسي گفتار مبتني بر شبكه عصبي MLP، يك سيستم بازشناسي توأم گفتار مستقيم و تلفني ساخته ميشود. آنگاه با استفاده از معكوسسازي شبكههاي عصبي به روش گراديان بردارهاي بازنمايي گفتار تلفني به سمت بردارهاي بازنمايي گفتار مستقيم اصلاح ميگردد و با تعليم شبكه ديگري روي دادگان اصلاح شده تلفني و دادگان مستقيم دست نخورده، افزايش4/1٪ در صحت بازشناسي گفتار تلفني حاصل شده است. در مرحله بعد با استفاده از معكوس سازي عمومي شبكههاي عصبي هر دو دسته بردارهاي بازنمايي گفتار مستقيم و تلفني به گونهاي اصلاح ميشوند كه بيشتر حاوي اطلاعات آوايي گفتار باشند و ساير تنوعات تا جاي ممكن حذف شوند. با تعليم شبكه ديگري روي اين دادگان اصلاح شده افزايش 98/2٪ در صحت بازشناسي گفتار تلفني و 68/1٪ در صحت بازشناسي گفتار مستقيم بدست آمده است.
[1] S. Fouri, "Robust methods in automatic speech recognition and understanding," in Proc. Eurospeech, pp. 1993-1997, Geneva, Switzerland, 2003.
[2] Y. Gong, "Speech recognition in noisy environments: A survey," Speech Communication, vol. 16, no. 3, pp. 261-291, Apr. 1995.
[3] C. H. Lee and Q. Huo, "On adaptive decision rules and decision parameter adaptation for automatic speech recognition," in Proceedings of the IEEE, vol. 88, pp. 1241- 1269, Aug. 2000.
[4] A. Martin, J. Fiscus, B. Fisher, D. Pallet, and M. Przybocki, "System Descriptions and Performance Summary," presented at the Conversational Speech Recognition Workshop: DARPA Hub-5E Evaluation, Baltimore, Maryland, US, May 1997.
[5] D. Yuk and J. Flanagan, "Telephone speech recognition using neural networks and hidden Markov models," in Proc. ICASSP, pp. 157-160, 1999.
[6] S. Thrun, "Is learning the n-th thing any easier than learning the first?" Advances in Neural Information Processing Systems, MIT Press, 1996.
[7] S. Ben-David and R. Schuller, "Exploiting task relatedness for multiple task learning," Lecture Notes in Computer Science, vol. 2777, pp. 567 - 580,2003.
[8] C. W. Omlin and C. L. Giles, "Training second-order recurrent neural networks using hints," in Proc. of the Ninth International Conference on Machine Learning., pp. 363-368, 1992.
[9] S. Parveen and P. Green, "Multitask learning in connectionist robust ASR using recurrent neural networks," in Proc. Eurospeech, pp. 1813-1816, Geneva, Switzerland, Sep. 2003.
[10] P., Niyogi and et al. "Incorporating prior information in machine learning by creating virtual examples," in Proceedings of the IEEE, vol. 86, no. 11, pp. 2196-2209, Nov. 1998.
[11] الف. نژادقلي، بازشناخت مقاوم گفتار نسبت به تنوعات مختلف گوينده در شبكههاي عصبي بازشناخت گفتار، پاياننامه كارشناسي ارشد، دانشگاه صنعتي اميركبير، دانشكده مهندسي پزشكي، 1382.
[12] A. Blumer, A. Ehrenfeucht, D. Haussler, and M.Warmuth, "Learnability and the Vapnik-Chervo-Nenkis dimention," J. Ass. Comput. Match., vol.36, no.4, pp. 929-965, 1989.
[13] M. Bijankhan, J. Seikhzadeghan, M. R. Roohani, Y. Samareh, K. Lucas, M. Tebyani., "FARSDAT: the speech database of Farsi spoken language," in Proc. SST-94, pp. 826-831, Perth, Australia, 1994.
[14] S. B. Davis and P. Mermelstein, "Comparison of parametric representations of monosyllabic word recognition in continuously spoken sentences," IEEE Trans. ASSP, vol. 28, no. 4, pp. 357-366, Aug. 1980.
[15] م. رحيمينژاد، توسعه و بهبود كيفيت روشهاي استخراج پارامترهاي بازنمايي در سيستمهاي بازشناخت گفتار، پايان نامه كارشناسي ارشد، دانشگاه صنعتي اميركبير، دانشكده مهندسي پزشكي، 1381.
[16] J. Han and W. Gao, "Robust telephone speech recognition based on channel compensation," Journal of Pattern Recognition Society, vol. 32, no.6, pp. 1061-1067, Jun. 1999.
[17] C. A. Jensen, et al., "Inversion of feedforward neural networks: algorithms and applications," Proceedings of the IEEE, vol. 87, no. 9, pp. 1536-1549, Sep. 1999.
[18] R. J., Williams, "Inverting a connectionist network mapping by backpropagation of error," in Proc 8th Annu. Conf. Cognitive Science Society, pp. 859-865, 1986.