استخراج و مدل‌سازي واحدهاي آوايي وابسته به بافت براي بهبود دقت بازشناسي گفتار پيوسته با روش دسته‌بندي واج‌ها

الموضوعات : مهندسی برق و کامپیوتر

1 - دانشگاه صنعتی شریف
2 - دانشگاه صنعتی شریف

تاريخ الإرسال : 02 الأربعاء , رجب, 1425 تاريخ التأكيد : 10 السبت , جمادى الثانية, 1426 تاريخ الإصدار : 11 الإثنين , صفر, 1426

الکلمات المفتاحية: بازشناسي گفتار پيوستهدسته‌بنديمدل مخفي مارکوفمدل‌هاي وابسته به بافت,

ملخص المقالة :

در اين مقاله براي بهبود دقت يک سيستم بازشناسي گفتار پيوسته فارسي، روش وابسته به بافت مناسبي پيشنهاد شده است. به دليل بعضي محدوديت‌هاي موجود در سيستم بازشناسي، از ايدة واحدهاي آوايي چندگانه براي استخراج واحدهاي آوايي وابسته به بافت استفاده گرديده است. بر اساس اين ايده هر واج به چند نوع گوناگون دسته‌بندي مي‌شود و هر دسته جداگانه مدل‌سازي مي‌گردد. دسته‌بندي واج‌ها به صورت بي‌نظارت و با استفاده از الگوريتم k-means انجام شده است و براي محاسبه مركز دسته‌ها روش كارايي پيشنهاد شده است. تعداد دسته مناسب براي هر واج با توجه به حجم داده‌هاي آموزشي آن واج و دقت بازشناسي واج در هنگام به‌کارگيري مدل‌هاي مستقل از بافت، حدس زده شده و سپس با روش‌هاي مبتني بر سعي و خطا، تعداد دسته بهينه براي هر واج تعيين شده است. سپس هر دسته به عنوان يک واحد آوايي وابسته به بافت مدل‌سازي گرديده است. با استفاده از اين مدل‌ها حدود 22 درصد کاهش در نرخ خطاي کلمات حاصل شده است.

المصادر:

[1] L. Rabiner and B. H. Juang, Fundamentals of Speech Recognition, Prentice Hall, New Jersey, 1993.
[2] L. Villarrubia, L. H. Gomez, J. M. Elvira, and J. C. Torrecilla, "Context-dependent units for vocabulary-independent spanish speech recognition," in Proc. ICASSP 96, vol. 1, pp. 451-454, Georgia,1996.
[3] W. Reichl and W. Chou, "Robust decision tree state tying for continuous speech recognition," IEEE Trans. Speech and Audio Processing, vol. 8, no. 5, pp. 555-566, Sep. 2000.
[4] J. Zhang, F. Zheng, J. Li, C. Luo, and G. Zhang, "Improved context dependent acoustic modeling for continuous chinese speech recognition," in Proc. EuroSpeech 2001, vol. 3, pp. 1617-1620,Sep. 2001.
[5] A. Ganapathiraju, J. Hamaker, J. Picone, and M. Ordowski, "Syllable-based large vocabulary continuous speech recognition," IEEE Trans. Speech and Audio Processing, vol. 9, no. 4, pp. 358-366, May 2001.
[6] ب. باباعلي، بررسي روش هاي هرس كردن براي بهبود عملكرد يك سيستم بازشناسي گفتار پيوسته مبتني بر مدل مخفي ماركوف، پايان نامة كارشناسي ارشد،. دانشكده مهندسي كامپيوتر، دانشگاه صنعتي شريف، 1382.
[7] م. بحراني، به كارگيري ساختارهاي وابسته به بافت در بازشناسي گفتار پيوسته مبتني بر مدل مخفي ماركوف، پايان نامة كارشناسي ارشد، دانشكده مهندسي. كامپيوتر، دانشگاه صنعتي شريف، 1382.
[8] J. Ferreiros and J. M. Pardo, "Improving continuous speech recognition in Spanish by phone-class semi continuous HMMs with pausing and multiple pronunciations," Speech Communication,vol. 29, no. 1, pp. 65-76, Sep. 1999.
[9] ا. غلامپور، بازشناسي مستقل از گوينده وا جهاي فارسي در صحبت پيوسته، پايان نامه دكترا، دانشكده مهندسي برق، دانشگاه صنعتي شريف، 1379.
[10] T. Oates, M. D. Schmill, and P. R. Cohen, "A method for clustering the experiences of a mobile robot that accords with human judgements," in Proc. 17th National Conf. on Artificial Intelligence, pp. 846-851, 2000.
[11] V. Vuori and J. Laaksonen, "A comparison of techniques for automatic clustering of handwritten characters," in Proc 16th Int. Conf. on Pattern Recognition, vol. 3, pp. 168-171, Quebec, 2002.
[12] D. Bakhash, Hierarchical Clustering and Sequence Averaging for Improved Efficiency and Accuracy of On-Line Chinese Character Recognition, On-line: http://www.mit.edu:8001/people/cadet/ Clustering/node1.html, 2003.
[13] J. Picone, "Duration in context clustering for speech recognition," Speech Communication, vol. 9, no. 2, pp. 119-128, Apr. 1990.
[14] S. Ortmanns, A. Eiden, and H. Ney, "Improved lexical tree search for large vocabulary speech recognition," in Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Proc., vol. 2, pp. 817-820, Seattle,May 1998.

شارک

عنوان URL للمقالة

استخراج و مدل‌سازي واحدهاي آوايي وابسته به بافت براي بهبود دقت بازشناسي گفتار پيوسته با روش دسته‌بندي واج‌ها

رایمگ

الروابط

المراكز ذات الصلة

دعامة

الصفحات الرسمية