بهبود دقت مدل GMM در قالب سیستم GMM-VSM در کاربرد تشخیص زبان گفتاری
الموضوعات :فهیمه قاسمیان 1 , محمدمهدی همایون¬پور 2
1 - دانشگاه تهران
2 - دانشگاه تهران
الکلمات المفتاحية: مدل مخلوط گاوسی (GMM), بردار BOS, ماشین بردار پشتیبان (SVM), تشخیص زبان.,
ملخص المقالة :
مدل GMM یکی از پرکاربردترین و موفق ترین مدل ها در زمینه تشخیص خودکار زبان است. در این مقاله مدلی جدید با نام Adapted Weight-GMM(AW-GMM) ارائه شده است. این مدل مشابه GMM است با این تفاوت که وزن مولفه های آن در قالب سیستم GMM-VSM بر اساس قدرت مولفه ها در تمایز یک زبان از سایر زبان ها تعیین می گردد. همچنین با توجه به پیچیدگی محاسباتی که در سیستم GMM-VSM در حالتی که توالی 2تایی مولفه ها در نظر گرفته شود، وجود دارد، تکنیکی برای ساخت توالی 2تایی مولفه ها ارائه شده است که می توان از آن برای ساخت توالی های از مرتبه بالاتر نیز استفاده نمود. ارزیابی های صورت گرفته بر روی 4 زبان انگلیسی، فارسی، فرانسوی و آلمانی از دادگان OGI کارایی تکنیک های ارائه شده را نشان می دهد.
Ziaei A., Ahadi S. M.,Mirrezaie S. M. and Yeganeh H., "Spoken Language Identification Using a New Sequence Kernel-based SVM Back-end Classifier", ISSPIT, 2008, pp.324-329.
Zissman M. A., "Comparision of Four Approaches to Automatic Language Identification of Telephone Speech", IEEE Transactions on Speech and Audio Processing, vol. 4, 1996, pp.31-44.
Li H., Ma B. and Lee C. H., "A Vector space modeling approach to spoken language identification," IEEE Transactions on Audio, Speech and Language Processing, vol. 15, 2007, pp.271-284.
Torres-Carrasquillo P. A., Singer E., Kohler M. A., Greene R. J., Reynolds D. A. and Deller J. A., "Approaches to Language Identification using Gaussian Mixture Models and Shifted Delta Cepstral Features", ICSLP, 2002, pp.89-92.
Tong, R.,Bin, M.,Zhu, D.,Li, H., Chng, E. S., "Integrating acoustic, prosodic and phonotactic features for spoken language identification," ICASSP, 2006, pp. 205-208.
Tong R., Ma B., Li H., and Chng E. S., "Target-Oriented Phone Tokenizers for Spoken Language Recognition", ICASSP 2008, pp. 200-203.
Richardson F. S., Campbell W. M., Torres-Carrasquillo P. A., “Discriminative N-gram selection for dialect recognition”, interspeech, 2009, pp. 192-195.
Muthusamy Y. K., Cole R. A., Oshika B. T., "The OGI multi-language telephone speech corpus", ICSLP, 1992.
Available at: http://htk.eng.cam.ac.uk/