بهبود دقت مدل GMM در قالب سیستم GMM-VSM در کاربرد تشخیص زبان گفتاری
الموضوعات :فهیمه قاسمیان 1 , محمدمهدی همایون¬پور 2
1 - دانشگاه تهران
2 - دانشگاه تهران
الکلمات المفتاحية: مدل مخلوط گاوسی (GMM), بردار BOS, ماشین بردار پشتیبان (SVM), تشخیص زبان.,
ملخص المقالة :
مدل GMM یکی از پرکاربردترین و موفق ترین مدل ها در زمینه تشخیص خودکار زبان است. در این مقاله مدلی جدید با نام Adapted Weight-GMM(AW-GMM) ارائه شده است. این مدل مشابه GMM است با این تفاوت که وزن مولفه های آن در قالب سیستم GMM-VSM بر اساس قدرت مولفه ها در تمایز یک زبان از سایر زبان ها تعیین می گردد. همچنین با توجه به پیچیدگی محاسباتی که در سیستم GMM-VSM در حالتی که توالی 2تایی مولفه ها در نظر گرفته شود، وجود دارد، تکنیکی برای ساخت توالی 2تایی مولفه ها ارائه شده است که می توان از آن برای ساخت توالی های از مرتبه بالاتر نیز استفاده نمود. ارزیابی های صورت گرفته بر روی 4 زبان انگلیسی، فارسی، فرانسوی و آلمانی از دادگان OGI کارایی تکنیک های ارائه شده را نشان می دهد.
Ziaei A., Ahadi S. M.,Mirrezaie S. M. and Yeganeh H., "Spoken Language Identification Using a New Sequence Kernel-based SVM Back-end Classifier", ISSPIT, 2008, pp.324-329.
Zissman M. A., "Comparision of Four Approaches to Automatic Language Identification of Telephone Speech", IEEE Transactions on Speech and Audio Processing, vol. 4, 1996, pp.31-44.
Li H., Ma B. and Lee C. H., "A Vector space modeling approach to spoken language identification," IEEE Transactions on Audio, Speech and Language Processing, vol. 15, 2007, pp.271-284.
Torres-Carrasquillo P. A., Singer E., Kohler M. A., Greene R. J., Reynolds D. A. and Deller J. A., "Approaches to Language Identification using Gaussian Mixture Models and Shifted Delta Cepstral Features", ICSLP, 2002, pp.89-92.
Tong, R.,Bin, M.,Zhu, D.,Li, H., Chng, E. S., "Integrating acoustic, prosodic and phonotactic features for spoken language identification," ICASSP, 2006, pp. 205-208.
Tong R., Ma B., Li H., and Chng E. S., "Target-Oriented Phone Tokenizers for Spoken Language Recognition", ICASSP 2008, pp. 200-203.
Richardson F. S., Campbell W. M., Torres-Carrasquillo P. A., “Discriminative N-gram selection for dialect recognition”, interspeech, 2009, pp. 192-195.
Muthusamy Y. K., Cole R. A., Oshika B. T., "The OGI multi-language telephone speech corpus", ICSLP, 1992.
Available at: http://htk.eng.cam.ac.uk/
فصلنامه علمي- پژوهشي فناوري اطلاعات و ارتباطات ایران | سال دوم، شمارههاي 5 و 6 ، پاييز و زمستان 1389 صص: 8- 1 |
|
بهبود دقت مدل GMM در قالب سیستم GMM-VSM در کاربرد تشخیص زبان گفتاری
فهیمه قاسمیان ▪ * محمدمهدی همایونپور **
* کارشناس ارشد، دانشکده مهندسي کامپیوتر و فناوري اطلاعات، دانشگاه صنعتی اميرکبير
** دانشیار، دانشکده مهندسي کامپیوتر و فناوري اطلاعات، دانشگاه صنعتی اميرکبير
تاريخ دريافت: 20/01/1389 تاريخ پذيرش: 25/05/1389
چکيده
مدل GMM یکی از پرکاربردترین و موفقترین مدلها در زمینه تشخیص خودکار زبان است. در این مقاله مدلی جدید با نام Adapted Weight-GMM(AW-GMM) ارائه شده است. این مدل مشابه GMM است با این تفاوت که وزن مولفههای آن در قالب سیستم GMM-VSM بر اساس قدرت مولفهها در تمایز یک زبان از سایر زبانها تعیین میگردد. همچنین با توجه به پیچیدگی محاسباتی که در سیستم GMM-VSM در حالتی که توالی 2تایی مولفهها در نظر گرفته شود، وجود دارد، تکنیکی برای ساخت توالی 2تایی مولفهها ارائه شده است که میتوان از آن برای ساخت توالیهای از مرتبه بالاتر نیز استفاده نمود. ارزیابیهای صورت گرفته بر روی 4 زبان انگلیسی، فارسی، فرانسوی و آلمانی از دادگان OGI کارایی تکنیکهای ارائه شده را نشان میدهد.
كليد واژگان: مدل مخلوط گاوسی (GMM)، بردار BOS، ماشین بردار پشتیبان (SVM)، تشخیص زبان.
1- مقدمه
به دلیل نیاز روزافزون به برقراری ارتباط انسان و رایانه و گرایش به سمت برقراری ارتباطهای طبیعیتر با ماشین، تحقیقات زیادی در زمینه طراحی و پیادهسازی سیستمهایی با قابلیت پردازش گفتار طبیعی صورت گرفته است. تشخيص خودکار زبان (LID1) جزء این دسته از سیستمهاست که با استفاده از آن، رایانه زبان مربوط به گفتار ديجيتال شده را تشخيص ميدهد. از جمله کاربردهای سیستمهای تشخیص زبان میتوان به هدایت تماسهای ضروری، سرویسهای چند زبانه، سرویسهای نظامی، کاربردهای امنیتی، اندیسگذاری فایلهای صوتی و غیره اشاره کرد [1].
محققان با الهام از معیارهایی که شنوندگان انسانی جهت تمایز میان زبانها مورد استفاده قرار میدهند، توانستهاند به موفقیتهای قابل توجهی در زمینه تشخیص خودکار زبان گفتاری دست پیدا کنند. در سال 1996 آقاي زيسمن2، مقالهاي را منتشر کرد که در آن 4 روش پايه براي تشخيص زبان را به طور کامل شرح داد و از نظر کارايي با يکديگر مقايسه نمود. اين روشها شامل روشهاي PRLM3، PPRLM4، PPR و GMM بود[2]. کارهاي بعدی که پس از انتشار این مقاله صورت گرفت، معمولا کارايي خود را با سيستمهاي تشخيص زباني که در اين مقاله ارائه شده، مقايسه نمودند و سعي کردند که اين روشها را بهبود بخشند، همچنين مسابقاتي که جهت ارزيابي سيستمهاي تشخيص زبان از سال 1996 تا کنون هر 2 سال يکبار توسط NIST تحت عنوان NIST-LRE برگزار ميشود، بستری براي بهبود سيستمهاي تشخيص زبان بود. طبق نتايج ارائه شده توسط اين موسسه، کارايي سيستمهاي تشخيص زبان در هر دوره بهبود پيدا ميکند.
بهبود سيستمهاي تشخيص زبان، از جنبههاي مختلفي صورت گرفته است. اين بهبودها را ميتوان از نقطهنظر ويژگيهاي اکوستيکي و نوایی مورد استفاده براي تشخيص زبان، شناساگرهاي آوايي و مدلهاي زباني مورد استفاده، نحوهي ترکيب نتايج حاصل از مدلهاي زباني، استفاده از طبقهبندیکنندههاي تمايزي و ترکيب سيستمهاي تشخيص زبان مختلف مورد بررسي قرار داد. اکثر سیستمهای تشخیص زبان موفق نیازی به دانش سطح بالا برای تمایز زبانها ندارند، بلکه از اطلاعات اکوستیکی، نوایی و واجآرایی (قوانین حاکم بر توالی مجاز واجها) برای تمایز میان زبانها استفاده میکنند. گرچه واجها به طور قابل ملاحظهای میان زبانها مشترکند اما فرکانس تکرار این واجها و توالی چندتایی آنها میتواند به طور قابل ملاحظهای از یک زبان به زبان دیگر متفاوت باشد [1].
پس از ارائه سیستم تشخیص زبان PPRLM[2] و موفقیت این سیستم در تشخیص زبان، تحقیقات بیشتری در زمینه اطلاعات واجآرایی صورت گرفت. آزمایشات صورت گرفته بر روی شنوندگان انسانی نشان داده است که شنوندگان چندزبانه قدرت بالاتری در تشخیص زبانها نسبت به شنوندگان تک زبانه دارند. PPR که در قسمت ابتدایی این سیستم قرار دارد، از مجموعهی موازی از شناساگرهای آوایی تشکیل شده است و روشی موثر در تبدیل قطعات گفتار ورودی به توالیهای آوایی است.
سیستمهای تشخیص زبان نظیر PPRLM و PPR-VSM5[3] که جز موفقترین سیستمهای تشخیص زبان هستند، برای آموزش نیاز به دادههایی دارند که در سطح واج برچسبگذاری شده باشند. برچسبگذاری عملی وقتگیر است و تعمیم این سیستمها به تعداد زبانهای بالاتر را دشوار میسازد. برای حل این مشکل روشی ارائه شده است که در آن از مجموعهای از شناساگرهای GMM جهت تشخیص زبان استفاده میشود. در این روش نیازی به دادههای برچسبخورده وجود ندارد اما دقت پایینتری در تبدیل قطعه گفتاری به توالی آوایی دارد [4]. به این ترتیب میتوان از مدل GMM به عنوان قسمت ابتدایی سیستمهای PPRLM و PPR-VSM استفاده نمود که به ترتیب سیستمهای GMM-LM و GMM-VSM نامگذاری شدهاند.
با بررسی سیستمهای تشخیص زبان ارائه شده، مشاهده میشود که در اکثر این سیستمها از مدل GMM استفاده میشود و این مدل در کاربرد تشخیص زبان خوب عمل کرده است. بنابراین افزایش دقت مدل GMM میتواند در افزایش دقت سیستمهای تشخیص زبانی که از این مدل استفاده میکنند، تاثیر بسزایی داشته باشد. هر مدل GMM با استفاده از روش بیشینهسازی امید ریاضی (6EM)، به طور مستقل از سایر دادهها و با استفاده از دادههای آموزشی مربوط به آن زبان، آموزش داده میشود و وزن هر مولفه در مدل، متناسب با فرکانس تکرار آن در مجموعه دادههای آموزشی تعیین میشود. در این مقاله مدلی جدید با نام AW-GMM ارائه شده است که مشابه GMM با استفاده از الگوریتم EM آموزش داده میشود اما پس از آموزش در قالب سیستم GMM-VSM عمل تطبیق وزن صورت میگیرد. در فاز تطبیق وزن، وزن هر مولفه از GMM بر اساس قدرت آن در تمایز زبان مربوطه از سایر زبانها تعیین میشود.
در این مقاله همچنین تکنیکی جهت کاهش پیچیدگی محاسباتی سیستم GMM-VSM ارائه شده است که علاوه بر کاهش پیچیدگی سبب افزایش دقت این سیستم شده است.
در ادامه در بخش 2، سیستمهای تشخیص زبان گفتاری بر مبنای GMMو سیستم GMM-VSM شرح داده شده است. در بخش 3 به بیان تکنیکهای ارائه شده جهت بهبود دقت GMM و سیستم GMM-VSM پرداخته شده است. نتایج آزمایشها و ارزیابیهای صورت گرفته نیز در بخش 4 بیان گردیده و در خاتمه در بخش 5 به جمعبندی و نتیجهگیری پرداخته شده است.
2- معرفی سیستمهای تشخیص زبان گفتاری
در تشخيص خودکار زبانها، يافتن مشخصههاي موثر براي جداسازي زبانها از اهمیت بالایی برخوردار است [5]. انسان و ماشين ميتوانند معيارهاي مختلفي از جمله نوع آواها، فرکانس تکرار آنها، توالیهای آوایی، اطلاعات نوایی و غیره را جهت تشخيص زبان مورد استفاده قرار دهند. در سیستمهایی که از اطلاعات آوایی جهت تشخیص زبان استفاده میشود، برای استخراج دنباله آوایی متناظر با یک قطعه گفتاری از یک سری ویژگیهای اکوستیکی استفاده میشود. این ویژگیها معمولا ویژگی MFCC7 یا 8SDC در نظر گرفته میشود.
2-1-استخراج ویژگی
فاز استخراج ویژگی در همه سیستمهای تشخیص زبان مشترک است. برای استخراج ویژگی ابتدا سیگنال ورودی به فریمهای با طول ثابت تقسیم شده و سپس از هر فریم ویژگی اکوستیکی (معمولا ضرایب MFCC) یا پروزودی مورد نظراستخراج میشود. به این ترتیب قطعات گفتاری به توالی از بردارهای ویژگی با طول ثابت تبدیل میشوند. همچنین از روش CMS9 برای حذف اثر کانال نیز استفاده میشود.
2-2-سیستم تشخیص زبان بر مبنای مدل مخلوط گاوسی (GMM10)
اين روش يک روش ساده و آماري براي تشخيص زبان است و سعي بر جداسازي زبانها بر مبناي تفاوتهايي که ميان آواها و فرکانس تکرار آنهاست، دارد. GMM فرض ميکند که هر بردار ويژگي Vt که مربوط به فريم زماني t است، توسط يک تابع چگالي احتمالاتي توليد ميشود. به عبارت ديگر بردارهاي ويژگي (ويژگي MFCC) استخراج شده از فريمها، داراي يک تابع توزيع احتمالاتي است که اين تابع توزيع را ميتوان به صورت مجموع توابع توزيع نرمال چند متغيره11 به صورت تساوي 1 نوشت [2].
|
|
(3) |
|
|
(5) |
|
(6) |
|
سیگنال ورودی SVM انگلیسی |
a,a,b,c,a,a,b |
d,c | d,b | d,a | d,d | c,d | c,b | c,a | c,c | b,d | b,c | b,a | b,b | a,d | a,c | a,b | a,a | d |
| b |
|
0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 2 | 2 | 0 | 1 | 2 | 4 |
شکل 1-نحوه تبدیل توالی آوایی به بردار BOS از مرتبه 2
بردار BOS حاصل از هر شناساگر آوایی در کنار یکدیگر قرار گرفته و یک بردار واحد را تشکیل میدهد. حال که سیگنال به یک بردار واحد تبدیل شد، میتوان این مسئله را به دید یک مسئله طبقهبندی نگاه کرد و از یک طبقهبندی کننده مانند SVM برای پیدا کردن ابرصفحه جداکننده زبانها استفاده نمود [3]. این سیستم در شکل 2 نشان داده شده است.
3-1- مدل AW-GMM
در آموزش GMM، الگوریتم EM به ازای هر مولفه، یک بردار میانگین، واریانس و وزن را محاسبه میکند. وزن هر مولفه بر اساس احتمال رخداد آن مولفه به ازای دادههای آموزشی تعیین میشود، به عبارت دیگر وزن هر مولفه، متناسب با فرکانس تکرار آن مولفه در فضای آواهای آن زبان است و آموزش درست این وزنها تاثیر زیادی در دقت تشخیص زبان دارد.ایرادی که در روش مدل کردن GMM وجود دارد این است که هر زبان مستقل از زبان دیگر مدل میشود. به عنوان نمونه ممکن است یک یا بخشی از یک آوا فرکانس تکرار کمی در یک زبان داشته باشد و در مقابل آوای دیگر فرکانس تکرار زیادتری داشته باشد اما تاثیر آوای اول در تشخیص این زبان از سایر زبانها بیشتر از آوای دوم باشد،بنابراین یک راه برای افزایش دقت مدلهای GMM میتواند تغییر مکانیزم وزندهی مولفهها بر اساس اطلاعات تمایزدهندگی آنها باشد. به این منظور مدل AW-GMM ارائه شده است.مدل AW-GMM مشابه GMM است و با استفاده از الگوریتم EM آموزش داده میشود اما پس از آموزش، وزن مولفههای هر یک از مدلهای GMM در قالب سیستم GMM-VSMدر حالت مدلکننده شنونده تک زبانه به طوری که در شکل 3نشان داده شده است، تطبیق داده میشود.
SVM آلمانی |
شکل 2: سیستم تشخیص زبان GMM-VSM
در سیستم GMM-VSM در حالت مدلکننده شنونده تکزبانه، تنها از بردار BOS حاصل از هر مدل GMM برای آموزش طبقهبندی کننده SVM استفاده میشود. به عبارت دیگر هر SVM تنها از فضای آوای زبان مربوط به خود اطلاع دارد.
تطبیق وزن به این صورت انجام میشود که در فاز آموزش سیستم GMM-VSM، توالی بردارهای استخراج شده از دادههای آموزشی، به بردارهایی با طول ثابت (بر اساس فرکانس تکرار مولفهها)، تبدیل میشوند. سپس این بردارهای ویژگی برای آموزش مدلهای SVM با کرنل خطی، مورد استفاده قرار میگیرند که به ازای هر شناساگر GMM یک طبقهبندی کننده SVM با استفاده از بردارهای ویژگی مربوط به آن شناساگر و با در نظر گرفتن بردارهای متعلق به زبان آن شناساگر به عنوان نمونههای مثبت (نمونههای با برچسب 1+) و بردارهای ویژگی متعلق به سایر زبانها به عنوان نمونههای منفی (نمونههای با برچسب 1-)، آموزش داده میشود.
SVMانگلیسی مدل GMMانگلیسی تطبیق وزن تطبیق وزن BOS مدل GMM آلمانی
BOS SVMآلمانی مدل GMM انگلیسی |
شکل 3: تکنیک تطبیق وزن ارائه شده
پس از آموزش، از هر SVM یک بردار وزن بدست میآید که از رابطهی زیر محاسبه میشود.
(8) |
|
فارسی | فرانسوی | آلمانی | |
68% | 69% | 63% | 70% |
همانطور که مشاهده میشود درصد بالایی از توالیهای 2تایی که وزن بالایی در تشخیص زبان داشتهاند را مولفههایی تشکیل میدهند که آنها نیز از وزن بالایی برخوردارند.
در شکل 4، وزن مولفهها برای 30 مولفهی اول و توالی 2 تایی آنها برای زبان آلمانی نشان داده شده است. همانطور که در این شکل مشخص شده است، اکثر نقاط پیک منحنی که با خطچین مشحص شده است و مربوط به وزن توالی 2تایی مولفههاست، معادل نقاط پیک منحنی که با خطوط مستقیم مشخص شده است و مربوط به وزن مولفههاست، میباشد.
شکل 4-مقادیر وزن مولفههای گاوسی (خطوط توپر) و توالی 2 تایی مولفههای گاوسی (خطوط نقطهچین) برای زبان آلمانی
با توجه به این شهود میتوان برای اضافه کردن احتمال رخداد توالیهای 2 تایی، تنها توالیهایی را در نظر گرفت که مولفههای با وزن بالا در آنها حضور دارند. به همین ترتیب میتوان از این تکنیک برای ساخت توالیهای 3تایی و بالاتر استفاده نمود. از نظر پیچیدگی محاسباتی هنگامی که از تکنیک انتخاب ویژگی استفاده شود تنها در زمان آموزش توالیهای 2تایی که در تشخیص زبان موثرترند انتخاب میشوند و در زمان ارزیابی نه تنها محاسبات اضافهتری صورت نمیگیرد بلکه به دلیل کاهش بعد از پیچیدگی محاسباتی کاسته میشود.
4- آزمایشات
تمامی آزمایشات در این مقاله با استفاده از دادگان تلفنی چند زبانه OGI [8] صورت گرفته است. این دادگان شامل 10 زبان انگلیسی، فارسی، فرانسوی، آلمانی، ژاپنی، کرهای، اسپانیایی، ماندارین، تامیل و ویتنامی است. از بین این زبانها، 4 زبان انگلیسی، فرانسه، فارسی و آلمانی جهت آموزش و ارزیابی سیستمها انتخاب شده و آموزش سیستمها با استفاده از قسمت آموزش و ارزیابی با استفاده از قطعات 45 ثانیهای قسمت ارزیابی دادگان، صورت گرفته است.
ابتدا قطعات گفتاری به فریمهای 30 میلی ثانیه با 10 میلی ثانیه همپوشانی تبدیل و بخشهای سکوت از آنها حذف گردید. سپس از هر فریم بردار ویژگی MFCC شامل 12 ضریب اول و انرژی به همراه مشتق اول و دوم این ضرایب استخراج شد. پس از استخراج بردارهای ویژگی، از CMS جهت نرمالسازی و حذف اثرات کانال استفاده شد. در مرحلهی بعد، 4 مدل GMM (مدل GMM انگلیسی، فارسی، فرانسوی و آلمانی) با 256 مولفه با استفاده از الگوریتم EM و ابزارHTK[9]و دادههای آموزشی زبان هدف، آموزش داده شد. در مورد هر مدل، الگوریتم EM، 10 مرتبه تکرار شد.در مرحلهی بعد مدلهای حاصل برای آموزش سیستم GMM-VSM مورد استفاده قرار گرفت و با استفاده از تکنیک تطبیق وزن ارائه شده، 4 مدل AW-GMM حاصل شد.
در آزمایش اول تاثیر استفاده از مدل AW-GMM به عنوان جایگزین مدل GMM در قالب سیستم تشخیص زبانی که در قسمت 2-2 توصیف شد، مورد بررسی قرار گرفت. بدین منظور 2 سیستم تشخیص زبان پیادهسازی شد. در سیستم اول از 4 مدل GMM استفاده شد و تصمیمگیری با استفاده از ماکزیممگیری بر روی احتمالات خروجی حاصل از مدلها صورت گرفت. سیستم دوم مشابه سیستم اول درنظر گرفته شد با این تفاوت که از AW-GMM به جای GMM استفاده شد. دقت تشخیص زبان هر یک از سیستمها در نمودار شکل 5نشان داده شده است. همانطور که در این شکل مشاهده میشود، استفاده از AW-GMM به جای GMM سبب افزایش دقت تشخیص زبان میشود (افزایش از 21/65 درصد به 46/72 درصد). در صورتی که عمل تطبیق وزن را یکبار دیگر تکرار نماییم، به این صورت که از مدلهای AW-GMM در سیستم GMM-VSM استفاده کرده و وزن این مدلها را بهطوری که در قسمت 3-1 توضیح داده شد، تطبیق دهیم، دقت تشخیص زبان بار دیگر افزایش پیدا میکند که البته این افزایش نسبت به افزایش مرحلهی اول چشمگیر نیست (افزایش از 46/72 به 91/73 درصد) و از این رو ما تعداد تکرارها را در همین مرحله متوقف نمودیم.
در آزمایش دوم تاثیر استفاده از مدلهای AW-GMM به عنوان شناساگرهای آوایی مورد بررسی قرار گرفته است. به این منظور 2 سیستم تشخیص زبان GMM-VSMاز مرتبه 1 (مقدار n برای ساخت بردارهای BOS برابر 1 در نظر گرفته شد) آموزش داده شده که در سیستم اول از مدل GMM و در سیستم دوم از مدل AW-GMM به عنوان شناساگر آوا استفاده شد.
شکل 5: تاثیر استفاده از مدل AW-GMM به عنوان جایگزین مدل GMM
دقت هر یک از این سیستمها در جدول 2 نشان داده شده است. همانطور که مشاهده میشود استفاده از مدل AW-GMM به عنوان جایگزین مدل GMM در سیستم GMM-VSM سبب افزایش دقت تشخیص زبان میشود.
جدول 2: تاثیر استفاده از مدل AW-GMM به عنوان شناساگر آوا در سیستم GMM-VSM
GMM-VSM مرتبه 1 | AW-GMM-VSM مرتبه 1 |
16/81% | 41/88% |
در آزمایش سوم تاثیر تکنیک انتخاب ویژگی ارائه شده که در قسمت 3-2 توصیف شد، مورد بررسی قرار گرفت. بدین منظور 2 سیستم GMM-VSMاز مرتبه 2 پیادهسازی شد. در سیستم اول از تمامی توالیهای 2تایی مولفهها برای ساختبردارهای BOS استفاده شد و در سیستم دوم تنها توالیهای 2تایی در نظر گرفته شد که حداقل یک عضو تشکیل دهندهی آنها از بین مولفههای با وزن بالا انتخاب شده باشد.
در نمودار شکل 6دقت تشخیص زبان سیستم GMM-VSM در حالتی که از تکنیک انتخاب ویژگی استفاده شود، به ازای تعدادمولفههای انتخابی مختلف نشان داده شده است. همانطور که مشاهده میشود، بهترین کارایی زمانی حاصل میشود که عمل انتخاب بر اساس توالیهای 2 تایی 75 مولفه اول که دارای وزن بالاتری هستند صورت گیرد.به عبارت دیگر از نظر محاسباتی در حالت اول سیستم بر اساس بردارهای ویژگی با بعد 256*256 و در حالت دوم بر اساس بردارهای با بعد 75*75 عمل تصمیمگیری در مورد زبان هدف را انجام میدهد که به طور قابل ملاحظهای پیچیدگی محاسباتی کم میشود.
شکل 6: دقت سیستم GMM-VSM در حالت استفاده از توالی 2تایی مولفهها به ازای تعداد مولفههای انتخابی مختلف
دقت تشخیص زبان هر یک از این سیستمها در جدول 3 نشان داده شده است. همانطور که مشاهده میشود علاوه بر اینکه استفاده از تکنیک انتخاب ویژگی سبب کاهش پیچیدگی محاسباتی شده، دقت تشخیص زبان را نیز افزایش داده است.
جدول 3: تاثیر استفاده از انتخاب ویژگی ارائه شده بر دقت سیستم تشخیص زبان GMM-VSM در حالت استفاده از توالیهای 2تایی مولفهها
سیستم GMM-VSM- مرتبه 2 بدون استفاده از تکنیک انتخاب ویژگی | سیستم GMM-VSM-مرتبه 2 با استفاده از تکنیک انتخاب ویژگی |
61/82% | 85/89% |
در این مقاله مدلی جدید با نام AW-GMM ارائه گردید. این مدل مشابه GMM است با این تفاوت که وزن مولفهها بر اساس قدرت تمایزکنندگی آنها در قالب سیستم تشخیص زبان GMM-VSM تعیین میشود. ارزیابیهای صورت گرفته با استفاده از 4 زبان انگلیسی، فارسی، فرانسوی و آلمانی از دادگان OGI نشان داد که استفاده از مدل ارائه شده به عنوان جایگزین GMM در سیستمهای تشخیص زبانی که از آن استفاده میکنند سبب افزایش دقت تشخیص زبان میشود. همچنین تکنیکی برای ساخت توالیهای 2تایی مولفهها در سیستم GMM-VSM ارائه گردید که علاوه بر کاهش پیچیدگی سبب افزایش دقت تشخیص زبان در این سیستم گردید. نتیجه کلی که از آزمایشات صورت گرفته در این مقاله حاصل میشود این است که در نظر گرفتن فضای آوایی زبانها به گونهای که به هر آوا بر اساس قدرت متمایز کردن زبان هدف از سایر زبانها وزن داده شود نه بر اساس تعداد دفعات تکراری که در آن زبان دارد، میتواند به میزان قابل توجهی دقت تشخیص زبان را بالا برد و از پیچیدگی محاسباتی کم کند.
قدردانی:
این مقاله مورد حمایت مالی مرکز تحقیقات مخابرات ایران در قالب قرارداد 14939/500/ت قرار گرفته است.
6-مراجع
Ziaei A., Ahadi S. M.,Mirrezaie S. M. and Yeganeh H., "Spoken Language Identification Using a New Sequence Kernel-based SVM Back-end Classifier", ISSPIT, 2008, pp.324-329. | [1] |
Zissman M. A., "Comparision of Four Approaches to Automatic Language Identification of Telephone Speech", IEEE Transactions on Speech and Audio Processing, vol. 4, 1996, pp.31-44. | [2] |
Li H., Ma B. and Lee C. H., "A Vector space modeling approach to spoken language identification," IEEE Transactions on Audio, Speech and Language Processing, vol. 15, 2007, pp.271-284. | [3] |
Torres-Carrasquillo P. A., Singer E., Kohler M. A., Greene R. J., Reynolds D. A. and Deller J. A., "Approaches to Language Identification using Gaussian Mixture Models and Shifted Delta Cepstral Features", ICSLP, 2002, pp.89-92. | [4] |
Tong, R.,Bin, M.,Zhu, D.,Li, H., Chng, E. S., "Integrating acoustic, prosodic and phonotactic features for spoken language identification," ICASSP, 2006, pp. 205-208. | [5] |
Tong R., Ma B., Li H., and Chng E. S., "Target-Oriented Phone Tokenizers for Spoken Language Recognition", ICASSP 2008, pp. 200-203. | [6] |
Richardson F. S., Campbell W. M., Torres-Carrasquillo P. A., “Discriminative N-gram selection for dialect recognition”, interspeech, 2009, pp. 192-195. | [7] |
Muthusamy Y. K., Cole R. A., Oshika B. T., "The OGI multi-language telephone speech corpus", ICSLP, 1992. | [8] |
Available at: http://htk.eng.cam.ac.uk/
| [9] |
[1] ▪ نویسنده عهدهدار مکاتبات (f_ghasemian@yahoo.com)
Language Identification
[2] Zissman
[3] Phone Recognizer Followed by Language Model
[4] Parallel Phone Recognizers Followed by Language Model
[5] Parallel Phone Recognizer-Vector Space Modeling
[6] Expectation Maximization
[7] Mel Frequency Cepstral Coefficient
[8] Shifted Delta Cepstral
[9] Cepstral Mean Subtraction
[10] Gaussian Mixture Model
[11] Multivariate Gaussian Densities