در حال حاضر تلاش فراگيري براي طراحي سيستمهاي بازشناسي گفتار مقاوم نسبت به تنوعات گفتار صورت ميگيرد. يكي از اين تنوعات، گفتار تلفني نسبت به گفتار مستقيم (تهيه شده در شرايط عاري از هر گونه نويز محيط) ميباشد. در مقاله حاضر با بهرهگيري از پارامترهاي طيفي LHCB و طراحي يك More
در حال حاضر تلاش فراگيري براي طراحي سيستمهاي بازشناسي گفتار مقاوم نسبت به تنوعات گفتار صورت ميگيرد. يكي از اين تنوعات، گفتار تلفني نسبت به گفتار مستقيم (تهيه شده در شرايط عاري از هر گونه نويز محيط) ميباشد. در مقاله حاضر با بهرهگيري از پارامترهاي طيفي LHCB و طراحي يك سري آزمايشهاي عملي مشخص ميگردد كه اين نوع بازنمايي براي طراحي سيستمهاي بازشناسي گفتار تلفني و سيستمهاي بازشناسي توأم گفتار مستقيم و تلفني كه مبتني بر شبكههاي عصبي باشد نسبت به روش متداول MFCC مناسبتر است. سپس با استخراج بردارهاي بازنمايي LHCB از گفتار مستقيم و تلفني و طراحي مدل بازشناسي گفتار مبتني بر شبكه عصبي MLP، يك سيستم بازشناسي توأم گفتار مستقيم و تلفني ساخته ميشود. آنگاه با استفاده از معكوسسازي شبكههاي عصبي به روش گراديان بردارهاي بازنمايي گفتار تلفني به سمت بردارهاي بازنمايي گفتار مستقيم اصلاح ميگردد و با تعليم شبكه ديگري روي دادگان اصلاح شده تلفني و دادگان مستقيم دست نخورده، افزايش4/1٪ در صحت بازشناسي گفتار تلفني حاصل شده است. در مرحله بعد با استفاده از معكوس سازي عمومي شبكههاي عصبي هر دو دسته بردارهاي بازنمايي گفتار مستقيم و تلفني به گونهاي اصلاح ميشوند كه بيشتر حاوي اطلاعات آوايي گفتار باشند و ساير تنوعات تا جاي ممكن حذف شوند. با تعليم شبكه ديگري روي اين دادگان اصلاح شده افزايش 98/2٪ در صحت بازشناسي گفتار تلفني و 68/1٪ در صحت بازشناسي گفتار مستقيم بدست آمده است.
Manuscript profile
Nashriyyah -i Muhandisi -i Barq va Muhandisi -i Kampyutar -i Iran
,
Issue25,Year,
Spring
2011
در اين مقاله بهمنظور توسعه عملکرد مدلهای شبکه عصبی در بازشناسی چهره با يک تصوير از هر فرد، يک ساختار شبکه عصبی دوسويه با الهام از نئوکورتکس مغز انسان ارائه شده است. در ساختار پيشنهادی همانند نئوکورتکس در ابتدا طی يک مرحله پردازش از پايين به بالا، يک تفسير زمخت از ورود More
در اين مقاله بهمنظور توسعه عملکرد مدلهای شبکه عصبی در بازشناسی چهره با يک تصوير از هر فرد، يک ساختار شبکه عصبی دوسويه با الهام از نئوکورتکس مغز انسان ارائه شده است. در ساختار پيشنهادی همانند نئوکورتکس در ابتدا طی يک مرحله پردازش از پايين به بالا، يک تفسير زمخت از ورودی صورت میگيرد، سپس در مرحله بعد نتايج بازشناسی اوليه ضمن عبور از يک شبکه عصبی معکوس پالايش میشوند. از اين مدل جهت جداسازی غير خطی اطلاعات فرد از حالت و تخمين مانيفولدهای اطلاعات فرد و حالت استفاده شده است. بهمنظور افزايش تعداد نمونههای تعليم در شبکه طبقهبندی کننده با استفاده از مانيفولدهای تخمين زده شده، تصاوير مجازی چهرههای نرمال موجود در پايگاه داده تست توليد شده است. با تعليم شبکه طبقهبندی کننده توسط تصاوير مجازی حاصل از تعليم شبکه دوسويه، درصد صحت بازشناسی 45/85٪ روی دادگان تست حاصل شده که در مقايسه با توليد تصاوير مجازی با استفاده از روش خوشهبندی بدون سرپرستی اطلاعات افراد و حالات دارای بهبود 82/1٪ میباشد.
Manuscript profile
یکی از روشهای بهبود عملکرد سامانههای بازشناسی در برابر نویز و یا تنوعات ناخواسته، استخراج اطلاعات مشترک بین دادههای مختلف ورودی میباشد. در مورد شبکههایی که ظرفیت بسیار پایینی دارند امکان ذخیرهسازی الگوها بهصورت مفاهیم جداگانه وجود ندارد، لذا کیفیت بازشناسی شدیداً More
یکی از روشهای بهبود عملکرد سامانههای بازشناسی در برابر نویز و یا تنوعات ناخواسته، استخراج اطلاعات مشترک بین دادههای مختلف ورودی میباشد. در مورد شبکههایی که ظرفیت بسیار پایینی دارند امکان ذخیرهسازی الگوها بهصورت مفاهیم جداگانه وجود ندارد، لذا کیفیت بازشناسی شدیداً افت پیدا میکند. در این مقاله ساختاری ارائه شده است که بتواند زیرفضای مشترک بین دادههای ورودی را استخراج کرده و آن را در میان گویندگان مختلف به اشتراک بگذارد. ساختار چندتکلیفی شبکه این امکان را فراهم میکند که این زیرفضا بهصورت یک جاذب پیوسته واحد شکل بگیرد که این جاذب نسبت به تنوعاتی مانند تغییرات گوینده در فضای ورودی پویا میباشد. لذا دادههای ورودی آغشته به نویز توسط یک نگاشت غیر خطی به یک مانیفولد در ابعاد پایین فیلتر میشوند که پویایی این مانیفولد مقاومبودن آن را نسبت به تنوعاتی مثل تغییر گوینده تأمین میکند. اتصالات بازگشتی در طی روند تعلیم، یک جاذب پیوسته را در فضای ورودی شکل میدهند که کدهای گوینده به اطلاعات لازم جهت پویاسازی این جاذب تبدیل میشوند. پس از فرایند جذبشدن داده آغشته به نویز، عمل بازشناسی بر روی داده تمیز حاصله اعمال میشود. استخراج و به اشتراک گذاشتن مؤلفههای مشترک در این ساختار توانسته است کارایی جاذبها را در بازشناسی مقاوم آوا تا حدود 5% نسبت به مدل مشابه، بدون پویایی جاذبها، در نسبت سیگنال به نویز dB 0 بهبود بخشد.
Manuscript profile
Rimag
Rimag is an integrated platform to accomplish all scientific journal requirements such as submission, evaluation, reviewing, editing, DOI assignment and publishing in the web.