-
مقاله
1 - بازشناسي مقاوم و توأم گفتار مستقيم و تلفني با استخراج مناسب بردارهاي بازنمايي و اصلاح آنها توسط معكوسسازي شبكههاي عصبيفصلنامه مهندسی برق و مهندسی کامپيوتر ايران , شماره 7 , سال 4 , بهار-تابستان 1385در حال حاضر تلاش فراگيري براي طراحي سيستمهاي بازشناسي گفتار مقاوم نسبت به تنوعات گفتار صورت ميگيرد. يكي از اين تنوعات، گفتار تلفني نسبت به گفتار مستقيم (تهيه شده در شرايط عاري از هر گونه نويز محيط) ميباشد. در مقاله حاضر با بهرهگيري از پارامترهاي طيفي LHCB و طراحي يك چکیده کاملدر حال حاضر تلاش فراگيري براي طراحي سيستمهاي بازشناسي گفتار مقاوم نسبت به تنوعات گفتار صورت ميگيرد. يكي از اين تنوعات، گفتار تلفني نسبت به گفتار مستقيم (تهيه شده در شرايط عاري از هر گونه نويز محيط) ميباشد. در مقاله حاضر با بهرهگيري از پارامترهاي طيفي LHCB و طراحي يك سري آزمايشهاي عملي مشخص ميگردد كه اين نوع بازنمايي براي طراحي سيستمهاي بازشناسي گفتار تلفني و سيستمهاي بازشناسي توأم گفتار مستقيم و تلفني كه مبتني بر شبكههاي عصبي باشد نسبت به روش متداول MFCC مناسبتر است. سپس با استخراج بردارهاي بازنمايي LHCB از گفتار مستقيم و تلفني و طراحي مدل بازشناسي گفتار مبتني بر شبكه عصبي MLP، يك سيستم بازشناسي توأم گفتار مستقيم و تلفني ساخته ميشود. آنگاه با استفاده از معكوسسازي شبكههاي عصبي به روش گراديان بردارهاي بازنمايي گفتار تلفني به سمت بردارهاي بازنمايي گفتار مستقيم اصلاح ميگردد و با تعليم شبكه ديگري روي دادگان اصلاح شده تلفني و دادگان مستقيم دست نخورده، افزايش4/1٪ در صحت بازشناسي گفتار تلفني حاصل شده است. در مرحله بعد با استفاده از معكوس سازي عمومي شبكههاي عصبي هر دو دسته بردارهاي بازنمايي گفتار مستقيم و تلفني به گونهاي اصلاح ميشوند كه بيشتر حاوي اطلاعات آوايي گفتار باشند و ساير تنوعات تا جاي ممكن حذف شوند. با تعليم شبكه ديگري روي اين دادگان اصلاح شده افزايش 98/2٪ در صحت بازشناسي گفتار تلفني و 68/1٪ در صحت بازشناسي گفتار مستقيم بدست آمده است. پرونده مقاله -
مقاله
2 - بهبود مانيفولد حالات و تصاوير مجازی با بهکارگيری شبکههای عصبی دوسويه در بازشناسی چهره با يک تصوير از هر فردفصلنامه مهندسی برق و مهندسی کامپيوتر ايران , شماره 25 , سال 9 , بهار 1390در اين مقاله بهمنظور توسعه عملکرد مدلهای شبکه عصبی در بازشناسی چهره با يک تصوير از هر فرد، يک ساختار شبکه عصبی دوسويه با الهام از نئوکورتکس مغز انسان ارائه شده است. در ساختار پيشنهادی همانند نئوکورتکس در ابتدا طی يک مرحله پردازش از پايين به بالا، يک تفسير زمخت از ورود چکیده کاملدر اين مقاله بهمنظور توسعه عملکرد مدلهای شبکه عصبی در بازشناسی چهره با يک تصوير از هر فرد، يک ساختار شبکه عصبی دوسويه با الهام از نئوکورتکس مغز انسان ارائه شده است. در ساختار پيشنهادی همانند نئوکورتکس در ابتدا طی يک مرحله پردازش از پايين به بالا، يک تفسير زمخت از ورودی صورت میگيرد، سپس در مرحله بعد نتايج بازشناسی اوليه ضمن عبور از يک شبکه عصبی معکوس پالايش میشوند. از اين مدل جهت جداسازی غير خطی اطلاعات فرد از حالت و تخمين مانيفولدهای اطلاعات فرد و حالت استفاده شده است. بهمنظور افزايش تعداد نمونههای تعليم در شبکه طبقهبندی کننده با استفاده از مانيفولدهای تخمين زده شده، تصاوير مجازی چهرههای نرمال موجود در پايگاه داده تست توليد شده است. با تعليم شبکه طبقهبندی کننده توسط تصاوير مجازی حاصل از تعليم شبکه دوسويه، درصد صحت بازشناسی 45/85٪ روی دادگان تست حاصل شده که در مقايسه با توليد تصاوير مجازی با استفاده از روش خوشهبندی بدون سرپرستی اطلاعات افراد و حالات دارای بهبود 82/1٪ میباشد. پرونده مقاله -
مقاله
3 - بازشناسی مقاوم به نویز و تنوعات گفتار از طریق به اشتراک گذاشتن مؤلفههای مشترکفصلنامه مهندسی برق و مهندسی کامپيوتر ايران , شماره 26 , سال 9 , تابستان 1390یکی از روشهای بهبود عملکرد سامانههای بازشناسی در برابر نویز و یا تنوعات ناخواسته، استخراج اطلاعات مشترک بین دادههای مختلف ورودی میباشد. در مورد شبکههایی که ظرفیت بسیار پایینی دارند امکان ذخیرهسازی الگوها بهصورت مفاهیم جداگانه وجود ندارد، لذا کیفیت بازشناسی شدیداً چکیده کاملیکی از روشهای بهبود عملکرد سامانههای بازشناسی در برابر نویز و یا تنوعات ناخواسته، استخراج اطلاعات مشترک بین دادههای مختلف ورودی میباشد. در مورد شبکههایی که ظرفیت بسیار پایینی دارند امکان ذخیرهسازی الگوها بهصورت مفاهیم جداگانه وجود ندارد، لذا کیفیت بازشناسی شدیداً افت پیدا میکند. در این مقاله ساختاری ارائه شده است که بتواند زیرفضای مشترک بین دادههای ورودی را استخراج کرده و آن را در میان گویندگان مختلف به اشتراک بگذارد. ساختار چندتکلیفی شبکه این امکان را فراهم میکند که این زیرفضا بهصورت یک جاذب پیوسته واحد شکل بگیرد که این جاذب نسبت به تنوعاتی مانند تغییرات گوینده در فضای ورودی پویا میباشد. لذا دادههای ورودی آغشته به نویز توسط یک نگاشت غیر خطی به یک مانیفولد در ابعاد پایین فیلتر میشوند که پویایی این مانیفولد مقاومبودن آن را نسبت به تنوعاتی مثل تغییر گوینده تأمین میکند. اتصالات بازگشتی در طی روند تعلیم، یک جاذب پیوسته را در فضای ورودی شکل میدهند که کدهای گوینده به اطلاعات لازم جهت پویاسازی این جاذب تبدیل میشوند. پس از فرایند جذبشدن داده آغشته به نویز، عمل بازشناسی بر روی داده تمیز حاصله اعمال میشود. استخراج و به اشتراک گذاشتن مؤلفههای مشترک در این ساختار توانسته است کارایی جاذبها را در بازشناسی مقاوم آوا تا حدود 5% نسبت به مدل مشابه، بدون پویایی جاذبها، در نسبت سیگنال به نویز dB 0 بهبود بخشد. پرونده مقاله