در حال حاضر تلاش فراگيري براي طراحي سيستمهاي بازشناسي گفتار مقاوم نسبت به تنوعات گفتار صورت ميگيرد. يكي از اين تنوعات، گفتار تلفني نسبت به گفتار مستقيم (تهيه شده در شرايط عاري از هر گونه نويز محيط) ميباشد. در مقاله حاضر با بهرهگيري از پارامترهاي طيفي LHCB و طراحي يك More
در حال حاضر تلاش فراگيري براي طراحي سيستمهاي بازشناسي گفتار مقاوم نسبت به تنوعات گفتار صورت ميگيرد. يكي از اين تنوعات، گفتار تلفني نسبت به گفتار مستقيم (تهيه شده در شرايط عاري از هر گونه نويز محيط) ميباشد. در مقاله حاضر با بهرهگيري از پارامترهاي طيفي LHCB و طراحي يك سري آزمايشهاي عملي مشخص ميگردد كه اين نوع بازنمايي براي طراحي سيستمهاي بازشناسي گفتار تلفني و سيستمهاي بازشناسي توأم گفتار مستقيم و تلفني كه مبتني بر شبكههاي عصبي باشد نسبت به روش متداول MFCC مناسبتر است. سپس با استخراج بردارهاي بازنمايي LHCB از گفتار مستقيم و تلفني و طراحي مدل بازشناسي گفتار مبتني بر شبكه عصبي MLP، يك سيستم بازشناسي توأم گفتار مستقيم و تلفني ساخته ميشود. آنگاه با استفاده از معكوسسازي شبكههاي عصبي به روش گراديان بردارهاي بازنمايي گفتار تلفني به سمت بردارهاي بازنمايي گفتار مستقيم اصلاح ميگردد و با تعليم شبكه ديگري روي دادگان اصلاح شده تلفني و دادگان مستقيم دست نخورده، افزايش4/1٪ در صحت بازشناسي گفتار تلفني حاصل شده است. در مرحله بعد با استفاده از معكوس سازي عمومي شبكههاي عصبي هر دو دسته بردارهاي بازنمايي گفتار مستقيم و تلفني به گونهاي اصلاح ميشوند كه بيشتر حاوي اطلاعات آوايي گفتار باشند و ساير تنوعات تا جاي ممكن حذف شوند. با تعليم شبكه ديگري روي اين دادگان اصلاح شده افزايش 98/2٪ در صحت بازشناسي گفتار تلفني و 68/1٪ در صحت بازشناسي گفتار مستقيم بدست آمده است.
Manuscript profile
Rimag
Rimag is an integrated platform to accomplish all scientific journal requirements such as submission, evaluation, reviewing, editing, DOI assignment and publishing in the web.