• Home
  • Seyed Ali Seyed Salehi

    List of Articles Seyed Ali Seyed Salehi


  • Article

    1 - بازشناسي مقاوم و توأم گفتار مستقيم و تلفني با استخراج مناسب بردارهاي بازنمايي و اصلاح آنها توسط معكوس‌سازي شبكه‌هاي عصبي
    Nashriyyah -i Muhandisi -i Barq va Muhandisi -i Kampyutar -i Iran , Issue 7 , Year , Spring_Summer 2006
    در حال حاضر تلاش فراگيري براي طراحي سيستم‌هاي بازشناسي گفتار مقاوم نسبت به تنوعات گفتار صورت مي‌گيرد. يكي از اين تنوعات، گفتار تلفني نسبت به گفتار مستقيم (تهيه شده در شرايط عاري از هر گونه نويز محيط) مي‌باشد. در مقاله حاضر با بهره‌گيري از پارامترهاي طيفي LHCB و طراحي يك More
    در حال حاضر تلاش فراگيري براي طراحي سيستم‌هاي بازشناسي گفتار مقاوم نسبت به تنوعات گفتار صورت مي‌گيرد. يكي از اين تنوعات، گفتار تلفني نسبت به گفتار مستقيم (تهيه شده در شرايط عاري از هر گونه نويز محيط) مي‌باشد. در مقاله حاضر با بهره‌گيري از پارامترهاي طيفي LHCB و طراحي يك سري آزمايشهاي عملي مشخص مي‌گردد كه اين نوع بازنمايي براي طراحي سيستم‌هاي بازشناسي گفتار تلفني و سيستم‌هاي بازشناسي توأم گفتار مستقيم و تلفني كه مبتني بر شبكه‌هاي عصبي باشد نسبت به روش متداول MFCC مناسب‌تر است. سپس با استخراج بردارهاي بازنمايي LHCB از گفتار مستقيم و تلفني و طراحي مدل بازشناسي گفتار مبتني بر شبكه عصبي MLP، يك سيستم بازشناسي توأم گفتار مستقيم و تلفني ساخته مي‌شود. آنگاه با استفاده از معكوس‌سازي شبكه‎هاي عصبي به روش گراديان بردارهاي بازنمايي گفتار تلفني به سمت بردارهاي بازنمايي گفتار مستقيم اصلاح مي‌گردد و با تعليم شبكه ديگري روي دادگان اصلاح شده تلفني و دادگان مستقيم دست نخورده، افزايش4/1٪ در صحت بازشناسي گفتار تلفني حاصل شده است. در مرحله بعد با استفاده از معكوس سازي عمومي شبكه‌هاي عصبي هر دو دسته بردارهاي بازنمايي گفتار مستقيم و تلفني به گونه‌اي اصلاح مي‌شوند كه بيشتر حاوي اطلاعات آوايي گفتار باشند و ساير تنوعات تا جاي ممكن حذف شوند. با تعليم شبكه ديگري روي اين دادگان اصلاح شده افزايش 98/2٪ در صحت بازشناسي گفتار تلفني و 68/1٪ در صحت بازشناسي گفتار مستقيم بدست آمده است. Manuscript profile

  • Article

    2 - بهبود مانيفولد حالات و تصاوير مجازی با به‌کارگيری شبکه‌های عصبی دوسويه در بازشناسی چهره با يک تصوير از هر فرد
    Nashriyyah -i Muhandisi -i Barq va Muhandisi -i Kampyutar -i Iran , Issue 25 , Year , Spring 2011
    در اين مقاله به‌منظور توسعه عملکرد مدل‌های شبکه عصبی در بازشناسی چهره با يک تصوير از هر فرد، يک ساختار شبکه عصبی دوسويه با الهام از نئوکورتکس مغز انسان ارائه شده است. در ساختار پيشنهادی همانند نئوکورتکس در ابتدا طی يک مرحله پردازش از پايين به بالا، يک تفسير زمخت از ورود More
    در اين مقاله به‌منظور توسعه عملکرد مدل‌های شبکه عصبی در بازشناسی چهره با يک تصوير از هر فرد، يک ساختار شبکه عصبی دوسويه با الهام از نئوکورتکس مغز انسان ارائه شده است. در ساختار پيشنهادی همانند نئوکورتکس در ابتدا طی يک مرحله پردازش از پايين به بالا، يک تفسير زمخت از ورودی صورت می‌گيرد، سپس در مرحله بعد نتايج بازشناسی اوليه ضمن عبور از يک شبکه عصبی معکوس پالايش می‌شوند. از اين مدل جهت جداسازی غير خطی اطلاعات فرد از حالت و تخمين مانيفولدهای اطلاعات فرد و حالت استفاده شده است. به‌منظور افزايش تعداد نمونه‌های تعليم در شبکه طبقه‌بندی کننده با استفاده از مانيفولدهای تخمين زده شده، تصاوير مجازی چهره‌های نرمال موجود در پايگاه داده تست توليد شده است. با تعليم شبکه طبقه‌بندی کننده توسط تصاوير مجازی حاصل از تعليم شبکه دوسويه، درصد صحت بازشناسی 45/85٪ روی دادگان تست حاصل شده که در مقايسه با توليد تصاوير مجازی با استفاده از روش خوشه‌بندی بدون سرپرستی اطلاعات افراد و حالات دارای بهبود 82/1٪ می‌باشد. Manuscript profile

  • Article

    3 - بازشناسی مقاوم به نویز و تنوعات گفتار از طریق به اشتراک گذاشتن مؤلفه‌های مشترک
    Nashriyyah -i Muhandisi -i Barq va Muhandisi -i Kampyutar -i Iran , Issue 26 , Year , Summer 2011
    یکی از روش‌های بهبود عملکرد سامانه‌های بازشناسی در برابر نویز و یا تنوعات ناخواسته، استخراج اطلاعات مشترک بین داده‌های مختلف ورودی می‌باشد. در مورد شبکه‌هایی که ظرفیت بسیار پایینی دارند امکان ذخیره‌سازی الگوها به‌صورت مفاهیم جداگانه وجود ندارد، لذا کیفیت بازشناسی شدیداً More
    یکی از روش‌های بهبود عملکرد سامانه‌های بازشناسی در برابر نویز و یا تنوعات ناخواسته، استخراج اطلاعات مشترک بین داده‌های مختلف ورودی می‌باشد. در مورد شبکه‌هایی که ظرفیت بسیار پایینی دارند امکان ذخیره‌سازی الگوها به‌صورت مفاهیم جداگانه وجود ندارد، لذا کیفیت بازشناسی شدیداً افت پیدا می‌کند. در این مقاله ساختاری ارائه شده است که بتواند زیرفضای مشترک بین داده‌های ورودی را استخراج کرده و آن را در میان گویندگان مختلف به اشتراک بگذارد. ساختار چندتکلیفی شبکه این امکان را فراهم می‌کند که این زیرفضا به‌صورت یک جاذب پیوسته واحد شکل بگیرد که این جاذب نسبت به تنوعاتی مانند تغییرات گوینده در فضای ورودی پویا می‌باشد. لذا داده‌های ورودی آغشته به نویز توسط یک نگاشت غیر خطی به یک مانیفولد در ابعاد پایین فیلتر می‌شوند که پویایی این مانیفولد مقاوم‌بودن آن را نسبت به تنوعاتی مثل تغییر گوینده تأمین می‌کند. اتصالات بازگشتی در طی روند تعلیم، یک جاذب پیوسته را در فضای ورودی شکل می‌دهند که کدهای گوینده به اطلاعات لازم جهت پویاسازی این جاذب تبدیل می‌شوند. پس از فرایند جذب‌شدن داده آغشته به نویز، عمل بازشناسی بر روی داده تمیز حاصله اعمال می‌شود. استخراج و به اشتراک گذاشتن مؤلفه‌های مشترک در این ساختار توانسته است کارایی جاذب‌ها را در بازشناسی مقاوم آوا تا حدود 5% نسبت به مدل مشابه، بدون پویایی جاذب‌ها، در نسبت سیگنال به نویز dB 0 بهبود بخشد. Manuscript profile