• فهرست مقالات Speech Recognition

      • دسترسی آزاد مقاله

        1 - Language Model Adaptation Using Dirichlet Class Language Model Based on Part-of-Speech
        Ali Hatami احمد اکبری Babak Nasersharif
        Language modeling has many applications in a large variety of domains. Performance of this model depends on its adaptation to a particular style of data. Accordingly, adaptation methods endeavour to apply syntactic and semantic characteristics of the language for langua چکیده کامل
        Language modeling has many applications in a large variety of domains. Performance of this model depends on its adaptation to a particular style of data. Accordingly, adaptation methods endeavour to apply syntactic and semantic characteristics of the language for language modeling. The previous adaptation methods such as family of Dirichlet class language model (DCLM) extract class of history words. These methods due to lake of syntactic information are not suitable for high morphology languages such as Farsi. In this paper, we present an idea for using syntactic information such as part-of-speech (POS) in DCLM for combining with one of the language models of n-gram family. In our work, word clustering is based on POS of previous words and history words in DCLM. The performance of language models are evaluated on BijanKhan corpus using a hidden Markov model based ASR system. The results show that use of POS information along with history words and class of history words improves performance of language model, and decreases the perplexity on our corpus. Exploiting POS information along with DCLM, the word error rate of the ASR system decreases by 1.2% compared to DCLM. پرونده مقاله
      • دسترسی آزاد مقاله

        2 - Long-Term Spectral Pseudo-Entropy (LTSPE): A New Robust Feature for Speech Activity Detection
        Mohammad Rasoul  kahrizi Seyed jahanshah kabudian
        Speech detection systems are known as a type of audio classifier systems which are used to recognize, detect or mark parts of an audio signal including human speech. Applications of these types of systems include speech enhancement, noise cancellation, identification, r چکیده کامل
        Speech detection systems are known as a type of audio classifier systems which are used to recognize, detect or mark parts of an audio signal including human speech. Applications of these types of systems include speech enhancement, noise cancellation, identification, reducing the size of audio signals in communication and storage, and many other applications. Here, a novel robust feature named Long-Term Spectral Pseudo-Entropy (LTSPE) is proposed to detect speech and its purpose is to improve performance in combination with other features, increase accuracy and to have acceptable performance. To this end, the proposed method is compared to other new and well-known methods of this context in two different conditions, with uses a well-known speech enhancement algorithm to improve the quality of audio signals and without using speech enhancement algorithm. In this research, the MUSAN dataset has been used, which includes a large number of audio signals in the form of music, speech and noise. Also various known methods of machine learning have been used. As well as Criteria for measuring accuracy and error in this paper are the criteria for F-Score and Equal-Error Rate (EER) respectively. Experimental results on MUSAN dataset show that if our proposed feature LTSPE is combined with other features, the performance of the detector is improved. Moreover, this feature has higher accuracy and lower error compared to similar ones. پرونده مقاله
      • دسترسی آزاد مقاله

        3 - استخراج و مدل‌سازي واحدهاي آوايي وابسته به بافت براي بهبود دقت بازشناسي گفتار پيوسته با روش دسته‌بندي واج‌ها
        محمد بحرانی حسین ثامتی
        در اين مقاله براي بهبود دقت يک سيستم بازشناسي گفتار پيوسته فارسي، روش وابسته به بافت مناسبي پيشنهاد شده است. به دليل بعضي محدوديت‌هاي موجود در سيستم بازشناسي، از ايدة واحدهاي آوايي چندگانه براي استخراج واحدهاي آوايي وابسته به بافت استفاده گرديده است. بر اساس اين ايده هر چکیده کامل
        در اين مقاله براي بهبود دقت يک سيستم بازشناسي گفتار پيوسته فارسي، روش وابسته به بافت مناسبي پيشنهاد شده است. به دليل بعضي محدوديت‌هاي موجود در سيستم بازشناسي، از ايدة واحدهاي آوايي چندگانه براي استخراج واحدهاي آوايي وابسته به بافت استفاده گرديده است. بر اساس اين ايده هر واج به چند نوع گوناگون دسته‌بندي مي‌شود و هر دسته جداگانه مدل‌سازي مي‌گردد. دسته‌بندي واج‌ها به صورت بي‌نظارت و با استفاده از الگوريتم k-means انجام شده است و براي محاسبه مركز دسته‌ها روش كارايي پيشنهاد شده است. تعداد دسته مناسب براي هر واج با توجه به حجم داده‌هاي آموزشي آن واج و دقت بازشناسي واج در هنگام به‌کارگيري مدل‌هاي مستقل از بافت، حدس زده شده و سپس با روش‌هاي مبتني بر سعي و خطا، تعداد دسته بهينه براي هر واج تعيين شده است. سپس هر دسته به عنوان يک واحد آوايي وابسته به بافت مدل‌سازي گرديده است. با استفاده از اين مدل‌ها حدود 22 درصد کاهش در نرخ خطاي کلمات حاصل شده است. پرونده مقاله
      • دسترسی آزاد مقاله

        4 - بازشناسي مقاوم و توأم گفتار مستقيم و تلفني با استخراج مناسب بردارهاي بازنمايي و اصلاح آنها توسط معكوس‌سازي شبكه‌هاي عصبي
        منصور ولی سیدعلی سیدصالحی
        در حال حاضر تلاش فراگيري براي طراحي سيستم‌هاي بازشناسي گفتار مقاوم نسبت به تنوعات گفتار صورت مي‌گيرد. يكي از اين تنوعات، گفتار تلفني نسبت به گفتار مستقيم (تهيه شده در شرايط عاري از هر گونه نويز محيط) مي‌باشد. در مقاله حاضر با بهره‌گيري از پارامترهاي طيفي LHCB و طراحي يك چکیده کامل
        در حال حاضر تلاش فراگيري براي طراحي سيستم‌هاي بازشناسي گفتار مقاوم نسبت به تنوعات گفتار صورت مي‌گيرد. يكي از اين تنوعات، گفتار تلفني نسبت به گفتار مستقيم (تهيه شده در شرايط عاري از هر گونه نويز محيط) مي‌باشد. در مقاله حاضر با بهره‌گيري از پارامترهاي طيفي LHCB و طراحي يك سري آزمايشهاي عملي مشخص مي‌گردد كه اين نوع بازنمايي براي طراحي سيستم‌هاي بازشناسي گفتار تلفني و سيستم‌هاي بازشناسي توأم گفتار مستقيم و تلفني كه مبتني بر شبكه‌هاي عصبي باشد نسبت به روش متداول MFCC مناسب‌تر است. سپس با استخراج بردارهاي بازنمايي LHCB از گفتار مستقيم و تلفني و طراحي مدل بازشناسي گفتار مبتني بر شبكه عصبي MLP، يك سيستم بازشناسي توأم گفتار مستقيم و تلفني ساخته مي‌شود. آنگاه با استفاده از معكوس‌سازي شبكه‎هاي عصبي به روش گراديان بردارهاي بازنمايي گفتار تلفني به سمت بردارهاي بازنمايي گفتار مستقيم اصلاح مي‌گردد و با تعليم شبكه ديگري روي دادگان اصلاح شده تلفني و دادگان مستقيم دست نخورده، افزايش4/1٪ در صحت بازشناسي گفتار تلفني حاصل شده است. در مرحله بعد با استفاده از معكوس سازي عمومي شبكه‌هاي عصبي هر دو دسته بردارهاي بازنمايي گفتار مستقيم و تلفني به گونه‌اي اصلاح مي‌شوند كه بيشتر حاوي اطلاعات آوايي گفتار باشند و ساير تنوعات تا جاي ممكن حذف شوند. با تعليم شبكه ديگري روي اين دادگان اصلاح شده افزايش 98/2٪ در صحت بازشناسي گفتار تلفني و 68/1٪ در صحت بازشناسي گفتار مستقيم بدست آمده است. پرونده مقاله
      • دسترسی آزاد مقاله

        5 - مقاوم‌سازی بازشناسی صحبت با به کارگیری فیلتر غیر خطی نامتقارن و استفاده از ویژگی‌های طیفی دلتا
        حسن فرسی سمانه کوهی مقدم
        در این مقاله یک الگوریتم استخراج ویژگی مقاوم به نویز را پیشنهاد می‌دهیم. در این الگوریتم به منظور استخراج ویژگی از یک فیلتر غیر خطی و پوشش موقتی استفاده می‌شود و با بهره‌گیری ازویژگی دلتا- طیفی به جای ویژگی کپسترال- دلتا دقت بازشناسی صحبت به طور مطلوبی افزایش می‌یابد. ت چکیده کامل
        در این مقاله یک الگوریتم استخراج ویژگی مقاوم به نویز را پیشنهاد می‌دهیم. در این الگوریتم به منظور استخراج ویژگی از یک فیلتر غیر خطی و پوشش موقتی استفاده می‌شود و با بهره‌گیری ازویژگی دلتا- طیفی به جای ویژگی کپسترال- دلتا دقت بازشناسی صحبت به طور مطلوبی افزایش می‌یابد. تقریباً همه سیستم‌های خودکار تشخیص صحبت (ASR) کنونی از ویژگی‌های کپسترال- دلتا و دلتا- دلتا برای استخراج ویژگی صحبت استفاده می‌کنند. در این مقاله هدف، رسیدن به ویژگی‌های مقاومی است که در شرایط مختلف نویزی بهبود بیشتری برای بازشناسی صحبت فراهم می‌آورد. برای تحقق این امر بر روی برخی از مشخصات کلیدی صحبت (خصوصاً مشخصات غیر ایستان صحبت) متمرکز شده که با سیگنال‌های نویزی اختلاف دارد. نتایج آزمایش‌های انجام‌گرفته نشان می‌دهد که دقت بازشناسی در مقایسه با MFCC و PLP در حضور انواع مختلف نویز بهبود یافته است. پرونده مقاله