-
دسترسی آزاد مقاله
1 - Long-Term Spectral Pseudo-Entropy (LTSPE): A New Robust Feature for Speech Activity Detection
Mohammad Rasoul kahrizi Seyed jahanshah kabudianSpeech detection systems are known as a type of audio classifier systems which are used to recognize, detect or mark parts of an audio signal including human speech. Applications of these types of systems include speech enhancement, noise cancellation, identification, r چکیده کاملSpeech detection systems are known as a type of audio classifier systems which are used to recognize, detect or mark parts of an audio signal including human speech. Applications of these types of systems include speech enhancement, noise cancellation, identification, reducing the size of audio signals in communication and storage, and many other applications. Here, a novel robust feature named Long-Term Spectral Pseudo-Entropy (LTSPE) is proposed to detect speech and its purpose is to improve performance in combination with other features, increase accuracy and to have acceptable performance. To this end, the proposed method is compared to other new and well-known methods of this context in two different conditions, with uses a well-known speech enhancement algorithm to improve the quality of audio signals and without using speech enhancement algorithm. In this research, the MUSAN dataset has been used, which includes a large number of audio signals in the form of music, speech and noise. Also various known methods of machine learning have been used. As well as Criteria for measuring accuracy and error in this paper are the criteria for F-Score and Equal-Error Rate (EER) respectively. Experimental results on MUSAN dataset show that if our proposed feature LTSPE is combined with other features, the performance of the detector is improved. Moreover, this feature has higher accuracy and lower error compared to similar ones. پرونده مقاله -
دسترسی آزاد مقاله
2 - استخراج و مدلسازي واحدهاي آوايي وابسته به بافت براي بهبود دقت بازشناسي گفتار پيوسته با روش دستهبندي واجها
محمد بحرانی حسین ثامتیدر اين مقاله براي بهبود دقت يک سيستم بازشناسي گفتار پيوسته فارسي، روش وابسته به بافت مناسبي پيشنهاد شده است. به دليل بعضي محدوديتهاي موجود در سيستم بازشناسي، از ايدة واحدهاي آوايي چندگانه براي استخراج واحدهاي آوايي وابسته به بافت استفاده گرديده است. بر اساس اين ايده هر چکیده کاملدر اين مقاله براي بهبود دقت يک سيستم بازشناسي گفتار پيوسته فارسي، روش وابسته به بافت مناسبي پيشنهاد شده است. به دليل بعضي محدوديتهاي موجود در سيستم بازشناسي، از ايدة واحدهاي آوايي چندگانه براي استخراج واحدهاي آوايي وابسته به بافت استفاده گرديده است. بر اساس اين ايده هر واج به چند نوع گوناگون دستهبندي ميشود و هر دسته جداگانه مدلسازي ميگردد. دستهبندي واجها به صورت بينظارت و با استفاده از الگوريتم k-means انجام شده است و براي محاسبه مركز دستهها روش كارايي پيشنهاد شده است. تعداد دسته مناسب براي هر واج با توجه به حجم دادههاي آموزشي آن واج و دقت بازشناسي واج در هنگام بهکارگيري مدلهاي مستقل از بافت، حدس زده شده و سپس با روشهاي مبتني بر سعي و خطا، تعداد دسته بهينه براي هر واج تعيين شده است. سپس هر دسته به عنوان يک واحد آوايي وابسته به بافت مدلسازي گرديده است. با استفاده از اين مدلها حدود 22 درصد کاهش در نرخ خطاي کلمات حاصل شده است. پرونده مقاله -
دسترسی آزاد مقاله
3 - بازشناسي مقاوم و توأم گفتار مستقيم و تلفني با استخراج مناسب بردارهاي بازنمايي و اصلاح آنها توسط معكوسسازي شبكههاي عصبي
منصور ولی سیدعلی سیدصالحیدر حال حاضر تلاش فراگيري براي طراحي سيستمهاي بازشناسي گفتار مقاوم نسبت به تنوعات گفتار صورت ميگيرد. يكي از اين تنوعات، گفتار تلفني نسبت به گفتار مستقيم (تهيه شده در شرايط عاري از هر گونه نويز محيط) ميباشد. در مقاله حاضر با بهرهگيري از پارامترهاي طيفي LHCB و طراحي يك چکیده کاملدر حال حاضر تلاش فراگيري براي طراحي سيستمهاي بازشناسي گفتار مقاوم نسبت به تنوعات گفتار صورت ميگيرد. يكي از اين تنوعات، گفتار تلفني نسبت به گفتار مستقيم (تهيه شده در شرايط عاري از هر گونه نويز محيط) ميباشد. در مقاله حاضر با بهرهگيري از پارامترهاي طيفي LHCB و طراحي يك سري آزمايشهاي عملي مشخص ميگردد كه اين نوع بازنمايي براي طراحي سيستمهاي بازشناسي گفتار تلفني و سيستمهاي بازشناسي توأم گفتار مستقيم و تلفني كه مبتني بر شبكههاي عصبي باشد نسبت به روش متداول MFCC مناسبتر است. سپس با استخراج بردارهاي بازنمايي LHCB از گفتار مستقيم و تلفني و طراحي مدل بازشناسي گفتار مبتني بر شبكه عصبي MLP، يك سيستم بازشناسي توأم گفتار مستقيم و تلفني ساخته ميشود. آنگاه با استفاده از معكوسسازي شبكههاي عصبي به روش گراديان بردارهاي بازنمايي گفتار تلفني به سمت بردارهاي بازنمايي گفتار مستقيم اصلاح ميگردد و با تعليم شبكه ديگري روي دادگان اصلاح شده تلفني و دادگان مستقيم دست نخورده، افزايش4/1٪ در صحت بازشناسي گفتار تلفني حاصل شده است. در مرحله بعد با استفاده از معكوس سازي عمومي شبكههاي عصبي هر دو دسته بردارهاي بازنمايي گفتار مستقيم و تلفني به گونهاي اصلاح ميشوند كه بيشتر حاوي اطلاعات آوايي گفتار باشند و ساير تنوعات تا جاي ممكن حذف شوند. با تعليم شبكه ديگري روي اين دادگان اصلاح شده افزايش 98/2٪ در صحت بازشناسي گفتار تلفني و 68/1٪ در صحت بازشناسي گفتار مستقيم بدست آمده است. پرونده مقاله