• فهرس المقالات Speech Processing

      • حرية الوصول المقاله

        1 - Long-Term Spectral Pseudo-Entropy (LTSPE): A New Robust Feature for Speech Activity Detection
        Mohammad Rasoul  kahrizi Seyed jahanshah kabudian
        Speech detection systems are known as a type of audio classifier systems which are used to recognize, detect or mark parts of an audio signal including human speech. Applications of these types of systems include speech enhancement, noise cancellation, identification, r أکثر
        Speech detection systems are known as a type of audio classifier systems which are used to recognize, detect or mark parts of an audio signal including human speech. Applications of these types of systems include speech enhancement, noise cancellation, identification, reducing the size of audio signals in communication and storage, and many other applications. Here, a novel robust feature named Long-Term Spectral Pseudo-Entropy (LTSPE) is proposed to detect speech and its purpose is to improve performance in combination with other features, increase accuracy and to have acceptable performance. To this end, the proposed method is compared to other new and well-known methods of this context in two different conditions, with uses a well-known speech enhancement algorithm to improve the quality of audio signals and without using speech enhancement algorithm. In this research, the MUSAN dataset has been used, which includes a large number of audio signals in the form of music, speech and noise. Also various known methods of machine learning have been used. As well as Criteria for measuring accuracy and error in this paper are the criteria for F-Score and Equal-Error Rate (EER) respectively. Experimental results on MUSAN dataset show that if our proposed feature LTSPE is combined with other features, the performance of the detector is improved. Moreover, this feature has higher accuracy and lower error compared to similar ones. تفاصيل المقالة
      • حرية الوصول المقاله

        2 - A New VAD Algorithm using Sparse Representation in Spectro-Temporal Domain
        Mohadeseh  Eshaghi Farbod  Razzazi Alireza Behrad
        This paper proposes two algorithms for Voice Activity Detection (VAD) based on sparse representation in spectro-temporal domain. The first algorithm was made using two-dimensional STRF (Spectro-Temporal Response Field) space based on sparse representation. Dictionaries أکثر
        This paper proposes two algorithms for Voice Activity Detection (VAD) based on sparse representation in spectro-temporal domain. The first algorithm was made using two-dimensional STRF (Spectro-Temporal Response Field) space based on sparse representation. Dictionaries with different atomic sizes and two dictionary learning methods were investigated in this approach. This algorithm revealed good results at high SNRs (signal-to-noise ratio). The second algorithm, whose approach is more complicated, suggests a speech detector using the sparse representation in four-dimensional STRF space. Due to the large volume of STRF's four-dimensional space, this space was divided into cubes, with dictionaries made for each cube separately by NMF (non-negative matrix factorization) learning algorithm. Simulation results were presented to illustrate the effectiveness of our new VAD algorithms. The results revealed that the achieved performance was 90.11% and 91.75% under -5 dB SNR in white and car noise respectively, outperforming most of the state-of-the-art VAD algorithms. تفاصيل المقالة
      • حرية الوصول المقاله

        3 - طراحی و جمع‌آوری دادگان گفتاری به‌عنوان گام نخست بومی‌سازی تشخیص هوشمند اوتیسم در کودکان ایرانی
        مریم علیزاده شیما طبیبیان
        اختلال طیف اوتیسم، نوعی اختلال رشدی به شمار می‌آید که از طریق علائمی مانند ناتوانی در برقراری ارتباط اجتماعی، خود را نشان می‌دهد. بنابراین بارزترین نشانه افراد مبتلا به اوتیسم، اختلال گفتار است. این مقاله در بخش اول به بررسی و مرور مطالعات انجام‌شده برای تشخیص خودکار او أکثر
        اختلال طیف اوتیسم، نوعی اختلال رشدی به شمار می‌آید که از طریق علائمی مانند ناتوانی در برقراری ارتباط اجتماعی، خود را نشان می‌دهد. بنابراین بارزترین نشانه افراد مبتلا به اوتیسم، اختلال گفتار است. این مقاله در بخش اول به بررسی و مرور مطالعات انجام‌شده برای تشخیص خودکار اوتیسم بر اساس پردازش گفتار افراد مشکوک به ابتلا می‌پردازد. با توجه به بررسی‌های انجام‌شده، رویکردهای اصلی پردازش گفتار برای تشخیص اوتیسم به دو گروه تقسیم می‌شوند. گروه اول با پردازش پاسخ‌ها یا احساسات افراد مورد آزمایش در پاسخ به سؤالات یا داستان پرسشگر، افراد مبتلا به اوتیسم را تشخیص می‌دهند. گروه دوم، افراد مبتلا به اوتیسم را از طریق میزان نرخ دقت بازشناسی گفتارشان در سیستم‌های تشخیص خودکار گفتار از افراد سالم تفکیک می‌کنند. علی‌رغم پژوهش‌های زیاد انجام‌شده در این حوزه در خارج از ایران، پژوهش‌های اندکی داخل ایران انجام شده‌اند که مهم‌ترین دلیل آن، عدم وجود دادگان غنی متناسب با نیازمندی‌های تشخیص اوتیسم مبتنی بر پردازش گفتار افراد مبتلا است. در بخش دوم پژوهش حاضر به روند طراحی، جمع‌آوری و ارزیابی یک مجموعه دادگان گفتاری مستقل از گوینده برای تشخیص اوتیسم در کودکان ایرانی به‌عنوان گام نخست بومی‌سازی حوزه مذکور پرداخته‌ایم. تفاصيل المقالة