تشخیص احساس از روی گفتار با استفاده از طبقهبند مبتنی بر مدل و ویژگیهای دینامیکی غیر خطی
محورهای موضوعی : مهندسی برق و کامپیوترعلی حریمی 1 , علیرضا احمدی فرد 2 , علی شهزادی 3 , خشایار یغمایی 4
1 - دانشگاه آزاد اسلامی، واحد شاهرود
2 - دانشگاه صنعتی شاهرود
3 - دانشگاه سمنان
4 - دانشگاه سمنان
کلید واژه:
چکیده مقاله :
با توجه به پیشرفتهای صورتگرفته در زمینه رباتیک و تعامل انسان و ماشین، تشخیص احساس از روی گفتار اهمیت ویژهای پیدا کرده است. در این مقاله یک طبقهبند مبتنی بر مدل احساسی برانگیختگی- جاذبه، برای بازشناسی احساس از روی گفتار استفاده شده است. در این روش، در مرحله اول نمونهها با استفاده از ویژگیهای متداول عروضی و طیفی بر مبنای سطح برانگیختگی طبقهبندی میشوند. سپس احساسهای با سطح برانگیختگی یکسان با استفاده از ویژگیهای پیشنهادی دینامیکی غیر خطی از یکدیگر جدا میشوند. ویژگیهای دینامیکی غیر خطی از روی مشخصات هندسی فضای فاز بازسازی شده سیگنال گفتار استخراج میشوند. بدین منظور چهار منحنی توصیفگر برای بازنمایی مشخصات هندسی فضای فاز بازسازی شده محاسبه میشوند. سپس مؤلفههای مهم تبدیل کسینوسی گسسته این منحنیها به عنوان ویژگیهای دینامیکی غیر خطی مورد استفاده قرار میگیرند. روش پیشنهادی بر روی پایگاه داده برلین با استفاده از تکنیک 10 تکه برابر ارزیابی شده و نرخ بازشناسی 35/96% و 18/87% برای زنان و مردان به دست آمد. با توجه به تعداد نمونهها در هر گروه جنسیتی، متوسط نرخ بازشناسی 34/92% برای سیستم پیشنهادی به دست آمد.
Recent developments in interactive and robotic systems have motivated researchers for recognizing human’s emotion from speech. The present study aimed to classify emotional speech signals using a two stage classifier based on arousal-valence emotion model. In this method, samples are firstly classified based on the arousal level using conventional prosodic and spectral features. Then, valence related emotions are classified using the proposed non-linear dynamics features (NLDs). NLDs are extracted from the geometrical properties of the reconstructed phase space of speech signal. For this purpose, four descriptor contours are employed to represent the geometrical properties of the reconstructed phase space. Then, the discrete cosine transform (DCT) is used to compress the information of these contours into a set of low order coefficients. The significant DCT coefficients of the descriptor contours form the proposed NLDs. The classification accuracy of the proposed system has been evaluated using the 10-fold cross-validation technique on the Berlin database. The average recognition rate of 96.35% and 87.18% were achieved for females and males, respectively. By considering the total number of male and female samples, the overall recognition rate of 92.34% is obtained for the proposed speech emotion recognition system.
