یکی از چالشهای بازشناسی ارقام مجزای فارسی، مشابهت تلفظ برخی از ارقام مانند "صفر و سه"، "نه و دو" و "پنج، هفت و هشت" میباشد. این چالش منجر به بازشناسی یک رقم به جای رقم مشابه شده و دقت بازشناسی را کاهش میدهد. در این مقاله، یک راهکار ترکیبی مبتنی بر حافظه کوتاهمدت مان چکیده کامل
یکی از چالشهای بازشناسی ارقام مجزای فارسی، مشابهت تلفظ برخی از ارقام مانند "صفر و سه"، "نه و دو" و "پنج، هفت و هشت" میباشد. این چالش منجر به بازشناسی یک رقم به جای رقم مشابه شده و دقت بازشناسی را کاهش میدهد. در این مقاله، یک راهکار ترکیبی مبتنی بر حافظه کوتاهمدت ماندگار (LSTM) و مدل مخفی مارکف (HMM) برای رفع چالش مذکور ارائه شده که نرخ بازشناسی ارقام فارسی مبتنی بر HMM را به طور متوسط 2% و در بهترین حالت 8% بهبود داده است. با توجه به تشدید چالش بازشناسی ارقام مشابه فارسی در شرایط نویزی، در ادامه کار مقاومسازی بازشناسی ارقام مشابه فارسی مورد توجه قرار گرفت. به منظور افزایش مقاومت بازشناس مبتنی بر LSTM، از ویژگیهای مقاوم به نویز مستخرج از طیف گفتار مانند آنتروپی طیفی، درجه از هم پاشی، فرکانس نیمساز، همواری طیفی، فرمانت اول و نرخ گذار از صفر مبتنی بر تابع همبستگی استفاده گردید. استفاده از این ویژگیها، ضمن کاهش تعداد ویژگیها برای بازشناسی ارقام مشابه فارسی از 39 ضریب به حداکثر 4 و حداقل 1 ضریب، به طور متوسط به ترتیب بهبود 10، 13، 15 و 13 درصدی مقاومت بازشناس ارقام مشابه را در شرایط متنوع نویزی (30 حالت مختلف حاصل از پنج نوع نویز سفید، صورتی، همهمه، کارخانه و ماشین و شش نسبت سیگنال به نویز 5-، 0، 5، 10، 15 و 20 دسیبل) در مقایسه با بازشناسهای مبتنی بر HMM، LSTM، شبکه باور عمیق با ویژگیهای مل کپستروم و شبکه عصبی کانولوشنی با ویژگیهای مل اسپکتوگرام به همراه دارد.
پرونده مقاله
این پژوهش به تشخیص احساسات از روی سیگنالهای EEG به کمک یادگیری عمیق مبتنی بر حافظه کوتاهمدت ماندگار (LSTM) دوجهته و مکانیسم توجه میپردازد. در این پژوهش از دو پایگاه داده SEED و DEAP برای تشخیص احساس استفاده شده است. داده SEED شامل سیگنالهای EEG در 62 کانال متعلق به چکیده کامل
این پژوهش به تشخیص احساسات از روی سیگنالهای EEG به کمک یادگیری عمیق مبتنی بر حافظه کوتاهمدت ماندگار (LSTM) دوجهته و مکانیسم توجه میپردازد. در این پژوهش از دو پایگاه داده SEED و DEAP برای تشخیص احساس استفاده شده است. داده SEED شامل سیگنالهای EEG در 62 کانال متعلق به 15 شرکتکننده در سه دسته مختلف از احساسات مثبت، خنثی و منفی است. داده DEAP شامل سیگنال EEG در 32 کانال متعلق به 32 شرکتکننده در دو دسته از ظرفیت و برانگیختگی است. LSTM کارایی خود را در استخراج اطلاعات زمانی از سیگنالهای فیزیولوژیکی طولانی نشان داده است. نوآوریهای این پژوهش شامل استفاده از یک تابع تلفات جدید و بهینهساز بیزین برای یافتن نرخ یادگیری اولیه است. صحت روش پیشنهادی برای طبقهبندی احساسات در پایگاه داده SEED 72/96 درصد شده است. صحت روش پیشنهادی برای طبقهبندی احساس در دو دسته ظرفیت و برانگیختگی در پایگاه داده DEAP بهترتیب 9/94 و 1/97 درصد است. نهایتاً مقایسه نتایج بهدستآمده با پژوهشهای اخیر روی دادههای یکسان، نشان از بهبود نسبتاً خوب روش پیشنهادی دارد.
پرونده مقاله
رایمگ
سامانه رایمگ تمامی فرآیندهای دریافت، ارزیابی و داوری، ویراستاری، صفحهآرایی و انتشار الکترونیکی نشریات علمی را به انجام میرساند