رقم المقالة : 1401092640455 زيارة : 3781 الصفحة: 39 - 46

نوع المخطوط: المحکّمة

تشخیص احساسات مبتنی بر سیگنال‌های EEG به کمک یادگیری عمیق مبتنی بر حافظه کوتاه‌مدت ماندگار دوجهته و مکانیسم توجه

الموضوعات :

1 - گروه مهندسی برق، دانشگاه آزاد اسلامی واحد مشهد، ایران
2 - گروه مهندسی کامپیوتر، دانشگاه آزاد اسلامی واحد مشهد، ایران

تاريخ الإرسال : 23 السبت , جمادى الأولى, 1444 تاريخ التأكيد : 25 الأحد , صفر, 1445 تاريخ الإصدار : 01 الأحد , محرم, 1446

الکلمات المفتاحية: تشخیص احساس, حافظه کوتاه‌مدت ماندگار دوجهته, سیگنال مغزی, مکانیسم توجه, یادگیری عمیق,

ملخص المقالة :

این پژوهش به تشخیص احساسات از روی سیگنال‌های EEG به کمک یادگیری عمیق مبتنی بر حافظه کوتاه‌مدت ماندگار (LSTM) دوجهته و مکانیسم توجه می‌پردازد. در این پژوهش از دو پایگاه داده SEED و DEAP برای تشخیص احساس استفاده شده است. داده SEED شامل سیگنال‌های EEG در 62 کانال متعلق به 15 شرکت‌کننده در سه دسته مختلف از احساسات مثبت، خنثی و منفی است. داده DEAP شامل سیگنال EEG در 32 کانال متعلق به 32 شرکت‌کننده در دو دسته از ظرفیت و برانگیختگی است. LSTM کارایی خود را در استخراج اطلاعات زمانی از سیگنال‌های فیزیولوژیکی طولانی نشان داده است. نوآوری‎های این پژوهش شامل استفاده از یک تابع تلفات جدید و بهینه‌ساز بیزین برای یافتن نرخ یادگیری اولیه است. صحت روش پیشنهادی برای طبقه‌بندی احساسات در پایگاه داده SEED 72/96 درصد شده است. صحت روش پیشنهادی برای طبقه‌بندی احساس در دو دسته ظرفیت و برانگیختگی در پایگاه داده DEAP به‌ترتیب 9/94 و 1/97 درصد است. نهایتاً مقایسه نتایج به‌دست‌آمده با پژوهش‌های اخیر روی داده‌های یکسان، نشان از بهبود نسبتاً خوب روش پیشنهادی دارد.

المصادر:

[1] A. S. A. Hans and S. Rao, "A CNN-LSTM based deep neural networks for facial emotion detection in videos," International J. of Advances in Signal and Image Sciences, vol. 7, no. 1, pp. 11-20, Jun. 2021.
[2] L. Mou, et al., "Driver stress detection via multimodal fusion using attention-based CNN-LSTM," Expert Systems with Applications, vol. 173, Article ID: 114693, Jul. 2021.
[3] N. S. Suhaimi, J. Mountstephens, and J. Teo, "EEG-based emotion recognition: a state-of-the-art review of current trends and opportunities," Computational Intelligence and Neuroscience, vol. 2020, Article ID: 8875426, 16 Sept. 2020.
[4] Y. Kim, H. Lee, and E. M. Provost, "Deep learning for robust feature generation in audiovisual emotion recognition," in Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing, pp. 3687-3691, Vancouver, Canada, 26-31 May 2013.
[5] C. Herrando, J. Jiménez-Martínez, M. J. Martín-De Hoyos, and E. Constantinides, "Emotional contagion triggered by online consumer reviews: evidence from a neuroscience study," J. of Retailing and Consumer Services, vol. 67, Article ID: 102973, Jul. 2022.
[6] M. Ali, A. H. Mosa, F. Al Machot, and K. Kyamakya, "EEG-based emotion recognition approach for e-healthcare applications," in Proc. 8th Int. Conf. on Ubiquitous and Future Networks, pp. 946-950, Vienna, Austria, 5-8 Jul. 2016.
[7] S. A. Hosseini, M. A. Khalilzadeh, and S. Changiz, "Emotional stress recognition system for affective computing based on bio-signals," J. of Biological Systems, vol. 18, no. spec01, pp. 101-114, 2010.
[8] A. Sakalle, P. Tomar, H. Bhardwaj, D. Acharya, and A. Bhardwaj, "A LSTM based deep learning network for recognizing emotions using wireless brainwave driven system," Expert Systems with Applications, vol. 173, Article ID: 114516, Jul. 2021.
[9] C. Li, Z. Bao, L. Li, and Z. Zhao, "Exploring temporal representations by leveraging attention-based bidirectional LSTM-RNNs for multi-modal emotion recognition," Information Processing & Management, vol. 57, no. 3, Article ID: 102185, May 2020.
[10] A. Bhattacharyya, R. K. Tripathy, L. Garg, and R. B. Pachori, "A novel multivariate-multiscale approach for computing EEG spectral and temporal complexity for human emotion recognition," IEEE Sensors J., vol. 21, no. 3, pp. 3579-3591, Feb. 2021.
[11] Y. Luo, et al., "EEG-based emotion classification using spiking neural networks," IEEE Access, vol. 8, pp. 46007-46016, 2020.
[12] Y. Wang, et al., "EEG-based emotion recognition with prototype-based data representation," in Proc. 41st Annual Int. Conf. of the IEEE Engineering in Medicine and Biology Society, pp. 684-689, Berlin, Germany, 23-27 Jul. 2019.
[13] M. M. Rahman, et al., "Recognition of human emotions using EEG signals: a review," Computers in Biology and Medicine, vol. 136 Article ID: 104696, Sept. 2021.
[14] J. Yang, X. Huang, H. Wu, and X. Yang, "EEG-based emotion classification based on bidirectional long short-term memory network," Procedia Computer Science, vol. 174, pp. 491-504, 2020.
[15] R. Andreasson, B. Alenljung, E. Billing, and R. Lowe, "Affective touch in human-robot interaction: conveying emotion to the nao robot," International J. of Social Robotics, vol. 10, no. 4, pp. 473-491, Dec. 2018.
[16] X. Wang, Y. Ren, Z. Luo, W. He, J. Hong, and Y. Huang, "Deep learning-based EEG emotion recognition: current trends and future perspectives," Frontiers in Psychology, vol. 14, Article ID: 1126994, Feb. 2023.
[17] M. K. Chowdary, J. Anitha, and D. J. Hemanth, "Emotion recognition from EEG signals using recurrent neural networks," Electronics, vol. 11, no. 15, Article ID: 2387, Jul. 2022.
[18] R. C. Dhingra and S. Ram Avtar Jaswal, "Emotion recognition based on EEG using DEAP dataset," European J. of Molecular & Clinical Medicine, vol. 8, no. 3, pp. 3509-3517, 2021.
[19] N. Zhuang, et al., "Emotion recognition from EEG signals using multidimensional information in EMD domain," BioMed Research International, vol. 2017, Article ID: 8317357, 2017.
[20] V. M. Joshi and R. B. Ghongade, "IDEA: intellect database for emotion analysis using EEG signal," J. of King Saud University-Computer and Information Sciences, vol. 34, no. 7, pp. 4433-4447, Jul. 2022.
[21] O. Atila and A. Şengür, "Attention guided 3D CNN-LSTM model for accurate speech based emotion recognition," Applied Acoustics, vol. 182, Article ID: 108260, Nov. 2021.
[22] X. Zheng and W. Chen, "An attention-based bi-LSTM method for visual object classification via EEG," Biomedical Signal Processing and Control, vol. 63, Article ID: 102174, Jan. 2021.
[23] D. Huang, et al., "Differences first in asymmetric brain: a bi-hemisphere discrepancy convolutional neural network for EEG emotion recognition," Neurocomputing, vol. 448, pp. 140-151, 11 Aug. 2021.
[24] S. Koelstra, et al., "Deap: a database for emotion analysis; using physiological signals," IEEE Trans. on Affective Computing, vol. 3, no. 1, pp. 18-31, Jun. 2011.
[25] M. Algarni, F. Saeed, T. Al-Hadhrami, F. Ghabban, and M. Al-Sarem, "Deep learning-based approach for emotion recognition using electroencephalography (EEG) signals using bi-directional long short-term memory (Bi-LSTM)," Sensors, vol. 22, no. 8, Article ID: 2976, Apr. 2022.
[26] W. L. Zheng and B. L. Lu, "Investigating critical frequency bands and channels for EEG-based emotion recognition with deep neural networks," IEEE Trans. on Autonomous Mental Development, vol. 7, no. 3, pp. 162-175, Sep. 2015.
[27] Q. Ma, M. Wang, L. Hu, L. Zhang, and Z. Hua, "A novel recurrent neural network to classify EEG signals for customers’ decision-making behavior prediction in brand extension scenario," Frontiers in Human Neuroscience, vol. 15, Article ID: 610890, Mar. 2021.
[28] S. Hochreiter and J. Schmidhuber, "Long short-term memory," Neural Computation, vol. 9, no. 8, pp. 1735-1780, Nov. 1997.
[29] S. Kumar, A. Sharma, and T. Tsunoda, "Brain wave classification using long short-term memory network based OPTICAL predictor," Scientific Reports, vol. 9, Article ID: 9153, Jun. 2019.
[30] M. Z. I. Ahmed and N. Sinha, "EEG-based emotion classification using LSTM under new paradigm," Biomedical Physics & Engineering Express, vol. 7, no. 6, Article ID: 065018, Sept. 2021.
[31] G. Liu and J. Guo, "Bidirectional LSTM with attention mechanism and convolutional layer for text classification," Neurocomputing, vol. 337, pp. 325-338, 14 Apr. 2019.
[32] J. C. Nunez, R. Cabido, J. J. Pantrigo, A. S. Montemayor, and J. F. Velez, "Convolutional neural networks and long short-term memory for skeleton-based human activity and hand gesture recognition," Pattern Recognition, vol. 76, pp. 80-94, Apr. 2018.
[33] K. Greff, R. K. Srivastava, J. Koutník, B. R. Steunebrink, and J. Schmidhuber, "LSTM: a search space odyssey," IEEE Trans. on Neural Networks and Learning Systems, vol. 28, no. 10, pp. 2222-2232, Mar. 2015.
[34] T. Shen, et al., "Disan: directional self-attention network for rnn/cnn-free language understanding," in Proc. of the AAAI Conf. on Artificial Intelligence, pp. 5446-5455, New Orleans, LA, USA, 2-7 Feb. 2018.
[35] S. Mirsamadi, E. Barsoum, and C. Zhang, "Automatic speech emotion recognition using recurrent neural networks with local attention," in Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing, pp. 2227-2231, New Orleans, LA, USA, 5-9 Mar. 2017.
[36] R. Dutta and M. Majumder, "Attention-based bidirectional LSTM with embedding technique for classification of COVID-19 articles," Intelligent Decision Technologies, vol. 16, no. 1, pp. 205-215, Apr. 2022.

نص كامل:

معرفي يک روش جديد خوشه‌يابي خودکار

مقاله پژوهشی

تشخیص احساسات مبتنی بر سیگنال‌های EEG به کمک یادگیری عمیق مبتنی بر حافظه کوتاه‌مدت ماندگار دوجهته و مکانیسم توجه

سید عابد حسینی و محبوبه هوشمند

چکیده: این پژوهش به تشخیص احساسات از روی سیگنال‌های EEG به کمک یادگیری عمیق مبتنی بر حافظه کوتاه‌مدت ماندگار (LSTM) دوجهته و مکانیسم توجه می‌پردازد. در این پژوهش از دو پایگاه داده SEED و DEAP برای تشخیص احساس استفاده شده است. داده SEED شامل سیگنال‌های EEG در 62 کانال متعلق به 15 شرکت‌کننده در سه دسته مختلف از احساسات مثبت، خنثی و منفی است. داده DEAP شامل سیگنال EEG در 32 کانال متعلق به 32 شرکت‌کننده در دو دسته از ظرفیت و برانگیختگی است. LSTM کارایی خود را در استخراج اطلاعات زمانی از سیگنال‌های فیزیولوژیکی طولانی نشان داده است. نوآوری‎های این پژوهش شامل استفاده از یک تابع تلفات جدید و بهینه‌ساز بیزین برای یافتن نرخ یادگیری اولیه است. صحت روش پیشنهادی برای طبقه‌بندی احساسات در پایگاه داده SEED 72/96 درصد شده است. صحت روش پیشنهادی برای طبقه‌بندی احساس در دو دسته ظرفیت و برانگیختگی در پایگاه داده DEAP به‌ترتیب 9/94 و 1/97 درصد است. نهایتاً مقایسه نتایج به‌دست‌آمده با پژوهش‌های اخیر روی داده‌های یکسان، نشان از بهبود نسبتاً خوب روش پیشنهادی دارد.

کلیدواژه: تشخیص احساس، حافظه کوتاه‌مدت ماندگار دوجهته، سیگنال مغزی، مکانیسم توجه، یادگیری عمیق.

1- مقدمه

تشخیص احساسات به‌عنوان یک حوزه پژوهشی در حال توسعه است
و انسان‌ها از احساسات در هنگام برقراری ارتباط و درک طرف مقابل استفاده می‌نمایند [1]. تشخیص احساسات در بسیاری از زمینه‌ها نظیر رانندگی [2]، تصمیم‌گیری [3]، بازی آنلاین [4]، خرید آنلاین [5] و نظارت بر مراقبت‌های بهداشتی [6] کاربرد دارد. احساسات به‌دلیل تأثیر بر وضعیت روانی و فیزیولوژیکی، اثر قابل توجهی بر زندگی انسان‌ها دارند [7]. اکثر افراد در زندگی روزمره، احساسات مثبت و منفی را تجربه کرده‌اند و در این میان، دستیابی به کنترل احساسات منفی مهم‌ است؛ زیرا ممکن است منجر به بروز مشکلاتی در سلامتی گردد [8].

احساسات را می‌توان از روش‌های مختلف نظیر حالت چهره، صدا، ضربان قلب، رفتار، حرکات بدن، متن و سیگنال‌های فیزیولوژیکی تشخیص داد. پژوهشگران می‌توانند به کمک سیستم‌های تشخیص احساس در مورد حالات احساسی کاربران قضاوت نمایند. چهره به‌عنوان اصلی‌ترین مؤلفه ارتباطی بدن برای نشان‌دادن احساسات است. با این حال تشخیص احساس همواره از طریق حالات چهره و پردازش گفتار امکان‌پذیر نیست؛ زیرا ممکن است افراد احساسات واقعی خود را پنهان نمایند. بدین منظور تشخیص احساسات از طریق سیگنال‌های محیطی و ²EEG بیشتر مورد توجه پژوهشگران قرار گرفته [9] تا [13] که می‌تواند به‌خوبی از خطای تشخیص به کمک حالت چهره جلوگیری نموده و تشخیص احساس را مؤثرتر سازد [14].

تعامل انسان و رایانه از موضوع‌های داغ در پژوهش‌های میان‌رشته‌ای است. در سال‌های اخیر پژوهش‌هایی در خصوص بهبود سیستم تعامل انسان و ماشین بر اساس تشخیص احساسات انجام شده است [15]. احساس یک فرایند روانی فیزیولوژیکی پیچیده است و می‌تواند تحت تأثیر عوامل زیادی مانند محیط قرار گیرد. از آنجا که احساسات پدیده‌ای پیچیده‌اند، همواره پژوهشگران زیادی در این زمینه مشغول به فعالیت هستند. با این حال، یکی از مهم‌ترین مسائل فرایند تشخیص احساسات به کمک سیگنال‌های EEG، صحت تشخیص به کمک روش‎های یادگیری ماشین و یادگیری عمیق است [16]. یادگیری عمیق اخیراً برای طبقه‌بندی احساسات استفاده شده و نتایج در مقایسه با رویکردهای طبقه‌بندی سنتی بهبود یافته است [17] تا [19].

جوشی و گونگاده در سال 2020 [20] یک مدل حافظه کوتاه‌مدت ماندگار ³(LSTM) دوجهته به همراه آنتروپی تفاضلی و آنتروپی تفاضلی اصلاح‌شده را برای تشخیص احساسات از روی سیگنال‎های EEG ارائه دادند. نتایج آنها بر روی پایگاه داده DEAP به کمک آنتروپی تفاضلی و LSTM دوجهته برای تشخیص ظرفیت و برانگیختگی به‌ترتیب به درصد صحت 71 و 74 رسیده است. همچنین نتایج آنها به کمک آنتروپی تفاضلی اصلاح‌شده و LSTM دوجهته برای تشخیص ظرفیت و برانگیختگی به‌ترتیب به درصد صحت 5/73 و 75 رسیده است.

آتیلا و سنجور در سال 2021 [21] برای تشخیص احساسات از روی گفتار، یک رویکرد مبتنی بر توجه هدایت‌شده سه‌بُعدی شبکه‌ عصبی پیچشی ⁴(CNN) و LSTM را پیشنهاد دادند. آنها از روش‌های اسپکتروگرام، ضریب کپسترال فرکانس مِل⁵، کوکلیاگرام⁶ و ابعاد فرکتال برای تبدیل سیگنال‌های گفتاری ورودی به تصاویر گفتاری استفاده کردند. تصاویر به‌دست‌آمده در حجم‌های چهاربُعدی به هم ملحق شده و به‌عنوان ورودی مدل توسعه‌یافته توجه 28لایه‌ای که با مدل سه‌بُعدی ‎CNN-LSTM ادغام‌شده، استفاده می‌گردند. در CNN-LSTM، شش لایه پیچشی سه‌بُعدی، دو لایه به‌هنجارسازی بسته‎ای ⁷(BN)، پنج لایه واحد خطی اصلاح‌شده ⁸(ReLu)، سه لایه حداکثر تجمع⁹ سه‌بُعدی، یک لایه توجه، یک LSTM، یک لایه مسطح، یک ‌لایه حذفی و دو لایه کاملاً متصل وجود دارد که لایه توجه به لایه‌های پیچشی سه‌بُعدی متصل است. نتایج آنها نشان داده در پایگاه داده گفتار احساسی شنیداری و دیداری رایرسون ¹⁰(RAVDESS) به متوسط صحت 18/96 درصد، در پایگاه داده آزمایشگاه چندرسانه‌ای رایرسون به متوسط صحت 2/93 درصد، در پایگاه داده احساسات بیان‌شده شنیداری دیداری به متوسط صحت 5/87 درصد و روی تجمیع سه پایگاه داده به متوسط صحت 71/93 درصد دست یافته‌اند. هانز و راو در سال 2021 [1] از CNN-LSTM برای تشخیص احساسات چهره در ویدئوها استفاده کردند و شش احساس مختلف مانند عصبانیت، شادی، غم، ترس، انزجار و خنثی را بررسی‌ نمودند. چهره‌های موجود در ویدئوها با استفاده از نرم‌افزار Open Face پوشانده شده است. نتایج آنها بر روی پایگاه داده احساسی چندوجهی بازیگران مبتنی بر جمعیت و RAVDEES برای شش پایه به کمک LSTM به‌ترتیب به صحت 52/78 و 35/63 درصد رسیده است.

مو و همکارانش در سال 2021 [2] به تشخیص استرس راننده از طریق ترکیب چندوجهی با استفاده از CNN-LSTM مبتنی بر توجه برای تلفیق داده‌های چندوجهی غیرتهاجمی نظیر داده‌های چشم، داده‌های خودرو و داده‌های محیطی پرداختند. استرس به‌دلیل تأثیر منفی بر عملکرد رانندگان به‌عنوان یکی از عوامل اصلی در تصادفات خودرو شناخته شده است؛ بنابراین شناسایی و تشخیص سطح استرس رانندگان در زمان واقعی با درصد صحت بالا ضروری است تا در صورت لزوم بتوان اقدامات مداخله‌ای را برای کاهش استرس انجام داد. مدل‌های موجود تشخیص استرس راننده عمدتاً به روش‌های سنتی یادگیری ماشین برای ترکیب داده‌های چندوجهی متکی هستند. با این حال به‌دلیل همبستگی‌های غیرخطی در بین روش‌ها، روش‌های ترکیب چندوجهی سنتی هنوز چالش‌برانگیز هستند که داده‌های با ابعاد بالا را مدیریت کرده و سطح استرس رانندگان را به‌طور دقیق گزارش نمایند. آنها بر روی پایگاه داده‌ای که با استفاده از یک شبیه‌ساز رانندگی پیشرفته جمع‌آوری شده است به صحت تشخیص متوسط 5/95 درصد دست یافتند.

ژانگ و چن در سال 2021 [22] یک روش LSTM دوجهته مبتنی بر توجه را برای طبقه‌بندی اشیای مبتنی بر EEG پیشنهاد دادند. آنها دو استراتژی توجه به چهارچوب LSTM دوجهته اضافه کردند. اولاً دروازه توجه را جایگزین دروازه فراموشی در LSTM سنتی کردند؛ از این رو دروازه توجه می‌تواند تعداد پارامترهای آموزشی را تا حد زیادی کاهش دهد. ثانیاً روش وزن‌دهی توجه را به خروجی LSTM دوجهته اِعمال کردند. نتایج آنها نشان‌دهنده صحت طبقه‌بندی 5/99 درصد است.

هوانگ و همکارانش در سال 2021 [23] یک مدل CNN اختلاف دو نیم‌کره را برای تشخیص احساسات از سیگنال EEG پیشنهاد دادند. پژوهش‌ها نشان داده که نیم‌کره چپ و راست مغز انسان به احساسات یکسان یا متفاوت، واکنش متفاوتی نشان می‌دهند. استفاده از این تفاوت در واکنش مغز انسان برای تشخیص احساسات مهم است. آنها برای گرفتن و تقویت پاسخ‌های الکتریکی مختلف چپ و راست مغز به محرک‌های احساسی، سه ماتریس ویژگی EEG متفاوت ساخته‌اند. سپس با استفاده از سه لایه CNN، ویژگی‌های مکانی و زمانی را استخراج کردند تا همبستگی بین کانال‌های EEG مجاور استخراج شود. نتایج نشان داد که مدل روی پایگاه داده DEAP [24] برای تشخیص ظرفیت و برانگیختگی به‌ترتیب به صحت متوسط 38/94 و 72/94 درصد دست یافته است.

ساکاله و همکارانش در سال 2021 [8] از LSTM و سیگنال EEG برای تشخیص احساسات مثبت، خنثی و منفی استفاده کردند. آنها به طبقه‌بندی چهار احساس‌ منفی با استفاده از ژانرهای غم، انزجار، عصبانیت و تعجب ‌پرداختند. هدف اولیه آنها ارزیابی عملکرد LSTM و هدف ثانویه آنها ارزیابی رفتار انسان در گروه‌های سنی و جنسیت مختلف بر روی پایگاه داده‌های DEAP و SEED است. آنها عملکرد مدل را با پرسپترون چندلایه، نزدیک‌ترین همسایه و ماشین بردار پشتیبان ¹¹(SVM) نیز مقایسه کردند. نتایج نشان داد که برای چهار دسته احساس منفی، LSTM صحت طبقه‌بندی را به‌صورت 12/83، 94/86، 67/91 و 12/94 درصد به‌ترتیب برای تقسیم‌بندی داده آموزش و آزمون به‌صورت 50-50، 60-40، 70-30 و روش اعتبارسنجی 10دسته‌ای ارائه کرده است. همچنین نتایج نشان داد که برای سه دسته احساسات، LSTM صحت طبقه‌بندی را به‌صورت 33/81، 41/85، 44/89 و 66/92 درصد به‌ترتیب برای تقسیم‌بندی داده آموزش و آزمون به‌صورت 50-50، 60-40،
70-30 و روش اعتبارسنجی 10دسته‌ای ارائه کرده است. مطابق با احساسات خود گزارش‌شده، سیگنال‌های EEG گروه سنی 18 تا 25 سال بالاترین هویت احساسی را ارائه دادند. نتایج آنها نشان داد که از نظر جنسیت، زنان از نظر احساسی فعال‌تر از مردان هستند.

چوداری و همکارانش در سال 2022 [17] یک سیستم تشخیص احساسات از روی سیگنال‌های EEG به کمک سه معماری از شبکه‌های عصبی بازگشتی ¹²(RNN) ارائه دادند. آنها با RNN به متوسط صحت 95 درصد، با LSTM به متوسط صحت 97 درصد و با واحد بازگشتی دروازه‌دار ¹³(GRU) به متوسط صحت 96 درصد در تشخیص احساسات دست یافتند. الگرنی و همکارانش در سال 2022 [25] یک LSTM دوجهته انباشته را برای تشخیص احساسات به کمک سیگنال‌های EEG پیشنهاد دادند. آنها ویژگی‌های آماری، ویژگی‌های موجک و نمای هرست را استخراج کرده و با کمک بهینه‌ساز گرگ خاکستری باینری، ویژگی‌های برتر را انتخاب کردند. آنها احساسات را به کمک پایگاه داده DEAP در سه دسته برانگیختگی، ظرفیت و دوست‌داشتن به‌ترتیب با صحت متوسط 45/99، 87/96 و 68/99 درصد تشخیص دادند.

در این پژوهش از LSTM دوجهته و مکانیسم توجه برای تشخیص احساسات از روی سیگنال‌های EEG استفاده می‌شود. در اینجا سیگنال‌های EEG در ابتدا پیش‌پردازش می‌گردند و سپس دو استراتژی توجه به چارچوب LSTM دوجهته اضافه شده، دروازه توجه جایگزین دروازه فراموشی در LSTM سنتی شده و روش وزن‌دهی توجه به خروجی LSTM دوجهته اِعمال گردیده است. در این پژوهش روش معرفی‌شده در [22] با ارائه یک تابع تلفات جدید بهبود داده می‌شود و از روش بیزین

[1] این مقاله در تاریخ 26 آذر ماه 1401 دریافت و در تاریخ 16 مرداد ماه 1402 بازنگری شد.

سید عابد حسینی (نویسنده مسئول)، گروه مهندسی برق، واحد مشهد، دانشگاه آزاد اسلامی، مشهد، ایران، (email: hosseyni@mshdiau.ac.ir).

محبوبه هوشمند، گروه مهندسی کامپیوتر، واحد مشهد، دانشگاه آزاد اسلامی، مشهد، ایران، (email: houshmand@mshdiau.ac.ir).

[2] . Electroencephalogram

[3] . Long Short-Term Memory

[4] . Convolutional Neural Network

[5] . Mel-Frequency Cepstral Coefficient

[6] . Cochleagram

[7] . Batch Normalization

[8] . Rectified Linear Unit

[9] . Max Pooling

[10] . Ryerson Audio-Visual Database of Emotional Speech and Song

[11] . Support Vector Machine

[12] . Recurrent Neural Network

[13] . Gated Recurrent Unit

شکل 1: فرایند پروتکل جمع‌آوری سیگنال EEG در پایگاه داده SEED (برگرفته از [26]).

شکل 2: فرایند پروتکل جمع‌آوری سیگنال EEG در پایگاه داده DEAP (برگرفته از [24]).

برای تعیین نرخ یادگیری اولیه استفاده می‌گردد و نتایج آن بر روی دو پایگاه داده SEED و DEAP برای تشخیص احساسات آورده می‌شود. نهایتاً نتایج به‌دست‌آمده با برخی از نتایج منتشرشده اخیر در حوزه یادگیری ماشین و یادگیری عمیق مقایسه می‌شوند.

ساختار ادامه این پژوهش به این شرح است که ابتدا در بخش دوم روش پیشنهادی شامل معرفی داده پژوهش و LSTM دوجهته با مکانیسم توجه معرفی می‌گردد. سپس در بخش سوم نتایج پژوهش آمده و در بخش چهارم به بحث و نتیجه‌گیری پرداخته می‌شود.

2- روش پیشنهادی

2-1 معرفی داده پژوهش

در این پژوهش از دو پایگاه داده SEED و DEAP برای تشخیص احساسات مختلف استفاده شده که در ادامه معرفی می‌گردند.

پایگاه داده SEED

پایگاه داده SEED حاوی سیگنال‌های EEG ثبت‌شده در 62 کانال توسط دانشگاه شانگهای جیائو تونگ در سال 2015 می‌باشد [26]. این داده شامل سه دسته مختلف از احساسات مثبت، خنثی و منفی است و سیگنال EEG را از پانزده شرکت‌کننده سالم (هفت مرد و هشت زن)
با متوسط و انحراف معیار سنی سال ثبت کرده است. برای دوازده شرکت‎کننده به شماره‌های 1 تا 5 و 8 تا 14 سیگنال‌های EEG و حرکات چشم و برای سه شرکت‌کننده به شماره‌های 6، 7 و
15 فقط سیگنال EEG ثبت شده است. دو مجموعه SEED_EEG و SEED_Multimodal در این پایگاه وجود دارد که فرکانس نمونه‌برداری مجموعه SEED_EEG به میزان 200 هرتز و فرکانس نمونه‎برداری SEED_Multimodal به میزان 1000 هرتز است که در این پژوهش به 200 هرتز کاهش داده شده است. به مجموعه SEED_EEG یک پالایه 0 تا 75 هرتز اِعمال گردیده است. در این پژوهش از دوازده شرکت‌کننده مجموعه SEED_Multimodal به علت وجود سیگنال حرکات چشم برای پیش‌پردازش و سه شرکت‌کننده دیگر از مجموعه SEED_EEG استفاده شده است.

هر آزمایش مطابق شکل 1 به چهار مرحله شامل اشاره شروع به مدت پنج ثانیه‌، پخش فیلم به مدت چهار دقیقه‌، خوداظهاری به مدت 45 ثانیه‌ و دوره استراحت به مدت 15 ثانیه‌ تقسیم‌بندی می‌شود. به ازای هر محرک احساسی مثبت، خنثی و منفی، شرکت‌کنندگان 15 فیلم احساسی چینی را تماشا کرده‌اند که به‌راحتی قابل درک بوده تا بتواند احساس مورد نظر را برانگیزد. ترتیب پخش 15 فیلم به‌گونه‌ای است که دو فیلمی که احساسات یکسان را برانگیزند به‌طور متوالی نمایش داده نشود. سپس فرم خوداظهاری توسط آنها پُر شده تا احساس مشاهده‌شده تضمین گردد. هر آزمودنی سه آزمایش مثبت، منفی و خنثی را تجربه کرده و بنابراین 15 شرکت‌کننده درمجموع 45 آزمایش را تجربه کرده‌اند.

سیگنال‌های EEG که توسط الکترومایوگرافی ¹(EMG) و الکترواکولوگرافی ²(EOG) آلوده شده‌اند به‌صورت دستی حذف گردیده‌اند. سپس یک پالایه میان‌گذر در باند فرکانسی بین 3/0 تا 50 هرتز برای حذف نویز و خط پایه اِعمال شده است. ارزش برچسب در پایگاه داده SEED برای حالت‌های مثبت، خنثی و منفی به ترتیب 1، 0 و 1- است.

پایگاه داده DEAP

پایگاه داده DEAP شامل 32 کانال سیگنال EEG از 32 شرکت‌کننده سالم (16 مرد و 16 زن) با سن بین 19 تا 37 سال و متوسط 9/26 سال است [24]. سیگنال‌ها با نرخ 512 هرتز، نمونه‌برداري شده و سپس
به 256 هرتز کاهش داده شده‌اند. این پايگاه براي تحريک احساسات از مدل دوبُعدي ظرفيت- برانگيختگي شامل 40 کليپ صوتي ويدئويي يک‌دقيقه‌اي مطابق شکل 2 استفاده می‌کند که 20 مورد آن، محرک دیداری با ظرفيت بالا و 20 مورد ديگر، محرک دیداری با ظرفيت کم هستند و همچنين 25 مورد آن، محرک دیداری با برانگيختگي بالا و 15 مورد ديگر، محرک دیداری با برانگيختگي کم هستند.

یک پالایه میان‌گذر در باند فرکانسی بین 4 تا 45 هرتز بر روی سیگنال‎های EEG اِعمال شده و همچنین آرتیفکت‎های ناشی از سیگنال

[1] . Electromyogram

[2] . Electrooculogram

شکل 3: ساختار LSTM دوجهته برای سه گام زمانی (برگرفته از [22]).

EOG نیز از روی سیگنال‌های EEG حذف گردیده است.

2-2 LSTM دوجهته با مکانیسم توجه

LSTM دوجهته

رویکردهای مبتنی بر RNN به‌طور گسترده برای تحلیل سیگنال‌های EEG استفاده شده‌اند [16] و [27]. LSTM جای خود را در زمینه پیش‎بینی سری‌های زمانی و تشخیص حالات مختلف از روی سیگنال‌های حیاتی باز کرده [28] تا [30] و خانواده‌ای از RNN توسعه‌یافته است که عملکرد بهتری در هنگام کار با حافظه بلندمدت دارد [14] و به‌طور مؤثر، مشکل صفرشدن گرادیان را با اضافه‌کردن دروازه فراموشی جبران می‌کند [22].

معماری LSTM یک‌جهته توسط هاکرایتر¹ و همکارش در سال 1997 پیشنهاد شده [28] که در این معماری، به‌روزرسانی حالت خروجی سلول به خروجی لایه پنهان قبلی و ورودی فعلی وابسته است. علاوه بر این، آنها یک اتصال روزنه‌ای² را وصل کردند و حالت سلول قبلی را به‌عنوان پارامتر در نظر گرفتند. LSTM دوجهته می‌تواند اطلاعات دینامیکی را از هر دو بخش قبلی و بعدی در دنباله سیگنال EEG دریافت نماید [31] و به کشف رمز شناخت عمیق مغز از سیگنال‌های EEG طولانی کمک ‌کند. LSTM دوجهته شامل یک لایه روبه‌جلو و یک لایه روبه‌عقب مطابق شکل 3 است که دنباله خروجی پنهان لایه روبه‌جلو است که با استفاده از نمونه EEG از شاخص زمانی 1 تا محاسبه می‌شود و دنباله خروجی پنهان لایه روبه‌عقب است که با استفاده از نمونه EEG از شاخص زمانی تا انتها محاسبه می‌شود. هر دو حالت خروجی پنهان توسط تئوری LSTM استاندارد به‌روزرسانی می‌شوند.

در یک سلول LSTM دوجهته، جریان داده بین دروازه‌ها و ورودی‌ها در شکل 4 نشان داده شده است. LSTM از سه دروازه شامل فراموشی، ورودی و خروجی به‌صورت (1) برای دستیابی به ذخیره‌سازی اطلاعات استفاده می‌کند [32]

(1)

بیانگر تابع سیگموئید بوده و مقادیر را بین بازه 0 تا ۱ قرار می‌دهد. عملگر بیانگر ضرب عنصری، به‌عنوان تانژانت هایپربولیک و تابع فعال‌ساز عمل کرده و تمامی مقادیر را به بازه 1- تا ۱ می‌برد تا مقدار خروجی شبکه هم تعدیل شود. بیانگر وزن، ورودی فعلی (در گام زمانی )، حالت پنهان فعلی، خروجی سلول فعلی، دروازه فراموشی، دروازه ورودی، دروازه خروجی و بایاس است. تصمیم می‌گیرد که آیا حفظ یا فراموش شود و به عبارت دیگر هر قدر عدد خروجی به صفر نزدیک‌تر باشد یعنی باید اطلاعات فراموش شود و هر قدر به یک نزدیک‌تر باشد یعنی باید اطلاعات حفظ گردد. تصمیم می‌گیرد که آیا حالت سلول توسط به‌روز شود و تصمیم می‌گیرد که آیا حالت پنهان قبلی به سلول بعدی منتقل شود و نامزد به‌روزرسانی سلول حافظه است. خروجی کل در LSTM دوجهته به‌صورت (2) محاسبه می‌شود

(2)

که در آن تابع فعال‌ساز سیگموئید لایه خروجی، وزن لایه پنهان LSTM دوجهته به لایه خروجی و بایاس لایه خروجی است.

دروازه توجه

در LSTM جفت‌شده [33]، در (2) با جایگزین شده است؛ به این معنا که دروازه فراموشی، پارامترهای وزن هر دو خروجی سلول قبلی و مقدار نامزد در را تعیین می‌کند. بنابراین عملیات به‌روزرسانی به (3) تغییر می‌یابد

[1] . Hochreiter

[2] . Peephole

شکل 4: نمایش ساختار سلول LSTM دوجهته.

شکل 5: نمایش ساختار یک سلول LSTM با حضور دروازه توجه (برگرفته از [22]).

(3)

در این پژوهش، مکانیسم خودتوجهی [34] به‌عنوان دروازه توجه برای گرفتن اطلاعات تاریخی ضروری و به‌روزرسانی حالت سلولی مطابق (4) و شکل 5 استفاده شده است

(4)

که در آن و پارامترهای دروازه توجه هستند. در مقابل محاسبه در (1)، بُعد پارامترهای آموزشی کاهش می‌یابد و اثربخشی آموزش LSTM دوجهته نیز بهبود پیدا می‌کند. نتایج تجربی نشان می‌دهند که دروازه توجه، فرایند تمرین را بدون تأثیر بر عملکرد نهایی بهبود می‌بخشد. به دو دلیل تعداد پارامترهای آموزشی کاهش پیدا می‌کند: 1) دیگر ها مورد استفاده قرار نگرفتند و 2) دروازه ورودی کلاً حذف ‌گردیده و در نتیجه وزن‌های مربوط به این دروازه هم حذف شده‌اند.

جدول 1: مقادیر فراپارامترها برای مدل LSTM دوجهته.

ردیف	پارامترها	مقدار
1	لایه‌های LSTM دوجهته	1
2	اندازه ورودی	62
3	اندازه مخفی	62
4	نرخ یادگیری اولیه برای داده SEED	0024/0
5	نرخ یادگیری اولیه برای داده DEAP	0013/0

وزن‌دهی توجه در خروجی

به‌منظور تسهیل مدل شبکه با تمرکز خودکار بر لحظاتی که تأثیر مهمی بر طبقه‌بندی دارند [35]، ضرایب وزن معرفی می‌شوند تا از تعیین‌کننده‌ترین اطلاعات در دنباله‌های EEG بهره‌برداری شود. ضرایب وزن توسط عملگر softmax محاسبه می‌گردند و مقادیر نمایندگی با جمع وزن‌دار خروجی‌های پنهان نشان داده می‌شوند

(5)

که در آن ماتریس با ابعاد بوده و از تمام خروجی لایه پنهان تشکیل شده است. تعداد واحدهای پنهان، طول نمونه (تعداد نمونه‌ها در )، ابعاد و به‌ترتیب به‌صورت و و نماد به معنای ترانهاده است. وزن می‌تواند نشان‌دهنده سهم هر نقطه زمانی در تشخیص دیداری باشد که بُعد آن است. نمایش خروجی نهایی مورد استفاده برای طبقه‌بندی به‌صورت (6) است

(6)

طبقه‌بندی

برای حل مسائل طبقه‌بندی از تابع فعال‌ساز softmax که شبیه به تابع سیگموئید است در لایه خروجی استفاده می‎شود؛ با این تفاوت که خروجی‌ها طوری نرمال می‌شوند که مجموع آنها برابر عدد یک باشد. تابع سیگموئید در صورت داشتن یک خروجی دودویی کار می‌کند؛ اما در مواقعی که یک مسئله طبقه‌بندی چنددسته‌ای داشته باشیم، softmax اختصاص مقادیر به هر دسته را بسیار آسان می‌کند. softmax به‌صورت یک تابع‌نمایی به‌هنجارشده مطابق (7) است

(7)

که در آن امین عنصر ورودی، روش نمایی و عنصر خروجی مربوط است. با عملیات به‌هنجارسازی، softmax می‌تواند بیشینه را برجسته کرده و سایر عناصر بسیار کمتر از حداکثر را سرکوب کند. حداکثر عنصر خروجی هدف، پیش‌بینی شده است. در این پژوهش از softmax به‌عنوان طبقه‌بند به‌منظور پیش‌بینی برچسب (بیشترین احتمال) برای یک بخش EEG به‌عنوان استفاده می‌شود؛ بنابراین حالت پنهان به‌عنوان ورودی تابع softmax برای پیش‌بینی در نظر گرفته می‌شود

(8)

در اینجا تنظیم با تابع اتلاف آنتروپی متقاطع¹ که در بسیاری از پژوهش‌ها استفاده می‌شود [36] ترکیب گردیده تا یادگیری بیش از حد کاهش یابد. این روش نسبت به روش متوسط مربعات خطا سودمندتر است [36]. سیستم پارامترها را با به‌حداقل‌رساندن تابع هزینه یا تلفات مطابق (9) یاد می‌گیرد

(9)

که در آن برچسب نمونه، احتمال تخمین‌زده‌شده برای هر دسته توسط softmax، تعداد دسته‌های هدف و یک فراپارامتر در تنظیم است.

3- نتایج پژوهش

مدل پیشنهادی برای تشخیص احساسات شامل یک لایه LSTM دوجهته، وزن‌دهی توجه در خروجی لایه، دو لایه کاملاً متصل و یک لایه طبقه‌بند softmax است. در هر گام زمانی همه کانال‌های سیگنال‎های EEG به‌طور هم‌زمان به‌عنوان ورودی به لایه LSTM دوجهته داده می‌شوند. لایه LSTM دوجهته روش دروازه توجه را به‌کار می‌گیرد و روش وزن‌دهی توجه روی خروجی آنها اِعمال می‌گردد. ترفند حذف² (برون‎اندازی) در لایه‌های کاملاً متصل برای جلوگیری از یادگیری بیش از حد استفاده می‌شود و ReLU تابع فعال‌سازی است. نهایتاً شاخص حداکثر مقدار خروجی به‌عنوان دسته تصمیم در نظر گرفته می‌شود.

داده‌های EEG همه شرکت‌کنندگان با هم ترکیب می‌شوند. با توجه به دسته تصویر، داده‌های EEG به سه بخش تقسیم می‌شوند: 80 درصد برای مجموعه آموزشی، 10 درصد برای مجموعه آزمون و 10 درصد برای مجموعه اعتبارسنجی. مجموعه اعتبارسنجی برای تعیین پارامترهای مدل استفاده می‌شود و مجموعه آزمون مجاز است یک شاخص عملکرد مدل باشد. نرخ یادگیری اولیه بالا در طول آموزش باعث می‌شود یادگیری اولیه سریع‌تر و منجر به عملکرد ضعیف یا حتی واگرایی شود. نرخ یادگیری اولیه پایین سرعت یادگیری را کاهش و نتایج غیربهینه می‌دهد؛ بنابراین انتخاب یک نرخ یادگیری اولیه مناسب برای دستیابی به عملکرد خوب در مدل‌های یادگیری عمیق حیاتی است. در اینجا به‌منظور بهینه‌سازی نرخ یادگیری اولیه از بهینه‌ساز بیزین استفاده شده که نتیجه 0024/0 بر روی پایگاه داده SEED و 0013/0 بر روی پایگاه داده DEAP گزارش گردید. تنظیمات فراپارامترها برای مدل LSTM دوجهته در جدول 1 آمده است.

3-1 ارزیابی عملکرد

کارایی، عملکرد و قابلیت اطمینان طبقه‌بند LSTM دوجهته با انجام تحلیل‌هایی روی ماتریس درهم‌ریختگی مانند صحت، حساسیت و دقت انجام می‌شود. هر یک از عناصر ماتریس بدین شرح است: تعداد رکوردهایی است که دسته واقعی آنها منفی بوده و الگوریتم دسته‌بندی نیز دسته آنها را به‌درستی منفی تشخیص داده است. تعداد رکوردهایی است که دسته واقعی آنها مثبت بوده و الگوریتم دسته‌بندی نیز دسته آنها را به‌درستی مثبت تشخیص داده است. تعداد رکوردهایی است که دسته واقعی آنها منفی بوده و الگوریتم دسته‌بندی دسته آنها را به‌اشتباه مثبت تشخیص داده است. تعداد رکوردهایی است که دسته واقعی

جدول 2: مقایسه نتایج روش پیشنهادی با پژوهش‌های گذشته روی داده SEED.

مرجع	روش	درصد صحت
[8]	LSTM	66/92
[12]	آنتروپی تفاضلی و شبکه عصبی عمیق	29/93
[10]	تبدیل موجک، آنتروپی و جنگل تصادفی مبتنی بر خودرمزگذار	40/94
[11]	تبدیل موجک، تبدیل فوریه سریع، شبکه عصبی اسپایکی	67/96
روش پیشنهادی	LSTM دوجهته با مکانیسم توجه	73/96

آنها مثبت بوده و الگوریتم دسته‌بندی دسته آنها را به‌اشتباه منفی تشخیص داده است. در این پژوهش از معیار صحت برای ارزیابی نتایج استفاده شده که طبق (10) به‌عنوان نسبت بین تعداد پیش‎بینی‎های صحیح به تعداد کل پیش‌بینی‌ها محاسبه می‌گردد

(10)

3-2 مقایسه نتایج با پژوهش‌های گذشته

مقایسه عملکرد نتایج روش پیشنهادی با نتایج پژوهش‌های گذشته در جداول 2 و 3 آمده‌اند. همان طور که در جدول 2 مشاهده می‌شود روش پیشنهادی توانسته که بهبودی به میزان 06/0 را نسبت به [11] که از تبدیل موجک، تبدیل فوریه سریع و شبکه عصبی اسپایکی استفاده کرده است، داشته باشد. همچنین مشاهده می‌شود که روش پیشنهادی بر روی پایگاه داده SEED از روش‌هایی که از يادگيري ماشین استفاده کرده‌اند [10] و [12]، نتایج بهتری را ارائه داده است.

همان طور که در جدول 3 آمده است، روش پیشنهادی توانسته نسبت به [18] تا [20] و [23] بهبود در نتایج داشته باشد؛ ولی نسبت به [25] نتوانسته بهبودی حاصل کند. همچنین مشاهده می‌شود روش پیشنهادی بر روی پایگاه داده DEAP از روش‎هايی که از يادگيري ماشین [18] و [19] استفاده می‎کنند، نتایج بهتری را ارائه داده است.

4- بحث و نتیجه‌گیری

در زندگی واقعی، احساسات انسان پیچیده و قابل تغییر هستند؛ بنابراین پژوهش در مورد سیستم‌های تشخیص احساس در کاربردهای زندگی واقعی از اهمیت زیادی برخوردارند. این پژوهش به درک ماشین‌ها از احساسات کمک می‌کند تا بتوانند تصمیمات بهتری بگیرند و بر اساس آن به کاربر پاسخ دهند. اخیراً بسیاری از روش‌های یادگیری عمیق و یادگیری ماشین به‌طور گسترده در تشخیص احساسات بر اساس سیگنال‌های EEG استفاده شده‌اند. با این حال، روش‌های یادگیری ماشین دارای یک نقطه ضعف بزرگ هستند؛ زیرا فرایند استخراج ویژگی معمولاً دست‌وپاگیر و به‌شدت به متخصصان متکی است.

این پژوهش به تشخیص احساسات با کمک سیگنال‌های EEG و یادگیری عمیق مبتنی بر LSTM دوجهته و مکانیسم توجه بر دو پایگاه داده SEED و DEAP پرداخته است. پایگاه داده SEED شامل 62 کانال سیگنال EEG از 15 شرکت‌کننده و سه دسته مختلف از احساسات مثبت، خنثی و منفی می‌باشد. پایگاه داده DEAP شامل 32 کانال از 32 شرکت‌کننده و در دو دسته ظرفیت و برانگیختگی است. LSTM کارایی خود را در استخراج اطلاعات زمانی از سیگنال‌های فیزیولوژیکی طولانی نشان داده است. دو استراتژی توجه به چارچوب LSTM دوجهته اضافه

جدول 3: مقایسه نتایج روش پیشنهادی با پژوهش‌های گذشته روی داده DEAP.

مرجع	روش	درصد صحت
مرجع	روش	ظرفیت	برانگیختگی
[19]	توابع مد ذاتی و SVM	10/69	99/71
[19]	توابع مد ذاتی و SVM	41/70	10/72
[20]	آنتروپی تفاضلی و LSTM دوجهته	71	74
[20]	آنتروپی تفاضلی اصلاح‌شده و LSTM دوجهته	5/73	75
[18]	ویژگی‌های زمانی و شبکه عصبی مصنوعی	50/86	36/87
[23]	CNN اختلاف دو نیم‌کره	38/94	72/94
[25]	موجک، نمای هرست، گرگ خاکستری باینری، LSTM دوجهته انباشته	87/96	45/99
روش پیشنهادی	LSTM دوجهته با مکانیسم توجه	23/95	67/95

شده است؛ دروازه توجه جایگزین دروازه فراموشی در LSTM سنتی شده و روش وزن‌دهی توجه به خروجی LSTM دوجهته اِعمال شده است. در این پژوهش از یک تابع اتلاف و همچنین از روش بیزین برای تعیین نرخ یادگیری اولیه استفاده شده است.

صحت روش پیشنهادی بر روی پایگاه داده SEED برای طبقه‌بندی احساسات به درصد 72/96 رسیده است. نهایتاً با مقایسه نتایج به‌دست‌آمده با پژوهش‎های اخیر بر روی پایگاه داده SEED، این پژوهش نشان از بهبود روش پیشنهادی دارد. صحت روش پیشنهادی بر روی پایگاه داده DEAP برای تشخیص احساسات در ظرفیت و برانگیختگی به‌ترتیب به 23/95 و 67/95 درصد دست یافته است. با مقایسه نتایج به‌دست‌آمده با پژوهش‎های اخیر بر روی پایگاه داده DEAP، این پژوهش نشان از بهبود روش پیشنهادی به‌جز یک مورد دارد. همچنین با مقایسه روش‌هایی که بر روی پایگاه‌های داده SEED و DEAP که از روش‌های يادگيري ماشین استفاده کرده‌اند، روش پیشنهادی نتایج بهتری را ارائه داده است.

مراجع

[1] A. S. A. Hans and S. Rao, "A CNN-LSTM based deep neural networks for facial emotion detection in videos," International J.
of Advances in Signal and Image Sciences, vol. 7, no. 1, pp. 11-20, Jun. 2021.

[2] L. Mou, et al., "Driver stress detection via multimodal fusion using attention-based CNN-LSTM," Expert Systems with Applications,
vol. 173, Article ID: 114693, Jul. 2021.

[3] N. S. Suhaimi, J. Mountstephens, and J. Teo, "EEG-based emotion recognition: a state-of-the-art review of current trends and opportunities," Computational Intelligence and Neuroscience, vol. 2020, Article ID: 8875426, 16 Sept. 2020.

[4] Y. Kim, H. Lee, and E. M. Provost, "Deep learning for robust
feature generation in audiovisual emotion recognition," in Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing, pp. 3687-3691, Vancouver, Canada, 26-31 May 2013.

[5] C. Herrando, J. Jiménez-Martínez, M. J. Martín-De Hoyos, and E. Constantinides, "Emotional contagion triggered by online consumer reviews: evidence from a neuroscience study," J. of Retailing and Consumer Services, vol. 67, Article ID: 102973, Jul. 2022.

[6] M. Ali, A. H. Mosa, F. Al Machot, and K. Kyamakya, "EEG-based emotion recognition approach for e-healthcare applications," in Proc. 8th Int. Conf. on Ubiquitous and Future Networks, pp. 946-950, Vienna, Austria, 5-8 Jul. 2016.

[7] S. A. Hosseini, M. A. Khalilzadeh, and S. Changiz, "Emotional stress recognition system for affective computing based on bio-signals," J. of Biological Systems, vol. 18, no. spec01, pp. 101-114, 2010.

[8] A. Sakalle, P. Tomar, H. Bhardwaj, D. Acharya, and A. Bhardwaj, "A LSTM based deep learning network for recognizing emotions using wireless brainwave driven system," Expert Systems with Applications, vol. 173, Article ID: 114516, Jul. 2021.

[9] C. Li, Z. Bao, L. Li, and Z. Zhao, "Exploring temporal representations by leveraging attention-based bidirectional LSTM-RNNs for multi-modal emotion recognition," Information Processing & Management, vol. 57, no. 3, Article ID: 102185, May 2020.

[10] A. Bhattacharyya, R. K. Tripathy, L. Garg, and R. B. Pachori, "A novel multivariate-multiscale approach for computing EEG spectral and temporal complexity for human emotion recognition," IEEE Sensors J., vol. 21, no. 3, pp. 3579-3591, Feb. 2021.

[11] Y. Luo, et al., "EEG-based emotion classification using spiking neural networks," IEEE Access, vol. 8, pp. 46007-46016, 2020.

[12] Y. Wang, et al., "EEG-based emotion recognition with prototype-based data representation," in Proc. 41st Annual Int. Conf. of the IEEE Engineering in Medicine and Biology Society, pp. 684-689, Berlin, Germany, 23-27 Jul. 2019.

[13] M. M. Rahman, et al., "Recognition of human emotions using EEG signals: a review," Computers in Biology and Medicine, vol. 136 Article ID: 104696, Sept. 2021.

[14] J. Yang, X. Huang, H. Wu, and X. Yang, "EEG-based emotion classification based on bidirectional long short-term memory network," Procedia Computer Science, vol. 174, pp. 491-504, 2020.

[15] R. Andreasson, B. Alenljung, E. Billing, and R. Lowe, "Affective touch in human-robot interaction: conveying emotion to the nao robot," International J. of Social Robotics, vol. 10, no. 4, pp. 473-491, Dec. 2018.

[16] X. Wang, Y. Ren, Z. Luo, W. He, J. Hong, and Y. Huang, "Deep learning-based EEG emotion recognition: current trends and future perspectives," Frontiers in Psychology, vol. 14, Article ID: 1126994, Feb. 2023.

[17] M. K. Chowdary, J. Anitha, and D. J. Hemanth, "Emotion recognition from EEG signals using recurrent neural networks," Electronics, vol. 11, no. 15, Article ID: 2387, Jul. 2022.

[18] R. C. Dhingra and S. Ram Avtar Jaswal, "Emotion recognition based on EEG using DEAP dataset," European J. of Molecular & Clinical Medicine, vol. 8, no. 3, pp. 3509-3517, 2021.

[19] N. Zhuang, et al., "Emotion recognition from EEG signals using multidimensional information in EMD domain," BioMed Research International, vol. 2017, Article ID: 8317357, 2017.

[20] V. M. Joshi and R. B. Ghongade, "IDEA: intellect database for emotion analysis using EEG signal," J. of King Saud University-Computer and Information Sciences, vol. 34, no. 7, pp. 4433-4447, Jul. 2022.

[21] O. Atila and A. Şengür, "Attention guided 3D CNN-LSTM model for accurate speech based emotion recognition," Applied Acoustics, vol. 182, Article ID: 108260, Nov. 2021.

[22] X. Zheng and W. Chen, "An attention-based bi-LSTM method for visual object classification via EEG," Biomedical Signal Processing and Control, vol. 63, Article ID: 102174, Jan. 2021.

[23] D. Huang, et al., "Differences first in asymmetric brain: a bi-hemisphere discrepancy convolutional neural network for EEG emotion recognition," Neurocomputing, vol. 448, pp. 140-151, 11 Aug. 2021.

[24] S. Koelstra, et al., "Deap: a database for emotion analysis; using physiological signals," IEEE Trans. on Affective Computing, vol. 3, no. 1, pp. 18-31, Jun. 2011.

[25] M. Algarni, F. Saeed, T. Al-Hadhrami, F. Ghabban, and M. Al-Sarem, "Deep learning-based approach for emotion recognition using electroencephalography (EEG) signals using bi-directional long short-term memory (Bi-LSTM)," Sensors, vol. 22, no. 8, Article ID: 2976, Apr. 2022.

[26] W. L. Zheng and B. L. Lu, "Investigating critical frequency bands and channels for EEG-based emotion recognition with deep neural networks," IEEE Trans. on Autonomous Mental Development, vol. 7, no. 3, pp. 162-175, Sep. 2015.

[27] Q. Ma, M. Wang, L. Hu, L. Zhang, and Z. Hua, "A novel recurrent neural network to classify EEG signals for customers’ decision-making behavior prediction in brand extension scenario," Frontiers in Human Neuroscience, vol. 15, Article ID: 610890, Mar. 2021.

[28] S. Hochreiter and J. Schmidhuber, "Long short-term memory," Neural Computation, vol. 9, no. 8, pp. 1735-1780, Nov. 1997.

[29] S. Kumar, A. Sharma, and T. Tsunoda, "Brain wave classification using long short-term memory network based OPTICAL predictor," Scientific Reports, vol. 9, Article ID: 9153, Jun. 2019.

[30] M. Z. I. Ahmed and N. Sinha, "EEG-based emotion classification using LSTM under new paradigm," Biomedical Physics & Engineering Express, vol. 7, no. 6, Article ID: 065018, Sept. 2021.

[31] G. Liu and J. Guo, "Bidirectional LSTM with attention mechanism and convolutional layer for text classification," Neurocomputing, vol. 337, pp. 325-338, 14 Apr. 2019.

[32] J. C. Nunez, R. Cabido, J. J. Pantrigo, A. S. Montemayor, and J. F. Velez, "Convolutional neural networks and long short-term memory for skeleton-based human activity and hand gesture recognition," Pattern Recognition, vol. 76, pp. 80-94, Apr. 2018.

[33] K. Greff, R. K. Srivastava, J. Koutník, B. R. Steunebrink, and J. Schmidhuber, "LSTM: a search space odyssey," IEEE Trans. on Neural Networks and Learning Systems, vol. 28, no. 10, pp. 2222-2232, Mar. 2015.

[34] T. Shen, et al., "Disan: directional self-attention network for rnn/cnn-free language understanding," in Proc. of the AAAI Conf. on Artificial Intelligence, pp. 5446-5455, New Orleans, LA, USA, 2-7 Feb. 2018.

[35] S. Mirsamadi, E. Barsoum, and C. Zhang, "Automatic speech emotion recognition using recurrent neural networks with local attention," in Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing, pp. 2227-2231, New Orleans, LA, USA, 5-9 Mar. 2017.

[36] R. Dutta and M. Majumder, "Attention-based bidirectional LSTM with embedding technique for classification of COVID-19 articles," Intelligent Decision Technologies, vol. 16, no. 1, pp. 205-215, Apr. 2022.

سید عابد حسینی دكتراي خود را در رشته مهندسي برق، گرايش کنترل از دانشگاه فردوسی مشهد در سال 1395 دريافت كرده است. ایشان تاکنون بیش از 110 مقاله در مجلات و همایش‌های ملی و بین‌المللی به چاپ رسانده است. دكتر حسینی در حال حاضر استاديار گروه مهندسي برق دانشگاه آزاد اسلامي واحد مشهد است. علايق پژوهشي ايشان شامل پردازش سیگنال‌های حیاتی، مدل‌سازی سیستم‌های بیولوژیکی، علوم شناختی و داده‌كاوي است.

محبوبه هوشمند كارشناسي و كارشناسي ارشد خود را در رشته مهندسي كامپيوتر، گرايش نرم‌ا‌فزار به‌ترتيب در سال‌هاي 1386 و 1389 از دانشگاه فردوسي مشهد و دكتراي خود را در رشته مهندسي كامپيوتر، گرايش معماري كامپيوتر از دانشگاه صنعتي اميركبير در سال 1393 دريافت كرده است. نام‌برده از آخر تابستان 1395 تا آخر تابستان 1396 محقق پسادكترا در زمينه رمزنگاري كوانتومي به‌طور مشترك در دانشگاه ملي سنگاپور و دانشگاه تكنولوژي و طراحي سنگاپور بوده و در حال حاضر استاديار گروه مهندسي كامپيوتر دانشگاه آزاد اسلامي واحد مشهد است. علايق پژوهشي ايشان شامل نظريه اطلاعات و محاسبات كوانتومي، سيستم‌هاي چندعاملي و داده‌كاوي است.

[1] . Cross-Entropy

[2] . Dropout Trick

شارک

عنوان URL للمقالة

تشخیص احساسات مبتنی بر سیگنال‌های EEG به کمک یادگیری عمیق مبتنی بر حافظه کوتاه‌مدت ماندگار دوجهته و مکانیسم توجه

رایمگ

الروابط

المراكز ذات الصلة

دعامة

الصفحات الرسمية