مدل جدید پیش بینی چند گامی تقاضا با استفاده از روشهای یادگیری عمیق و تکنیکهای دادهافزایی سری زمانی
محورهای موضوعی : فناوری اطلاعات و ارتباطات
1 - دانشگاه شهید مدنی آذربایجان
2 - دانشگاه شهید مدنی آذربایجان
کلید واژه: سری زمانی, یادگیری عمیق, حافظه طولانی کوتاه-مدت, شبکه کانولوشنی, مکانیزم خودتوجه چندسر,
چکیده مقاله :
در یک محیط تجاری که رقابت سختی بین شرکتها وجود دارد، پیشبینی دقیق تقاضا یک امر مهمی است. اگر دادههای مربوط به تقاضای مشتری را در نقاط گسستهای از زمان جمعآوری کنیم، یک سری زمانی تقاضا به دست میآید. درنتیجه، مسئله پیشبینی تقاضا به عنوان یک مسئله پیشبینی سریهای زمانی فرموله میشود. در زمینه پیشبینی سریهای زمانی، روشهای یادگیری عمیق دقت مناسبی در پیشبینی سریهای زمانی پیچیده داشتهاند. با این وجود عملکرد خوب این روشها به میزان دادههای در دسترس وابسته است. بدین منظور در این مطالعه استفاده از تکنیکهای دادهافزایی سری زمانی در کنار روشهای یادگیری عمیق پیشنهاد میشود. در این مطالعه سه روش نوین جهت تست کارایی رویکرد پیشنهادی به کار گرفته شده است که عبارت اند از: 1) حافظه کوتاه مدت طولانی، 2) شبکه کانولوشنی 3) مکانیزم خودتوجه چندسر. همچنین در این مطالعه رویکرد پیشبینی چندگامی به کار گرفته میشود که امکان پیشبینی چند نقطه آینده را در یک عمل پیشبینی به وجود میآورد. روش پیشنهادی بر روی داده واقعی تقاضای یک شرکت مبلمان اعمال شده است. نتایج آزمایشها نشان میدهد که رویکرد پیشنهادی باعث بهبود دقت پیشبینی روشهای بهکار گرفته شده در اکثر حالات مختلف پیشبینی میشود.
In a business environment where there is fierce competition between companies, accurate demand forecasting is vital. If we collect customer demand data at discrete points in time, we obtain a demand time series. As a result, the demand forecasting problem can be formulated as a time series forecasting task. In the context of time series forecasting, deep learning methods have demonstrated good accuracy in predicting complex time series. However, the excellent performance of these methods is dependent on the amount of data available. For this purpose, in this study, we propose to use time series augmentation techniques to improve the performance of deep learning methods. In this study, three new methods have been used to test the effectiveness of the proposed approach, which are: 1) Long short-term memory, 2) Convolutional network 3) Multihead self-attention mechanism. This study also uses a multi-step forecasting approach that makes it possible to predict several future points in a forecasting operation. The proposed method is applied to the actual demand data of a furniture company. The experimental results show that the proposed approach improves the forecasting accuracy of the methods used in most different prediction scenarios
[1] H. Haberleitner, H. Meyr, and A. Taudes, "Implementation of a demand planning system using advance order information," International Journal of Production Economics, vol. 128, pp. 518-526, 2010.
[2] H. Abbasimehr, M. Shabani, and M. Yousefi, "An optimized model using LSTM network for demand forecasting," Computers & Industrial Engineering, vol. 143, p. 106435, 2020/05/01/ 2020.
[3] M. A. Villegas, D. J. Pedregal, and J. R. Trapero, "A support vector machine for model selection in demand forecasting applications," Computers & Industrial Engineering, vol. 121, pp. 1-7, 2018/07/01/ 2018.
[4] N. J. Johannesen, M. Kolhe, and M. Goodwin, "Relative evaluation of regression tools for urban area electrical energy demand forecasting," Journal of Cleaner Production, vol. 218, pp. 555-564, 2019.
[5] M. Q. Raza, M. Nadarajah, and C. Ekanayake, "Demand forecast of PV integrated bioclimatic buildings using ensemble framework," Applied energy, vol. 208, pp. 1626-1638, 2017.
[6] J. W. Taylor, "A comparison of univariate time series methods for forecasting intraday arrivals at a call center," Management Science, vol. 54, pp. 253-265, 2008.
[7] R. Law, G. Li, D. K. C. Fong, and X. Han, "Tourism demand forecasting: A deep learning approach," Annals of Tourism Research, vol. 75, pp. 410-423, 2019.
[8] F. Martínez, M. P. Frías, M. D. Pérez, and A. J. Rivera, "A methodology for applying k-nearest neighbor to time series forecasting," Artificial Intelligence Review, vol. 52, pp. 2019–2037, 2019.
[9] A. Sagheer and M. Kotb, "Time series forecasting of petroleum production using deep LSTM recurrent networks," Neurocomputing, vol. 323, pp. 203-213, 2019.
[10] I. Maqsood, M. R. Khan, and A. Abraham, "An ensemble of neural networks for weather forecasting," Neural Computing & Applications, vol. 13, pp. 112-122, 2004.
[11] H. Abbasimehr and M. Shabani, "A new framework for predicting customer behavior in terms of RFM by considering the temporal aspect based on time series techniques," Journal of Ambient Intelligence and Humanized Computing, 2020/05/05 2020.
[12] H. Abbasimehr and R. Paki, "Prediction of COVID-19 confirmed cases combining deep learning methods and Bayesian optimization," Chaos, Solitons & Fractals, vol. 142, p. 110511, 2021.
[13] K. Bandara, H. Hewamalage, Y.-H. Liu, Y. Kang, and C. Bergmeir, "Improving the Accuracy of Global Forecasting Models using Time Series Data Augmentation," arXiv preprint arXiv:2008.02663, 2020.
[14] K. Bandara, C. Bergmeir, and S. Smyl, "Forecasting across time series databases using recurrent neural networks on groups of similar series: A clustering approach," Expert Systems with Applications, vol. 140, p. 112896, 2020/02/01/ 2020.
[15] C. Bergmeir, Rob J. Hyndman, and José M. Benítez, "Bagging exponential smoothing methods using STL decomposition and Box–Cox transformation," International Journal of Forecasting, vol. 32, pp. 303-312, 2016/04/01/ 2016.
[16] A. R. S. Parmezan, V. M. Souza, and G. E. Batista, "Evaluation of statistical and machine learning models for time series prediction: Identifying the state-of-the-art and the best conditions for the use of each model," Information Sciences, vol. 484, pp. 302-337, 2019.
[17] H. Shi, S. Hu, and J. Zhang, "LSTM based prediction algorithm and abnormal change detection for temperature in aerospace gyroscope shell," International Journal of Intelligent Computing and Cybernetics, vol. 12, pp. 274-291, 2019.
[18] T. Fischer and C. Krauss, "Deep learning with long short-term memory networks for financial market predictions," European Journal of Operational Research, vol. 270, pp. 654-669, 2018.
[19] I. E. Livieris, E. Pintelas, and P. Pintelas, "A CNN–LSTM model for gold price time-series forecasting," Neural computing and applications, vol. 32, pp. 17351-17360, 2020.
[20] S. Mehtab and J. Sen, "Stock price prediction using convolutional neural networks on a multivariate timeseries," arXiv preprint arXiv:2001.09769, 2020.
[21] F. Shahid, A. Zameer, and M. Muneeb, "Predictions for COVID-19 with deep learning models of LSTM, GRU and Bi-LSTM," Chaos, Solitons & Fractals, vol. 140, p. 110212, 2020/11/01/ 2020.
[22] S. Hochreiter and J. Schmidhuber, "Long short-term memory," Neural computation, vol. 9, pp. 1735-1780, 1997.
[23] K. Greff, R. K. Srivastava, J. Koutník, B. R. Steunebrink, and J. Schmidhuber, "LSTM: A Search Space Odyssey," IEEE Transactions on Neural Networks and Learning Systems, vol. 28, pp. 2222-2232, 2017.
[24] I. Goodfellow, Y. Bengio, and A. Courville, Deep learning: MIT press, 2016.
[25] W. Rawat and Z. Wang, "Deep convolutional neural networks for image classification: A comprehensive review," Neural computation, vol. 29, pp. 2352-2449, 2017.
[26] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, et al., "Attention is all you need," in 31st International Conference on Neural Information Processing Systems, Long Beach, California, USA, 2017, pp. 6000–6010.
[27] G. E. P. Box and D. R. Cox, "An Analysis of Transformations," Journal of the Royal Statistical Society: Series B (Methodological), vol. 26, pp. 211-243, 1964.
[28] R. B. Cleveland, W. S. Cleveland, J. E. McRae, and I. Terpenning, "STL: A seasonal-trend decomposition," Journal of official statistics, vol. 6, pp. 3-73, 1990.
[29] S. N. Lahiri, Resampling methods for dependent data: Springer Science & Business Media, 2013.
دو فصلنامه علمي فناوري اطلاعات و ارتباطات ایران | سال چهاردهم، شمارههاي 53 و 54، پاییزو زمستان 1401 صفحات:1 تا 13 |
|
A Novel Multi-Step Ahead Demand Forecasting Model Based on Deep Learning Techniques and Time Series Augmentation
Hossein Abbasimehr*, Reza Paki**
*Faculty of Information Technology and Computer Engineering, Azarbaijan Shahid Madani University, Tabriz,
Iran
**Graduated from Shahid Madani University of Azerbaijan
Abstract
In a business environment where there is fierce competition between companies, accurate demand forecasting is vital. If we collect customer demand data at discrete points in time, we obtain a demand time series. As a result, the demand forecasting problem can be formulated as a time series forecasting task. In the context of time series forecasting, deep learning methods have demonstrated good accuracy in predicting complex time series. However, the excellent performance of these methods is dependent on the amount of data available. For this purpose, in this study, we propose to use time series augmentation techniques to improve the performance of deep learning methods. In this study, three new methods have been used to test the effectiveness of the proposed approach, which are: 1) Long short-term memory, 2) Convolutional network 3) Multihead self-attention mechanism. This study also uses a multi-step forecasting approach that makes it possible to predict several future points in a forecasting operation. The proposed method is applied to the actual demand data of a furniture company. The experimental results show that the proposed approach improves the forecasting accuracy of the methods used in most different prediction scenarios. Also, the results on three public time series datasets confirms the superiority of the proposed method.
Keywords: Time Series, Deep Learning, Long short-term memory, Convolutional network, Multihead self-attention mechanism.
مدل جدید پیش بینی چند گامی تقاضا با استفاده از روشهای یادگیری عمیق و تکنیکهای دادهافزایی سری زمانی
حسین عباسی مهر* ، رضا پاکی**
*دانشکده فناوری اطلاعات و مهندسی کامپیوتر، استادیار، دانشگاه شهید مدنی آذربایجان، تبریز، ایران
**دانش آموخته ،دانشگاه شهید مدنی آذربایجان
تاریخ دریافت:19/06/1400 تاریخ پذیرش: 07/12/1400
نوع مقاله: پژوهشی
چکیده
در یک محیط تجاری که رقابت سختی بین شرکتها وجود دارد، پیشبینی دقیق تقاضا یک امر مهمی است. اگر دادههای مربوط به تقاضای مشتری را در نقاط گسستهای از زمان جمعآوری کنیم، یک سری زمانی تقاضا به دست میآید. درنتیجه، مسئله پیشبینی تقاضا به عنوان یک مسئله پیشبینی سریهای زمانی فرموله میشود. در زمینه پیشبینی سریهای زمانی، روشهای یادگیری عمیق دقت مناسبی در پیشبینی سریهای زمانی پیچیده داشتهاند. با این وجود عملکرد خوب این روشها به میزان دادههای در دسترس وابسته است. بدین منظور در این مطالعه استفاده از روشهای دادهافزایی سری زمانی در کنار روشهای یادگیری عمیق پیشنهاد میشود. در این مطالعه سه روش نوین جهت تست کارایی رویکرد پیشنهادی به کار گرفته شده است که عبارت اند از: 1) حافظه کوتاه مدت طولانی، 2) شبکه کانولوشنی 3) مکانیزم خودتوجه چندسر. همچنین در این مطالعه رویکرد پیشبینی چندگامی به کار گرفته میشود که امکان پیشبینی چند نقطه آینده را در یک عمل پیشبینی به وجود میآورد. روش پیشنهادی بر روی داده واقعی تقاضای یک شرکت مبلمان اعمال شده است. نتایج آزمایشها نشان میدهد که رویکرد پیشنهادی باعث بهبود دقت پیشبینی روشهای بهکار گرفته شده در اکثر حالات مختلف پیشبینی میشود. همچنین بکارگیری روش پیشنهادی روی مجموعه دادههای محک استاندارد، حاکی از عملکرد موفق مدلهای بدست آمده نسبت به مدلهای پایه میباشد.
واژگان کلیدی: سری زمانی، یادگیری عمیق، حافظه طولانی کوتاه-مدت، شبکه کانولوشنی، مکانیزم خودتوجه چندسر.1
[1] ho.abbasimehr@gmail.com حسین عباسی مهر: نويسنده مسئول
1. مقدمه
پیش بینی تقاضا پایه تمام فعالیتهای برنامهریزی یک شرکت است [1]. رقابت سخت میان شرکت ها در تمام زمینه ها، پیش بینی دقیق تقاضاهای مشتری با استفاده از شیوه های رایج تقاضا را برای کسب و کارها دشوار ساخته است؛ بنابراین، شرکتها از روشهای پیشرفته علم داده به منظور پیشبینی تقاضای مشتریان خود استفاده میکنند [2]. اگر دادههای مربوط به تقاضای مشتری را در نقاط گسستهای از زمان (برای مثال روزانه، هفتگی، ماهانه) جمع آوری کنیم، یک سری زمانی تقاضا به دست میآید. بنابراین، میتوان مسئله پیشبینی تقاضا را به عنوان یک مسئله پیشبینی سریهای زمانی فرموله کرد [3]. سریهای زمانی در حوزههای کاربردی مختلفی از جمله، پیشبینی مصرف بار الکتریکی (به عنوان مثال [4, 5])، پیشبینی تماسهای ورودی مرکز تماس [6]، تقاضای گردشگری [7]، پیشبینی تقاضای پول نقد دستگاه خودپرداز [8]، پیشبینی حجم تولید نفتی [9]، پیشبینی هوا [10]، پیشبینی رفتار مشتریان بانکی [11] پیشبینی تعداد مبتلایان بیماری کویید-19 [12] و غیره به کار گرفته شده است.
در زمینه پیشبینی سریهای زمانی، روشهای یادگیری عمیق دقت مناسبی در پیشبینی سریهای زمانی پیچیده داشتهاند [2, 13, 14]. مهمترین خصوصیت روشهای یادگیری عمیق توانایی آنها در یادگیری بازنمایی از دادههای ورودی خام است. در این مطالعه سه روش نوین جهت پیش بینی تقاضا بکارگرفته شده است که عبارت اند از: 1) حافظه طولانی کوتاه-مدت1، 2) شبکه کانولوشنی2 3) مکانیزم توجه چند سر3.
علی رغم عملکرد خوب این روشها در پیشبینی دقیق یک سری زمانی، قدرت پیشبینی آنها به میزان دادههای در دسترس وابسته است. معمولا سریهای زمانی واقعی دارای طول کوتاه هستند و در نتیجه تعداد نمونه داده های استخراجی از آنها جهت ساخت مدل پیشبینی ممکن است کافی نباشد [14]. بدین منظور در این مطالعه استفاده از روشهای دادهافزایی سری زمانی4 [15] در کنار روشهای یادگیری عمیق پیشنهاد میشود. سه روش یادگیری عمیق شامل روش LSTM، روش مبتنی بر شبکه کانولوشنی و همچنین روش مبتنی بر توجه چندسر برای بررسی کارایی روش پیشنهادی پیادهسازی میشوند. در این مطالعه رویکرد پیشبینی چندگامی به کار گرفته میشود، رویکرد پیشبینی چندگامی، امکان پیشبینی چند نقطه آینده را در یک عمل پیشبینی به وجود میآورد بر خلاف استراتژی پیشبینی تک گامی که در هر پیشبینی فقط یک نقطه آینده را پیشبینی میکند. نوآوریهای این مطالعه عبارتاند:
(1) ترکیب روشهای دادهافزایی سری زمانی با روشهای یادگیری عمیق برای حل مشکل کمبود داده در سریهای زمانی
(2) استفاده از مدل مکانیزم خود توجه چندسر برای پیش بینی سری زمانی
(3) طراحی مدلهای یادگیری عمیق جهت انجام پیشبینی دادهها به صورت چندگامی
(4) بکارگیری روش پیشنهادی روی سریهای زمانی محک و تایید عملکرد موفق آن
روش پیشنهادی بر روی داده واقعی تقاضای یک شرکت مبلمان اعمال شده است. نتایج نشان میدهد که رویکرد پیشنهادی باعث بهبود دقت پیشبینی روشهای بهکار گرفته شده در اکثر حالات مختلف پیشبینی میشود. همچنین بکارگیری روش پیشنهادی روی مجموعه داده های محک استاندارد، حاکی از عملکرد موفق مدلهای بدست آمده نسبت به مدلهای پایه میباشد.
ساختار ادامه این مقاله بدین گونه است. بخش 2 مرور ادبیاتی جامع از پیشبینی سری زمانی با استفاده از روشهای یادگیری عمیق را ارائه میدهد. در بخش 3، روی کرد پیشنهادی را توصیف میکنیم. بخش 4 به توصیف دادهها، مراحل پیادهسازی پرداخته و نتایج مدل ها را مورد مقایسه و تحلیل قرار میدهد. در بخش 5، روش پیشنهادی روی سه مجموعه داده محک استفاده شده و نتایج آن گزارش میشود. نتیجهگیری و ارائه پیشنهاد کارهای آتی در بخش 6 ارائه میشود.
2. تحقیقات مرتبط و مفاهیم پایه
در این بخش ابتدا به مرور تحقیقات مرتبط با پیش بینی سری های زمانی با استفاده از روشهای یادگیری عمیق پرداخته و سپس روشهای مورد استفاده در این مطالعه را توصیف میکنیم.
2. 1 تحقیقات مرتبط در زمینه پیشبینی سری زمانی با روشهای یادگیری عمیق
در سالهای اخیر از روشهای یادگیری عمیق در زمینه پیشبینی سری زمانی به طور فزایندهای استفاده شده است.
جدول 1 برخی از تحقیقات در زمینه پیشبینی سری زمانی با استفاده از آن روشها را نمایش میدهد. همانطور که در جدول مشاهده میشود، روش LSTM پرکاربردترین روش از دسته روشهای یادگیری عمیق در حوزه پیشبینی سری زمانی است. همچنین روشهای مبتنی بر شبکه کانولوشنی، مکانیزم خودتوجه چندسر و روشهای ترکیبی متشکل از این روشها در تحقیقات قبلی مورد استفاده قرار گرفته است.
2. 2 روش حافظه طولانی کوتاه مدت
مدل LSTM یک نوع شبکه عصبی بازگشتی5 بهبودیافته است که توسط هوچریتر و اشمیت6 [21] توسعه داده شده است. این مدل قابلیت قوی در پیشبینی سریهای زمانی دارد LSTM می تواند اطلاعات وابستگیهای طولانی مدت در دادههای سری زمانی را استخراج کرده و به طور مناسب بین داده ورودی و خروجی نگاشت ایجاد کند [22]. همانطور که در شکل 1 نشان داده شده است LSTM از چهار بخش سلول حافظه ، گیت ورودی ، گیت فراموشی و گیت خروجی تشکیل شده است [22]. در ادامه با در نظر گرفتن پارامترهای زیر به توصیف عملیاتی که در مدل LSTM انجام میشود میپردازیم
[1] Long short-term memory (LSTM)
[2] Convolutional Neural Network (CNN)
[3] Multi head self-attention
[4] Time series augmentation
[5] Recurrent Neural Network (RNN)
[6] Hochreiter and Schmidhuber
جدول 1. برخی از تحقیقات در زمینه پیشبینی سری زمانی با استفاده از روشهای یادگیری عمیق
مرجع | نوآوری | نتایج | روش یادگیری عمیق |
[9] | ارائه یک معماری LSTM چند لایه برای پیش بینی سری زمانی | نتایج این مطالعه نشاندهنده این است که روش LSTM چند لایه ارائه شده، نسبت به روش آماری ARIMA و روشهای استفاده شده در تحقیقات دیگر عملکرد موفقتری از خود نشان میدهد. | LSTM چند لایه |
[16] | ارائه یک مدل LSTM دو لایه جهت پیشبینی سری زمانی دمای پوسته ژیروسکوپ | در مقایسه با روشهایی شامل SVM و شبکه عصبی، روش LSTM عملکرد بهتری از خود نشان میدهد. | LSTM |
[17] | بهکارگیری LSTM برای انجام پیشبینی شاخص های مالی | نتایج روی مجموعه داده مالی نشان میدهد که روش LSTM قادر به استخراج ویژگیهای از سری های زمانی دارای نویز می باشد. همچنین LSTM نسبت به روش هایی نظیر شبکه عصبی استاندارد، رگراسیون لجستیک و روش جنگل تصادفی، عملکرد بهتری از خود نشان میدهد. | LSTM |
[14] | ارائه چارچوبی برای خوشهبندی سریهای زمانی و سپس ایجاد نمونه داده از هر خوشه جهت ایجاد مدل پیشبینی | نتایج این مطالعه نشان میدهد که در اکثر سناریوها، ترکیب روشهای خوشهبندی با LSTM بهتر از روش LSTM پایه عمل میکند. | LSTM |
[2] | ارائه یک مدل LSTM بهینه چند لایه جهت پیشبینی سری زمانی تقاضا | معماری چند لایه LSTM نتایج بهتری نسبت به سایر روشهای مورد استفاده نظیر روش RNN، شبکه عصبی چندلایه پرسپترون، SVM، KNN و روش های آماری دارد | LSTM |
[18] | توسعه یک روش ترکیبی مبتنی بر شبکه کانولوشنی و شبکه LSTM جهت پیشبینی قیمت طلا | نتایج نشان میدهد که مدل LSTM-CNN نتایج بهتری نسبت به مدلهای پایه دارد. | LSTM شبکه کانولوشنی |
[19] | پیشبینی شاخص سهام با استفاده از شبکههای کانولوشنی | نتایج این تحقیق نشاندهنده قدرت مدلهای CNN در پیش بینی قیمت سهام با استفاده از مجموعه داده انتخاب شده متعلق به یک دوره چهار ساله بورس ملی هند است. | شبکه کانولوشنی |
[20] | پیشبینی تعداد مبتلاین کویید-19 با روشهای یادگیری عمیق | نتایج این تحقیق حاکی از آن است که روش LSTM دو طرفه بهترین عملکرد را در بین دیگر روشها از جمله LSTM، روش SVR و روش ARIMA بدست آورده است. | LSTM شبکه عصبی بازگشتی1 مبتنی بر گیت |
[12] | توسعه مدلهای مبتنی بر یادگیری عمیق جهت پیشبینی سری زمانی مبتلایان کویید-19 | روشهای مبتنی بر یادگیری عمیق عملکرد موفقی در زمینه پیشبینی سری زمانی مبتلایان کویید-19 در 10 کشور با بالاترین تعداد ابتلا داشتند. روشهای مورد استفاده در این تحقیق نسبت به مدل ارائه شده در دیگر تحقیقات عملکرد بهتری داشته اند. | LSTM, روش مبتنی بر مکانیزم توجه چندسر، |
[1] Gated Recurrent Unit (GRU)
شکل 1. ساختار شبکه LSTM [22]
: مقدار ورودی در نقطه زمانی
و مقدار خروجی در نقطه زمانهای و
و حالات سلول در نقطه زمانهای و
بردارهای سوگیری گیت ورودی، گیت فراموشی، سلول حافظه و گیت خروجی.
ماتریسهای وزنی گیت ورودی، گیت فراموشی، سلول حافظه و گیت خروجی.
وزنهای بازگشتی گیت ورودی، گیت فراموشی، سلول حافظه و گیت خروجی
، خروجی واحد LSTM از طریق رابطه (1) محاسبه میشود:
(1) |
|
جایی که اطلاعاتی خروجی واحد LSTM را تنظیم میکند و حافظه واحد LSTM در زمان است. با رابطه (2) محاسبه میشود
(2) |
|
که در آن به عنوان تابع سیگموید است.
سلول حافظه، با فراموش کردن بخشی از اطلاعات حافظه کنونی، و اضافه کردن محتوای جدید حافظه، آپدیت میشود (رابطه (3)).
(3) |
|
|
که محتوای جدید حافظه، با استفاده از رابطه (4) زیر بدست میآید:
(4) |
|
اینکه تا چه حدی اطلاعات حافظه فعلی فراموش شود توسط گیت فراموشی، تعیین میشود؛ و همچنین اینکه تا چه میزانی محتوای حافظه جدید به سلول حافظه اضافه شود توسط گیت ورودی، مشخص میشود. گیت های خروجی و ورودی به ترتیب توسط روابط (5) و (6) محاسبه میشود
(5) |
|
(6) |
|
که در آن به عنوان تابع سیگموید است [23].
2. 3 روش مبتنی بر شبکه کانولوشنی
CNN کاربردهای موفقی در حوزه مختلف مخصوصا در زمینه بینایی ماشین داشته است [23]. یک لایه کانولوشنی دادههای ورودی خام را دریافت کرده و با انجام عملیات کانولوشن با استفاده از کرنلهای کانولوشن ویژگیهای جدیدی استخراج میکند. هر لایه کانولوشن شامل یک کرنل (یک پنجره کوچک) است که روی دادههای حرکت کرده و از طریق انجام عملیات کانولوشنی ویژگیهای جدید را محاسبه میکند [24]. ویژگیهای جدید قابلیت متمایزسازی بالایی نسبت به دادههای خام ورودی داشته و باعث بهبود دقت پیشبینی میشود.
2. 4 روش مبتنی بر مکانیزم خودتوجه چندسر
در سالهای اخیر بکارگیری مکانیزم توجه در حوزه پردازش زبان طبیعی موفقیت آمیز بوده است [25, 26]. مطالعه وسوانی1 و همکاران [27] کارایی مکانیزم توجه را در پردازش دادههای ترتیبی به خوبی نشان داده است. یک تابع توجه یک کوئری Q به همراه یک مجموعه از کلید-مقدارها <K,V> را دریافت می کند تا خروجی O را محاسبه کند. ورودی لایه خودتوجه سه پارامتر با نام های key-query-value هستند. این سه ورودی میتوانند منبع یکسانی داشته باشند و یا از لایههای قبلی گرفته شوند. در پیشبینی سریهای زمانی از یک ورودی استفاده میکنیم.
3. رويکرد پيشنهادی و معماری مدلهای مورد استفاده
در این مطالعه ابتدا سه روش یادگیری عمیق شامل روش LSTM، روش شبکه کانولوشنی و همچنین روش خودتوجه چندسر پیادهسازی میشود؛ سپس یک رویکرد مبتنی بر دادهافزایی سری زمانی برای بهبود عملکرد این روشها ارائه میشود.
3. 1 رویکرد پیشنهادی
همانطور که قبلا اشاره شد، یک سری زمانی دنباله ای از مشاهدات بر روی یک متغیر مورد نظر است که به صورت منظم در نقاط گسسته ای از زمان گردآوری میشوند. در یک مسئله پیشبینی سری زمانی با استفاده از روشهای یادگیری ماشین، سری به بخش آموزش و بخش تست تقسیم میشود. بخشی از دادههای آموزش برای ارزیابی و انتخاب مدل بهینه انتخاب می شوند که به آنها دادههای اعتبارسنجی گفته می شود. در یک سری زمانی بخش تست از نقاط انتهایی سری انتخاب میشود و دادههای نزدیک به بخش تست تاثیر بیشتری در دقت مدل دارند. دادههای از نوع سری زمانی دارای خصوصیات متفاوتی نسبت به دادههای غیرزماندار دارند. در یک مسئله یادگیری ماشین مرتبط با دادههای غیرزمانی هر چقدر دادهها بیشتر باشد معمولا دقت مدل بهتر میشود اما این موضوع در زمینه دادههای سری زمانی وابسته به ویژگیهای سری است. همچنین به دلیل اینکه طول بعضی از سریهای زمانی کوتاه است، مدلهای یادگیری ماشین/عمیق با مشکل بیشبرازش مواجه میشوند. برای حل این مشکل در این مطالعه استفاده از روشهای دادهافزایی سری زمانی و استفاده از آنها به عنوان داده اعتبارسنجی پیشنهاد می شود. روال کلی ایده پیشنهادی در شکل 2 و شبه کد آن در الگوریتم 1 نمایش داده شده است.
شکل 2. روال کلی روش پیشنهادی
در رویکرد پیشنهادی برای انجام دادهافزایی سری زمانی از الگوریتم دادهافزایی توسعه داده شده در [15] استفاده میکنیم. این الگوریتم ابتدا یک تبدیل Box-Cox [28] روی سری انجام داده و سپس سری را به اجزای آن شامل تغییرات فصلی2، روند3 و باقی مانده4 با استفاده از روش های تجزیه سری STL5 یا loess [29] بر اساس نوع سری تجزیه میکند. برای سریهای دارای تغییرات فصلی از روش STL جهت تجزیه سری به اجزا آن و همچنین برای سریهای غیرفصلی از روش loess جهت تجزیه سری به اجزا روند و باقی مانده استفاده میشود. سپس نمونه برداری از روی سری باقی مانده را با استفاده از روش نمونه برداری بلوک متحرک (MBB6) [30] انجام داده و مولفه تغییرات فصلی و روند را به سری نمونهبرداری شده اضافه میکند و در آخر تبدیل معکوس Box-Cox روی سری بدست آمده انجام میدهد. در روش نمونهبرداری بلوک متحرک، ابتدا با در نظر گرفتن اندازه بلوک، ، برای یک سری زمانی به طول ، بلوک همپوشان ساخته میشود. شکل 1 بلوکهای همپوشان را برای حالتی که است، نشان میدهد. نقاط بلوک اول را نشان میدهد، نقاط بلوک دوم را نشان میدهد و به همین ترتیب، بلوک آخر شامل نقاط است.
شکل 1. فرآیند ایجاد بلوکهای همپوشان از سری زمانی]30[
سپس برای ساخت سری نمونه برداری شده، به طور تصادفی
بلوک (با جایگزینی) انتخاب شده و تلفیق می شوند.
سری بدست آمده از طریق دادهافزایی همانطور که در شکل 2 نشان داده شده است جهت ایجاد مجموعه داده اعتبار سنجی در مدلسازیها بهکار گرفته میشود.
الگوریتم 1. شبه کد روش پیشنهادی
Algorithm 1: Input: Time series (TS), n_Boot, Lag, Output_Window Output: Bootstrapped Validation Set 1- BC_TS=Box-Cox_transform (TS) 2- [Trend, Seasonal, Remainder] = Decompose (BC_TS) 3- For i in 1 to n_Boot: 4- Boot reminder[i]=MBB (Reminder) 5- Series_BC[i]=Trend + Seasonal + Boot reminder [i] 6- New_Series[i]=Invert_ Box-Cox_transform (Series_BC[i]) 7- End 8- Augmented_series=Mean (New_Series) 9- [train,val, test]=GenerateSamples (ts, Lag, Output_Window) 10- [aug_train,aug_val, aug_test]=GenerateSamples (Augmented_series, Lag, Output_Window) 11- Val_new= Concat (val, val_aug) 12- Return Val_new |
3. 2 معماری مدلهای مورد استفاده جهت تست رویکرد پیشنهادی
همانطور که در ابتدای این بخش بیان شد، در این مطالعه سه روش یادگیری عمیق شامل روش LSTM، روش شبکه کانولوشنی و همچنین روش خودتوجه چندسر جهت سنجش کارایی رویکرد پیشنهادی پیادهسازی میشود. رویکرد پیشنهادی در این پژوهش به عنوان یک روش پیشپردازش محسوب میشود و مجموعه داده مناسب برای اعتبارسنجی مدلها را فراهم میکند. معماری روشهای پیادهسازی شده در شکل توصیف شده است. همانطور که در شکل قابل مشاهده است، هر کدام از مدلها دارای یک لایه ورودی، یک لایه اصلی، لایه مسطح ساز7، لایه کاملا متصل8 و لایه خروجی هستند. لایه ورودی نمونه دادههای استخراج شده از سری زمانی را به عنوان ورودی دریافت کرده و هر کدام از لایههای اصلی کار یادگیری بازنمایی از دادههای ورودی را انجام میدهند و ویژگیهای جدیدی را استخراج میکنند. ویژگیهای بدست آمده توسط لایه مسطح ساز در یک برداری مسطح شده و به لایه کاملا متصل خورانده میشود. گرههای این لایه به لایه خروجی متصل شده و کار پیشبینی را انجام میدهند. تعداد گرههای لایه خروجی نشان دهنده تعداد گامهای پیشبینی مدل است.
4. آزمایشهای عملی و نتایج
در این بخش ابتدا به توصیف مجموعهداده مورد استفاده جهت انجام آزمایشها پرداخته و سپس نتایج عملکرد مدلها بیان شده و مورد تحلیل قرار میگیرد. الگوریتمهای مورد استفاده در این تحقیق با استفاده از کتابخانه یادگیری عمیق9Keras پیادهسازی شدهاند.
شکل 3. معماری مدلهای پیادهسازی شده
4. 1 مجموعهداده مطالعه موردی
دادههای مورد استفاده در این مطالعه، دادههای تقاضای یک محصول پرفروش یک شرکت مبلمان است که در طی 11 سال به طور روزانه جمع آوری شده است. این دادهها به صورت ماهانه تجمیع شده و در قالب یک سری زمانی ماهانه مورد استفاده قرار گرفتند. تعداد نقاط زمانی این سری 132 ماه است. در این مطالعه 12 نقطه انتهایی سری به عنوان بخش تست در نظر گرفته شده و مابقی دادهها برای آموزش و ساخت مدلها بکار گرفته شده است.
4. 2 تنظیم پارامترها
در مسئله پیشبینی سریهای زمانی با استفاده از روشهای یادگیری عمیق ابرپارامترهای متعددی وجود دارد که انتخاب بهینه آنها تاثیر زیادی در افزایش دقت مدل ساخته ایجاد میکند. به جهت اینکه مدلهای یادگیری عمیق شامل پارامترهای زیادی هستند، آموزش آنها زمانبر بوده و امکان بررسی تمامی ترکیبهای مختلف ابرپارامترها وجود ندارد؛ بنابراین در این مطالعه از یک الگوریتم بهینه سازی بیزین برای انتخاب مدلها استفاده کردیم. در
جدول 2 ابرپارامترهای مورد استفاده در این مطالعه برای هر روش و محدوده هرکدام از آنها توصیف شده است. برخی از ابرپارامترها در بین تمامی مدلها مشترک است. ابرپارامتر اندازه پنجره در ساخت نمونهها از سری زمانی به کار میرود و انتخاب بهینه آن نقش مهمی در دقت مدلهای ساخته شده دارد.
جدول 2. ابرپارامترهای بهینه شده توسط بهینه ساز بیزین
ابرپارامتر | محدوده ابرپارامتر |
ابرپارامترهای مشترک بین تمامی مدلها | · اندازه پنجره: [10،11،12،13،14،15] · تعداد تکرار (Epoch): حداکثر 500 – بر اساس تغییرات خطای مدل روی دادههای اعتبارسنجی تنظیم میشود. · نرخ یادگیری: [0.0001، 0.0005، 0.001، 0.005، 0.01، 0.05] · بهینه ساز: Adam ]23[ · تابع فعالسازی لایه های کاملا متصل و خروجی: [ReLU, Linear] |
مدلهای مبتنی بر LSTM | · تعداد واحدها: [4، 8، 16، 32، 64، 128] · تابع فعالسازی: [ReLU, Linear] · نرخ dropout: [0،0.1،0.2،0.3،0.4،0.5] |
مدلهای مبتنی بر CNN | · اندازه کرنل: [2،3،4] · تعداد فیلترها: [32،64،128،256] |
مدلهای مبتنی بر مکانیزم توجه چند سر | · تابع فعالسازی: [ReLU, Linear] |
4. 3 اقدامات مربوط به جلوگیری از بیش برازش مدلها
مدلهای پیچیدهای نظیر شبکه عصبی بدون تنظیم مناسب با خطر بیش برازش مواجه هستند. بیش برازش زمانی اتفاق میافتد که هنگام آموزش مدل که در یک تکرار مشخصی، خطا روی دادههای آموزشی کاهش مییابد اما خطا روی دادههای اعتبارسنجی (که به آن خطای تعمیم10 میگویند) شروع به افزایش میکند]31[. بنابراین انجام اقداماتی جهت تنظیم شبکه مخصوصا زمانی که تعداد دادهها کم باشد، اهمیت زیادی دارد [14]. در این مطالعه برای جلوگیری از خطر بیشبرازش مدلها، از روش توقف زودهنگام11 ]31[ استفاده میشود. روش توقف زودهنگام عملکرد بهتری نسبت به سایر روشهای تنظیم آموزش شبکه دارد ]31[. مراحل این روش به صورت زیر است:
1- تقسیم دادههای آموزشی به مجموعههای داده آموزش و اعتبار سنجی
2- آموزش مدل روی دادههای آموزشی و محاسبه خطا روی مجموعه داده اعتبارسنجی
3- متوقف کردن آموزش مدل به محض اینکه خطا روی مجموعه اعتبارسنجی در تعداد تکرار مشخصی (مثلا 10 تکرار بعدی)، نسبت به خطای اندازهگیری شده تکرارهای قبلی بهبود پیدا نکند.
4- در نظر گرفتن مدل بدست آمده در تکرار قبلی به عنوان مدل نهایی
همچنین در این مطالعه، برای جلوگیری از بیش برازش، لایه حذف تصادفی12 در پیکرهبندی تمامی مدلهای استفاده شده گنجانده شده است.
4. 4 معیار ارزیابی
در این مطالعه از معیار میانگین درصد قدرمطلق خطا متقارن (SMAPE13) و میانگین درصد قدرمطلق خطا (MAPE14) که معیارهای رایج در زمینه اندازهگیری دقت مدلها در پیشبینی سریهای زمانی هستند استفاده میکنیم. این معیارها با رابطههای 7 و 8 محاسبه میشود:
(7)
(8)
که در این رابطه و ، به ترتیب مقادیر واقعی و پیشبینی در نقطه زمانی هستند.
4. 5 نتایج
همانطور که قبلا بیان شد در مطالعه از رویکرد پیشبینی چندگام آینده استفاده میکنیم. بنابراین، برای سنجش کارایی روش پیشنهادی، در این مطالعه مدلها بر اساس تعداد خروجیهای مختلف مورد ارزیابی قرار گرفتهاند. پرکاربردترین روش در مطالعات قبلی استفاده از طول گام 1 است. برای انجام پیشبینی به اندازه افق 15 ()، طول گام انتخابی بایستی مضربی از باشد. با توجه به اینکه طول بخش تست در این مطالعه برابر 12 است، بنابراین طول گامهای مورد آزمایش برابر 1، 2، 3، 4، 6 انتخاب شدند. در این مطالعه علاوه بر سه مدل پایه شامل مدل مبتنی بر حافظه طولانی کوتاه-مدت (LSTM) مدل مبتنی بر شبکه کانولوشنی (CNN) و مدل مبتنی بر مکانیزم خودتوجه چند سر (ATT)، سه مدل جدید با ترکیب رویکرد پیشنهادی و مدلهای پایه شامل مدل LSTM_AUG (LSTM + داده افزایی)، مدل CNN_AUG (CNN + دادهافزایی) و مدل ATT_AUG (ATT + داده افزایی) پیادهسازی شدند.
نتایج آزمایشها در
جدول 3 بر مبنای معیارSMAPE نمایش داده شده است. همانطور که مشاهده میشود، روش پیشنهادی بیشترین بهبود را روی ATT گذاشته است. روش ATT_AUG در هر 5 حالت بهتر از روش توجه ATT عمل کرده است که این بیانگر تاثیر روش پیشنهادی روی این مدل است. برای روش LSTM همانطور که مشاهده میکنید در سه حالت خروجی 1، 2 و 3 روش LSTM_AUG باعث بهبود نتایج شده است. همچنین برای روش CNN در 4 حالت خروجی 1، 2، 3 و 4 روش CNN_AUG منجر به افزایش دقت مدل گشته است. به طور کلی از بین 15 ترکیب از مدلها، در 12 مورد مدلهای حاصله از دادهافزایی بهترین نتیجه را نسبت به مدلهای پایه بدست آوردهاند. همچنین مقایسه تمامی مدلها نشان میدهد که برای پیشبینی با گام 1، روش ATT_AUG کمترین خطا
(11.95 SMAPE =) را بدست آورده است. برای خروجی 2 و 3 روش CNN_AUG بهترین مدلها را تولید کرده است. برای خروجی 4 و 6 به ترتیب روش LSTM و روش CNN بهترین نتایج را کسب کرده اند. ترکیب این نتایج نشاندهنده مفید بودن روش پیشنهادی است. همانطور که قبلا بیان شد، برای جلوگیری از بیش برازش مدلهای مبتنی بر یادگیری عمیق، نیاز است تا داده اعتبارسنجی مورد استفاد متفاوت از داده های سری انتخاب شود.
همچنین
جدول 4 نتایج عملکرد مدل ها را بر مبنای معیار MAPE نشان میدهد. ATT_AUG و CNN_AUG در هر 5 حالت نسبت به روشهای پایه خود یعنی روش ATT و CNN عملکرد بهتری را داشتهاند. بررسی نتایج روش LSTM_AUG نشان میدهد که این روش برای گامهای 1، 2 و 3 دارای بیشترین بهبود نسبت روش پایه، یعنی LSTM داشته است. همچنین برای گام 4، این روش اندکی موفقتر از روش پایه ظاهر شده است.
جدول 3. نتایج مدلها
روش | تعداد خروجی | ||||
1 | 2 | 3 | 4 | 6 | |
ATT | 14.70 | 14.77 | 14.69 | 14.71 | 15.99 |
ATT_AUG | 11.95 | 14.12 | 14.10 | 13.85 | 15.60 |
LSTM | 14.55 | 14.74 | 15.11 | 13.47 | 14.18 |
LSTM_AUG | 14.40 | 14.58 | 14.23 | 14.02 | 14.79 |
CNN | 13.55 | 14.58 | 13.41 | 15.35 | 13.99 |
CNN_AUG | 13.22 | 13.59 | 12.67 | 15.12 | 14.27 |
جدول 4. نتایج مدل ها بر اساس معیار MAPE
روش | تعداد خروجی | ||||
1 | 2 | 3 | 4 | 6 | |
ATT | 17.15 | 17.84 | 17.90 | 17.89 | 20.49 |
ATT_AUG | 13.19 | 16.56 | 16.29 | 16.65 | 20.32 |
LSTM | 17.03 | 19.09 | 18.30 | 17.15 | 17.51 |
LSTM_AUG | 16.51 | 15.73 | 16.40 | 17.17 | 17.47 |
CNN | 16.51 | 17.49 | 15.85 | 18.22 | 17.41 |
CNN_AUG | 16.11 | 16.81 | 15.33 | 18.30 | 17.38 |
به منظور تحلیل بیشتر نتایج، برای هر طول گام، پیشبینی حاصل از بهترین مدلها و دادههای واقعی در شکلهای 4، 5، 6، 7 و 8 ترسیم شده است. همانطور که برای گام 1 مشخص روش ATT_AUG پیشبینی نزدیکتری نسبت به داده واقعی (real-data) دارد. همچنین برای گامهای 2 و 3، CNN_AUG پیش بینی با خطای کمتری داشته است. برای گامهای 4 و 6 به ترتیب روش های LSTM و CNN پیش بینی دقیقتری بدست آوردهاند.
شکل 4. نمودار دادههای واقعی و پیش بینی با گام 1
شکل 5. نمودار دادههای واقعی و پیش بینی با گام 2
شکل 6. نمودار دادههای واقعی و پیش بینی با گام 3
شکل 7. نمودار دادههای واقعی و پیش بینی با گام 4
5. ارزیابی روش پیشنهادی روی مجموعه دادههای محک
در بخش قبلی تاثیر روش پیشنهادی در بهبود دقت پیشبینی روشهای یادگیری عمیق روی مجموعه داده مربوط به شرکت مبلمان مورد بررسی قرار گرفت. در این بخش، عملکرد روش پیشنهادی روی 3 مجموعه داده محک استاندارد مورد بررسی قرار میگیرد. این 3 مجموعه داده عبارتاند از: 1) مجموعهداده Wolf’s sunspot 2) مجموعه داده Canadian lynx و 3) مجموعه داده سری زمانی قیمت پایانی سهام شرکت IBM. این سریهای زمانی مربوط به حوزههای متفاوتی هستند و ویژگیهای آماری متفاوتی دارند. این مجموعه دادهها به صورت گسترده در تحقیقات مربوط به سری زمانی مورد استفاده قرار گرفتهاند. در این خصوص نتایج بدست آمده در تحقیق [32] جهت مقایسه عملکرد مدلها مورد استفاده قرار میگیرد. برای ایجاد شرایط یکسان در آزمایشات، تعداد نقاط آموزش و تست در سری زمانی مطابق تحقیق [32] انتخاب شدند. همچنین مشابه تحقیق[32] استراتژی پیشبینی یک گامی در نظر گرفته میشود. در جدول 5 توصیفهای مربوط به هر مجموعه داده به همراه تعداد نقاط آموزش و اعتبارسنجی و آزمون ارائه شده است.
شکل 8. نمودار دادههای واقعی و پیش بینی با گام 6
جدول 5. توصیف مجموعه دادههای محک
مجموعه داده | توصیف | تعداد نقاط مجموعه آموزش | تعداد نقاط اعتبارسنجی | تعداد نقاط آزمون |
Sunspot | سری زمانی تعداد لکه های خورشیدی 1700-1987 | 172 | 58 | 58 |
Lynx | تعداد سالانه سیاهگوش های به دام افتاده16، رودخانه مکنزی، 1821-1934 | 68 | 23 | 23 |
IBM | سری زمانی قیمت پایانی سهام شرکت IBM در بازه زمانی 1961/5/17 تا 1962/2/11. | 221 | 74 | 74 |
در ادامه به ارائه نتایج عملکردی روش پیشنهادی روی هر کدام از مجموعه دادهها میپردازیم. شایان ذکر است که مطابق با تحقیق [32]، در این بخش نتایج عملکرد مدلها را با استفاده از معیار SMAPE گزارش میدهیم.
5. 1 مقایسه عملکرد روشها روی مجموعه داده Sunspot
جدول 6 میزان خطای مدلها را بر اساس معیار SMAPE روی مجموعه داده Sunspot نشان میدهد. مدل ATT_AUG بهترین عملکرد را در بین روشها دارد. همچنین مقایسه نتایج نشان میدهد که مدلهای بدست آمده با روش پیشنهادی نسبت به روشهای پایه دارای خطای کمتری هستند. مدل LSTM_AUG نسبت به مدل LSTM دارای بهبود 27.44% است؛ همچنین CNN_AUG دارای بهبود 19.29 درصدی نسبت مدل CNN است. علاوه بر این، مدل ATT_AUG دارای بهبود 8.13% نسبت به مدل ATT است. همچنین تمامی مدلهای مبتنی بر روش پیشنهادی شامل LSTM_AUG، CNN_AUG و ATT_AUG از مدل ارائه شده در تحقیقات فعلی (مدل ETS_ANN[32]) عملکرد بهتری دارند. به طور کلی نتایج نشان میدهد که روش پیشنهادی روی این مجموعهداده باعث افزایش عملکرد مدلهای پایه شده است.
جدول 6. مقایسه عملکرد روش پیشنهادی با نتایج مدلهای تحقیقات فعلی روی مجموعه داده Sunspot
مدل | SMAPE |
LSTM | 37.10 |
LSTM_AUG | 26.92 |
CNN | 32.66 |
CNN_AUG | 26.36 |
ATT | 28.29 |
ATT_AUG | 25.99 |
ETS_ANN[32] | 29.453 |
5. 2 مقایسه عملکرد روشها روی مجموعه داده Lynx
نتایج عملکرد مدلها روی مجموعه داده Lynx براساس معیار SMAPE در جدول 7 آمده است. برای این مجموعهداده نیز، مدلهای مبتنی بر روش پیشنهادی دارای نتایج بهتری نسبت به مدل های پایه دارند. مدل LSTM_AUG با خطای 49.68 دارای 9.9 درصد بهبود نسبت به LSTM پایه است. همچنین مدل CNN_AUG با میزان خطای 42.59 بهترین عملکرد را در بین تمامی مدلها بدست آورده است. علاوه بر این، این مدل نسبت به مدل پایه خود یعنی مدل CNN دارای 25.26 درصد بهبود است. همچنین هر سه مدل مبتنی بر روش پیشنهادی شامل LSTM_AUG، CNN_AUG و ATT_AUG دارای عملکرد بهتری نسبت به مدل ارائه شده در تحقیق ETS_ANN[32] هستند.
جدول 7. مقایسه عملکرد روش پیشنهادی با نتایج مدلهای تحقیقات فعلی روی مجموعه داده Lynx
مدل | SMAPE |
LSTM | 55.68 |
LSTM_AUG | 49.68 |
CNN | 56.99 |
CNN_AUG | 42.59 |
ATT | 55.18 |
ATT_AUG | 42.60 |
ETS_ANN[32] | 56.674 |
5. 3 مقایسه عملکرد روشها روی مجموعه داده IBM
جدول 8 نتایج عملکرد مدلهای بدست با استفاده از روش پیشنهادی را روی سری زمانی IBM نشان میدهد. همانطور که در جدول مشاهده میشود، هر سه روش مبتنی بر دادهافزایی عملکرد بهتری نسبت به روشهای پایه خود دارند. مدلهای LSTM_AUG، CNN_AUG و ATT_AUG به ترتیب دارای بهبود 2.24%، 6.26 % و 6.76% نسبت به مدلهای پایه خود دارند. همچنین، در مقایسه با بهترین روش موجود در تحقیقات فعلی، یعنی روش ترکیبی ETS-ANN، روشهایLSTM ، LSTM_AUG و ATT_AUGخطای کمتری دارند. مدل LSTM_AUG بهترین عملکرد را در بین تمامی مدلها از خود نشان میدهد.
جدول 8. مقایسه عملکرد روش پیشنهادی با نتایج مدلهای تحقیقات فعلی روی مجموعه داده IBM
مدل | SMAPE |
LSTM | 1.5828 |
LSTM_AUG | 1.5473 |
CNN | 1.9254 |
CNN_AUG | 1.8049 |
ATT | 1.680 |
ATT_AUG | 1.5664 |
ETS_ANN[32] | 1.5955 |
6. نتیجهگیری
در این پژوهش یک رویکرد مبتنی بر روشهای دادهافزایی سری زمانی جهت افزایش دقت روشهای یادگیری عمیق ارائه شد. رویکرد پیشنهادی با سه مدل نوین یادگیری عمیق شامل حافظه طولانی کوتاه-مدت، شبکه کانولوشنی و روش خودتوجه چندسر پیادهسازی شد. روشهای مورد استفاده در این تحقیق با خروجی چندگانه طراحی شدهاند طوری که امکان پیشبینی چندگام به صورت یکجا دارند. همچنین ابرپارامترهای مدلهای پیادهسازی شده با استفاده از بهینه ساز بیزین انتخاب شدند. نتایج روی دادهها نشان داد که در اکثر حالت ها (پیشبینی با گامهای مختلف) رویکرد پیشنهادی باعث افزایش دقت پیشبینی مدلهای پایه میشود. این رویکرد برای روش خودتوجه چند سر، شبکه کانولوشنی و حافظه طولانی کوتاه-مدت به ترتیب باعث افزایش دقت در 5، 4 و 3 حالت از 5 حالت مختلف پیشبینی میشود. همچنین نتایج روی مجموعهداده های محک حاکی از عملکرد موفق مدلهای بدست آمده در مقایسه با مدلهای پایه و همچنین مدل برتر موجود در این زمینه است. رویکرد پیشنهادی برای پیشبینی سریهای زمانی در حوزههای دیگر نظیر پیشبینی بارالکتریکی مصرفی میتواند مورد استفاده قرار گیرد.
مراجع
[1] H. Haberleitner, H. Meyr, and A. Taudes, "Implementation of a demand planning system using advance order information," International Journal of Production Economics, vol. 128, pp. 518-526, 2010.
[2] H. Abbasimehr, M. Shabani, and M. Yousefi, "An optimized model using LSTM network for demand forecasting," Computers & Industrial Engineering, vol. 143, p. 106435, 2020/05/01/ 2020.
[3] M. A. Villegas, D. J. Pedregal, and J. R. Trapero, "A support vector machine for model selection in demand forecasting applications," Computers & Industrial Engineering, vol. 121, pp. 1-7, 2018/07/01/ 2018.
[4] N. J. Johannesen, M. Kolhe, and M. Goodwin, "Relative evaluation of regression tools for urban area electrical energy demand forecasting," Journal of Cleaner Production, vol. 218, pp. 555-564, 2019.
[5] M. Q. Raza, M. Nadarajah, and C. Ekanayake, "Demand forecast of PV integrated bioclimatic buildings using ensemble framework," Applied energy, vol. 208, pp. 1626-1638, 2017.
[6] J. W. Taylor, "A comparison of univariate time series methods for forecasting intraday arrivals at a call center," Management Science, vol. 54, pp. 253-265, 2008.
[7] R. Law, G. Li, D. K. C. Fong, and X. Han, "Tourism demand forecasting: A deep learning approach," Annals of Tourism Research, vol. 75, pp. 410-423, 2019.
[8] F. Martínez, M. P. Frías, M. D. Pérez, and A. J. Rivera, "A methodology for applying k-nearest neighbor to time series forecasting," Artificial Intelligence Review, vol. 52, pp. 2019–2037, 2019.
[9] A. Sagheer and M. Kotb, "Time series forecasting of petroleum production using deep LSTM recurrent networks," Neurocomputing, vol. 323, pp. 203-213, 2019.
[10] I. Maqsood, M. R. Khan, and A. Abraham, "An ensemble of neural networks for weather forecasting," Neural Computing & Applications, vol. 13, pp. 112-122, 2004.
[11] H. Abbasimehr and M. Shabani, "A new framework for predicting customer behavior in terms of RFM by considering the temporal aspect based on time series techniques," Journal of Ambient Intelligence and Humanized Computing, 2020/05/05 2020.
[12] H. Abbasimehr and R. Paki, "Prediction of COVID-19 confirmed cases combining deep learning methods and Bayesian optimization," Chaos, Solitons & Fractals, vol. 142, p. 110511, 2021.
[13] K. Bandara, H. Hewamalage, Y.-H. Liu, Y. Kang, and C. Bergmeir, "Improving the Accuracy of Global Forecasting Models using Time Series Data Augmentation," arXiv preprint arXiv:2008.02663, 2020.
[14] K. Bandara, C. Bergmeir, and S. Smyl, "Forecasting across time series databases using recurrent neural networks on groups of similar series: A clustering approach," Expert Systems with Applications, vol. 140, p. 112896, 2020/02/01/ 2020.
[15] C. Bergmeir, Rob J. Hyndman, and José M. Benítez, "Bagging exponential smoothing methods using STL decomposition and Box–Cox transformation," International Journal of Forecasting, vol. 32, pp. 303-312, 2016/04/01/ 2016.
[16] H. Shi, S. Hu, and J. Zhang, "LSTM based prediction algorithm and abnormal change detection for temperature in aerospace gyroscope shell," International Journal of Intelligent Computing and Cybernetics, vol. 12, pp. 274-291, 2019.
[17] T. Fischer and C. Krauss, "Deep learning with long short-term memory networks for financial market predictions," European Journal of Operational Research, vol. 270, pp. 654-669, 2018.
[18] I. E. Livieris, E. Pintelas, and P. Pintelas, "A CNN–LSTM model for gold price time-series forecasting," Neural computing and applications, vol. 32, pp. 17351-17360, 2020.
[19] S. Mehtab and J. Sen, "Stock price prediction using convolutional neural networks on a multivariate timeseries," arXiv preprint arXiv:2001.09769, 2020.
[20] F. Shahid, A. Zameer, and M. Muneeb, "Predictions for COVID-19 with deep learning models of LSTM, GRU and Bi-LSTM," Chaos, Solitons & Fractals, vol. 140, p. 110212, 2020/11/01/ 2020.
[21] S. Hochreiter and J. Schmidhuber, "Long short-term memory," Neural computation, vol. 9, pp. 1735-1780, 1997.
[22] K. Greff, R. K. Srivastava, J. Koutník, B. R. Steunebrink, and J. Schmidhuber, "LSTM: A Search Space Odyssey," IEEE Transactions on Neural Networks and Learning Systems, vol. 28, pp. 2222-2232, 2017.
[23] I. Goodfellow, Y. Bengio, and A. Courville, Deep learning: MIT press, 2016.
[24] W. Rawat and Z. Wang, "Deep convolutional neural networks for image classification: A comprehensive review," Neural computation, vol. 29, pp. 2352-2449, 2017.
[25] A. Ntakaris, G. Mirone, J. Kanniainen, M. Gabbouj, and A. Iosifidis, "Feature engineering for mid-price prediction with deep learning," Ieee Access, vol. 7, pp. 82390-82412, 2019.
[26] K. Sangeetha and D. Prabha, "Sentiment analysis of student feedback using multi-head attention fusion model of word and context embedding for LSTM," Journal of Ambient Intelligence and Humanized Computing, pp. 1-10, 2020.
[27] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, et al., "Attention is all you need," in 31st International Conference on Neural Information Processing Systems, Long Beach, California, USA, 2017, pp. 6000–6010.
[28] G. E. P. Box and D. R. Cox, "An Analysis of Transformations," Journal of the Royal Statistical Society: Series B (Methodological), vol. 26, pp. 211-243, 1964.
[29] R. B. Cleveland, W. S. Cleveland, J. E. McRae, and I. Terpenning, "STL: A seasonal-trend decomposition," Journal of official statistics, vol. 6, pp. 3-73, 1990.
[30] S. N. Lahiri, Resampling methods for dependent data: Springer Science & Business Media, 2013.
[31] L. Prechelt, "Early Stopping — But When?," in Neural Networks: Tricks of the Trade: Second Edition, G. Montavon, G. B. Orr, and K.-R. Müller, Eds., ed Berlin, Heidelberg: Springer Berlin Heidelberg, 2012, pp. 53-67.
[32] S. Panigrahi and H. S. Behera, "A hybrid ETS–ANN model for time series forecasting," Engineering Applications of Artificial Intelligence, vol. 66, pp. 49-59, 2017
[1] Vaswani
[2] Seasonality
[3] Trend
[4] Residual
[5] Seasonal and Trend decomposition using Loess
[6] Moving Block Bootstrapping
[7] Flatten
[8] Fully connected (Dense)
[9] https://keras.io/
[10] Generalization error
[11] Early stopping
[12] Dropout
[13] Symmetric Mean Absolute Percentage Error
[14] Mean Absolute Percentage Error
[15] Forecast horizon
[16] Lynx