تحلیل متنی خبرهای بانک مرکزی در پیشبینی بلندمدت شاخص بورس اوراق بهادار تهران
محورهای موضوعی : عمومىمیثم هاشمی 1 , مهران رضایی 2 , مرجان کائدی 3
1 - مهندسی کامپیوتر، دانشگاه اصفهان
2 - عضو هیات علمی
3 - دانشکده مهندسی کامپیوتر، دانشگاه اصفهان
کلید واژه: شاخص کل بورس تهران, پیشبینی بلندمدت, تحلیل متنی, اخبار مالی, وزندهی DF,
چکیده مقاله :
بازارهای مالی همواره تحت تاثیر انتشارات رسانههای خبری بودهاند. به همین دلیل تحلیل اسناد خبری به عنوان یک رهیافت برای پیشبینی بورس اوراق بهادار به کار رفته است. در تحقیقات پیشین در این زمینه، تحلیل اسناد متنی با استفاده از روشهای رایج در بازیابی اطلاعات انجام گرفته است. مبنای آماری این روشهای رایج بر این است که کلماتی که در مجموعه اسناد کمتکرار هستند ولی در یک سند پرتکرار هستند، نسبت به کلمات پرتکرار مجموعه و سند، وزن بالاتری بگیرند. ولی مشکل این است که برخلاف آنچه در تحقیقات قبلی در نظر گرفته شده است، در اسناد خبری، کلمات پرتکرار نشاندهنده خبرهای مهم و تاثیرگذار هستند. در این تحقیق برای رفع این مشکل، یک روش جدید برای وزندهی کلمات اسناد خبری ارائه شده است. روش پیشنهادی روی دادههای شاخص کل بورس اوراق بهادار تهران و اسناد خبری بانک مرکزی ایران در بازه زمانی 1384 تا 1399 ارزیابی شده است. نتایج حاکی از 64 درصد صعودی و 41 درصد نزولی دقت پیشبینی نوسانات شاخص کل و کاهش 10 درصد میانگین درصد خطای مطلق نسبت به بهترین روش رایج میباشد. همچنین نتایج نشان میدهد که اگرچه تغییرات در نسبت بین تعداد کلمات مثبت و منفی شواهد پیش گویانه ای ارائه نمیکند اما بین خبرهای منتشرشده از سوی بانک مرکزی و نوسانات شاخص کل بورس تهران ارتباط وجود دارد.
Financial markets have always been under influence of media news; therefore, text analysis of news is considered as an effective method of stock exchange forecasting. Research in this context has been conducted with the help of information retrieval techniques, in which high frequency words in a document that appeared sporadically in the whole corpus received higher weight than others. In contrast, the words which appeared in many news of a corpus, during a certain time, indicate the importance of an event. In our research, to address this contradiction, a new technique of assigning weight to influential words of news is presented. Financial news of Iran Central Bank (CBI) and actual data of Tehran Stock Exchange Index (TSEI) in the duration of 2005 to 2020 AD were utilized to evaluate the proposed method. The empirical results show 64% and 41% accuracy of trend prediction when TSEI moves upward and downward respectively and about 10% decreasing in Mean Absolute Error (MAE) to compare with prevalent techniques. While, the changes of the ratio between the number of positive and negative words in news does not offer predictive or analytical evidences, our results show that, there still exists a meaningful relationship between CBI news and TSEI fluctuations.
[1] R. P. Schumaker and H. Chen, “Textual analysis of stock market prediction using breaking financial news: The AZFin text system,” ACM Transactions on Information Systems (TOIS), vol. 27, p. 12, 2009.
[2] A. Kloptchenko, T. Eklund, J. Karlsson, B. Back, H. Vanharanta, and A. Visa, “Combining data and text mining techniques for analysing financial reports,” Intelligent systems in accounting, finance and management, vol. 12, pp. 29-41, 2004.
[3] C. Robertson, S. Geva, and R. C. Wolff, “Can the Content of Public News be used to Forecast Abnormal Stock Market Behaviour?,” in Seventh IEEE International Conference on Data Mining, ICDM 2007, pp. 637-642.
[4] E. F. Fama, “The behavior of stock-market prices,” The journal of Business, vol. 38, pp. 34-105, 1965.
[5] S. Chopra and P. Meindl, Supply Chain Managemnt Strategy, planning and operation. 3rd Edition, Pearson Prentice Hall, ISBN: 0-13-208608-5, 2007.
[6] P. Falinouss, “Stock trend prediction using news articles: a text mining approach,” M.S. thesis, Lulea university of thechnology, Lulea, Sweden, 2007.
[7] K. G. Aase, “Text Mining of News Articles for Stock Price Predictions,” M.S. thesis, Norwegian University of Science and Technology, Trondheim, Norway, 2011.
[8] M. Arias, A. Arratia, and R. Xuriguera, “Forecasting with Twitter Data,” ACM Transactions on Intelligent Systems Technology, 5, 1, Article 8 (January 2014), 24 pages.
[9] M. A. Mittermayer, “Forecasting intraday stock price trends with text mining techniques,” in Proceedings of the 37th Annual Hawaii International Conference on System Sciences, Big Island, 0-7695-2056-1, IEEE, 5-8 Jan, 2004.
[10] M. Butler and V. Kešelj, “Financial Forecasting Using Character N-Gram Analysis and Readability Scores of Annual Reports,” In Advances in Artificial Intelligence (pp. 39-51). Springer Berlin Heidelberg, 2009.
[11] B. G. Malkiel, “A Random Walk Down Wall Street: The Time-Tested Strategy for Successful Investing,” WW Norton & Company, New York, 1973.
[12] C. Robertson, S. Geva, and R. C. Wolff, “Can the Content of Public News be used to Forecast Abnormal Stock Market Behaviour?,” in Seventh IEEE International Conference on Data Mining, ICDM 2007, pp. 637-642.
[13] S. Bacher and H. Stuckenschmidt, “Mining Unstructured Financial News to Forecast Intraday Stock Price Movements,” M.S. thesis, University of Mannheim, Mannheim, Germany, Oct, 2012.
[14] Kartick Gupta, Rajabrata Banerjee, “Does OPEC news sentiment influence stock returns of energy firms in the United States?” Energy Economics, vol. 77, pp. 34–45, 2019.
[15] George Guan-Ru Wu, Tony Chieh-Tse Hou, Jin-Lung Lin, “Can economic news predict Taiwan stock market returns?”, Asia Pacific Management Review, vol. 24, pp. 54-59, 2019.
[16] Yu-Chen Wei, Yang-Cheng Lu, Jen-Nan Chen, Yen-Ju Hsu, “Informativeness of the market news sentiment in the Taiwan stock market”, North American Journal of Economics and Finance, vol. 39, PP. 158-181, 2017.
[17] S. Feuerriegel, J. Gordon, “Long-term stock index forecasting based on text mining of regulatory disclosures,” Decision Support Systems, vol. 112, pp. 88-97, 2018.
[18] R. Ren, D. D. Wu, and T. Liu, “Forecasting stock market movement direction using sentiment analysis and support vector machine,” IEEE Systems Journal, vol. 13, no. 1, pp. 760-770, 2019.
[19] A.S. Ab. Rahman, S. Abdul-Rahman, and S. Mutalib, “Mining textual terms for stock market prediction analysis using financial news,”in Mohamed A., Berry M., Yap B. (eds) Soft Computing in Data Science. SCDS 2017. Communications in Computer and Information Science, vol. 788. Springer, Singapore, 2017.
[20] H. Naderi Semiromi, S. Lessmann, and Wiebke Peters, "News will tell: Forecasting foreign exchange rates based on news story events in the economy calendar,” The North American Journal of Economics and Finance vol. 52, 101-181, 2020.
[21] L. Yu, S. Wang, and K. Lai, “A rough-set-refined text mining approach for crude oil market tendency forecasting,” International Journal of Knowledge and Systems Sciences, vol. 2, pp. 33-46, 2005.
[22] R. Luss and A. d'Aspremont, “Predicting abnormal returns from news using text classification,” Quantitative Finance, arXiv:0809.2792v3, 2009.
[23] M. V. Pinto and K. Asnani, “Stock Price Prediction Using Quotes and Financial News,” International Journal of Soft Computing, vol. 1, Issue 5, November 2011.
[24] M. R. Amin-Naseri and E. A. Gharacheh, “A hybrid artificial intelligence approach to monthly forecasting of crude oil price time series,” in The
Proceedings of the 10th International Conference on Engineering Applications of Neural Networks, CEUR-WS284, 2007, pp. 160-167. [25] W. Antweiler and M. Z. Frank, “Is all that talk just noise? The information content of internet stock message boards,” The Journal of Finance, vol. 59, pp. 1259-1294, 2004.
[26] E. Guardia-Sebaoun, A. Rafrafi, V. Guigue, and P. Gallinari, “Cross-media sentiment classification and application to box-office forecasting,” in Proceedings of the 10th Conference on Open Research Areas in Information Retrieval, 2013, pp. 201-208.
[27] X. Guo-Xiang, S. Ben-Chang, H. Yen-Bin, S. Po-Chih, and C. Kuo-Hao, “To Integrate Text Mining and Artificial Neural Network to Forecast Gold Futures Price,” in International Conference on New Trends in Information and Service Science, NISS'09, 2009, pp. 1014-1020.
[28] S. Asur and B. A. Huberman, “Predicting the future with social media,” In International Conference on Web Intelligence and Intelligent Agent Technology (WI-IAT), 2010 IEEE/WIC/ACM (Vol. 1, pp. 492-499). IEEE.
[29] Stefan Feuerriegel, Julius Gordon, “News-based forecasts of macroeconomic indicators: A semantic path model for interpretable predictions”, EuropeanJournal of Operational Research, vol. 272, pp. 162–175, 2019.
[30] Weiling Chen, Chai Kiat Yeo, Chiew Tong Lau, Bu Sung Lee, “Leveraging social media news to predict stock index movement using RNN-boost”, Data & Knowledge Engineering, vol. 118, pp. 14-24, 2018.
[31] KiHwan Nam, NohY oon Seong, “Financial news-based stock movement prediction using causality analysis of influence in the Korean stock market”, Decision Support Systems, Decision Support Systems, vol. 117, pp. 100-112, 2019.
[32] W. B. Yu, B. R. Lea, and B. Guruswamy, “A Theoretic Framework Integrating Text Mining and Energy Demand Forecasting,” IJEBM, vol. 5, pp. 211-224, 2007.
[33] R. Baeza-Yates and B. Ribeiro-Neto, Modern information retrieval. Vol. 463. New York: ACM press, 1999.
[34] D. Thorleuchter and D. Van den Poel, “Predicting e-commerce company success by mining the text of its publicly-accessible website,” Expert Systems with Applications, vol. 39, pp. 13026-13034, 2012.
[35] S. Mahfoud and G. Mani, Financial forecasting using genetic algorithms. Applied Artificial Intelligence, vol. 10, no. 6, 543-566, 1996.
[36] Tehran Stock Exchange, Available: http://www.tse.ir/market/Indices.aspx
[37] Cambridge University Press. Available: http://nlp.stanford.edu/IR-book/html/htmledition/tokenization-1.html
[38] Cambridge University Press. Available: http://nlp.stanford.edu/IR-book/html/htmledition/dropping-common-terms-stop-words-1.html
[39] X. Liang and R. C. Chen, “Mining Stock News in Cyberworid Based on Natural Language Processing and Neural Networks,” in International Conference on Neural Networks and Brain, 2005, ICNN&B'05. Vol. 2, IEEE.
[40] G. Salton, A. Wong, and C. S. Yang, “A vector space model for automatic indexing,” Communications of the ACM 18.11 (1975): 613-620.
[41] B. Drury, “A Text Mining System for Evaluating the Stock Market,” Ph.D. Dissertation, Universities of Minho, Aveiro and Porto, 2009.
[42] رضا راعي، علي نیک عهد قصیرائي و مصطفي حبیبي، «پیش بیني شاخص بورس اوراق بهادار تهران با تركیب روشهاي آنالیز مولفههاي اصلي، رگرسیون بردارپشتیبان و حركت تجمعي ذرات،» راهبرد مديريت مالي، سال چهارم، ماه پانزدهم، 1395، صص: 1-23.
]43[ امیردایی، امیدعبادتی و کیوان برنا، «بهکارگیری وبکاوی در پیشبینی جهت قیمت سهام گروه محصولات شیمیایی در بورس اوراق بهادار»، فصلنامه علمی- پژوهشی فناوری اطلاعات و ارتباطات ایران، سال یازدهم، شمارههای 39 و 40، بهار و تابستان 1398، صص: 19 – 48.
دو فصلنامه علمي فناوري اطلاعات و ارتباطات ایران | سال دوازدهم، شمارههاي 43 و 44، بهار و تابستان 1399 صفحات: 119_132 |
|
تحلیل متنی خبرهای بانک مرکزی در پیشبینی بلندمدت شاخص بورس اوراق بهادار تهران
میثم هاشمی* مهران رضایی** مرجان کائدی***
*دانش آموخته کارشناسی ارشد مهندسی کامپیوتر، دانشگاه اصفهان
**استادیار دانشکده مهندسی کامپیوتر، دانشگاه اصفهان
***دانشیار دانشکده مهندسی کامپیوتر، دانشگاه اصفهان
تاریخ دریافت: 16/03/1399 تاریخ پذیرش: 5/08/1399
نوع مقاله: پژوهشی
چكيده
بازارهای مالی همواره تحت تاثیر انتشارات رسانههای خبری بودهاند. به همین دلیل تحلیل اسناد خبری به عنوان یک رهیافت برای پیشبینی بورس اوراق بهادار به کار رفته است. در تحقیقات پیشین در این زمینه، تحلیل اسناد متنی با استفاده از روشهای رایج در بازیابی اطلاعات انجام گرفته است. مبنای آماری این روشهای رایج بر این است که کلماتی که در مجموعه اسناد کمتکرار هستند ولی در یک سند پرتکرار هستند، نسبت به کلمات پرتکرار مجموعه و سند، وزن بالاتری بگیرند. ولی مشکل این است که برخلاف آنچه در تحقیقات قبلی در نظر گرفته شده است، در اسناد خبری، کلمات پرتکرار نشاندهنده خبرهای مهم و تاثیرگذار هستند. در این تحقیق برای رفع این مشکل، یک روش جدید برای وزندهی کلمات اسناد خبری ارائه شده است. روش پیشنهادی روی دادههای شاخص کل بورس اوراق بهادار تهران و اسناد خبری بانک مرکزی ایران در بازه زمانی 1384 تا 1399 ارزیابی شده است. نتایج حاکی از 64 درصد صعودی و 41 درصد نزولی دقت پیشبینی نوسانات شاخص کل و کاهش 10 درصد میانگین درصد خطای مطلق نسبت به بهترین روش رایج میباشد. همچنین نتایج نشان میدهد که اگرچه تغییرات در نسبت بین تعداد کلمات مثبت و منفی شواهد پیش گویانه ای ارائه نمیکند اما بین خبرهای منتشرشده از سوی بانک مرکزی و نوسانات شاخص کل بورس تهران ارتباط وجود دارد.
واژگان كليدي: شاخص کل بورس تهران، پیشبینی بلندمدت، تحلیل متنی، اخبار مالی، وزندهی DF
نویسنده مسئول: مهران رضایی m.rezaei@eng.ui.ac.ir
1- مقدمه
اگر در زمان حال ادعایی درباره رویدادهای آینده مطرح شود یک پیشبینی انجام شدهاست. تحقیقاتی که در زمینه پیشبینیهای بورس اوراق بهادار انجام شدهاست به دو دسته پیشبینی قیمت و گرایش آن تقسیم میشود که هر کدام بنا به زمان مورد پیشبینی به دو گروه بلندمدت و کوتاهمدت تقسیم میشوند. برای انجام یک پیشبینی، به دادههای مرتبط با رویداد مورد پیشبینی نیاز است. دادههای مورد استفاده در پیشبینی میتوانند کمّی و یا کیفی باشند. دادههای کمّی از ساختار بهره میبرند و دادههای کیفی فاقد ساختار هستند. روشهای سری زمانی که از رایجترین روشهای پیشبینی به شمار میروند، از نوع داده کمّی برای مدل سازی و پیشبینی استفاده میکنند. دادههای کمّی، داده تاریخچهای هستند. در مقابل، دادههای کیفی طیف وسیعی از دادهها را در بر میگیرند، از اطلاعات مربوط به عزل و نصبهای داخل شرکت تا مدیران اقتصادی و بازارهای مالی و از جریانات و رویدادی داخلی تا رویدادهای کلان یک کشور و حتی اطلاعات داخلی رقبا همگی از نوع دادههای کیفی محسوب میشوند. به طور کلی میتوان گفت انواع داده در مورد رویدادهای خصوصی و همچنین رویدادهای عمومی جزء داده کیفی به شمار میآیند [1-5].
پیشبینی سری زمانی به عنوان روشی که از دادههای کمی استفاده میکند سعی دارد براساس دادههای گذشته، یک مدل بهدست آورد. سپس با استفاده از مدل، مقادیر آینده را پیشبینی کند. پیشبینی سری زمانی یکی از مسائل مهم در سرمایهگذاری و تصمیمگیری به شمار میرود. با این وجود، در زمینه پیشبینی سریهای زمانی، مشکلاتی نظیر نویز، پویایی و درهم برهم بودن داده کمّی مطرح است. عدم استفاده از داده کیفی نیز به عنوان یک مساله در زمینه سریهای زمانی شناخته شده است که برای رفع آن، تحقیقات بسیاری انجام گرفته است [5-11].
اخبار، یکی از منابع اطلاعاتی موثر بر قیمت سهام است و بازار سهام نسبت به انتشار اخبار با محتوای مرتبط واکنش نشان میدهد [1، 4 و 11]. در این زمینه، رابرتسون و همکاران بررسی کردهاند که آیا محتوای اخبار عمومی میتواند رفتار نابهنجار بازار سهام را پیشبینی کند و در بررسی خود با تحلیل خروجی دستهبندها، ثابت کردهاند که بازار به اخبار عمومی واکنش نشان میدهد [12]. کلوپچنکو و همکاران با ترکیب روشهای داده و متنکاوی در تحلیل دادههای کمّی و کیفی گزاراشات مالی، ثابت کردهاند که تحلیل متنی گزارشات مالی شرکتها، حاوی نمایههایی راجع به عملکرد مالی شرکت در آینده میباشد [2]. بیکر و همکاران در پیشبینی نوسانات کوتاه مدت قیمت سهام ثابت کردهاند که اخبار مالی بر روی قیمت سهام تاثیرگذار میباشد و افراد حرفهای در بازار سهام به رسانههای خبری توجه ویژهای دارند [13]. آسائه با بررسی ارتباط بین قیمت سهام و اسناد خبری، ثابت کرده است که اخبار نقش بسزایی در نوسانات بازار سهام دارد [8]. گوپتا و بانرجی [14] نشان دادهاند که حس مثبت یا منفی نهفته در اخبار سازمان OPEC بر روی بازده شرکتهای فعال در بخش انرژی اثرگذار بوده است. به عنوان مثال، اخبار منفی OPEC باعث افرایش بازده شرکتهای آمریکایی شده است. وو و همکاران [15] و وِی و همکاران [16] نیز در پژوهشهایی جداگانه نشان دادند که بر اساس اخبار اقتصادی میتوان بازده بازار سهام در کشور تایوان را پیشبینی کرد.
بنابراین نتایج مطالعات یادشده در مجموع نشان میدهند که محتوای اخبار منتشر شده بر گرایشات بازار مالی تاثیرگذار بوده و این دو مرتبط هستند.
برای اینکه عوامل کیفی از متن اخبار استخراج شوند، از روشهای متنکاوی استفاده میشود. رویکردهای تحلیل متنی ارائه شده در تحقیقات قبلی مبتنی بر روشهای بازیابی اطلاعات و پردازش زبانی طبیعی میباشند [1، 8 و 10]. در روشهای یادشده، کلمات کم تکرار مجموعه نسبت به کلمات پرتکرار مجموعه وزنهای بالاتری میگیرند و به ویژگیهای خاص اسناد خبری توجه نشده است، حال آنکه در اسناد خبری کلمات پرتکرار نشاندهنده خبرهای مهم میباشند. این نکته در پژوهش پیش رو مدنظر قرار خواهد گرفت و براساس آن، روش برای وزندهی به کلمات در متنهای خبری ارائه خواهد شد. در ادامه، در بخش 2 پژوهشهای پیشین مرور میشوند و در بخش 3، مساله پژوهشی شرح داده میشود. سپس در بخشهای 4 و 5 به ترتیب به شرح رویکرد پیشنهادی و ارزیابی آن پرداخته میشود. در بخش 6، نتیجهگیری و کارهای آینده بررسی خواهند شد.
2- مرور تحقیقات پیشین
در این بخش، تحقیقات انجام شده در زمینه استفاده از دادههای متنی برای پیشبینی مالی مرور خواهند شد. فوریگل و گوردون از دادههای متنی خبری در بهینهسازی پیشبینی شاخصهای مالی استفاده کردهاند. در سیستم پشتیبان تصمیم که این پژوهشگران پیادهسازی کردهاند از روش TF-IDF برای وزندهی استفاده شده است. روش ترکیبی ایشان با کاهش خطای RMSE به مقدار 5/19، 4/19 و 6/35 درصد به ترتیب در پیشبینی شاخصهای DAX, CDAX و STOXX Europe 600 همراه بوده است [17]. رن و همکاران با این باور که دادههای متنی تولیدشده توسط کاربران میتواند در پیشبینی بازار سهام مورد استفاده قرار بگیرد رویکردی جدید مرکب از روشهای یادگیری ماشین و بازیابی اطلاعات ارائه کردهاند. در این رویکرد به تحلیل احساسات بر روی دادههای متنی پرداخته شده و در پیشبینی شاخص SSE 50 مقدار 93/89 درصد صحت جهتگیری به دست آمده است [18]. یکی دیگر از مطالعات انجام شده با استفاده از تحلیل احساسات به عنوان رویکرد متن کاوی در پیشبینی مالی توسط رحمان و همکاران با هدف پیشبینی تغییرات قیمت سهام در بورس مالزی انجام شده است. در رویکرد ترکیبی ایشان از ماشین بردار پشتیبان و TF-IDF استفاده شده و روند تغییرات قیمت در بازار سهام با نرخ 56 درصد صحت انجام شده است [19]. نادری و همکاران با استفاده از تحلیل متنی رویدادهای خبری به پیشبینی روند تغییرات قیمت در بازار ارز پرداختهاند. ایشان با استفاده از روشهای یادگیری ماشین و صرفا روش وزندهی TF بجای TF-IDF به 3/66 درصد صحت پیشبینی دست یافتهاند [20]. لین یو و همکاران با بکارگیری تئوری مجموعههای ناهموار بر روی دادههای بهدست آمده از تحلیل متنی، نوسانات قیمت بازار نفت خام را پیشبینی کردند. روش آنها نسبت به شبکههای عصبی 11 درصد و نسبت به رگرسیون خطی 30 درصد بهبود داشته است [21]. لاس و اسپرمانت برای پیشبینی تغییرات نابهنجار قیمت در بازار سهام از تحلیل متنی، استفاده کردهاند که حداکثر دقت دسته بندی اسناد خبری در پژوهش ایشان 71 درصد گزارش شده است [22]. پینتو و اسنانی با استفاده از اخبار و گفتگوهای معاملاتی، گرایش قیمت سهام را پیشبینی کردهاند که دقت 50 درصد برای پیشبینی شاخص را گزارش کردهاند [23]. ناصری و احمدی برای پیشبینی قیمت نفت در بلندمدت یک رویکرد ترکیبی مبتنی بر خوشه بندی نزدیک ترین همسایه، ژنتیک و شبکه عصبی مصنوعی بر روی دادههای کمی و کیفی ارائه دادهاند که میانگین دقت جهت گیری قیمت نفت را در بلندمدت به میزان 78 درصد به دست آوردهاند [24]. آنتویلر و فرانک با استفاده از روشهای پردازش زبان طبیعی، پیامهای کاربران یاهو درباره شرکتهای تجاری را برای به دست آوردن توصیهای جهت خرید، فروش و نگهداری یک سهام خاص، مورد تحلیل قرار دادهاند [25]. گواردیا سباوم و همکاران برای پیشبینی فروش هفتگی فیلم، از روشهای نظرکاوی بر روی دادههای توئیتر استفاده کردهاند که خطای میانه در بین سه معیار خطای متفاوت، 56 درصد بوده است [26]. جیوجیانگ و همکاران با استفاده از روشهای متن کاوی و شبکه عصبی مصنوعی به پیشبینی قیمت طلا پرداختهاند که مقدار میانگین مربع خطا را 2714 به دست آوردهاند [27]. در زمینه پیشبینی فروش هفتگی فیلم، آسور و همکاران از دادههای توئیتر استفاده کردهاند که میانگین درصد خطای مطلق را برابر با 56/0 گزارش کردهاند [28]. فیوریگل و گوردون برای پیشبینی شاخصهای اقتصاد کلان، روشهای مختلف یادگیری ماشین را بر روی فراوانی کلمات مختلف در اخبار اعمال کردند و سپس برای مواجهه با مشکل بیش-برازش که ناشی از ابعاد زیاد داده بود، مهندسی ویژگیها انجام دادند. مثلا کلماتی که از دستههای معنایی یکسانی هستند را به ساختارهای پنهانی نگاشت کردند تا بدینترتیب، ابعاد فضای ویژگی به میزان قابل توجهی کاهش یابد[29]. چن و همکاران [30] حس عمومی جامعه را از طریق تحلیل اخبار موجود در شبکههای اجتماعی استخراج کردهاند و از آن برای پیشبینی نواسانات بازار سهام در کشور چین استفاده کردهاند. نَم و سئونگ [31] روابط سببی بین شرکتهایی که با هم ارتباط دارند، را برای پیشبینی قیمت سهام یک شرکت درنظر گرفتهاند و اخباری که در مورد شرکتهای مرتبط با شرکت موردنظر منتشر میشود را برای پیشبینی نوسانات قیمت سهام شرکت موردنظر استفاده میکنند. دایی و همکاران با استناد به خبرهای سیاسی و اقتصادی 17 خبرگزاری در طول 122 روز آخر سال 1397 شمسی، به پیشبینی جهت قیمت سهام در بورس اوراق بهادار مبادرت ورزیدند ]43[. آنها در پژوهش خود از روش متنکاوی استفاده کرده و برای انتخاب و وزندهی ویژگیها فرمول TF-IDF (فرمول 1) را بکار گرفتهاند. سپس روش خود را با الگوریتم بردار ماشین پشتیبان برای پیشبینی جهت قیمت ترکیب کرده و سهام گروه محصولات شیمیایی را مورد مطالعه قرار دادهاند.
تحلیل متن در مطالعات مرور شده، با استفاده از روشهای رایج در زمینههای بازیابی اطلاعات و پردازش زبان طبیعی انجام شده است. اما با توجه به عدم کارایی مناسب اینگونه روشها در زمینه تحلیل متن مالی، در این مطالعه یک روش جدید برای تحلیل متن مالی ارائه خواهد شد که به طور خاص منطبق با اسناد خبری عمل خواهد کرد.
3- شرح مساله
در شکل 1، معماری عمومی پژوهشهای انجام شده در زمینه بهکارگیری تکنیکهای متنکاوی در پیشبینیهای مالی، نشانداده شدهاست.
اسناد متنی جمعآوری شده پس از عملیات پیشپردازش متن، در مرحله تولید ورودی دستهبند، به بردارهای ویژگی تبدیل میشوند. همانطور که در معماری عمومی (شکل 1) مشاهده میشود، در موازات تحلیل دادههای کمّی که منجر به تولید یک مقدار پایه برای پیشبینی میشوند، دادههای کیفی نیز مورد تحلیل قرار گرفته و منجر به تولید مقدار تعدیلی میشوند.
شکل 1. معماری عمومی یک سیستم پیشبینی مالی با استفاده از دادههای متنی (با الهام از ون-بین یو [28])
در برخی پژوهشهای نیز از دادههای کمّی استفاده نشده است و پیشبینی مالی صرفا با استفاده از دادههای کیفی انجام گرفته است. در این گونه پژوهشها در بخش تحلیل متنی، قیمت با استفاده از روشهای یادگیری ماشین قیمت پیشبینی میشود. این رویکردی است که در پژوهش پیش رو نیز مد نظر است.
بخش تحلیل متنی شامل گامهای جمعآوری اسناد متنی، پیشپردازش، تبدیل سند به بردار ویژگی، وزندهی ویژگی، کاهش ویژگی و انتخاب ویژگی میباشد. روش رایجی که به طور معمول مورد استفاده قرار میگیرد پشته کلمات است که براساس وزندهی TF-IDF بنانهاده شدهاست و روش محاسبه آن برای کلمه در سند در رابطه (1) نشانداده شدهاست [33]. در این رابطه، مقدار N تعداد اسناد مجموعه، تعداد اسناد حاوی کلمه و نرخ تکرار کلمه در سند میباشد. رابطه (2) به نام احتمالی شناخته شده و مبتنی بر احتمالات و قانون بیز بوده که یکی از مدلهای وزندهی پایه میباشد [33].
(1) |
| |||||
(2) |
| |||||
(3) |
|
(4) |
|
در این رابطه، مقادیر و به ترتیب مربوط به تعداد تکرار ویژگی i در مجموعه و تعداد ویژگیهای مجموعه هستند.
در مرحله اجرای محاسبات پیشبینی میتوان از روشهای یادگیری ماشین و یا آماری استفاده کرد. ما در این مطالعه از روش جستجوی محلی استفاده کردهایم. با استفاده از جستجوی محلی تعداد رخدادهای ویژگیهای منتخب در دادههای متنی به دست میآید. سپس برای هر ویژگی رخداده (یافته شده) وزن متناظر با استفاده از رابطه 4 محاسبه میشود. سرانجام، با استفاده از مجموع مقادیر به دست آمده از وزن ویژگیها به همراه مقدار شاخص کل در بازه زمانی فعلی پیشبینی شاخص کل در بازه زمانی آتی انجام میگیرد. توصیفی از جریان داده و مراحل کار در شکل 4 آورده شده است. در این شکل کلیه پردازشهایی که برای پالایش یک سند HTML باید طی شود تا داده متنی خالص به دست آید در یک مرحله با عنوان پالایش متن نشان داده شده است. در این مرحله، فرآیندهای پاکسازی شامل حذف انواع تگهای HTML و دادههای نامرتبط و فرآیندهای پیش پردازش متن شامل توکنسازی، حذف استاپوردها و برچسبگذاری زمانی است. پس از انجام فرآیندهای پیشپردازش متن، مهمترین مرحله یعنی وزندهی کلمات آغاز میشود. خروجی این مرحله، بردارهای ویژگی است که در محاسبه مقدار تعدیلی مورد استفاده قرار میگیرند. حاصلضرب مقدار تعدیلی و مقدار پایه شاخص کل، عددی است که نشاندهنده مقدار پیشبینی شده برای شاخص کل در پایان ماه میباشد.
5- ارزیابی
معیارهای متنوعی برای ارزیابی رویکردهای پیشبینی مالی وجود دارد. با توجه به اینکه در معیارهای دقت جهتگیری (Directional Accuracy) و میانگین خطای مطلق در پیشبینیهای بلندمدت برای ارزیابی نتایج انتخاب شدهاند [1، 8 و 36]، در این پژوهش نیز از این دو معیار برای ارزیابی روش پیشنهادی استفاده میشود. معیار دقت جهتگیری، نشاندهنده توانایی روش در پیشبینی روند تغییرات قیمت است. همچنین معیارهای درصد خطای مطلق و مجذور میانگین خطای مربع پیشبینی نیز برای ارزیابی نتایج به کار خواهند رفت. رابطههای (5) تا (8) به ترتیب روش محاسبه دقت جهت گیری، خطای مطلق، درصد خطای مطلق و مجذور میانگین خطای مربع پیشبینی را نشان میدهند.
(5) |
| |||||
(6) |
| |||||
(7) |
| |||||
(8) |
|
DA | TF-IDF | Boolean | Probabilistic | DF |
Observed Up | 57.14 | 57.14 | 57.14 | 57.14 |
True Forecasted Up | 81.73 | 84.61 | 83.65 | 64.42 |
Observed Down | 42.85 | 42.85 | 42.85 | 42.85 |
True Forecasted Down | 26.92 | 23.08 | 24.36 | 41.02 |
Observed Bias St. | 14.29 | 14.29 | 14.29 | 14.29 |
Forecasted Bias St. | 54.81 | 61.53 | 59.29 | 23.4 |
5-2 پیشبینی شاخص کل در بلند مدت
شکل 5 پیشبینی گرایش قیمت را با استفاده از رویکرد پیشنهادی نشان میدهد. در بازه زمانی مربوط به اواخر سال 1384 تا اواسط سال 1388 نوسان شاخص کل بسیار کم بوده و مشاهده میشود که مقدار پیشبینی شده نیز به مقدار واقعی نسبتا نزدیک است. از سال 1388 تا 1392 و از سال 1397 تا 1399 شاخص کل با تغییرات زیادی همراه بوده که پیشبینی آن نیز با خطای بیشتری مواجه شده است. بیشترین خطای پیشبینی مربوط به فروردین ماه 1399 بوده است. در این مقطع زمانی مقدار واقعی 690037 و
مقدار پیشبینی شده 553691 میباشد اما جهتگیری صحیح پیش شده است.
تغییرات شاخص کل با استفاده از تحلیل خبرهای بانک مرکزی و در بازه ماهانه، در وضعیتهایی که تغییرات شاخص به صورت صعودی و نزولی بوده است، پیشبینی شد. در پایان ماه، تغییرت شاخص برای روز پایانی ماه بعد پیشبینی شد. در این پیشبینی، برای معیار درصد بایاس جهتگیری، مقدار 4/23 درصد به دست آمده است. بنابراین، بین خبرهای منتشرشده از سوی بانک مرکزی و نوسانات شاخص کل ارتباط وجود داشته و کشف آن با استفاده از روش پیشنهادی میسر شده است.
نتیجه پیشبینی روند تغییرات شاخص در شکل 5 نشان داده شده است. در جدولهای 1 و 2 روش پیشنهادی (DF) با روشهای TF-IDF، احتمالی و بولی مقایسه شده است. جدول 1 نیز میانگین دقت جهتگیری را با استفاده از رابطه (5) نشان میدهد. همچنین جدول 2 میانگین خطا را با استفاده از روابط (6) تا (8) نشان میدهد.
میانگین خطای مطلق برای روش پیشنهادی برابر با 15169 است. اگر چه این خطا نسبتا زیاد به نظر میرسد، اما میانگین خطای مطلق برابر با تنها 26 درصد است و باید در نظر داشت در پیشبینی گرایش بلندمدت به دلیل فاصلههای یک ماهه بین هر دو مقطع زمانی مورد پیشبینی، مقدار 15169 برای میانگین خطای مطلق میتواند قابل قبول باشد. چرا که میزان تغییرات شاخص کل نسبت به تغییرات قیمت سهام بیشتر است، که این امر خود باعث میشود خطای پیشبینی شاخص کل در مقایسه با خطای پیشبینی قیمت سهام زیادتر باشد. حتی در برخی از بازههای مورد پیشبینی مقدار شاخص 100 درصد افزایش یافته است که چنین نوسانی کار پیشبینی را بسیار مشکل میکند. مقدار بایاس روش پیشنهادی نسبت به روشهای دیگر بسیار کمتر بوده و توانسته 41 درصد روزهای نزولی را پیشبینی کند. مقدار بایاس رویت شده 14 درصد و مقدار بایاس پیشبینی شده 23 درصد است که نسبت به سایر روشها بیش از 50 درصد کمتر میباشد.
جدول 2. میانگین خطا
Error | TF-IDF | Boolean | Probabilistic | DF |
MAE | 21309 | 28532 | 22500 | 15169 |
MAPE | 36.01 | 43.82 | 38.05 | 26.99 |
RMSE | 32987 | 43535 | 34271 | 27360 |
شکل 5. پیشبینی روند شاخص کل بورس اوراق بهادار تهران توسط روشهای مورد مقایسه و روش پیشنهادی (DF)
به عنوان مثال سهام بانک ملت در ابتدای سال 1390 برابر با 554 و در انتهای همان سال برابر با 492 بوده است که بالاترین قیمت آن در همان سال به 647 و کمترین قیمت آن به 492 رسیده است. اما مقدار شاخص کل در ابتدای سال 1390 برابر با 23756 و در انتهای همان سال برابر با 25905 بوده است که بالاترین مقدار آن به 27098 و کمترین مقدار آن به 23756 رسیده است. تفاضل بین کمینه و بیشینه قیمت سهام بانک ملت برابر با 155 بوده است که مقدار آن برای شاخص کل برابر با 3342 رقم خورده است، که حاکی از این است که نوسان شاخص کل 5/21 برابر نوسان سهام بانک ملت است [36]. در کل بازه زمانی آزمایشی، تفاضل بین کمینه و بیشینه شاخص کل تقریبا 2 میلیون واحد بوده که این مقدار 131 برابر میانگین خطای مطلق روش پیشنهادی میباشد. برای دقت جهتگیری با استفاده از روش پیشنهادی مقدار 64 و 41 درصد به ترتیب صعودی و نزولی به دست آمده است. شوماخر و چن [1] در پژوهش خود با استفاده از داده تاریخچهای و متنی، مقدار میانگین 58 درصد را برای دقت جهتگیری به دست آوردهاند. روش پیشنهادی ما و روش شوماخر و چن [1] کمتر از 20 درصد تفاوت دارند در حالی که در روش پیشنهادی ما صرفا از داده متنی برای انجام پیشبینی استفاده شده است ولی شوماخر و چن روش وزندهی کلمات را با روشهای یادگیری ماشین مانند بردار ماشین پشتیبان ترکیب کردهاند (برای ادامه این پژوهش، ترکیب روش پیشنهادی ما با روشهای سری زمانی و یا هوش مصنوعی در دستور کار قرار گرفته است). در شکل 6 خطای محاسبه شده برای رویکرد مبتنی بر مقدار DF و روشهای مورد مقایسه نشان داده شده است. در این شکل، نقاطِ رویِ منحنیها متناسب با میزان خطای متناظر، از محور افقی فاصله گرفتهاند. کمترین مقدار خطای به دست آمده از رویکرد مبتنی بر مقدار DF مربوط به شهریور ماه سال 1388 و برابر با 18.35 میباشد.
شکل 6. خطای مطلق برای روشهای مورد مقایسه و روش پیشنهادی (DF)
خطای حاصل از پیشبینی شاخص کل در بازه زمانی 91 تا 95 توسط راعی و همکاران [42] که از تکنیکهای داده کاوی و دادههای سری زمانی بهره بردهاند کمتر از 1 درصد اعلام شده است. در اینجا فاکتورهایی تاثیرگذار وجود دارند مانند بازه زمانی مورد مطالعه که ما از سال 84 تا سال 99 را پوشش دادهایم ولی راعی و همکاران فقط از سال 91 تا 95 را مورد مطالعه قرار دادهاند. لازم به ذکر است که شاخص کل در ابتدای سال 91 مقدار 26280 واحد بوده و در شهریور 95 به 76450 واحد رسیده که حدودا 3 برابر شده است این در حالی است که شاخص کل در ابتدای سال 84 مقدار 12702 واحد بوده و در تیرماه 99 به مقدار 1916194 واحد رسیده که حدودا 150 برابر شده است. مسلما با چنین دامنهای از تغییرات، پیشبینی شاخص کل در بازه 84 تا 99 مشکلتر و دارای خطای بسیار بیشتری نسبت به بازه 91 تا 95 خواهد بود.
ما با کاهش دادن بازه زمانی مورد مطالعه به محدوده سال 91 تا 95 (مشابه بازه زمانی که راعی و همکاران [42] درنظر گرفتهاند) به مقدار خطای 9 درصد میرسیم که نسبت به مقدار خطا برای کل بازه مورد پیشبینی 65 درصد کاهش دارد. به همین ترتیب، فاکتورهای موثر دیگری نیز همچون پنجره زمانی پیشبینی (که در پژوهش راعی و همکاران 20 روزه و در روش ما 30 روزه است) وجود دارند. اما مهمترین فاکتور که نقش کاملا تعیین کنندهای دارد استفاده از دادههای سری زمانی و تکنیکهای داده کاوی است که خطای پیشبینی را به شدت کاهش میدهند. اگر چه روش پیشنهادی ذاتا رویکردی برای بهبود روش وزندهی در متن کاوی مالی میباشد و در آن صرفا از دادههای متنی برای ارزیابی رویکرد استفاده شده است، با این حال، نسبت به روشهای داده کاوی خطای بسیار پایین و قابل قبولی دارد. از آنجا که روشهای جدید در پیشبینیهای مالی ترکیبی از تکنیکهای متن کاوی و داده کاوی میباشند، برای بخش کاوش متن مالی رویکرد پیشنهادی میتواند روش کارآمدتری نسبت به روشهای رایج به شمار آمده و در رویکردهای ترکیبی مورد استفاده قرار گیرد.
6- نتیجهگیری
نرخ تکرار کلمات مثبت و منفی در اسناد خبری بانک مرکزی در بازه نه ساله اخیر تقریبا یکسان بوده و پیشبینی شاخص کل صرفا با استفاده از آن ممکن نیست. در این پژوهش، روشی برای وزندهی کلمات ارائه شده و سپس بر اساس آن، پیشبینی گرایش شاخص کل در بلندمدت انجام شد. ارزیابی روش پیشنهادی نشان داد که مقدار میانگین درصد خطای مطلق و میانگین بایاس دقت جهتگیری نوسانات شاخص به ترتیب برابر با 99/26 و 4/23 درصد است. این نتایج نشان داد که خبرهای منتشر شده در وبسایت بانک مرکزی ایران با روند تغییرات شاخص کل بورس اوراق بهادار تهران مرتبط است و بنابراین بر اساس محتوای آنها میتوان شاخص کل را در بلندمدت پیشبینی کرد.
در پایان، سه رویکرد پیشنهادی برای ادامه این تحقیق معرفی میگردند: پیشنهاد اول این است که برای کاهش مقدار خطای مطلق از روشهای سریهای زمانی در کنار رویکرد پیشنهادی استفاده شود. پیشنهاد دیگر این است که به غیر از خبرهای مالی، خبرهای سایر گروهها (نظیر سیاسی و اجتماعی) نیز جمعآوری و مورد تحلیل قرار گیرند. در انتها نیز پیشنهاد میگردد که روشهای هوشمند برای انتخاب بهترین ویژگیها آزموده شوند و نتایج مورد تحلیل قرار گیرد.
مراجع
[1] R. P. Schumaker and H. Chen, “Textual analysis of stock market prediction using breaking financial news: The AZFin text system,” ACM Transactions on Information Systems (TOIS), vol. 27, p. 12, 2009.
[2] A. Kloptchenko, T. Eklund, J. Karlsson, B. Back, H. Vanharanta, and A. Visa, “Combining data and text mining techniques for analysing financial reports,” Intelligent systems in accounting, finance and management, vol. 12, pp. 29-41, 2004.
[3] C. Robertson, S. Geva, and R. C. Wolff, “Can the Content of Public News be used to Forecast Abnormal Stock Market Behaviour?,” in Seventh IEEE International Conference on Data Mining, ICDM 2007, pp. 637-642.
[4] E. F. Fama, “The behavior of stock-market prices,” The journal of Business, vol. 38, pp. 34-105, 1965.
[5] S. Chopra and P. Meindl, Supply Chain Managemnt Strategy, planning and operation. 3rd Edition, Pearson Prentice Hall, ISBN: 0-13-208608-5, 2007.
[6] P. Falinouss, “Stock trend prediction using news articles: a text mining approach,” M.S. thesis, Lulea university of thechnology, Lulea, Sweden, 2007.
[7] K. G. Aase, “Text Mining of News Articles for Stock Price Predictions,” M.S. thesis, Norwegian University of Science and Technology, Trondheim, Norway, 2011.
[8] M. Arias, A. Arratia, and R. Xuriguera, “Forecasting with Twitter Data,” ACM Transactions on Intelligent Systems Technology, 5, 1, Article 8 (January 2014), 24 pages.
[9] M. A. Mittermayer, “Forecasting intraday stock price trends with text mining techniques,” in Proceedings of the 37th Annual Hawaii International Conference on System Sciences, Big Island, 0-7695-2056-1, IEEE, 5-8 Jan, 2004.
[10] M. Butler and V. Kešelj, “Financial Forecasting Using Character N-Gram Analysis and Readability Scores of Annual Reports,” In Advances in Artificial Intelligence (pp. 39-51). Springer Berlin Heidelberg, 2009.
[11] B. G. Malkiel, “A Random Walk Down Wall Street: The Time-Tested Strategy for Successful Investing,” WW Norton & Company, New York, 1973.
[12] C. Robertson, S. Geva, and R. C. Wolff, “Can the Content of Public News be used to Forecast Abnormal Stock Market Behaviour?,” in Seventh IEEE International Conference on Data Mining, ICDM 2007, pp. 637-642.
[13] S. Bacher and H. Stuckenschmidt, “Mining Unstructured Financial News to Forecast Intraday Stock Price Movements,” M.S. thesis, University of Mannheim, Mannheim, Germany, Oct, 2012.
[14] Kartick Gupta, Rajabrata Banerjee, “Does OPEC news sentiment influence stock returns of energy firms in the United States?” Energy Economics, vol. 77, pp. 34–45, 2019.
[15] George Guan-Ru Wu, Tony Chieh-Tse Hou, Jin-Lung Lin, “Can economic news predict Taiwan stock market returns?”, Asia Pacific Management Review, vol. 24, pp. 54-59, 2019.
[16] Yu-Chen Wei, Yang-Cheng Lu, Jen-Nan Chen, Yen-Ju Hsu, “Informativeness of the market news sentiment in the Taiwan stock market”, North American Journal of Economics and Finance, vol. 39, PP. 158-181, 2017.
[17] S. Feuerriegel, J. Gordon, “Long-term stock index forecasting based on text mining of regulatory disclosures,” Decision Support Systems, vol. 112, pp. 88-97, 2018.
[18] R. Ren, D. D. Wu, and T. Liu, “Forecasting stock market movement direction using sentiment analysis and support vector machine,” IEEE Systems Journal, vol. 13, no. 1, pp. 760-770, 2019.
[19] A.S. Ab. Rahman, S. Abdul-Rahman, and S. Mutalib, “Mining textual terms for stock market prediction analysis using financial news,”in Mohamed A., Berry M., Yap B. (eds) Soft Computing in Data Science. SCDS 2017. Communications in Computer and Information Science, vol. 788. Springer, Singapore, 2017.
[20] H. Naderi Semiromi, S. Lessmann, and Wiebke Peters, "News will tell: Forecasting foreign exchange rates based on news story events in the economy calendar,” The North American Journal of Economics and Finance vol. 52, 101-181, 2020.
[21] L. Yu, S. Wang, and K. Lai, “A rough-set-refined text mining approach for crude oil market tendency forecasting,” International Journal of Knowledge and Systems Sciences, vol. 2, pp. 33-46, 2005.
[22] R. Luss and A. d'Aspremont, “Predicting abnormal returns from news using text classification,” Quantitative Finance, arXiv:0809.2792v3, 2009.
[23] M. V. Pinto and K. Asnani, “Stock Price Prediction Using Quotes and Financial News,” International Journal of Soft Computing, vol. 1, Issue 5, November 2011.
[24] M. R. Amin-Naseri and E. A. Gharacheh, “A hybrid artificial intelligence approach to monthly forecasting of crude oil price time series,” in The Proceedings of the 10th International Conference on Engineering Applications of Neural Networks, CEUR-WS284, 2007, pp. 160-167.
[25] W. Antweiler and M. Z. Frank, “Is all that talk just noise? The information content of internet stock message boards,” The Journal of Finance, vol. 59, pp. 1259-1294, 2004.
[26] E. Guardia-Sebaoun, A. Rafrafi, V. Guigue, and P. Gallinari, “Cross-media sentiment classification and application to box-office forecasting,” in Proceedings of the 10th Conference on Open Research Areas in Information Retrieval, 2013, pp. 201-208.
[27] X. Guo-Xiang, S. Ben-Chang, H. Yen-Bin, S. Po-Chih, and C. Kuo-Hao, “To Integrate Text Mining and Artificial Neural Network to Forecast Gold Futures Price,” in International Conference on New Trends in Information and Service Science, NISS'09, 2009, pp. 1014-1020.
[28] S. Asur and B. A. Huberman, “Predicting the future with social media,” In International Conference on Web Intelligence and Intelligent Agent Technology (WI-IAT), 2010 IEEE/WIC/ACM (Vol. 1, pp. 492-499). IEEE.
[29] Stefan Feuerriegel, Julius Gordon, “News-based forecasts of macroeconomic indicators: A semantic path model for interpretable predictions”, EuropeanJournal of Operational Research, vol. 272, pp. 162–175, 2019.
[30] Weiling Chen, Chai Kiat Yeo, Chiew Tong Lau, Bu Sung Lee, “Leveraging social media news to predict stock index movement using RNN-boost”, Data & Knowledge Engineering, vol. 118, pp. 14-24, 2018.
[31] KiHwan Nam, NohY oon Seong, “Financial news-based stock movement prediction using causality analysis of influence in the Korean stock market”, Decision Support Systems, Decision Support Systems, vol. 117, pp. 100-112, 2019.
[32] W. B. Yu, B. R. Lea, and B. Guruswamy, “A Theoretic Framework Integrating Text Mining and Energy Demand Forecasting,” IJEBM, vol. 5, pp. 211-224, 2007.
[33] R. Baeza-Yates and B. Ribeiro-Neto, Modern information retrieval. Vol. 463. New York: ACM press, 1999.
[34] D. Thorleuchter and D. Van den Poel, “Predicting e-commerce company success by mining the text of its publicly-accessible website,” Expert Systems with Applications, vol. 39, pp. 13026-13034, 2012.
[35] S. Mahfoud and G. Mani, Financial forecasting using genetic algorithms. Applied Artificial Intelligence, vol. 10, no. 6, 543-566, 1996.
[36] Tehran Stock Exchange, Available: http://www.tse.ir/market/Indices.aspx
[37] Cambridge University Press. Available: http://nlp.stanford.edu/IR-book/html/htmledition/tokenization-1.html
[38] Cambridge University Press. Available: http://nlp.stanford.edu/IR-book/html/htmledition/dropping-common-terms-stop-words-1.html
[39] X. Liang and R. C. Chen, “Mining Stock News in Cyberworid Based on Natural Language Processing and Neural Networks,” in International Conference on Neural Networks and Brain, 2005, ICNN&B'05. Vol. 2, IEEE.
[40] G. Salton, A. Wong, and C. S. Yang, “A vector space model for automatic indexing,” Communications of the ACM 18.11 (1975): 613-620.
[41] B. Drury, “A Text Mining System for Evaluating the Stock Market,” Ph.D. Dissertation, Universities of Minho, Aveiro and Porto, 2009.
[42] رضا راعي، علي نیک عهد قصیرائي و مصطفي حبیبي، «پیش بیني شاخص بورس اوراق بهادار تهران با تركیب روشهاي آنالیز مولفههاي اصلي، رگرسیون بردارپشتیبان و حركت تجمعي ذرات،» راهبرد مديريت مالي، سال چهارم، ماه پانزدهم، 1395، صص: 1-23.
]43[ امیردایی، امیدعبادتی و کیوان برنا، «بهکارگیری وبکاوی در پیشبینی جهت قیمت سهام گروه محصولات شیمیایی در بورس اوراق بهادار»، فصلنامه علمی- پژوهشی فناوری اطلاعات و ارتباطات ایران، سال یازدهم، شمارههای 39 و 40، بهار و تابستان 1398، صص: 19 – 48.
پیوست : لیست ویژگیها (کلمات مورد بررسی) در اخبار مربوط به بورس
نقدینگی | اقتصادی | مسکن | پروژه | پایانی | عمومی | بانکداری |
برنامه | صندوق | ارزی | پرداخت | فروش | خدمات | روابط |
اوراق | تسهیلات | اعلام | شرکت | قانون | جلسه | موسسات |
اجلاس | چین | نسبت | ارائه | صورت | توسعه | کار |
نرخ | فعالیت | کالا | عامل | کمیسیون | ابلاغ | چک |
سپرده | شاخص | لازم | معادل | استفاده | فرهنگی | نظارت |
مردم | تعیین | مسافرتی | ضوابط | اسکناس | مصرفی | مناطق |
شهری | قرض | مقررات | پولشویی | هیات | نظارتی | صادرات |
اقتصاد | حضور | جهانی | بها | سیاستهای | مجموعه | دولتی |
بانکی | اقدام | بخشنامه | شعب | نفت | جاری | درآمد |
Textual analysis of central bank news in forecasting long-term trend of Tehran stock exchange index
Abstract
Financial markets have always been under influence of media news; therefore, text analysis of news is considered as an effective method of stock exchange forecasting. Research in this context has been conducted with the help of information retrieval techniques, in which high frequency words in a document that appeared sporadically in the whole corpus received higher weight than others. In contrast, the words which appeared in many news of a corpus, during a certain time, indicate the importance of an event. In our research, to address this contradiction, a new technique of assigning weight to influential words of news is presented. Financial news of Iran Central Bank (CBI) and actual data of Tehran Stock Exchange Index (TSEI) in the duration of 2005 to 2020 AD were utilized to evaluate the proposed method. The empirical results show 64% and 41% accuracy of trend prediction when TSEI moves upward and downward respectively and about 10% decreasing in Mean Absolute Error (MAE) to compare with prevalent techniques. While, the changes of the ratio between the number of positive and negative words in news does not offer predictive or analytical evidences, our results show that, there still exists a meaningful relationship between CBI news and TSEI fluctuations.
Keywords: Tehran Stock Exchange Index, long-term forecasting, textual analysis, word weighting.