رقم المقالة : 202007278337 زيارة : 15764 الصفحة: 19 - 48

نوع المخطوط: المحکّمة

به‌کارگیری وب‌کاوی در پیش‌بینی جهت قیمت سهام گروه محصولات شیمیایی در بورس اوراق بهادار

الموضوعات :

امیر دایی ¹ , امیدمهدی عبادتی ² , کیوان برنا ³

1 - مدیریت فناوری اطلاعات، دانشکده مدیریت، دانشگاه خوارزمی، تهران
2 - گروه مدیریت عملیات و فناوری اطلاعات دانشگاه خوارزمی، تهران
3 - گروه علوم کامپیوتر دانشگاه خوارزمی، تهران

تاريخ الإرسال : 04 الإثنين , جمادى الأولى, 1441 تاريخ التأكيد : 15 الإثنين , ذو القعدة, 1441 تاريخ الإصدار : 27 السبت , ذو القعدة, 1441

الکلمات المفتاحية: متن‌کاوی, کاوش محتوای وب, خزشگر وب, پیش‌بینی بورس اوراق بهادار, ماشین بردار پشتیبان,

ملخص المقالة :

پیش‌بینی بازارها از جمله سهام به دلیل حجم بالای معاملات و نقدینگی برای محققان و سرمایه‌گذاران دارای جذابیت بوده است. توانایی پیش‌بینی جهت قیمت ما را قادر می‌سازد با کاهش ریسک و اجتناب از ضرر و زیان مالی، به بازده بالاتری دست‌یابیم. اخبار نقش مهمی در فرایند ارزیابی قیمت فعلی سهام دارد. توسعه روش‌های داده‌کاوی، هوش محاسباتی و الگوریتم‌های یادگیری ماشین سبب ایجاد مدل‌های جدیدی در پیش‌بینی شده‌اند. هدف از این پژوهش ذخیره سازی اخبار خبرگزارها و استفاده از روش‌های متن کاوی و الگوریتم ماشین بردار پشیبان به منظور پیش‌بینی جهت قیمت روز آینده سهم است. بدین منظور خبرها منتشر شده در 17 خبرگزاری با استفاده از یک خزگشر موضوعی به زبان پی‌اچ‌پی ذخیره و دسته‌بندی شده است. سپس با استفاده از روش‌های متن‌کاوی و الگوریتم ماشین بردار پشتیبان و کرنل‌های مختلف به پیش‌بینی جهت قیمت سهام گروه محصولات شیمیایی در بورس اوراق بهادار پرداخته می‌شود. دراین مطالعه از 300 هزار خبر در دسته‌های سیاسی و اقتصادی و قیمت‌های سهام 25 شرکت منتخب در بازه زمانی آبان تا اسفند 97 در 122 روز معاملاتی استفاده شده است. نتایج نشان می‌دهد با مدل ماشین بردار پشتیبان با کرنل خطی می‌توان به صورت میانگین 83 درصد جهت قیمت‌ها را پیش‌بینی کرد. با استفاده از کرنل‌های غیرخطی و معادله درجه 2 ماشین بردار پشتیبان صحت پیش‌بینی به صورت میانگین تا 85 درصد افزایش می‌یابد و سایر کرنل‌ها نتایج ضعیف‌تری از خود نشان می‌دهند.

المصادر:

1.J. D. Velásquez, V. Palade, and L. C. Jain, Advanced techniques in web intelligence: Springer, 2013.
2. Cisco. (2019). Cisco Visual Networking Index: Forecast and Trends, 2017–2022 White Paper. Available: https://www.cisco.com/c/en/us/solutions/collateral/service-provider/visual-networking-index-vni/white-paper-c11-741490.html
3. internetlivestats. (2019). Total number of Websites. Available: https://www.internetlivestats.com/total-number-of-websites/
4. Z. Markov and D. T. Larose, Data mining the Web: uncovering patterns in Web content, structure, and usage: John Wiley & Sons, 2007.
5.B. Liu, Web data mining: exploring hyperlinks, contents, and usage data: Springer Science & Business Media, 2007.
6 A. Khadjeh Nassirtoussi, S. Aghabozorgi, T. Ying Wah, and D. C. L. Ngo, "Text mining for market prediction: A systematic review," Expert Systems with Applications, vol. 41, pp. 7653-7670, 11/15/ 2014.
7. M.-A. Mittermayer and G. Knolmayer, Text mining systems for market response to news: A survey: Institut für Wirtschaftsinformatik der Universität Bern, 2006.
8. C.-J. Huang, J.-J. Liao, D.-X. Yang, T.-Y. Chang, and Y.-C. Luo, "Realization of a news dissemination agent based on weighted association rules and text mining techniques," Expert Systems with Applications, vol. 37, pp. 6409-6413, 2010.
9. B. S. Kumar and V. Ravi, "A survey of the applications of text mining in financial domain," Knowledge-Based Systems, vol. 114, pp. 128-147, 12/15/ 2016.
10. M. Hagenau, M. Liebmann, and D. Neumann, "Automated news reading: Stock price prediction based on financial news using context-capturing features," Decision Support Systems, vol. 55, pp. 685-697, 6// 2013.
11. M. Thelwall, "Data cleansing and validation for multiple site link structure analysis," in Web mining: Applications and techniques, ed: IGI Global, 2005, pp. 208-227.
12. M. Sheng, Y. Qin, L. Yao, and B. Benatallah, Managing the web of things: linking the real world to the web: Morgan Kaufmann, 2017.
13. R. Kosala and H. Blockeel, "Web mining research: A survey," ACM Sigkdd Explorations Newsletter, vol. 2, pp. 1-15, 2000.
14. M. G. Da Costa and Z. Gong, "Web structure mining: an introduction," in Information Acquisition, 2005 IEEE International Conference on, 2005, p. 6 pp.
15. F. Johnson and S. K. Gupta, "Web content mining techniques: a survey," International Journal of Computer Applications, vol. 47, 2012.
16. Kumar and Ravi, "A survey of the applications of text mining in financial domain," vol. 114, pp. 128-147, 2016.
17. A. Hotho, A. Nürnberger, and G. Paaß, "A brief survey of text mining," in Ldv Forum, 2005, pp. 19-62.
18. Gupta and Lehal, "A survey of text mining techniques and applications," vol. 1, pp. 60-76, 2009.
19. Y. Zhang, M. Chen, and L. Liu, "A review on text mining," in Software Engineering and Service Science (ICSESS), 2015 6th IEEE International Conference on, 2015, pp. 681-685.
20. H. Hashimi, A. Hafez, and H. Mathkour, "Selection criteria for text mining approaches," Computers in Human Behavior, vol. 51, pp. 729-733, 2015.
21. K. Javed, S. Maruf, and H. A. Babri, "A two-stage Markov blanket based feature selection algorithm for text classification," Neurocomputing, vol. 157, pp. 91-104, 2015.
22. G. Hackeling, Mastering Machine Learning with scikit-learn: Packt Publishing Ltd, 2017.
23. Khan and A. Ahmad, "Cluster center initialization algorithm for K-means clustering," Pattern recognition letters, vol. 25, pp. 1293-1302, 2004.
24. J. Hou, H. Gao, and X. Li, "DSets-DBSCAN: a parameter-free clustering algorithm," IEEE Transactions on Image Processing, vol. 25, pp. 3182-3193, 2016.
25. Zhang and Z. Xu, "Hesitant fuzzy agglomerative hierarchical clustering algorithms," International Journal of Systems Science, vol. 46, pp. 562-576, 2015.
26. D. M. Farid, L. Zhang, C. M. Rahman, M. A. Hossain, and R. Strachan, "Hybrid decision tree and naïve Bayes classifiers for multi-class classification tasks," Expert Systems with Applications, vol. 41, pp. 1937-1946, 2014.
27. V. Svetnik, A. Liaw, C. Tong, J. C. Culberson, R. P. Sheridan, and B. P. Feuston, "Random forest: a classification and regression tool for compound classification and QSAR modeling," Journal of chemical information computer sciences, vol. 43, pp. 1947-1958, 2003.
28. Chen, K. Li, Z. Tang, K. Bilal, S. Yu, C. Weng, et al., "A parallel random forest algorithm for big data in a spark cloud computing environment," IEEE Transactions on Parallel Distributed Systems, pp. 1-1, 2017.
29. G. Dreyfus, Neural networks: methodology and applications: Springer Science & Business Media, 2005.
30. C. J. Burges, "A tutorial on support vector machines for pattern recognition," Data mining knowledge discovery, vol. 2, pp. 121-167, 1998.
31. M. Sokolova, N. Japkowicz, and S. Szpakowicz, "Beyond accuracy, F-score and ROC: a family of discriminant measures for performance evaluation," in Australasian joint conference on artificial intelligence, 2006, pp. 1015-1021.
32. S. S. Groth and J. Muntermann, "An intraday market risk management approach based on textual analysis," Decision Support Systems, vol. 50, pp. 680-691, 2011.
33. R. P. Schumaker, Y. Zhang, C.-N. Huang, and H. Chen, "Evaluating sentiment in financial news articles," Decision Support Systems, vol. 53, pp. 458-464, 6// 2012.
34. L. Dey, A. Mahajan, and S. M. Haque, "Document clustering for event identification and trend analysis in market news," in Advances in Pattern Recognition, 2009. ICAPR'09. Seventh International Conference on, 2009, pp. 103-106.
35. A. Mahajan, L. Dey, and S. M. Haque, "Mining Financial News for Major Events and Their Impacts on the Market," in 2008 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology, 2008, pp. 423-426.
36. X. Zhong and D. Enke, "A comprehensive cluster and classification mining procedure for daily stock market return forecasting," Neurocomputing, vol. 267, pp. 152-168, 2017/12/06/ 2017.
37. A. E. Khedr, S. Salama, and N. Yaseen, "Predicting Stock Market Behavior using Data Mining Technique and News Sentiment Analysis," International Journal of Intelligent Systems and Applications (IJISA), vol. 9, pp. 22-30, 2017.
38. H. Levy and M. Sarnat, "International Diversification of Investment Portfolios," The American Economic Review, vol. 60, pp. 668-675, 1970.
39. J. M.-T. Wu, Z. Li, C.-W. Lin, and M. Pirouz, "A New Convolution Neural Network Model for Stock Price Prediction," ed, 2020, pp. 581-585.
40. O. M. Ebadati E and M. Mortazavi T, "An efficient hybrid machine learning method for time series stock market forecasting," Neural Network World, vol. 28, pp. 41-55, 2018.
41. A. Mahajan, L. Dey, and S. M. Haque, "Mining financial news for major events and their impacts on the market," in Web Intelligence and Intelligent Agent Technology, 2008. WI-IAT'08. IEEE/WIC/ACM International Conference on, 2008, pp. 423-426.
42. X. Zhong and D. J. N. Enke, "A comprehensive cluster and classification mining procedure for daily stock market return forecasting," vol. 267, pp. 152-168, 2017.
43. A. E. Khedr and N. Yaseen, "Predicting stock market behavior using data mining technique and news sentiment analysis," International Journal of Intelligent Systems Applications, vol. 9, p. 22, 2017.
44. M. Hagenau, M. Liebmann, and D. J. D. S. S. Neumann, "Automated news reading: Stock price prediction based on financial news using context-capturing features," vol. 55, pp. 685-697, 2013.
45. scikit-learn.org. Choosing the right estimator. Available: https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html 46. ع. نوریان. (2018). هضم برای پردازش زبان فارسی در پایتون. Available: http://www.sobhe.ir/hazm/
47. W.-H. Chen, S.-H. Hsu, and H.-P. Shen, "Application of SVM and ANN for intrusion detection," Computers Operations Research, vol. 32, pp. 2617-2634, 2005.
9. B. S. Kumar and V. Ravi, "A survey of the applications of text mining in financial domain," Knowledge-Based Systems, vol. 114, pp. 128-147, 12/15/ 2016.
10. M. Hagenau, M. Liebmann, and D. Neumann, "Automated news reading: Stock price prediction based on financial news using context-capturing features," Decision Support Systems, vol. 55, pp. 685-697, 6// 2013.
11. M. Thelwall, "Data cleansing and validation for multiple site link structure analysis," in Web mining: Applications and techniques, ed: IGI Global, 2005, pp. 208-227.
12. M. Sheng, Y. Qin, L. Yao, and B. Benatallah, Managing the web of things: linking the real world to the web: Morgan Kaufmann, 2017.
13.R. Kosala and H. Blockeel, "Web mining research: A survey," ACM Sigkdd Explorations Newsletter, vol. 2, pp. 1-15, 2000.
14. M. G. Da Costa and Z. Gong, "Web structure mining: an introduction," in Information Acquisition, 2005 IEEE International Conference on, 2005, p. 6 pp.
15. F. Johnson and S. K. Gupta, "Web content mining techniques: a survey," International Journal of Computer Applications, vol. 47, 2012.
16. Kumar and Ravi, "A survey of the applications of text mining in financial domain," vol. 114, pp. 128-147, 2016.
17.A. Hotho, A. Nürnberger, and G. Paaß, "A brief survey of text mining," in Ldv Forum, 2005, pp. 19-62.
18.Gupta and Lehal, "A survey of text mining techniques and applications," vol. 1, pp. 60-76, 2009.
19.Y. Zhang, M. Chen, and L. Liu, "A review on text mining," in Software Engineering and Service Science (ICSESS), 2015 6th IEEE International Conference on, 2015, pp. 681-685.
20. H. Hashimi, A. Hafez, and H. Mathkour, "Selection criteria for text mining approaches," Computers in Human Behavior, vol. 51, pp. 729-733, 2015.
21. K. Javed, S. Maruf, and H. A. Babri, "A two-stage Markov blanket based feature selection algorithm for text classification," Neurocomputing, vol. 157, pp. 91-104, 2015.
22. G. Hackeling, Mastering Machine Learning with scikit-learn: Packt Publishing Ltd, 2017.
23. Khan and A. Ahmad, "Cluster center initialization algorithm for K-means clustering," Pattern recognition letters, vol. 25, pp. 1293-1302, 2004.
24.J. Hou, H. Gao, and X. Li, "DSets-DBSCAN: a parameter-free clustering algorithm," IEEE Transactions on Image Processing, vol. 25, pp. 3182-3193, 2016.
25.Zhang and Z. Xu, "Hesitant fuzzy agglomerative hierarchical clustering algorithms," International Journal of Systems Science, vol. 46, pp. 562-576, 2015.
26. D. M. Farid, L. Zhang, C. M. Rahman, M. A. Hossain, and R. Strachan, "Hybrid decision tree and naïve Bayes classifiers for multi-class classification tasks," Expert Systems with Applications, vol. 41, pp. 1937-1946, 2014.
27.V. Svetnik, A. Liaw, C. Tong, J. C. Culberson, R. P. Sheridan, and B. P. Feuston, "Random forest: a classification and regression tool for compound classification and QSAR modeling," Journal of chemical information computer sciences, vol. 43, pp. 1947-1958, 2003.
28. Chen, K. Li, Z. Tang, K. Bilal, S. Yu, C. Weng, et al., "A parallel random forest algorithm for big data in a spark cloud computing environment," IEEE Transactions on Parallel Distributed Systems, pp. 1-1, 2017.
29.G. Dreyfus, Neural networks: methodology and applications: Springer Science & Business Media, 2005.
30.C. J. Burges, "A tutorial on support vector machines for pattern recognition," Data mining knowledge discovery, vol. 2, pp. 121-167, 1998.
31. M. Sokolova, N. Japkowicz, and S. Szpakowicz, "Beyond accuracy, F-score and ROC: a family of discriminant measures for performance evaluation," in
Australasian joint conference on artificial intelligence, 2006, pp. 1015-1021. 32.S. S. Groth and J. Muntermann, "An intraday market risk management approach based on textual analysis," Decision Support Systems, vol. 50, pp. 680-691, 2011.
33. R. P. Schumaker, Y. Zhang, C.-N. Huang, and H. Chen, "Evaluating sentiment in financial news articles," Decision Support Systems, vol. 53, pp. 458-464, 6// 2012.
34. L. Dey, A. Mahajan, and S. M. Haque, "Document clustering for event identification and trend analysis in market news," in Advances in Pattern Recognition, 2009. ICAPR'09. Seventh International Conference on, 2009, pp. 103-106.
35.A. Mahajan, L. Dey, and S. M. Haque, "Mining Financial News for Major Events and Their Impacts on the Market," in 2008 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology, 2008, pp. 423-426.
36. X. Zhong and D. Enke, "A comprehensive cluster and classification mining procedure for daily stock market return forecasting," Neurocomputing, vol. 267, pp. 152-168, 2017/12/06/ 2017.
37. A. E. Khedr, S. Salama, and N. Yaseen, "Predicting Stock Market Behavior using Data Mining Technique and News Sentiment Analysis," International Journal of Intelligent Systems and Applications (IJISA), vol. 9, pp. 22-30, 2017.
38. H. Levy and M. Sarnat, "International Diversification of Investment Portfolios," The American Economic Review, vol. 60, pp. 668-675, 1970.
39. J. M.-T. Wu, Z. Li, C.-W. Lin, and M. Pirouz, "A New Convolution Neural Network Model for Stock Price Prediction," ed, 2020, pp. 581-585.
40. O. M. Ebadati E and M. Mortazavi T, "An efficient hybrid machine learning method for time series stock market forecasting," Neural Network World, vol. 28, pp. 41-55, 2018.
41.A. Mahajan, L. Dey, and S. M. Haque, "Mining financial news for major events and their impacts on the market," in Web Intelligence and Intelligent Agent Technology, 2008. WI-IAT'08. IEEE/WIC/ACM International Conference on, 2008, pp. 423-426.
42.X. Zhong and D. J. N. Enke, "A comprehensive cluster and classification mining procedure for daily stock market return forecasting," vol. 267, pp. 152-168, 2017.
43.A. E. Khedr and N. Yaseen, "Predicting stock market behavior using data mining technique and news sentiment analysis," International Journal of Intelligent Systems Applications, vol. 9, p. 22, 2017.
44. M. Hagenau, M. Liebmann, and D. J. D. S. S. Neumann, "Automated news reading: Stock price prediction based on financial news using context-capturing features," vol. 55, pp. 685-697, 2013.
45. scikit-learn.org. Choosing the right estimator. Available: https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html
46. ع. نوریان. (2018). هضم برای پردازش زبان فارسی در پایتون. Available: http://www.sobhe.ir/hazm/
47.W.-H. Chen, S.-H. Hsu, and H.-P. Shen, "Application of SVM and ANN for intrusion detection," Computers Operations Research, vol. 32, pp. 2617-2634, 2005.

نص كامل:

الگوي تهيه مقالات

فصلنامه علمي- پژوهشي

فناوري اطلاعات و ارتباطات ایران

سال یازدهم، شماره‌هاي 39 و 40، بهار و تابستان 1398

صص: 19-48

$E:\E Drive\logo\iicta Logo0.JPG$

به‌کارگیری وب‌کاوی در پیش‌بینی جهت قیمت سهام گروه محصولات شیمیایی در بورس اوراق بهادار

*امیر دایی **امید مهدی عبادتی ***کیوان برنا

* کارشناسی ارشد مدیریت فناوری اطلاعات، دانشکده مدیریت، دانشگاه خوارزمی، تهران

** استادیار گروه مدیریت عملیات و فناوری اطلاعات دانشگاه خوارزمی، تهران

*** استادیار گروه علوم کامپیوتر دانشگاه خوارزمی، تهران

تاریخ دریافت: 09/10/1398 تاریخ پذیرش: 18/04/1399

چكيده

پیش‌بینی بازارها از جمله سهام به دلیل حجم بالای معاملات و نقدینگی برای محققان و سرمایه‌گذاران دارای جذابیت بوده است. توانایی پیش‌بینی جهت قیمت ما را قادر می‌سازد با کاهش ریسک و اجتناب از ضرر و زیان مالی، به بازده بالاتری دست‌یابیم. اخبار نقش مهمی در فرایند ارزیابی قیمت فعلی سهام دارد. توسعه روش‌های داده‌کاوی، هوش محاسباتی و الگوریتم‌های یادگیری ماشین سبب ایجاد مدل‌های جدیدی در پیش‌بینی شده‌اند. هدف از این پژوهش ذخیره سازی اخبار خبرگزارها و استفاده از روش‌های متن کاوی و الگوریتم ماشین بردار پشیبان به منظور پیش‌بینی جهت قیمت روز آینده سهم است. بدین منظور خبرها منتشر شده در 17 خبرگزاری با استفاده از یک خزگشر موضوعی به زبان پی‌اچ‌پی¹ ذخیره و دسته‌بندی شده است. سپس با استفاده از روش‌های متن‌کاوی و الگوریتم ماشین بردار پشتیبان و کرنل‌های مختلف به پیش‌بینی جهت قیمت سهام گروه محصولات شیمیایی در بورس اوراق بهادار پرداخته می‌شود. دراین مطالعه از 300 هزار خبر در دسته‌های سیاسی و اقتصادی و قیمت‌های سهام 25 شرکت منتخب در بازه زمانی آبان تا اسفند 97 در 122 روز معاملاتی استفاده شده است. نتایج نشان می‌دهد با مدل ماشین بردار پشتیبان با کرنل خطی می‌توان به صورت میانگین 83 درصد جهت قیمت‌ها را پیش‌بینی کرد. با استفاده از کرنل‌های غیرخطی و معادله درجه 2 ماشین بردار پشتیبان صحت پیش‌بینی به صورت میانگین تا 85 درصد افزایش می‌یابد و سایر کرنل‌ها نتایج ضعیف‌تری از خود نشان می‌دهند.

کلید واژه: متن‌کاوی، کاوش محتوای وب، خزشگر وب، پیش‌بینی بورس اوراق بهادار، ماشین بردار پشتیبان

کاربران به داده زیاد در حال رشدی دسترسی پیدا کردند. مرتب‌سازی و جستجو در میان انبوهی از داده‌های وب مسائل جدیدی را ایجاد کرد که با عنوان بازیابی اطلاعات وب شناخته می‌شود [1]. بر اساس شاخص cisco VNI پیش‌بینی می‌شود ترافیک آی پی جهانی از سال 2017 تا 2022 سه برابر شود. پیش‌بینی می‌شود ترافیک آی پی در سال 2022 به صورت ماهانه به EB396 برسد.

ترافیک کل برای اینترنت در دو دهه اخیر رشد فوق‌العاده‌ای را تجربه کرده است. بیش از 20 سال قبل، در سال 1992، شبکه‌های اینترنت جهانی، حدود 100 گیگ ترافیک را در هر روز منتقل می‌کردند. در سال 2017، ترافیک جهانی اینترنت به 45000 گیگ در هر ثانیه رسید. [2].

1-مقدمه

با رشد روز افزون اینترنت و تولید محتوا در محیط وب، داده‌ بسیار زیادی در بانک‌های اطلاعاتی ذخیره می‌شوند. این داده‌ها ممکن است از طریق صفحات وب به نمایش درآیند. اگرچه دسترسی به پایگاه داده وب سایت‌ها و گرفتن داده‌ها از مدیران سایت‌ها کار ساده‌ای نیست با این حال می‌توان با خزش وب سایت‌ها، این داده‌های ارزشمند را ذخیره کرد. این موضوع فرصتی را فراهم می‌آورد تا بتوان به مباحث داده‌کاوی و متن‌کاوی و استخراج دانش پرداخت. قبل از ظهور وب اکثر کاربران مجموعه عظیمی از اسناد نداشتند و بنابراین نیازی به سامانه‌ای پیچیده برای جستجو میان اسناد مختلف نبود. با ظهور وب، کاربران به داده زیاد در حال رشدی دسترسی پیدا کردند. مرتب‌سازی و جستجو در میان انبوهی از داده‌های وب مسائل جدیدی را ایجاد کرد که با عنوان بازیابی اطلاعات وب شناخته می‌شود [1].

[1] نویسنده عهده‌دار مکاتبات: امیدمهدی عبادتی ebadati@khu.ac.ir

PHP

شکل 1-پیش‌بینی شرکت سیسکو از ترافیک آی‌پی [2]

در حال حاضر بیش از یک و نیم میلیارد وب‌سایت در شبکه جهانی اینترنت وجود دارد. کمتر از 200 میلیون از این وب‌سایت‌ها فعال هستند. این موضوع در تحقیقات web server اکتبر 2014 netcraft تائید شد و برای اولین بار توسط Internet live stats برآورد و اعلام شد. شکل 2 تعداد کل وب‌سایت‌ها را در طول تاریخ از 1 وب‌سایت در سال 1991 تا سال 2018 نمایش می‌دهد [3]

شکل 2- تعداد وب‌سایت‌ها از سال 1992 تا 2018

رشد اینترنت و گسترش وب‌سایت‌ها و تولید محتوا‌های غیر ساختاریافته مطالعه در این حوزه را روز به روز با اهمیت‌تر می‌کند.

وب کاوی در حوزه‌های مختلف مورد مطالعه قرارگرفته است: فن‌های آماده‌سازی و پالایش داده‌های صفحات وب¹، استخراج و ذخیره‌سازی الگوی وب²، کاوش ساختار وب³، کاوش استفاده‌ی از وب⁴ و کاوش محتوای وب⁵ که هدف آن کشف دانش مفید از داده‌های موجود در اینترنت است [1]. وب کاوی بسته به اهداف کاوش و داده‌های ذخیره‌شده به سه دسته تقسیم می‌شود: استخراج ساختار وب، استخراج کاربرد وب و استخراج محتوای وب [4]. رشد روز افزون وب سایت‌ها و مطالب منتشرشده در محیط وب اهمیت استفاده از کاورش محتوای وب را دو چندان می‌کند.

خزش اولین قدم در وب کاوی یا ساخت یک موتور جستجو است. به صورت کلی خزشگرها به دو دسته تقسیم می‌شوند: خزشگر عمومی⁶ و خزشگر موضوعی⁷. خزشگرهای عمومی همه صفحات را بدون در نظر گرفتن محتوای آنها دانلود می‌کند، اما در خزشگر‌های موضوعی فقط صفحاتی با موضوعات خاص دانلود می‌شود [5].

به‌طور کلی ابزارهای پیش‌بینی در بازار سرمایه به دو بخش تحلیل تکنیکال⁸ و بنیادی⁹ تقسیم می‌شوند. تفاوت این روش‌ها در داده‌های ورودی است؛ در روش تکنیکال از داده‌های تاریخی بازار استفاده می‌شود در صورتی که در تحلیل بنیادی از دیگر انواع اطلاعات یا اخبار درباره کشور، جامعه، شرکت و غیره استفاده می‌شود. بیشتر تحقیقات در گذشته بر روی رهیافت تکنیکال انجام‌شده است، که دلیل عمده آن در دسترس بودن داده‌های کمّی تاریخی در بازار و تمایل عمومی معامله‌گران برای استفاده از روش‌های کمّی تکنیکال است. داده‌های بنیادی در صورتی که بدون ساختار باشد دارای چالش‌های بیشتری برای استفاده به عنوان ورودی هستند. داده‌های بنیادی ممکن است از منابع ساختار‌یافته و عدد مانند داده‌های اقتصاد کلان یا گزارش صورت‌های مالی بانکی و دولتی گرفته شوند. [6]

توسعه روش‌های داده‌کاوی، هوش محاسباتی و الگوریتم‌های یادگیری ماشین سبب ایجاد مدل‌های جدیدی در پیش‌بینی شده‌اند. به صورت کلی در مقالات متعدد نشریات مختلف دو دسته تحقیق در استفاده از روش‌های داده‌کاوی برای پیش‌بینی بازارهای مالی صورت گرفته است. روش اول استفاده از داده‌های دارای ساختار است که در بیشتر مطالعات از داده‌های دارای ساختار مانند قیمت گذشته، درآمد و سود تاریخی استفاده کرده‌اند. [7]

همچنین در مقاله‌ای دیگر که توسط چن جانگ هانگ¹⁰ و همکاران منتشرشده است تمرکز سیستم‌های پیش‌بینی مالی را صرفاً بر روی داده‌های کمی مانند قیمت سهام و شاخص بازار می‌دانند. [8]

اما بخش عمده‌ای از داده‌هایی که در محیط وب تولید می‌شوند بدون ساختار هستند و از این رو می‌توان از روش دوم یعنی استفاده از تکنیک‌های متن‌کاوی و داده‌کاوی بر روی داده‌های بدون ساختار استفاده کرد. متن‌کاوی شامل وظایف بسیاری مانند خوشه‌بندی اسناد، دسته‌بندی اسناد، خلاصه‌سازی متن، تحلیل احساسات، تحلیل شبکه‌های اجتماعی، تشخیص موضوع، دسته‌بندی صفحات وب، شناسایی نویسنده، تشخیص سرقت ادبی، تحلیل فیشینگ/هرزنامه و نرم‌افزارهای مخرب، تحلیل الگو، تصمیم‌گیری مالی و غیره است؛ اما اصلی‌ترین چالش در متن‌کاوی، داده‌های بدون ساختار است که قبل از شروع داده‌کاوی نیاز است آن‌ها را به فرمت ساختاریافته تبدیل کرد. [9]

اخبار¹¹ نقش مهمی در فرایند ارزیابی قیمت فعلی سهام، که توسط تحلیل‌گران، سرمایه‌گذاران و سرمایه‌گذاران نهادی¹² صورت می‌گیرد، دارد. بر اساس یک دیدگاه تئوریک، ارزیابی کارآمد از یک شرکت باید بر ارزش فعلی و جریان وجوه نقد آینده شرکت تأثیر بگذارد. در اخبار نه تنها آمار و ارقام مالی بلکه اجزای متنی کیفی نیز قیمت سهام را تحت تأثیر قرار می‌دهند. [10]

در این پژوهش فرض شده است که با استفاده از اخبار منتشر شده می‌توان جهت قیمت سهم را در روز بعد پیش‌بینی کرد. بدین منظور اخبار منتشر شده در خبرگزاری‌ها به عنوان متغییر تحقیق در نظر گرفته شده‌اند و دیتای اخبار ذخیره می‌شود. سپس با استفاده از این اخبار و روش‌های متن‌کاوی و داده‌کاوی و استفاده از الگوریتم ماشین بردار پشتیبان با کرنل‌های مختلف به دسته‌بندی اخبار برای پیش‌بینی صعودی یا نزولی بودن قیمت در روز بعد پرداخته می‌شود.

2- ادبیات موضوع

برای مطالعات وب کاوی می‌توان از داده‌هایی که توسط خزشگرها و موتورهای جستجو ذخیره‌شده است یا با نوشتن خزشگر و ذخیره‌سازی دیتا دسترسی داشت. اگر بخواهیم از داده‌های خزشگرها و موتورهای جستجو استفاده کنیم این دیتا در مدت زمان کوتاه و به راحتی ممکن است در اختیار قرار گیرد. بدین منظور می‌توانید از مجموعه داده‌های آماده استفاده کنیم، اما این دیتا بیشتر برای آزمایش یک الگوریتم مفید است. شاید در این زمینه بهترین مجموعه داده ترک (trec.org) باشد که شامل مجموعه از صفحات وب با ساختار html است [11]. ممکن است داده‌ها به روز نباشد، داده‌هایی مورد نیاز ذخیره نشده باشد، دیتا ساختار مناسب نداشته باشد، دیتا بیش از نیازها باشد یا متحمل هزینه شود. برای دستیابی به اطلاعات دقیق، به روز و مورد اعتماد نیاز است که از خزشگر مورد نیاز نوشته شود [11]. اما این روش چالش‌هایی مانند نیاز به دانش برنامه‌نویسی، زمان‌بر بودن نوشتن و آزمایش خزشگر و در نهایت فرایند ذخیره‌سازی داده دارد. در این پژوهش ابزار قابل توسعه‌ای طراحی و ارائه‌شده است تا بتوان محتوای مورد نیاز را از وب ذخیره کرد.

2-1-وب‌کاوی

در طی سال‌ها شبکه وب از طریق انتقال سنتی و به اشتراک گذاشتن رایانه‌ها و اسناد به عنوان «وب داده»، به اتصال فعلی مردم به عنوان «وب افراد» و به اتصال در حال ظهور میلیاردها اشیاء به عنوان «وب اشیاء» تغییر کرده است. [12]

وب کاوی به معنی استفاده از فن داده‌کاوی به‌منظور خودکار کردن جستجو و استخراج اطلاعات از اسناد و خدمات وب است. با توجه به حجم عظیمی اطلاعاتی که در محیط اینترنت، شبکه جهانی وب حوزه بکری برای مطالعات داده‌کاوی است. این داده‌های عظیم باعث ایجاد مسائلی از قبیل پیدا کردن اطلاعات مرتبط، ایجاد دانش جدید از اطلاعات در محیط وب، شخصی‌سازی اطلاعات و شناخت رفتار مصرف کنند و کاربران شده است [13]

2-2-روش‌های وب کاوی

وب کاوی بر اساس نوع دیتا به سه دسته کاوش کاربری وب، کاوش ساختار وب و کاوش محتوای وب تقسیم می‌شود. هر سه دیدگاه بر روی کشف دانش ضمنی، اطلاعات ناشناخته و بالقوه تمرکز دارند. [14]

[1] Web Data Pre-processing and Cleaning

[2] Web Pattern Extraction and Storage

[3] Web structure mining

[4] Web usage mining

[5] Web content mining

[6] Universal crawler

[7] Topic crawlers

[8] Technical

[9] Fundamental

[10] Chenn-Jung Huang

[11] News

[12] Institutional Traders

شکل 3-روش‌های وب کاوی [15]

2-3-انواع روش‌های متن‌کاوی

الگوریتم‌های متن‌کاوی به‌طور کلی به دو دسته الگوریتم یادگیری با نظارت و الگوریتم یادگیری بدون نظارت تقسیم می‌شوند. برای متن‌کاوی از ابزارها و روش‌های مختلفی استفاده می‌شود که به سه گروه اصلی تقسیم می‌شوند. این ابزارها و روش‌ها در زیر بیان‌شده است [16]:

1-2-3-کلاس‌بندی یا دسته‌بندی ¹

کلاس‌بندی یا دسته‌بندی یکی از روش‌هایی است که برای گروه‌بندی متن‌ها در متن‌کاوی مورد استفده قرار می‌گیرد . هدف از کلاس‌بندی متون، نسبت دادن کلاس‌های از پیش تعریف‌شده به اسناد متنی موجود، مانند گروه اخبار، گروه کالاها، جناح سیاسی است. [17, 18].

2-2-3-خوشه‌بندی ²

خوشه‌بندی یکی از روش‌های متن‌کاوی است که برای شناسایی گروه‌های داده‌ها بر اساس مشخصه‌ها یا ویژگی‌های آن‌ها به کار برده می‌شود که در آن هیچ گروه از پیش تعیین شده‌ای وجود ندارد [17].

3-2-3- کاوش قوانین وابستگی

کاوش قوانین وابستگی روشی است که با کشف و یافتن قوانینی در رخدادهای دیگر وقوع یک مورد را در آینده پیش‌بینی می‌کند. کاوش قوانین وابستگی در دسته الگوریتم‌های یادگیری بدون نظارت جای دارد زیرا هیچ برچسبی از قبل برای آموزش الگوریتم وجود ندارد [16, 19].

2-4-مراحل متن‌کاوی

فرایند متن‌کاوی مراحل مختلفی دارد که در پژوهش هاشیمی³ و همکاران (2015)، پیش‌پردازش، استخراج ویژگی و انتخاب ویژگی از مراحل اصلی این فرایند عنوان‌شده است. مراحل کلی این فرایند در شکل 4 نشان داده‌شده است. [20] کومر و راوی⁴ به‌طور کلی فرایند متن‌کاوی شامل دو فاز اساسی می‌باشد: پیش‌پردازش متن، استخراج دانش [16].

[1] Classification

[2] Clustering

[3] Hashimi

[4] Kumar & Ravi

شکل 4-مراحل متن‌کاوی

1-2-4-پیش‌پردازش

برای کشف دانش از حجم قابل توجهی از اسناد، لازم است که بر روی اسناد پیش‌پردازش انجام شود؛ یعنی اطلاعات در یک ساختار داده‌ای مناسب برای پردازش‌های بعدی آماده و ذخیره‌سازی شود. در این مرحله داده‌های ورودی که در دسترس است باید برای ورود به الگوریتم یادگیری ماشین آماده شود، یعنی از حالت غیرساخت‌یافته به فرمت ساختاریافته و قابل تشخیص برای ماشین تبدیل شود. [18]

2-2-4-تولید و استخراج ویژگی

اگرچه برنامه‌های کاربردی زیادی درزمینه بازیابی اطلاعات مانند پالایش و جست‌وجوی اطلاعات مرتبط می‌توانند از تحقیقات درزمینه رده‌بندی متن سود ببرند، مشکل اصلی رده‌بندی متن، ابعاد بالای فضای ویژگی با توجه به تعداد زیاد لغات است. راه‌حل این مشکل استفاده از روش‌های استخراج و انتخاب ویژگی است [20].

3-2-4-انتخاب ویژگی

انتخاب ویژگی فرایندی است که زیرمجموعه‌ای از ویژگی‌های اصلی را با توجه به برخی از معیارها و یا اهمیت ویژگی‌ها انتخاب می‌کند. الگوریتم‌های انتخاب ویژگی به دو دسته زیر تقسیم می‌شوند:

1- الگوریتم‌های رتبه‌بندی ویژگی

2- الگوریتم‌های انتخاب زیر مجموعه ویژگی

4-2-4-کشف دانش

گام بعدی استخراج و کشف دانش از فرم‌های میانی است که بر اساس نحوه نمایش هر سند می‌تواند متفاوت باشد. نمایش مبتنی بر سند برای گروه‌بندی، طبقه‌بندی و تجسم‌سازی استفاده می‌شود، در حالی‌که نمایش مبتنی بر مفهوم برای یافتن روابط میان مفاهیم، ساخت اتوماتیک آنتولوژی و غیره به‌کار می‌رود [21].

5-2-4-تفسیر و ارزیابی

در این مرحله، خروجی مراحل قبل مورد ارزیابی قرار می‌گیرد تا مشخص شود که دانشی کشف‌شده است و اینکه دانش کشف‌شده اهمیت دارد یا خیر. با اجرای الگوریتم‌ها، داده/ متن استخراج‌شده به فنون مختلفی تحویل داده می‌شود که امکان استفاده مستقیم از اطلاعات استخراج‌شده را از طریق ابزار کشف پیوند یا مصورسازی فراهم می‌کنند [21].

2-5-یادگیری ماشین

یادگیری ماشین ارتباط نزدیکی با آمار محاسباتی دارد و اغلب با آن همپوشانی دارد. تمرکز این شاخه پیش‌بینی کردن با رایانه است و پیوند محکمی با بهینه‌سازی ریاضی دارد. مدل‌های تحلیلی به محققان، پژوهشگران علم داده و تحلیلگران اجازه می‌دهد تصمیمات و نتایج قابل اطمینان و تکرارپذیر به دست آورند و با یادگیری از روابط و روندهای مربوط به گذشته، از الگوهای پنهان پرده‌برداری کنند [22].

1-2-5-یادگیری بدون نظارت: خوشه‌بندی

الگوریتم خوشه‌بندی کا-مینز¹ و کا-مد²

الگوریتم کا مینز که در سال 1967 توسط مک کویین³ مطرح شد، یکی از محبوب‌ترین الگوریتم‌های خوشه‌بندی است که در زمینه‌های مختلف مورد استفاده قرار می‌گیرد. هدف الگوریتم کا-مینز، بهینه‌سازی تابع هدف⁴ می‌باشد که پاسخ‌های حاصل از خوشه‌بندی به کمینه‌سازی یا بیشینه‌سازی تابع هدف منجر می‌شود. در این الگوریتم باید تعداد خوشه‌ها از قبل مشخص‌شده باشد. این الگوریتم بر روی داده‌های پیوسته تعریف می‌شود. [23].

1-1-2-5-الگوریتم DBSCAN

یکی از پرکاربردترین الگوریتم‌های خوشه‌بندی، تکنیک DBSCAN است که خوشه‌ها را بر اساس تراکم و غلظت آن‌ها تعیین کند. در این الگوریتم نیازی به مشخص کردن تعداد خوشه‌ها توسط کاربر نیست. این الگوریتم قادر است با اثربخشی بالایی خوشه‌هایی به شکل‌های دلخواه ایجاد کند. برای خوشه‌بندی تعدادی از نقاط توسط این الگوریتم، از دو پارامتر شعاع همسایگی⁵ و حداقل تعداد نقاط موجود⁶ در همسایگی، استفاده می‌شود و مجموعه نقاط را به نقاط مرکزی⁷، نقاط مرزی⁸ و داده‌های پرت⁹ تقسیم می‌کند. [24].

الگوریتم سلسه‌مراتبی¹⁰

این الگوریتم به دو دسته از بالا به پایین¹¹ و از پایین به بالا¹² تقسیم می‌شود. در روش از بالا به پایین، تمامی داده‌ها با هم به‌عنوان یک خوشه بزرگ در نظر گرفته می‌شوند و در مرحله بعد به خوشه‌های کوچک‌تر تقسیم‌شده تا جایی که هر داده به‌عنوان یک خوشه در نظر گرفته شود. اما در روش پایین به بالا هر داده در ابتدا یک خوشه است، به ترتیب در هر مرحله داده‌هایی که بیشترین شباهت (کمترین فاصله) را به هم دارند به خوشه می‌پیوندند تا خوشه بزرگ‌تر شود و در نهایت همه داده‌ها با هم یک خوشه شوند. برای اندازه‌گیری فاصله بین دو خوشه از روش‌های پیوند¹³ استفاده می‌شود. انواع روش‌های پیوند عبارت‌اند از: نزدیک‌ترین همسایه¹⁴، پیوند تکی¹⁵، دورترین همسایه¹⁶، پیوند کامل¹⁷ و یا پیوند میانگین¹⁸ [25].

مدل ترکیبی گاوسی¹⁹

منظور از نمودار گوسی این است که یک مقدار مشخص وجود دارد که حداکثر نمونه‌ها در آن قرار دارند و هرچه از این مقدار دورتر می‌شویم تعداد داده‌ها کمتر می‌شود. به این نوع پخش‌شدگی توزیع گوسی می‌گویند که بیشتر داده‌های جهان از این نوع توزیع پیروی می‌کنند. شکل توزیع گوسی همیشه متوازن نیست و ممکن است به سمت چپ یا راست چولگی²⁰ داشته باشد. این الگوریتم از روش بیشینه‌سازی انتظار²¹ استفاده می‌کند.

2-2-5-الگوریتم یادگیری بانظارت: کلاس‌بندی

الگوریتم درخت تصمیم²²

درخت تصمیم راه‌حلی سریع و مفید برای کلاس‌بندی مجموعه داده‌های بزرگ با تعداد زیادی از متغیرها را فراهم می‌کند. این الگوریتم که متغیرهای کمی و کیفی را پیش‌بینی می‌کند، اولین بار توسط برمان²³ مطرح شد. نتیجه این الگوریتم مجموعه‌ای از شرط‌های منطقی با ساختار درختی است که برای پیش‌بینی یک ویژگی به‌کار می‌رود. الگوریتم درخت تصمیم به‌گونه‌ای عمل می‌کند که گوناگونی یا تنوع در گره‌ها را به حداقل برساند. 4 نوع الگوریتم درخت تصمیم CART، QUEST، CHAID و C5.0 وجود دارد که تفاوت آن‌ها در معیار اندازه‌گیری عدم خلوص، شیوه شاخه‌بندی و هرس‌کردن گره‌های درخت می‌باشد [26].

الگوریتم جنگل تصادفی²⁴

الگوریتم جنگل تصادفی یکی از الگوریتم‌های یادگیری ماشین و ابزاری برای کلاس‌‌بندی و رگرسیون است [27]. جنگل تصادفی الگوریتمی ترکیبی است که بر اساس مدل درخت تصمیم شکل‌گرفته است. در این الگوریتم ابتدا با استفاده از روش نمونه‌گیری بوت استرپ²⁵ تعداد K زیرمجموعه آموزش²⁶ را از بین مجموعه داده‌های اصلی استخراج می‌کند و سپس با آزمایش کردن این زیرمجموعه‌ها تعداد K درخت تصمیم ایجاد می‌شود. در نهایت یک جنگل تصادفی از این درختان تصمیم ایجاد می‌شود. [28].

الگوریتم شبکه عصبی²⁷

شبکه عصبی ابزار قدرتمندی برای حل مشکلات پیچیده است که با پردازش داده‌ها، دانش پنهان آن‌ها را به ساختار شبکه منتقل می‌کند. نورون یک تابع غیرخطی، پارامتری و محدود است که برای راحتی، به این تابع نورون گفته می‌شود. به متغیرهای نورون ورودی نورون گفته می‌شود و مقدار آن در خروجی آن نشان داده می‌شود. نورون‌ها می‌توانند به‌راحتی به‌صورت گرافیکی نمایش داده شوند. ترکیب توابع غیرخطی دو یا چند نورون، شبکه‌ای از نورون‌ها را تشکیل می‌دهد. به‌طور کلی شبکه‌های عصبی دو نوع هستند: شبکه پیش‌خور²⁸ و شبکه بازخور²⁹.[29].

ماشین بردار پشیتیبان³⁰

مسأله طبقه بندی یکی از مسائل اصلی مطر شده در یادگیری ماشین است. بسیاری از مسائل را می توان بصورت یک مسأله کلاسه بندی مطرح كرده و حل نمود. روش های طبقه بندی خطی، سعی دارند كه با ساختن یک ابر سطح (كه عبارت است از یک معادله خط)، داده ها را از هم تفکیک كنند. چندین تفکیک كننده خطی می تواند داده دو کلاس را از هم جدا كند. یکی از روش هایی كه بصورت گسترده برای اینگونه مسائل استفاده می شود، ماشین بردار پشتیبان است. ماشین بردار پشتیبان در سال 1993 توسط ولادیمیر واپنیک پیشنهاد شد. SVM بهترین ابر سطحی را پیدا می كند كه با حداکثر فاصله، داده های مربوط به دو طبقه را از هم تفکیک كند. [30]

2-6-ارزیابی مدل‌ در یادگیری با ناظر

در یادگیری با ناظر چندین راه برای ارزیابی عملکرد مدل یادگیری و نتایج دسته‌بندی وجود دارد. شاخص‌های ارزیابی کیفیت کلاس‌بندی بر اساس ماتریس درهم ریختگی تعیین می‌شوند. در ماتریس درهم ریختگی تعیین می‌شود چه تعداد از پیش‌بینی‌های مدل صحیح و غلط بوده‌اند. جدول 1 ماتریس درهم ریختگی برای یک مدل دوتایی را نمایش می‌دهد.

جدول 1- ماتریس در هم ریختگی

کلاس / تشخیص	تشخیص مثبت	تشخیص منفی
مثبت	Tp	Fn
منفی	Fp	Tn

Tp (true positive): کلاس مثبتی که به درستی مثبت تشخیص داده‌شده است.

Fn (false negative): کلاس مثبتی که به اشتباه منفی تشخیص داده‌شده است.

Fp (false positive): کلاس منفی که به اشتباه مثبت تشخیص داده‌شده است.

Tn (true negative): کلاس منفی که به درستی مثبت تشخیص داده‌شده است.

بر اساس این ماتریس شاخص‌های دقت، صحت و امتیاز-F محاسبه می‌شود.

1-2-6-دقت ³¹

precision درستی پیش‌بینی‌ها را نسبت به کل موارد کلاس نشان می‌دهد. فرمول محاسبه به صورت زیر است:

2-2-6-صحت ³²

در شاخص صحت نسبت مقدار موارد صحیح طبقه‌بندی‌شده توسط الگوریتم از یک کلاس به کل اعضای پیش‌بینی شده در آن گروه را محاسبه می‌کنیم. فرمول محاسبه به صورت زیر است:

3-2-6-امتیاز-F1 ³³

این معیار دقت و صحت را با هم در نظر می‌گیرد. معیار F1 در بهترین حالت، یک و در بدترین حالت صفر است. این معیار توصیف‌کننده میانگین وزن‌دار مابین دو کمیت دقت و صحست است. این معیار میزان دقت و صحت یک مدل را به صورت هم‌زمان بررسی می‌کند و میزان کیفیت کلاس‌بندی را تعیین می‌کند. برای محاسبه امتیاز F1 از فرمول زیر استفاده می‌شود. برای محاسبه این شاخص از فرمول زیر استفاده می‌شود:

با استفاده از این شاخص‌های می‌توان مدل‌های یادگیری دوتایی با ناظر را ارزیابی کرد. [31]

2-7-پیش‌بینی بازار بر اساس اخبار منتشرشده

مدیریت ریسک مالی یکی از کارهای بسیار پر چالش در واحدهای مالی است. در دو دهه گذشته روش‌ها و مدل‌های کمی³⁴ بسیاری جهت مشخص کردن تأثیر بازارهای بی‌ثبات مالی بر تجارت، توسعه و گسترش یافته‌اند. اکثر این مطالعات بر روی داده‌های ساختاریافته مانند سری قیمت‌های تاریخی انجام‌شده است و توجه اندکی به داده‌های غیر ساختار یافته (متنی³⁵) شده است، در حالی که بیشتر حجم منابع اطلاعاتی موجود از این نوع محتوا هستند. تحقیقات تجربی که در گذشته صورت گرفته است نشان می‌دهد که اخبار خاص، مانند افشای شرکت‌های بزرگ می‌توانند سبب تغییر رفتار غیرطبیعی قیمت پس از انتشار شود. [32]

فرضیه بازار کارا و نظریه گام تصادفی دو نظریه هستند که تأثیر قابل توجهی بر پیش‌بینی بازار داشته است. در فرضیه بازار کارا، قیمت سهام بازتابی از اطلاعات بازار کامل است و زمانی که اطلاعات جدیدی ارائه شود، بلافاصله در قیمت سهام منعکس می‌شود. در نظریه گام تصادفی اعتقاد بر این است که بازارها کارآمد هستند و اصلاح قیمت‌ها بلافاصله رخ می‌دهد و پیش‌بینی قیمت از داده بازار غیرممکن است. این نظریه‌ها بیان می‌کنند که قیمت‌ها به اطلاعات پیوند خورده‌اند و از اطلاعات امروز نمی‌توان برای پیش‌بینی قیمت‌ها در آینده استفاده کرد. [33]

همچنین در پیش‌بینی قیمت سهام دو فلسفه کاملاً مخالف وجود دارد. فن‌های تجزیه و تحلیل بنیادی و تکنیکال. در حالی که تحلیلگران بنیادی به دنبال استفاده از داده‌های نسبی، نسبت‌ها و درآمد نسبی سهام هستند، تحلیلگران تکنیکال از نمودارها، فن‌های مدل‌سازی بر اساس حجم معاملات تاریخی و قیمت‌ها برای تحلیل خود استفاده می‌کنند. [33]

در حالی که رفتار بازار تحت تأثیر اتفاقات محلی و جهانی است، جزئیات این اتفاقات در داده‌های ساختاریافته مشاهده نمی‌شود. انتظار می‌رود که داده‌کاوی نقش مهمی در طراحی راهبردهای پیش‌بینی رفتار بازار داشته باشد، زیرا می‌تواند با موفقیت برای تجزیه و تحلیل مقالات اخبار مالی و گزارش‌های همراه داده‌های سری زمانی بازار مورد استفاده قرار گیرد. متن‌کاوی گزارش‌های خبری مالی می‌تواند برای استخراج اطلاعات مهم در مورد وقایع مختلف سیاسی و اقتصادی که به طور کلی بازار مالی یک منطقه را تعیین می‌کند و نیز علل عملکرد ضعیف یا افزایش ناگهانی در بازار را توضیح دهد. امروزه با توجه به حجم اخبار موجود در اینترنت، نیاز روزافزونی به فناوری قابل اطمینانی وجود دارد که بتواند برای تجزیه و تحلیل خودکار گزارش‌های خبری و کشف اطلاعات کلیدی از طرف تحلیلگران و سرمایه‌گذاران استفاده شود. [34]

اخبار³⁶ نقش مهمی در فرایند ارزیابی قیمت فعلی سهام، که توسط تحلیل‌گران، سرمایه‌گذاران و سرمایه‌گذاران نهادی³⁷ صورت می‌گیرد، دارد. بر اساس یک دیدگاه تئوریک، ارزیابی کارآمد از یک شرکت باید بر ارزش فعلی و جریان وجوه نقد آینده شرکت تأثیر بگذارد. در اخبار نه تنها آمار و ارقام مالی بلکه اجزای متنی کیفی نیز قیمت سهام را تحت تأثیر قرار می‌دهند [10]

در سال‌های اخیر روزنامه‌های سنتی به دلیل افزایش فراگیر شدن شبکه جهانی وب، به گسترش سرویس‌های خبری بر خط را در محیط وب پرداخته‌اند. برای سرمایه‌گذاران، خبرهای بلادرنگ مالی³⁸ در تصمیم‌گیری‌ها سرمایه‌گذاری بسیار مهم است، زیرا در محیط وب خبرها به طور مکرر در حال به روزرسانی هستند. اطلاعات بیش از حد یک مشکل قابل توجه است. برای سرمایه‌گذاران غیرممکن است که همه آنها را یکی یکی بخوانند. اگر چه تحقیقات رو به افزایشی در متن‌کاوی اسناد در حال انجام است، اما دقت کم و پایین بودن نرخ بازگشت سبب می‌شود سرمایه‌گذاران زمان زیادی را برای به دست آوردن اطلاعات معنی‌دار اندکی، در گشت و گذار وب از دست بدهند. [8]

برای بررسی تأثیر اخبار بر روی قیمت‌ سهام مطالعات مختلفی صورت گرفته است. مهاجان و همکاران به بررسی اخبار برای شناسایی رویدادهای مهم و تأثیر آن بر بازار سهام هند پرداختند. [35] هوانگ و همکاران [8] تأثیر تیترهای خبری منتشرشده توسط روزنامه‌های الکترونیکی بر روی شاخص قیمت مالی بورس تایوان را مورد بررسی قرار دادند. هاگونا³⁹ و همکاران سعی کرده‌اند با استفاده از روش‌های متن‌کاوی و انتخاب ویژگی‌ها از طریق بازخورد بازار به بهبود پیش‌بینی قیمت سهام بپردازند [10]. مدل دیگری که بر روی پیش‌بینی قیمت سهام بر اساس اخبار منتشرشده می‌پردازد سیستم متن مالی آریزونا⁴⁰ است که توسط شوماکر⁴¹ و همکاران طراحی‌شده است [33]. در شرکت مشاوره‌ای تاتا در هند صورت گرفته است به دنبال ایجاد سامانه‌ای جهت تحلیل بازار سهام با استفاده از بررسی اخبار مالی منتشرشده به‌منظور شناسایی و تشخیص اتفاقات مهمی که بر روی بازار تأثیر می‌گذارند هستند [34]. در تحقیقی که در دانشگاه میسوری⁴² در سال 2017 انجام شد، فرایند جامع داده‌کاوی را برای پیش‌بینی جهت روزانه شاخص اس‌اند‌پی 500 بر اساس 60 ویژگی مالی و اقتصادی ارائه گردید [36]. در مدل دیگری که توسط آیمن و همکاران ارائه شد، به دنبال پیش‌بینی مبتنی بر تحلیل احساسات از اخبار مالی و قیمت‌های بازار سهام بودند [37].

از آنجایی که سهامی که در یک گروه بورسی قرار می‌گیرند داری رفتارهای نسبتاً مشابهی هستند از این رو تحقیقات نشان می‌دهد برای کاهش ریسک سبد سهام، تمام سهم‌ها از یک گروه انتخاب نشود و با خرید متنوع از سهم در گروه‌های مختلف ریسک خود را کاهش دهند. [38] از این رو بهتر است برای تحلیل، سهم‌هایی انتخاب شود که در یک گروه قرار دارند. برای مثال به نظر می‌رسد عوامل موثر بر قیمت سهم‌های گروه شیمیایی متفاوت از عوامل گروه غذایی باشد. گروه محصولات شیمیایی بزرگترین گروه سهام از نظر ارزش سهام در بورس اوراق بهادار است، این گروه به عنوان نمونه برای مطالعه انتخاب شده است.

2-8-یادگیری ماشین و پیش‌بینی قیمت‌ها

مطالعات انجام شده خارجی در این حوزه بر خلاف منابع فارسی بسیار غنی است. از جمله دلایل عدم تمایل محققین ایرانی در این حوزه پیچیده و دشوار بودن فرایند انجام مراحل متن‌کاوی و عدم دسترسی مناسب به منابع سخت‌افزاری است. از انجایی که اجرای الگوریتم‌ها بر روی داده‌های ساختار یافته تاریخی بسیار ساده است، اکثر مطالعات داخلی بر روی این حوزه انجام شده است.

در مطالعه‌‌ای که توسط تای وو⁴³ و همکاران در سال 2020 با عنوان «یک مدل شبکه عصبی حلقه‌ای جدید برای پیش بینی قیمت سهام» بر روی سهام بورس تایوان انجام شده است، توضیح داده می‌شود که استفاده از شبکه عصبی در یادگیری عمیق بر اساس ویژگی‌ها بسیار موثر است. همچنین از چارچوب شبکه عصبی حلقوی می‌توان برای انتخاب ویژگی و پیش‌بینی قیمت سهام با استفاده از دیتای تاریخی استفاده کرد. در این مقاله از ترکیب این دو روش برای پیش‌بینی قیمت سهام استفاده شده است. [39]

در تحقیق دیگری با عنوان «روش یادگیری کارآمد ماشین هیبریدی برای پیش بینی بازار سهام سری زمانی‌» توسط عبادتی و مرتضوی، با استفاده از یک روش ترکیبی از الگوریتم ژنتیک و تکنیک شبکه عصبی مصنوعی برای تهیه روشی برای پیش بینی قیمت سهام و سری های زمانی استفاده نموده اند. در این روش مقادیر خروجی الگوریتم ژنتیک وارد الگوریتم توسعه یافته تکنیک شبکه عصبی مصنوعی می شوند تا خطاها را در نقطه دقیق برطرف کنند. تجزیه و تحلیل نشان می دهد که روش ترکیبی الگوریتم ژنتیک و تکنیک شبکه عصبی مصنوعی می توانند دقت را در تکرارهای کمتری افزایش دهند. این تجزیه و تحلیل بر روی شاخص اصلی 200 روزه و همچنین بر روی پنج شرکت ذکر شده در NASDAQ انجام شده است. [40]

در مطالعه‌ای دیگر توسط رانجا سناپاتی⁴⁴ و همکاران در سال 2018 با عنوان «یک مدل جدید برای پیش بینی قیمت سهام با استفاده از شبکه عصبی ترکیبی» با استفاده از دیتای تاریخی قیمت سهم بازار بومبای و با استفاده از شبکه عصبی مصنوعی به پیش‌بینی قیمت پرداخته شده است. همچنین از الگوریتم بهینه‌سازی ازدحام ذرات برای بهینه کردن وزن ورودی استفاده شده است. در نهایت نتایج بدست آمده با نتایج مدل‌های اندازه‌گیری فاصله و شبکه عصبی مصنوعی بیزین مقایسه شد و نتایج مطلوب‌تری از این روش بدست آمد. [41]

در مقاله‌ای با عنوان «یک روش جامع خوشه‌بندی و طبقه‌بندی برای پیش‌بینی بازده روزانه بازار سهام» توسط ژونگ⁴⁵ و انکه⁴⁶ در سال 2017 از روش fuzzy-means برای پاک‌سازی و PCA برای کاهش ابعاد داده‌ها استفاده شده است. خوشه‌بندی و دسته‌بندی با استفاده از روش‌های شبکه عصبی و رگرسیون لجستیک انجام و نشان داده شد شبکه عصبی نتایج مطلوب‌تری به همراه دارد. [42]

در مقاله‌ای با عنوان «پیش‌بینی رفتار بازار سهام با استفاده از تکنیک داده‌کاوی و تجزیه و تحلیل احساسات اخبار‌» توسط آیمن خدر و همکاران در سال 2017 بر روی پیش‌بینی قیمت سهام انجام شد با استفاده از الگوریتم ناوی بایاس جهت‌گیری (مثبت یا منفی) اخبار را مشخص کردن بو با ترکیب جهت‌گیری‌ها با قیمت تاریخی و سپس استفاده از الگوریتم کاامین نزدیکترین همسایه جهت قیمت سهام (مثبت یا منفی) را مشخص کردن. [43]

در تحقیقی دیگر توسط شوماکر⁴⁷ و همکاران در سال 2012 با عنوان «ارزیابی احساسات در مقالات اخبار مالی» پیش‌بینی بازار سهام با استفاده از ابزار تحلیل احساسات بر اساس اخبار منتشرشده و روش استفاده از روش رگرسیون بردار پشتیبان پرداخته شد. [33]

در مقاله‌ای که توسط هانگ⁴⁸ و همکاران در سال 2010 با عنوان «درک عامل انتشار اخبار بر اساس قوانین انجمنی و تکنیک‌های داده‌کاوی» منتشر شد، با استفاده از سیستم پردازش اطلاعات و دانش چینی برای جداسازی کلمات و استفاده از الگوریتم قوانین انجمنی وزن دهی برای تشخیص دو یا چند عبارت تأثیرگذار در تیتر خبرها بر روی شاخص بورس تایوان استفاده شد. [11]

در تحقیقی دیگر توسط گروس⁴⁹ و مونترمن⁵⁰ در سال 2011 با عنوان «یک رویکرد مدیریت ریسک در بازار روزانه بر مبنای تحلیل متنی» قبل از شروع فرایند داده‌کاوی اسناد از طریق سه قدم، شناسایی ویژگی‌ها، انتخاب ویژگی‌ها و نمایندگی ویژگی به داده‌های ساختاریافته و عددی تبدیل می‌شوند. سپس از طریق چهار روش ناوی بایاس، کاامین نزدیکترین همسایه، شبکه عصبی و ماشین بردار به دسته‌بندی داده‌ها می‌پردازد. در این مطالعه استفاده از روش ماشین بردار پشتیبان به نتایج بهتری منجر شده است. [32]

در مطالعه‌ای دیگر توسط هانگنوا⁵¹ و همکاران با عنوان «خواندن خودکار اخبار: پیش‌بینی قیمت سهام بر اساس اخبار مالی با استفاده از ویژگی‌ها» در سال 2013 در مدلی چهار مرحله‌ای به استخراج ویژگی‌ها، انتخاب ویژگی‌ها و نمایندگی ویژگی‌ها با استفاده از بازخورد بازار و سپس طبقه‌بندی با استفاده از روش ماشین بردار پشتیبان پرداختند. [44]

در مطالعه ای دیگر با عنوان «کاوش اخبار مالی برای وقایع مهم و و تأثیر آنها بر بازار» توسط ماهان جان⁵² و همکاران در سال 2008 روش تخصیص درکله پنهان برای شناسایی موضوعات و کلمات مرتبط مورد استفاده قرار گرفت. سپس با استفاده از روش ترکیبی شامل درخت تصمیم و ماشین بردار پشتیبان با هسته سیگموئید برای دسته‌بندی تأثیرگذاری اخبار بر بازار استفاده شد. [41]

در مقاله‌ای دیگر با عنوان «خوشه‌بندی اسناد برای شناسایی رویدادها و تحلیل روند در اخبار بازار» توسط دی⁵³ و همکاران در سال 2008 با استفاده از روش تخصیص دریکله پنهان برای استخراج اتفاقات مهم و استفاده از کرنل کاامین میانه برای خوشه‌بندی موضوعات استفاده شده است. [41]

در این پژوهش به دلیل موجود بودن دیتای آموزش و تست می‌توان از الگوریتم‌های یادگیری با ناظر استفاده کرد. از آنجایی که می‌توان تغییر قیمت سهام را به صورت بزرگتر مساوی صفر و کوچکتر از صفر دسته بندی کرد (دسته‌بندی باینری) می‌توان از مدل ماشین بردار پشیبان سود برد. در سایر مطالعات انجام شده نیز این الگوریتم به عنوان یک الگوریتم بهینه با نتایج قابل قبول معرفی شده است. از مزایای الگوریتم ماشین بردار پشتیبان به دلیل سادگی در محاسبات نیاز کمتری به منابع سخت‌افزاری دارد. [45] به دلیل حجم بالای دیتای پردازش شده در این مطالعه و محدودیت‌های سخت‌افزاری این الگوریتم به عنوان مناسب‌ترین گزینه انتخاب شد.

3-فرآیند انجام پژوهش

به‌منظور ورود داده‌ها به مدل، در قدم اول سیستمی با زبان برنامه‌نویسی PHP و محیط توسعه PHPStorm طراحی شده است که با خزش وب‌سایت‌های خبری پربازدید لینک آخرین خبرهای منتشر شده به‌صورت 15 دقیقه یک‌بار در دیتابیس Mysql به‌عنوان وظیفه‌ای که در آینده باید انجام شود، ذخیره می‌شود. سپس لینک‌های ذخیره‌شده خوانده می‌شود و اطلاعاتی مانند عنوان خبر، متن خبر و دسته خبر در دیتابیس ذخیره می‌شود. پس از پیش‌پردازش متن‌ها، داده‌ها آماده ورود به الگوریتم یادگیری ماشین شود.

در قدم دوم داده‌های مربوط به معامله سهم از سایت بورس اوراق بهادار استخراج می‌شود. برای ذخیره‌سازی این داده‌ها ابتدا پیش‌پردازش بر روی دیتا انجام می‌شود و داده‌های سهم در دیتابیس ذخیره می‌شود.

در مرحله سوم سه ماتریس ایجاد می‌شود. ماتریس کلمات خبری که نشان دهنده تکرار کلمات در هرروز است. ماتریس TF-IDF که امتیاز هر کلمه را برای مرحله انتخاب ویژگی مشخص می‌کند. ماتریس جهت قیمت که نشان دهنده جهت قیمت در هرروز است.

در مرحله چهارم پس از انتخاب کلماتی که بیشترین امتیاز را دارند ویژگی‌ها مشخص می‌شوند و از ترکیب ماتریس کلمات و جهت قیمت سهام، ماتریس ورودی مدل تشکیل می‌شود.

در قدم پنجم با استفاده از الگوریتم SVM مدل آموزش داده‌ می‌شود و نتایج حاصل از پیش‌بینی مدل مورد ارزیابی قرار می‌گیرد. به‌غیراز مرحله خزش تمام مراحل با استفاده از زبان برنامه‌نویسی Python و محیط توسعه PyCharm انجام می‌شود.

برای انتخاب الگوریتم مناسب برای پروژه و تحقیق داده‌کاوی باید به 5 عامل، دقت، مدت زمان آموزش الگوریتم، خطی یا غیرخطی بودن مدل، تعداد متغیرهای مسئله و تعداد ویژگی‌های انتخابی دقت کنید.

[1] K-means

[2] K-mode

[3] Mac Queen

[4] Object Function

[5] Epsilon

[6] MinPoints

[7] Core points

[8] Border point

[9] Outlier

[10] Hierarchical

[11] Partitioning

[12] Agglomerative

[13] Linkage

[14] Nearest Neighbor

[15] Single Linkage

[16] Furthest Neighbor

[17] Complete Linkage

[18] Average Linkage

[19] Gaussian Mixture Model (GMM)

[20] Skew

[21] Expectation Maximization (EM)

[22] Decision Tree

[23] Breman

[24] Random Forest

[25] Bootstrap

[26] Train

[27] Neural Network

[28] Feedforward

[29] Feedback

[30] Support vector machine

[31] Precision

[32] Recall

[33] F1 Score

[34] Quantitative

[35] Nextual

[36] News

[37] Institutional traders

[38] Real-time ﬁnancial news

[39] Hagenau

[40] Arizona Financial Text

[41] Robert P. Schumaker

[42] Missouri University of Science and Technology

[43] Jimmy Ming-Tai Wu

[44] Manas Ranjan Senapati

[45] Xiao Zhong

[46] David Enke

[47] Robert P. Schumaker

[48] Chenn-Jung Huang

[49] Sven S. Groth

[50] Jan Muntermann

[51] Michael Hagenau

[52] Anuj Mahajan

[53] Lipika Dey

شکل 5- روش جمع‌آوری و تجزیه و تحلیل داده‌ها

3-1-سیستم خزش و ذخیره‌سازی اخبار روزانه

1-3-1-ذخیره‌سازی اخبار خبرگزاری‌ها

یک برنامه خزشگر برای جمع‌آوری دیتای مورد نیاز از سطح وب یکی از ضروری‌ترین بخش مطالعات وب‌کاوی است. در اینجا به بررسی یک خزشگر که در این مطالعه با زبان پی‌اچ‌پی نوشته شده است معرفی می‌شود. در شکل (4) فرایند کار این برنامه نمایش داده‌شده است.

ین سیستم با استفاده از زبان برنامه‌نویسی پی‌اچ‌پی و چهارچوب¹ لاراول² نوشته شد. برای دانلود صفحات خبر از پکیج گازل و برای ذخیره‌سازی عنوان، متن و دسته خبر بر اساس آدرس مکان سی‌اس‌اس³ از پکیج دام کراولر استفاده می‌شود. در فاز اول 17 سایت خبرگزاری پربازدید ایران برای ذخیره‌سازی تعیین شده‌اند. همچنین 2 دسته اصلی اخبار سیاسی و اخبار اقتصادی و 160 زیر دسته برای آن‌ها تعریف‌شده است.

شکل 6- نحوه کار پی‌اچ‌پی کراولر

[1] Framework

[2] Laravel

[3] Cascading Style Sheets

جدول 2- سایت‌های خبرگزاری خزش‌شده

نام خبر گذاری	نام خبر گذاری
ایسنا	شبکه خبر
عصر ایران	اقتصاد آنلاین
باشگاه خبرنگاران	خبر آنلاین
تسنیم	مشرق
خبرگزاری فارس	مهر
افکار نیوز	تابناک
موج	دنیای اقتصاد
فردا	برتر ین‌ها
اقتصاد نیوز

الگوریتم کار این خزشگر در نمودار زیر ارائه شده است. در قدم اول داده‌های اولیه یک وب‌سایت جهت خزش ذخیره می‌شود. این داده‌ها شامل عنوان خبرگزاری، لینک اصلی خبرگزاری، صفحه‌ای که آخرین خبر‌ها در آن منتشر می‌شود، مکان درج لینک آخرین خبرها براساس انتخابگر سی‌اس‌اس، مکان درج عنوان خبر بر اساس انتخابگر سی‌اس‌اس و مکان درج دسته خبر بر اساس انتخابگر سی‌اس‌اس ذخیره می‌شود.

شکل 7- نمونه دیتای جدول crawl_tasks و لینک‌های ذخیره‌شده جهت خزش

در قدم دوم لینک آخرین خبرها با استفاده از کران جاب‌ها هر 10 دقیقه به عنوان یک وظیفه ذخیره می‌شوند. این امر به این دلیل است که در طول روز بار سرور زیاد است و کار ذخیره‌سازی اخبار در انتهای روز و قبل از صبح انجام می‌شود.

شبه‌کد این مرحله در زیر آورده شده است:

Select all agents

For each agent in agents do

Download page for last news links

Remove JavaScript code

For each link in last news links do

If link has base_agent_url

task_link = link

Else

task_link = base_agent_url + link

If task_link not in tasks then

Create new task

Add random number to task

Add task_link to task

Insert task to database

در قدم سوم بررسی می‌شود آیا لینکی برای ذخیره‌سازی خبر وجود دارد یا خیر. اگر وظیفه وجود داشته باشد، لینک‌هایی که به عنوان یک وظیفه ذخیره شده بودند به صورت تصادفی انتخاب می‌شوند و اخبار آنها ذخیره می‌شود. این فرایند به خاطر جلوگیری از ارسال درخواست‌های زیاد پشت سر هم به یه خبرگزاری است.

شبه‌کد فرایند ذخیره‌سازی اخبار به صورت زیر است:

Select 12 tasks randomly that not crawled

Change tasks status to is crawling

If number of tasks is 0 then

Select 3 tasks randomly that had error in crawl

For each task in task do

Download task page

Remove JavaScript code

Remove tab and newline character from text

Create new news

Select and add title to news

Select and add content to news

Select news category

Insert news to database

If news page has category then

If news category is defined then

Add category to news

Else

If category not defined in suggested category then

Add category to suggestion

شکل 8- نمونه دیتای جدول news (خبرهای منتشرشده)

در قدم چهارم عنوان خبر و دسته خبر ذخیره می‌شود و اگر این کار با موفقیت انجام شود وضعیت ذخیره‌سازی به پایان یافته تغییر می‌کند. اگر سرور خبرگزاری پاسخگو نباشد، وضعیت به دارای خطا تغییر می‌کند. اگر لینکی دارای خطا باشد یکبار دیگر پس از ذخیره همه خبرها خوانده می‌شود.

وجود کدهای جاوا اسکریپت به دلیل داشتن برخی از تگ‌های اچ‌تی‌ام‌ال در صفحات وب باعث ایجاد خطا در پکیج دام کراولر در تشخیص ساختار صفحه و در نتیجه ذخیره‌سازی می‌شود. به این دلیل پس از دانلود محتوای صفحه وب تگ‌های <script> و محتوای داخل آن از صفحه حذف می‌شود.

همچنین وجود کاراکترهای خط بعد (\n) و تب (\t) در صفحات دانلود شده، کاراکترهای زائدی هستند که برای کاهش حجم دیتابیس و مرتب شدن نمایش محتوای ذخیره‌شده، حذف می‌شوند.

شکل 9- الگوریتم پیشنهادی کار خزشگر

شکل 10- تعداد خبرهای منتشرشده توسط هر خبر گذاری

شکل 11- تعداد خبرهای منتشرشده توسط هر خبر گذاری

3-2-ذخیره‌سازی داده‌های سهام

پس از مراجعه به لینک آرشیو معاملات نقد در سایت بورس اوراق بهادار تهران به نشانی tse.ir/archive.html پس از انتخاب تاریخ موردنظر می‌توانید داده‌های سهام معامله‌شده در آن تاریخ را ذخیره کنید. لینک دانلود به‌صورت زیر است.

http://tse.ir/archive/Trade/Cash/TradeOneDay/TradeOneDay_1398_5_14.xls

حال با داشتن تاریخ می‌توان قسمت آخر لینک موردنظر را تولید و تمام فایل‌های معاملات را دانلود کرد. برای گرفتن تاریخ‌های معاملاتی کافی است در قسمت آرشیو سایت بورس اوراق بهادار فایل خلاصه معاملات برای سال 97 را دانلود کرد و سپس از ستون تاریخ برای دانلود فایل ریز معاملات استفاده کرد. بدین منظور ستون تاریخ در یک فایل csv ذخیره‌شده است و در کد از سطرهای این ستون برای ساخت لینک استفاده می‌شود.

ازآنجایی‌که فایل‌های دانلود جدول‌های HTML هستند، اگر با فرمت html به‌جای xls ذخیره شوند، می‌توان توسط کتابخانه Pandas خوانده و یکپارچه شوند و سپس در دیتابیس ذخیره شوند.

شکل 12- نمونه دیتای جدول transaction (تراکنش‌های سهام

در مرحله بعد داده مربوط به شرکت‌های بورس اوراق بهادار را ذخیره می‌شود تا بتوانیم بر اساس دسته تعیین‌شده برای هر سهم، سهام مربوط به شرکت‌های گروه پتروشیمی را تعیین و الگوریتم را بر روی آن‌ها اجرا کنیم. برای این کار از لینک زیر استفاده می‌کنیم و داده‌ها را آماده ورود به سیستم می‌کنیم.

http://www.tsetmc.com/Loader.aspx?ParTree=111C1417

در این لینک داده‌های مربوط به هر سهم موجود است و می‌توان از داده‌های ذخیره شده در مرحله قبل، سهم های مربوط به گروه محصولات شیمیایی را ذخیره کرد.

شکل 13- نمونه دیتا جدول company (داده‌های مربوط به شرکت‌ها)

3-3-پیش‌پردازش متن

پیش‌پردازش متن از مراحل بسیار مهم در متن‌کاوی است. ازاین‌رو در این پژوهش چندین مرحله جهت پیش‌پردازش و حذف داده‌های اضافه و یکسان‌سازی استفاده شده است. به دلیل حجم بالای خبرها، قبل از پیش‌پردازش خبرهایی انتخاب شدند که فقط در دو دسته سیاسی و اقتصادی دسته‌بندی‌شده بودند. دیتای جدید در جدول news_back ذخیره شد. در این مرحله 80618 خبر انتخاب شد.

1-3-3-نرمال‌سازی متن

در این مرحله با استفاده از کتابخانه هضم عنوان و متن خبرها نرمال‌سازی شد. به دلیل حجم داده‌ها برای استفاده از حداکثر ظرفیت سیستم، از روش multi thread در کدهای پایتون استفاده شد. یعنی شناسه خبرها در دسته‌های 100هزارتایی در یک حلقه قرار می‌گرفتند و کد نرمال‌سازی به‌صورت موازی برای خبرها اجرا شد.

در حالت ساده عملیات نرمال‌سازی متن با مراحل زیر انجام‌پذیر است:

اصلاح انواع حرف «ک» به معادل فارسی آنان.

اصلاح انواع حرف «ی» به معادل فارسی آنان.

بررسی همزه و انواع مختلف املاهای موجود و اصلاح هرکدام (به‌عنوان‌مثال تبدیل ؤ به و ، ئ به ی ، أ به ا ، إ به ا و…)

حذف شناسه‌ی همزه از انتهای واژه‌هایی مثل شهداء

حذف شناسه «آ» به «ا» مانند: آب به اب

اصلاح نویسه‌ی «طور» در واژه‌هایی مانند به‌طور، آن‌طور، این‌طور و …

بررسی وجود حرف «ی» در انتهای لغاتی مانند خانه‌ی ما و اصلاح آنان

حذف تشدید از واژه‌ها

تبدیل ارقام عربی و انگلیسی به معادل فارسی.

اصلاح نویسه‌ی نیم‌فاصله

اصلاح اعراب و حذف فتحه، کسره و ضمه و همچنین تنوین‌ها

حذف نیم‌فاصله‌های تکراری

حذف نویسه‌ی «ـ» که برای کشش نویسه‌های چسبان مورداستفاده قرار می‌گیرد. مانند تبدیل«بــــــــر» و «بـــر» به «بر»

چسباندن پسوندهای «تر»، «ترین» و … به آخر واژه‌ها

اصلاح فاصله‌گذاری «ها» در انتهای واژه‌ها و همچنین پسوندهای «های»، «هایی»، «هایم»، «هایت»، «هایش» و …

اصلاح فاصله‌گذاری «می»، «نمی»، «درمی»، «برمی»، «بی» در ابتدای واژه‌ها

تبدیل «‍ه» به «‍ه‌ی»

تبدیل «ب» متصل به ابتدای واژه‌ها به «به»

اصلاح فاصله‌گذاری پسوندها

حذف فاصله‌ها و نیم‌فاصله‌های اضافه بکار رفته در متن

تصحیح فاصله‌گذاری در مورد علائم سجاوندی بدین‌صورت که علائم سجاوندی به لغات قبل از خود می‌چسبند و با لغت بعد از خود فاصله خواهند داشت. [46]

2-3-3-حذف کلمات توقف

در مرحله دوم پیش‌پردازش متن تمامی کلمات توقف از متن حذف شدند. برای جلوگیری افزایش حجم جدول‌ها داده‌های هر مرحله در جدول جدیدی ذخیره شدند. در این مرحله ابتدا داده‌های مرحله قبل در جدول news_stop ذخیره و سپس مرحله حذف کاراکترهای اضافه و کلمات توقف بر روی دیتا اجرا شد و ستون جدید content_nomalize_stop به دیتا اضافه شد.

3-3-3-ذخیره تمامی کلمات و حذف کلمات و کاراکترهای زائد

برای تشخیص کاراکترها و کلمات زائد ابتدا تمام کلمات در جدول جدید words ذخیره شدند. در این مرحله ابتدا با متد tokenize در کتابخانه هضم خبرها به کلمات تجزیه شدند، سپس تمامی کاراکترهای اضافه که لیست آن در زیر آمده است و همچنین تمامی کاراکترهای انگلیسی از کلمات حذف شدند.

!@#$*{}s()/,:.<>«»،\-=;٤٣٥٢٧+×&?٪@±﴿﴾€《》_

بعدازاین مرحله اگر کلمه موردنظر به‌صورت کامل حذف نشد و در جدول کلمات موجود نباشد در جدول ذخیره می‌شود. درمجموع 272880 کلمه یکتا ذخیره شد.

شکل 14-تعداد کلمات بر اساس تعداد کاراکترها

از این تعداد کلمات 1097 کلمه به‌عنوان کلمات زائد شناسایی و به‌عنوان کلماتی که نباید در محاسبات شمارش شوند علامت‌گذاری شدند. که عمدتاٌ کلمات یک و دو کاراکتری هستند که شامل علامت‌های خاص و نگارشی، حروف، حرف‌های اضافه و غیره هستند. در این مرحله اگر لغات نامه استانداردی در اختیار باشد که بتوان کلمات استخراج‌شده را با آن مقایسه کرد و کلماتی که در لغت‌نامه نیستند را مشخص کرد می‌توان ابعاد مسئله را کاهش داد. همچنین اگر برنامه‌ای باشد تا غلط‌های املایی را اصلاح کرد می‌تواند به کاهش ابعاد کمک کند.

4-3-3-ایجاد جدول کلمات و شمارش کلمات در هرروز

پس از مرحله پیش‌پردازش متن، ماتریس کلمات ورودی به مدل ایجاد شد. در این بخش مراحل زیر بر روی دیتا انجام شد. در قدم اول تعداد تکرارهای هر کلمه در روز موردنظر شمارش شد و شناسه کلمه به همراه تعداد تکرار در جدول extract_word ذخیره شد. ازآنجایی‌که ساعت معاملات در بورس اوراق بهادار تهران از ساعت 8:30 تا 12:30 دقیقه است، خبرهایی که در ساعت بعد از 12:30 منتشر می‌شوند جزء اخبار روز بعد تلقی می‌شوند و بر روی قیمت‌های روز آینده تأثیرگذار هستند. بدین‌جهت کلمات آن‌ها در کلمات روز آینده شمارش می‌شوند. تعداد کلمات به تفکیک روزهای انتشار خبر در این مرحله 34330838 است.

5-3-3-انتخاب ویژگی‌ها با استفاده از روش TF-IDF

روش tf × idf (تکرار کلمه × تکرار سند معکوس)، یک روش نمایندگی است که معمولاً در روش‌های استخراج ویژگی‌ها از متن استفاده می‌شود. به‌صورت پیش‌فرض، تکرار کلمات¹ (tf) در سند نشان دهنده میزان اهمیت اصطلاح در این سند است و تکرار سند در این اصطلاح² (df، درصد اسناد حاوی این اصطلاح) نشان دهنده میزان اهمیت این اصطلاح در کل متن‌ها است. مقدار df پایین نشان می‌دهد که این اصطلاح در بسیاری از اسناد ظاهر نمی‌شود و این نشان دهنده منحصربه‌فرد بودن این اصطلاح در اسناد است. بنابراین، به‌جای استفاده از df ، idf (معکوس df) را به‌عنوان برنامه وزن دهی انتخاب می‌شود. بنابراین وزن بالا در روش tf × idf نشان دهنده تکرار زیاد یک کلمه در یک سند و اسناد کم حاوی این متن است. [47]

در این بخش با استفاده از Pandas ماتریس کلمات جهت محاسبه TF-IDF تشکیل شد. تمام خبرهایی که در یک روز منتشرشده‌اند به‌عنوان یک سند در نظر گرفته می‌شوند. پس باید برای محاسبه TF تعداد تکرار کلمات در هرروز را به دست آورد. سپس با تقسیم تکرار هر کلمه در هر روز TF محاسبه می‌شود. برای محاسبه IDF از فرمول استفاده شده است که در آن نشان‌دهنده کل سندها است. که در پژوهش ما برابر تعداد روزهای تولید خبر و برابر 136 است. نیز نشان‌دهنده تعداد اسناد است که ما هرروز را برابر یک سند گرفتیم. سپس با ضرب TF در IDF شاخص TF-IDF برای هر کلمه محاسبه می‌شود. سپس ماتریس کلمات تشکیل‌شده و براساس تعداد ویژگی‌های موردنظر فیلتر می‌شود. مثلاً ابتدا 1000 ویژگی که بیشترین امتیاز TF-IDF را گرفته‌اند انتخاب می‌شود و از بین ویژگی‌ها فقط 1000 ستون انتخاب می‌شود.

3-4-آماده‌سازی دیتای بورس

ازآنجایی‌که نوع مدل انتخابی یادگیری با ناظر بر اساس جهت قیمت سهام است، باید دیتای سهم موردنظر را بر اساس اینکه کاهشی یا افزایشی بوده است برچسب‌گذاری کنیم. سپس ماتریس کلمات و جهت قیمت را ادغام می‌کنیم تا دیتا جهت ورود به الگوریتم آماده شود. قیمت منفی و صفر نسبت به‌روز قبل را با برچسب صفر و قیمت مثبت را با برچسب یک برای یک سهم نمایش داده می‌شود.

شکل 15- برچسب‌گذاری قیمت‌های سهم در هرروز

از ادغام ماتریس کلمات و جهت قیمت یک سهم خاص در روزهای معاملاتی، ماتریس ورودی به الگوریتم ماشین بردار پشیتبان تشکیل می‌شود. به دلیل حجم بالای دیتا همان‌طور که در شکل می‌بینید انجام این فرایند حداقل به 24 گیگ حافظه موقت جهت ایجاد ماتریس کلمات نیاز است.

شکل 16-جدول‌های ذخیره‌سازی دیتا در سیستم خزشگر

agent: جدول ذخیره‌سازی داده‌های خبرگزاری (عنوان، لینک صفحه اصلی و غیره)

Crawl_task: جدول ذخیره‌سازی لینک خبرها به عنوان وظیفه

news: اخبار ذخیره شده هر لینک

news_back: متن خبرهای پیش پردازش شده

news_stop: حذف کلمات توقف از متن‌ خبرها

news_concat: تجمع متن خبرهای یک روز

categories: جدول ذخیره‌سازی دسته‌بندی‌ها

categories suggestion: جدول شناسایی سایر دسته‌ها به غیر از سیاسی و اقتصادی

category_news: جدول تعیین دسته خبرها

company: جدول ذخیره‌سازی داده‌های شرکت‌های بورسی

transaction: جدول ذخیره‌سازی داده‌های بورسی سهم

words: کلمات استخراج شده یکتا از خبرها بعد از پاکسازی

Extract_word: کلمات موجود در هر خبر بر اساس جدول words

3-5-اجرای مدل ماشین بردار پشتیبان با کرنل‌های خطی و غیرخطی

در این پژوهش از 4 الگوریتم ماشین بردار پشتیبان با تنظیمات مختلف استفاده شده است که درنهایت به بررسی 7 مدل خواهیم پرداخت. مدل‌های بررسی‌شده شامل: کرنل خطی، کرنل چندجمله‌ای درجه 2 با گاما auto، کرنل چندجمله‌ای درجه 2 با گاما scale، کرنل شعاعی با گاما auto ، کرنل شعاعی با گاما scale، کرنل سیگموئید با گاما auto، کرنل سیگموئید با گاما scale.

برای آموزش مدل از دو پارامتر متغیر برای انجام محاسبات مختلف استفاده شده است. پارامتر اول ویژگی‌های انتخابی و پارامتر دوم تعداد داده‌های آزمون است. برای هر سهم پارامتر ویژگی‌های انتخابی از 1000 تا 19000 ویژگی است. مدل برای هر ویژگی انتخابی با تعداد داده‌های آزمون 10 درصد تا 35 درصد اجرا می‌شود. سهم‌هایی انتخاب‌شده‌اند که بیش از 70 روز در بازه زمانی موردنظر معامله‌شده‌اند.

شکل 17- تعداد روزهای معاملاتی هر سهم

پس از آموزش مدل نتایج ارزیابی پیش‌بینی‌ها در شاخص‌های دقت، صحت و امتیاز و میانگین ساده و وزنی هر سهم برای هر پارامتر محاسبه می‌شود.

شکل 18- نمونه‌ای از نتایج ارزیابی مدل

در شکل 18 خط اول: نشان‌دهنده تعداد ویژگی‌های انتخابی

خط دوم و سوم: ماتریس در هم ریختگی

خط چهارم: شاخص‌های ارزیابی

خط ششم: نتایج ارزیابی پیش‌بینی جهت‌های منفی

خط هفتم: نتایج ارزیابی پیش‌بینی جهت‌های مثبت

خط هشتم: میانگین ساده هر شاخص

خط نهم: میانگین وزنی هر شاخص

ازآنجایی‌که امتیاز F معیار دقت و صحت را به صورت همزمان در نظر می‌گیرد شاخص مناسبی برای ارزیابی یک مدل دسته‌بندی است، برای تحلیل نتایج این پژوهش از این شاخص استفاده شده است.

نتیجه نهایی هر الگوریتم برای هر سهم در یک فایل CSV برای تحلیل در نرم‌افزار اکسل ذخیره می‌شود. نتایج حاصل از هر مدل در یک پوشه به اسم کرنل مورداستفاده شده ذخیره می‌شود. برای تهیه گزارش‌ها علاوه بر نتایج ارزیابی تعداد ویژگی‌های انتخاب‌شده و اندازه نمونه‌های آزمون نیست در فایل ذخیره می‌شود.

[1] Term frequency

[2] Document frequency

شکل 19- نمونه فایل ارزیابی پیش‌بینی مدل

3-6-نتایج ارزیابی مدل برای هر سهم

در این بخش به بررسی نتایج ارزیابی هر سهم خواهیم پرداخت و برای هر سهم بهترین کرنل با پارامترهای مختلف را انتخاب خواهیم کرد. سهم‌ها به ترتیب بیشترین روز معاملاتی موردبررسی قرار می‌گیرند. برای تحلیل نتایج از نرم‌افزار اکسل استفاده شده است. در قدم اول فایل‌های ارزیابی مدل توسط ابزار پاور کوئری بارگذاری و آماده شدند. سپس توسط ابزار پیوت تیبل خروجی‌ها و نمودارها ایجاد شد. ازآنجایی‌که برای ارزیابی از میانگین وزنی امتیاز F استفاده شد، تعداد سطرهای بارگذاری شده توسط اکسل 20064 سطر است.

تعداد روش‌ها: 7

تعداد انتخاب شاخص‌ها: 19

تعداد انتخاب نمونه آزمایش: 6

تعداد سهم تحلیل‌شده: 25

پس تعداد نتایج برابر است:

20064=25×6×19×7

شکل 20- تحلیل نتایج در اکسل

1-3-6-نمونه ارزیابی نتایج برای سهم شرکت پتروشیمی جم

نتایج آزمون با کرنل خطی برای سهم پتروشیمی جم به‌صورت زیر است.

1-3-6-ارزیابی کلی نتایج

بررسی 20064 حالتی که برای این 25 سهم اتفاق می‌افتد به‌صورت تک‌به‌تک بسیار کار دشواری است. بدین منظور برای بررسی بهترین حالت از پیوت تیبل در اکسل استفاده شده است و برای هر کرنل بهترین حالت انتخاب می‌شود. برای کرنل خطی برای هر سهم تنظیمات زیر بهترین نتیجه را خواهد داشت. اطلاعات این جداول به شرح زیر است:

شرکت: نام شرکت در گروه محصولات شیمیایی

ویژگی‌ها: تعداد کلمات انتخاب شده بر اساس بیشترین امتیاز TF-IDF

درصد آزمایش: درصد روزهای معاملاتی که به عنوان بخش تست در نظر گرفته شده اند.

کرنل: امتیاز F بدست آماده از این کرنل با توجه به تعداد ویژگی‌های انتخاب شده و درصد آزمایش

جدول 3- ارزیابی نتایج کرنل خطی

شرکت	ویژگی‌ها	درصد آزمایش	کرنل خطی
بین‌المللی‌ محصولات‌ پارس‌	9000	0.25	76.91%
پاكسان‌	11000	0.1	89.57%
پتروشيمي‌ آبادان‌	1000	0.3	86.96%
پتروشيمي پارس	17000	0.3	81.19%
پتروشيمي پرديس	18000	0.15	73.33%
پتروشيمي جم	12000	0.1	92.51%
پتروشيمي‌ خارك‌	5000	0.15	71.43%
پتروشيمي شازند	9000	0.15	71.43%
پتروشيمي فناوران	9000	0.1	100.00%
پتروشيمي ‌شيراز	3000	0.15	86.00%
س. صنايع‌شيميايي‌ايران	15000	0.25	73.81%
س. نفت و گاز و پتروشيمي تأمين	8000	0.1	100.00%
سرمايه‌گذاري صنايع پتروشيمي‌	17000	0.1	88.89%
صنايع پتروشيمي خليج فارس	7000	0.1	90.33%
صنايع پتروشيمي كرمانشاه	7000	0.1	91.37%
صنايع‌ شيميايي‌ فارس‌	6000	0.1	77.78%
صنايع‌شيميايي ‌سينا	11000	0.1	89.18%
كربن‌ ايران‌	18000	0.1	81.75%
گروه صنعتي پاكشو	15000	0.2	84.64%
گسترش نفت و گاز پارسيان	6000	0.1	91.06%
گلتاش‌	3000	0.1	89.57%
لعابيران‌	17000	0.15	78.46%
مديريت صنعت شوينده ت.ص.بهشهر	7000	0.1	88.89%
معدني‌ املاح‌ ايران‌	7000	0.1	88.21%
نيروكلر	6000	0.1	89.57%
میانگین			85.31%

با توجه به داده‌های بالا مدل خطی می‌تواند به‌صورت میانگین تا 85.31 درصد جهت قیمت‌ها را درست پیش‌بینی کند.

جدول 4-ارزیابی نتایج کرنل چندجمله‌ای درجه 2 با گاما auto

شرکت	تعداد ویژگی‌ها	درصد آزمایش	معادله درجه 2 با گاما auto
بین‌المللی‌ محصولات‌ پارس‌	13000	0.2	81.58%
پاكسان‌	5000	0.1	100.00%
پتروشيمي‌ آبادان‌	13000	0.1	87.70%
پتروشيمي پارس	13000	0.1	80.00%
پتروشيمي پرديس	3000	0.1	89.33%
پتروشيمي جم	3000	0.1	84.43%
پتروشيمي‌ خارك‌	6000	0.15	70.83%
پتروشيمي شازند	4000	0.1	70.99%
پتروشيمي فناوران	11000	0.1	100.00%
پتروشیمی شیراز	6000	0.1	100.00%
س. صنايع‌شيميايي‌ايران	16000	0.1	87.50%
س. نفت و گاز و پتروشيمي تأمين	4000	0.1	100.00%
سرمايه‌گذاري صنايع پتروشيمي‌	14000	0.1	87.41%
صنايع پتروشيمي خليج فارس	5000	0.1	80.00%
صنايع پتروشيمي كرمانشاه	5000	0.1	80.00%
صنايع‌ شيميايي‌ فارس‌	16000	0.1	78.33%
صنایع شیمیایی سینا	18000	0.1	89.18%
كربن‌ ايران‌	14000	0.1	90.37%
گروه صنعتي پاكشو	18000	0.1	90.10%
گسترش نفت و گاز پارسيان	11000	0.1	82.12%
گلتاش‌	12000	0.15	84.62%
لعابيران‌	15000	0.1	89.18%
مديريت صنعت شوينده ت.ص.بهشهر	8000	0.1	89.18%
معدني‌ املاح‌ ايران‌	9000	0.1	100.00%
نيروكلر	2000	0.1	88.89%
میانگین			87.27%

با توجه به داده‌های بالا کرنل معادله درجه 2 با گاما auto می‌تواند به‌صورت میانگین تا 87.27 درصد جهت قیمت‌ها را درست پیش‌بینی کند.

جدول 5-ارزیابی نتایج کرنل چندجمله‌ای درجه 2 با گاما scale

شرکت	تعداد ویژگی‌ها	تعداد آزمایش	معادل درجه 2 با گاما scale
بین‌المللی‌ محصولات‌ پارس‌	4000	0.15	84.62%
پاكسان‌	19000	0.15	77.56%
پتروشيمي‌ آبادان‌	13000	0.1	75.00%
پتروشيمي پارس	19000	0.15	69.14%
پتروشيمي پرديس	1000	0.2	78.11%
پتروشيمي جم	4000	0.15	73.25%
پتروشيمي‌ خارك‌	15000	0.15	62.57%
پتروشيمي شازند	4000	0.1	71.11%
پتروشيمي فناوران	3000	0.15	85.71%
پتروشیمی شیراز	12000	0.1	71.11%
س. صنایع شیمیایی ایران	15000	0.1	83.66%
س. نفت و گاز و پتروشيمي تأمين	7000	0.1	73.64%
سرمايه‌گذاري صنايع پتروشيمي‌	5000	0.1	87.50%
صنايع پتروشيمي خليج فارس	2000	0.1	85.26%
صنايع پتروشيمي كرمانشاه	14000	0.1	100.00%
صنايع‌ شيميايي‌ فارس‌	9000	0.25	60.87%
صنايع‌شيميايي‌سينا	8000	0.15	72.02%
كربن‌ ايران‌	16000	0.15	89.42%
گروه صنعتي پاكشو	14000	0.2	76.99%
گسترش نفت و گاز پارسيان	17000	0.25	65.64%
گلتاش‌	5000	0.1	68.06%
لعابيران‌	8000	0.1	88.89%
مديريت صنعت شوينده ت.ص.بهشهر	9000	0.1	88.21%
معدني‌ املاح‌ ايران‌	3000	0.15	72.02%
نيروكلر	1000	0.1	87.41%
میانگین			77.91%

با توجه به داده‌های بالا کرنل معادله درجه 2 با گاما scale می‌تواند به‌صورت میانگین تا 77.91 درصد جهت قیمت‌ها را درست پیش‌بینی کند.

جدول 6-ارزیابی نتایج کرنل شعاعی با گاما auto

شرکت	تعداد ویژگی‌ها	تعداد آزمایش	کرنل شعاعی با گاما auto
بین‌المللی‌ محصولات‌ پارس‌	12000	0.1	68.06%
پاكسان‌	1000	0.1	83.66%
پتروشيمي‌ آبادان‌	9000	0.1	64.29%
پتروشيمي پارس	2000	0.1	61.67%
پتروشيمي پرديس	19000	0.1	100.00%
پتروشيمي جم	18000	0.1	91.72%
پتروشيمي‌ خارك‌	16000	0.3	53.39%
پتروشيمي شازند	11000	0.1	71.11%
پتروشيمي فناوران	5000	0.1	71.11%
پتروشیمی شیراز	12000	0.15	78.40%
س. صنايع‌شيميايي‌ايران	7000	0.1	87.41%
س. نفت و گاز و پتروشيمي تأمين	17000	0.25	82.27%
سرمايه‌گذاري صنايع پتروشيمي‌	5000	0.1	83.66%
صنايع پتروشيمي خليج فارس	5000	0.1	88.63%
صنايع پتروشيمي كرمانشاه	10000	0.1	88.63%
صنايع‌ شيميايي‌ فارس‌	17000	0.2	64.07%
صنايع‌شيميايي‌سينا	3000	0.1	68.06%
كربن‌ ايران‌	10000	0.1	87.41%
گروه صنعتي پاكشو	16000	0.1	80.00%
گسترش نفت و گاز پارسيان	11000	0.1	81.82%
گلتاش‌	8000	0.15	77.56%
لعابيران‌	8000	0.15	78.23%
مديريت صنعت شوينده ت.ص.بهشهر	19000	0.25	61.02%
معدني‌ املاح‌ ايران‌	16000	0.25	63.33%
نيروكلر	11000	0.1	83.66%
میانگین			76.19%

با توجه به داده‌های بالا کرنل با گاما auto می‌تواند به‌صورت میانگین تا 76.19 درصد جهت قیمت‌ها را درست پیش‌بینی کند.

جدول 7-ارزیابی نتایج کرنل شعاعی با گاما scale

شرکت	تعداد ویژگی‌ها	تعداد آزمایش	کرنل شعاعی با گاما scale
بین‌المللی‌ محصولات‌ پارس‌	12000	0.1	77.78%
پاكسان‌	10000	0.1	83.66%
پتروشيمي‌ آبادان‌	5000	0.15	76.05%
پتروشيمي پارس	8000	0.1	83.66%
پتروشيمي پرديس	11000	0.1	85.26%
پتروشيمي جم	18000	0.1	66.89%
پتروشيمي‌ خارك‌	9000	0.1	69.70%
پتروشيمي شازند	18000	0.15	69.14%
پتروشيمي فناوران	10000	0.15	75.51%
پتروشیمی شیراز	5000	0.1	85.26%
س. صنايع‌شيميايي‌ايران	1000	0.1	68.06%
س. نفت و گاز و پتروشيمي تأمين	9000	0.1	73.64%
سرمايه‌گذاري صنايع پتروشيمي‌	9000	0.1	73.81%
صنايع پتروشيمي خليج فارس	4000	0.1	85.26%
صنايع پتروشيمي كرمانشاه	11000	0.2	74.30%
صنايع‌ شيميايي‌ فارس‌	1000	0.1	55.56%
صنايع‌شيميايي‌سينا	17000	0.1	68.06%
كربن‌ ايران‌	13000	0.15	69.14%
گروه صنعتي پاكشو	10000	0.1	85.26%
گسترش نفت و گاز پارسيان	14000	0.1	73.64%
گلتاش‌	16000	0.2	74.38%
لعابيران‌	3000	0.15	55.36%
مديريت صنعت شوينده ت.ص.بهشهر	1000	0.1	65.80%
معدني‌ املاح‌ ايران‌	17000	0.1	77.78%
نيروكلر	4000	0.2	69.44%
میانگین			73.70%

با توجه به داده‌های بالا کرنل شعاعی با گاما scale می‌تواند به‌صورت میانگین تا 70.73%درصد جهت قیمت‌ها را درست پیش‌بینی کند که نسبت به سایر کرنل‌ها نتیجه مناسبی محسوب نمی‌شود.

جدول 8-ارزیابی نتایج کرنل سیگموئید با گاما auto

شرکت	تعداد ویژگی‌ها	تعداد آزمایش	کرنل سیگموئید با گاما auto
بین‌المللی‌ محصولات‌ پارس‌	16000	0.1	83.66%
پاكسان‌	3000	0.15	88.62%
پتروشيمي‌ آبادان‌	7000	0.1	64.29%
پتروشيمي پارس	7000	0.1	100.00%
پتروشيمي پرديس	17000	0.1	85.26%
پتروشيمي جم	13000	0.1	66.89%
پتروشيمي‌ خارك‌	3000	0.2	36.30%
پتروشيمي شازند	6000	0.1	71.11%
پتروشيمي فناوران	8000	0.1	57.65%
پتروشیمی شیراز	2000	0.15	71.11%
س. صنايع‌شيميايي‌ايران	2000	0.1	68.06%
س. نفت و گاز و پتروشيمي تأمين	11000	0.1	73.64%
سرمايه‌گذاري صنايع پتروشيمي‌	7000	0.15	79.12%
صنايع پتروشيمي خليج فارس	16000	0.15	90.11%
صنايع پتروشيمي كرمانشاه	1000	0.15	71.11%
صنايع‌ شيميايي‌ فارس‌	8000	0.1	39.68%
صنايع‌شيميايي‌سينا	1000	0.1	68.06%
كربن‌ ايران‌	6000	0.1	83.66%
گروه صنعتي پاكشو	5000	0.1	85.26%
گلتاش‌	4000	0.1	83.66%
لعابيران‌	3000	0.15	41.56%
مديريت صنعت شوينده ت.ص.بهشهر	2000	0.15	41.56%
معدني‌ املاح‌ ايران‌	1000	0.2	33.33%
نيروكلر	14000	0.1	83.66%
میانگین			69.47%

با توجه به داده‌های بالا کرنل سیگموئید با گاما auto می‌تواند به‌صورت میانگین تا 69.47 درصد جهت قیمت‌ها را درست پیش‌بینی کند که نسبت به سایر الگوریتم‌ها نتایج نامناسب‌تری است.

جدول 9-ارزیابی نتایج کرنل سیگموئید با گاما scale

شرکت	تعداد ویژگی‌ها	تعداد آزمایش	کرنل سیگموئید با گاما scale
بین‌المللی‌ محصولات‌ پارس‌	5000	0.1	68.06%
پاكسان‌	7000	0.1	100.00%
پتروشيمي‌ آبادان‌	1000	0.1	64.29%
پتروشيمي پارس	17000	0.15	69.10%
پتروشيمي پرديس	18000	0.1	85.26%
پتروشيمي جم	1000	0.15	66.41%
پتروشيمي‌ خارك‌	17000	0.25	50.31%
پتروشيمي شازند	15000	0.1	71.11%
پتروشيمي فناوران	3000	0.1	57.65%
پتروشیمی شیراز	15000	0.1	85.26%
س. صنايع‌شيميايي‌ايران	4000	0.1	68.06%
س. نفت و گاز و پتروشيمي تأمين	8000	0.1	73.64%
سرمايه‌گذاري صنايع پتروشيمي‌	1000	0.1	68.06%
صنايع پتروشيمي خليج فارس	1000	0.1	85.26%
صنايع پتروشيمي كرمانشاه	1000	0.1	71.11%
صنايع‌ شيميايي‌ فارس‌	18000	0.2	77.20%
صنايع‌شيميايي‌سينا	4000	0.1	68.06%
كربن‌ ايران‌	2000	0.1	83.66%
گروه صنعتي پاكشو	11000	0.1	85.26%
گسترش نفت و گاز پارسيان	6000	0.15	77.08%
گلتاش‌	1000	0.1	68.06%
لعابيران‌	19000	0.2	54.40%
مديريت صنعت شوينده ت.ص.بهشهر	12000	0.25	56.69%
معدني‌ املاح‌ ايران‌	6000	0.15	47.50%
نيروكلر	1000	0.15	79.12%
میانگین			71.14%

با توجه به داده‌های بالا کرنل سیگموئید با گاما scale می‌تواند به‌صورت میانگین تا 71.14 درصد جهت قیمت‌ها را درست پیش‌بینی کند.

4-نتیجه‌گیری و پیشنهادات آتی

گسترش روز افزون محیط وب و رشد تولید محتوای غیرساختار یافته شامل متن، صوت و فیلم و عدم توانایی انسان در بررسی همه آنها و تصمیم‌گیری، روز به روز اهمیت متن‌کاوی افزایش می‌یابد. هر چند نتایج حاصل از داده‌کاوی با درصدی خطا همراه است، اما در تعداد تصمیم‌گیری زیاد، مانند تشخیص نامه‌های الکترونیک اسپم استفاده از این روش‌ها ضروری به نظر می‌رسد. هر چند استفاده از الگوریتم‌های یادگیری ماشین در حجم دیتای زیاد نیاز به قدرت پردازش بالایی است، اما با گسترش تکنولوژی و تولید کامپیوتری‌ها با قدرت پردازش بالا استفاده از روش‌های داده‌کاوی عمومیت بیشتری پیدا می‌کند.

یکی از کاربردهای متن‌کاوی بررسی تأثیر اخبار بر قیمت سهام در بورس است. از آنجایی که اخبار زیادی هر روز توسط خبرگذاری‌ها منتشر می‌شود بررسی همه خبرها توسط انسان کار دشواری به نظر می‌رسد. خرید و فروش سهام همواره با سود و ضرر همراه است و ریسک وجود دارد، توانایی پیش‌بینی قیمت‌ها می‌تواند تأثیر قابل توجهی در میزان سود ما داشته باشد. در این پژوهش سعی شده است با ذخیره‌سازی اخبار و استفاده از الگوریتم‌ ماشین بردار پشتیبان با کرنل‌های مختلف میزان دقت پیش‌بینی سهم ارزیابی شود.

با توجه به الگوریتم‌ها، کرنل‌ها و پارامترهای مختلفی که وجود دارد، نمی‌توان یک الگوریتم خاص با تنظیمات خاص را برای همه سهم‌ها انتخاب کرد، بلکه باید با توجه به نتایج حاصل‌شده از هر مدل، بهترین مدل را برای سهم موردنظر انتخاب کرد. با گذشت زمان و تغییر خبرها و شرایط یک سهم، ممکن است پارامترها و کرنل‌های نتایج مختلفی را ایجاد کنند. بهتر است هرروز مدل‌ها آموزش داده شوند و بهترین مدل برای پیش‌بینی جهت قیمت فردا انتخاب شود. از آنجایی که تعداد حالت‌های زیادی که اتفاق می‌افتد، تحلیل نتایج به‌صورت دستی بسیار زمان‌بر خواهد بود و برای انجام این وظایف بهتر است از کدنویسی و اتوماتیک کردن فرایند استفاده کرد.

در این پژوهش اخبار 17 ذخیره شد و داده‌های معاملات شرکت‌های بورس در گروه محصولات شیمیایی ذخیره شد و 25 شرکت در این پژوهش مورد بررسی قرار گرفت که در بازه آبان تا اسفند 97 بیش از 70 روز معاملاتی داشتند.

شکل 21 - میانگین نتایج کرنل‌ها

با توجه به نتایج حاصل از ارزیابی مدل‌ها به‌صورت شکل 21 خواهد بود. بهترین میانگین مربوط به کرنل معادله درجه 2 با گاما auto است که با دقت تقریبی 87 درصد می‌توان جهت قیمت سهم را در شرکت‌های گروه محصولات شیمیایی پیش‌بینی کند. همچنین مشاهده می‌شود در این پژوهش کرنل خطی هرچند ساده‌تر است و زمان پردازش کمتری را به خود اختصاص می‌دهد و سرعت بالاتری دارد، نتایج قابل قبولی در پیش‌بینی دارد و می‌تواند به صورت میانگین 85% پیش‌بینی درستی انجام دهد و کرنل‌های غیرخطی هر چند سرعت پایین‌تری دارند ولی نتایج مناسبی را ارائه نمی‌کنند.

به دلیل محدودیت‌های زمانی و مکانی موجود این تحقیقات می‌تواند با انجام سایر مطالعات تکمیل‌تر شود که در زیر به آنها اشاره می‌شود.

1- استفاده از بازه زمانی بیشتر برای ذخیره‌سازی اخبار و بررسی روزهای معاملاتی بیشتر در الگوریتم ماشین بردار پشتیبان و بررسی نتایج حاصل از روزهای معاملاتی بیشتر می‌تواند مورد بررسی قرار گیرد.

2- در تحلیل‌های تکنیکال اخبار جدیدتر می‌توانند تاثیرگذاری بیشتری بر روی قیمت داشته باشند در صورتی که در این تحقیق فقط از خبرهای منتشر شده در روز قبل برای پیش‌بینی جهت قیمت استفاده شده است، در مطالعات آتی می‌توان از اخبار چند روز قبل و وزن دهی به روزهای گذشته نیز استفاده کرد.

منابع

1.J. D. Velásquez, V. Palade, and L. C. Jain, Advanced techniques in web intelligence: Springer, 2013.

2. Cisco. (2019). Cisco Visual Networking Index: Forecast and Trends, 2017–2022 White Paper. Available: https://www.cisco.com/c/en/us/solutions/collateral/service-provider/visual-networking-index-vni/white-paper-c11-741490.html

3. internetlivestats. (2019). Total number of Websites. Available: https://www.internetlivestats.com/total-number-of-websites/

4. Z. Markov and D. T. Larose, Data mining the Web: uncovering patterns in Web content, structure, and usage: John Wiley & Sons, 2007.

5.B. Liu, Web data mining: exploring hyperlinks, contents, and usage data: Springer Science & Business Media, 2007.

6 A. Khadjeh Nassirtoussi, S. Aghabozorgi, T. Ying Wah, and D. C. L. Ngo, "Text mining for market prediction: A systematic review," Expert Systems with Applications, vol. 41, pp. 7653-7670, 11/15/ 2014.

7. M.-A. Mittermayer and G. Knolmayer, Text mining systems for market response to news: A survey: Institut für Wirtschaftsinformatik der Universität Bern, 2006.

8. C.-J. Huang, J.-J. Liao, D.-X. Yang, T.-Y. Chang, and Y.-C. Luo, "Realization of a news dissemination agent based on weighted association rules and text mining techniques," Expert Systems with Applications, vol. 37, pp. 6409-6413, 2010.

9. B. S. Kumar and V. Ravi, "A survey of the applications of text mining in financial domain," Knowledge-Based Systems, vol. 114, pp. 128-147, 12/15/ 2016.

10. M. Hagenau, M. Liebmann, and D. Neumann, "Automated news reading: Stock price prediction based on financial news using context-capturing features," Decision Support Systems, vol. 55, pp. 685-697, 6// 2013.

11. M. Thelwall, "Data cleansing and validation for multiple site link structure analysis," in Web mining: Applications and techniques, ed: IGI Global, 2005, pp. 208-227.

12. M. Sheng, Y. Qin, L. Yao, and B. Benatallah, Managing the web of things: linking the real world to the web: Morgan Kaufmann, 2017.

13. R. Kosala and H. Blockeel, "Web mining research: A survey," ACM Sigkdd Explorations Newsletter, vol. 2, pp. 1-15, 2000.

14. M. G. Da Costa and Z. Gong, "Web structure mining: an introduction," in Information Acquisition, 2005 IEEE International Conference on, 2005, p. 6 pp.

15. F. Johnson and S. K. Gupta, "Web content mining techniques: a survey," International Journal of Computer Applications, vol. 47, 2012.

16. Kumar and Ravi, "A survey of the applications of text mining in financial domain," vol. 114, pp. 128-147, 2016.

17. A. Hotho, A. Nürnberger, and G. Paaß, "A brief survey of text mining," in Ldv Forum, 2005, pp. 19-62.

18. Gupta and Lehal, "A survey of text mining techniques and applications," vol. 1, pp. 60-76, 2009.

19. Y. Zhang, M. Chen, and L. Liu, "A review on text mining," in Software Engineering and Service Science (ICSESS), 2015 6th IEEE International Conference on, 2015, pp. 681-685.

20. H. Hashimi, A. Hafez, and H. Mathkour, "Selection criteria for text mining approaches," Computers in Human Behavior, vol. 51, pp. 729-733, 2015.

21. K. Javed, S. Maruf, and H. A. Babri, "A two-stage Markov blanket based feature selection algorithm for text classification," Neurocomputing, vol. 157, pp. 91-104, 2015.

22. G. Hackeling, Mastering Machine Learning with scikit-learn: Packt Publishing Ltd, 2017.

23. Khan and A. Ahmad, "Cluster center initialization algorithm for K-means clustering," Pattern recognition letters, vol. 25, pp. 1293-1302, 2004.

24. J. Hou, H. Gao, and X. Li, "DSets-DBSCAN: a parameter-free clustering algorithm," IEEE Transactions on Image Processing, vol. 25, pp. 3182-3193, 2016.

25. Zhang and Z. Xu, "Hesitant fuzzy agglomerative hierarchical clustering algorithms," International Journal of Systems Science, vol. 46, pp. 562-576, 2015.

26. D. M. Farid, L. Zhang, C. M. Rahman, M. A. Hossain, and R. Strachan, "Hybrid decision tree and naïve Bayes classifiers for multi-class classification tasks," Expert Systems with Applications, vol. 41, pp. 1937-1946, 2014.

27. V. Svetnik, A. Liaw, C. Tong, J. C. Culberson, R. P. Sheridan, and B. P. Feuston, "Random forest: a classification and regression tool for compound classification and QSAR modeling," Journal of chemical information computer sciences, vol. 43, pp. 1947-1958, 2003.

28. Chen, K. Li, Z. Tang, K. Bilal, S. Yu, C. Weng, et al., "A parallel random forest algorithm for big data in a spark cloud computing environment," IEEE Transactions on Parallel Distributed Systems, pp. 1-1, 2017.

29. G. Dreyfus, Neural networks: methodology and applications: Springer Science & Business Media, 2005.

30. C. J. Burges, "A tutorial on support vector machines for pattern recognition," Data mining knowledge discovery, vol. 2, pp. 121-167, 1998.

31. M. Sokolova, N. Japkowicz, and S. Szpakowicz, "Beyond accuracy, F-score and ROC: a family of discriminant measures for performance evaluation," in Australasian joint conference on artificial intelligence, 2006, pp. 1015-1021.

32. S. S. Groth and J. Muntermann, "An intraday market risk management approach based on textual analysis," Decision Support Systems, vol. 50, pp. 680-691, 2011.

33. R. P. Schumaker, Y. Zhang, C.-N. Huang, and H. Chen, "Evaluating sentiment in financial news articles," Decision Support Systems, vol. 53, pp. 458-464, 6// 2012.

34. L. Dey, A. Mahajan, and S. M. Haque, "Document clustering for event identification and trend analysis in market news," in Advances in Pattern Recognition, 2009. ICAPR'09. Seventh International Conference on, 2009, pp. 103-106.

35. A. Mahajan, L. Dey, and S. M. Haque, "Mining Financial News for Major Events and Their Impacts on the Market," in 2008 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology, 2008, pp. 423-426.

36. X. Zhong and D. Enke, "A comprehensive cluster and classification mining procedure for daily stock market return forecasting," Neurocomputing, vol. 267, pp. 152-168, 2017/12/06/ 2017.

37. A. E. Khedr, S. Salama, and N. Yaseen, "Predicting Stock Market Behavior using Data Mining Technique and News Sentiment Analysis," International Journal of Intelligent Systems and Applications (IJISA), vol. 9, pp. 22-30, 2017.

38. H. Levy and M. Sarnat, "International Diversification of Investment Portfolios," The American Economic Review, vol. 60, pp. 668-675, 1970.

39. J. M.-T. Wu, Z. Li, C.-W. Lin, and M. Pirouz, "A New Convolution Neural Network Model for Stock Price Prediction," ed, 2020, pp. 581-585.

40. O. M. Ebadati E and M. Mortazavi T, "An efficient hybrid machine learning method for time series stock market forecasting," Neural Network World, vol. 28, pp. 41-55, 2018.

41. A. Mahajan, L. Dey, and S. M. Haque, "Mining financial news for major events and their impacts on the market," in Web Intelligence and Intelligent Agent Technology, 2008. WI-IAT'08. IEEE/WIC/ACM International Conference on, 2008, pp. 423-426.

42. X. Zhong and D. J. N. Enke, "A comprehensive cluster and classification mining procedure for daily stock market return forecasting," vol. 267, pp. 152-168, 2017.

43. A. E. Khedr and N. Yaseen, "Predicting stock market behavior using data mining technique and news sentiment analysis," International Journal of Intelligent Systems Applications, vol. 9, p. 22, 2017.

44. M. Hagenau, M. Liebmann, and D. J. D. S. S. Neumann, "Automated news reading: Stock price prediction based on financial news using context-capturing features," vol. 55, pp. 685-697, 2013.

45. scikit-learn.org. Choosing the right estimator. Available: https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html

46. ع. نوریان. (2018). هضم برای پردازش زبان فارسی در پایتون. Available: http://www.sobhe.ir/hazm/

47. W.-H. Chen, S.-H. Hsu, and H.-P. Shen, "Application of SVM and ANN for intrusion detection," Computers Operations Research, vol. 32, pp. 2617-2634, 2005.

3- استفاده از سایر الگوریتم‌های کلاس‌بندی مانند درخت تصمیم، جنگل تصادفی و بیزین برای دسته و نتیایج حاصل با مدل ماشین بردار پشیتیبان مقایسه گردد.

4- اجرای مدل پژوهش برای سایر شرکت‌ها و نتایج حاصل در گروه‌های محصولات مختلف بررسی و مقایسه شود.

9. B. S. Kumar and V. Ravi, "A survey of the applications of text mining in financial domain," Knowledge-Based Systems, vol. 114, pp. 128-147, 12/15/ 2016.

11. M. Thelwall, "Data cleansing and validation for multiple site link structure analysis," in Web mining: Applications and techniques, ed: IGI Global, 2005, pp. 208-227.

12. M. Sheng, Y. Qin, L. Yao, and B. Benatallah, Managing the web of things: linking the real world to the web: Morgan Kaufmann, 2017.

13.R. Kosala and H. Blockeel, "Web mining research: A survey," ACM Sigkdd Explorations Newsletter, vol. 2, pp. 1-15, 2000.

14. M. G. Da Costa and Z. Gong, "Web structure mining: an introduction," in Information Acquisition, 2005 IEEE International Conference on, 2005, p. 6 pp.

15. F. Johnson and S. K. Gupta, "Web content mining techniques: a survey," International Journal of Computer Applications, vol. 47, 2012.

16. Kumar and Ravi, "A survey of the applications of text mining in financial domain," vol. 114, pp. 128-147, 2016.

17.A. Hotho, A. Nürnberger, and G. Paaß, "A brief survey of text mining," in Ldv Forum, 2005, pp. 19-62.

5- در این مطالعه فقط به بررسی جهت قیمت (افزایش یا کاهش قیمت) پرداخت شده است. در معاملات مقدار افزایش قیمت نیز بسیار مهم است و معامله‌گران تمایل دارند سهمی را خریداری کنند که قیمت آن درصد بیشتری افزایش پیدا کند. می‌توان در مطالعات آتی بر روی میزان افزایش قیمت نیز تحقیقاتی صورت بگیرد و نتایج الگوریتم‌ها با هم مقایسه شود.

18.Gupta and Lehal, "A survey of text mining techniques and applications," vol. 1, pp. 60-76, 2009.

19.Y. Zhang, M. Chen, and L. Liu, "A review on text mining," in Software Engineering and Service Science (ICSESS), 2015 6th IEEE International Conference on, 2015, pp. 681-685.

20. H. Hashimi, A. Hafez, and H. Mathkour, "Selection criteria for text mining approaches," Computers in Human Behavior, vol. 51, pp. 729-733, 2015.

21. K. Javed, S. Maruf, and H. A. Babri, "A two-stage Markov blanket based feature selection algorithm for text classification," Neurocomputing, vol. 157, pp. 91-104, 2015.

22. G. Hackeling, Mastering Machine Learning with scikit-learn: Packt Publishing Ltd, 2017.

23. Khan and A. Ahmad, "Cluster center initialization algorithm for K-means clustering," Pattern recognition letters, vol. 25, pp. 1293-1302, 2004.

24.J. Hou, H. Gao, and X. Li, "DSets-DBSCAN: a parameter-free clustering algorithm," IEEE Transactions on Image Processing, vol. 25, pp. 3182-3193, 2016.

25.Zhang and Z. Xu, "Hesitant fuzzy agglomerative hierarchical clustering algorithms," International Journal of Systems Science, vol. 46, pp. 562-576, 2015.

27.V. Svetnik, A. Liaw, C. Tong, J. C. Culberson, R. P. Sheridan, and B. P. Feuston, "Random forest: a classification and regression tool for compound classification and QSAR modeling," Journal of chemical information computer sciences, vol. 43, pp. 1947-1958, 2003.

29.G. Dreyfus, Neural networks: methodology and applications: Springer Science & Business Media, 2005.

30.C. J. Burges, "A tutorial on support vector machines for pattern recognition," Data mining knowledge discovery, vol. 2, pp. 121-167, 1998.

32.S. S. Groth and J. Muntermann, "An intraday market risk management approach based on textual analysis," Decision Support Systems, vol. 50, pp. 680-691, 2011.

33. R. P. Schumaker, Y. Zhang, C.-N. Huang, and H. Chen, "Evaluating sentiment in financial news articles," Decision Support Systems, vol. 53, pp. 458-464, 6// 2012.

35.A. Mahajan, L. Dey, and S. M. Haque, "Mining Financial News for Major Events and Their Impacts on the Market," in 2008 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology, 2008, pp. 423-426.

36. X. Zhong and D. Enke, "A comprehensive cluster and classification mining procedure for daily stock market return forecasting," Neurocomputing, vol. 267, pp. 152-168, 2017/12/06/ 2017.

38. H. Levy and M. Sarnat, "International Diversification of Investment Portfolios," The American Economic Review, vol. 60, pp. 668-675, 1970.

39. J. M.-T. Wu, Z. Li, C.-W. Lin, and M. Pirouz, "A New Convolution Neural Network Model for Stock Price Prediction," ed, 2020, pp. 581-585.

40. O. M. Ebadati E and M. Mortazavi T, "An efficient hybrid machine learning method for time series stock market forecasting," Neural Network World, vol. 28, pp. 41-55, 2018.

41.A. Mahajan, L. Dey, and S. M. Haque, "Mining financial news for major events and their impacts on the market," in Web Intelligence and Intelligent Agent Technology, 2008. WI-IAT'08. IEEE/WIC/ACM International Conference on, 2008, pp. 423-426.

42.X. Zhong and D. J. N. Enke, "A comprehensive cluster and classification mining procedure for daily stock market return forecasting," vol. 267, pp. 152-168, 2017.

43.A. E. Khedr and N. Yaseen, "Predicting stock market behavior using data mining technique and news sentiment analysis," International Journal of Intelligent Systems Applications, vol. 9, p. 22, 2017.

44. M. Hagenau, M. Liebmann, and D. J. D. S. S. Neumann, "Automated news reading: Stock price prediction based on financial news using context-capturing features," vol. 55, pp. 685-697, 2013.

45. scikit-learn.org. Choosing the right estimator. Available: https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html

46. ع. نوریان. (2018). هضم برای پردازش زبان فارسی در پایتون. Available: http://www.sobhe.ir/hazm/

47.W.-H. Chen, S.-H. Hsu, and H.-P. Shen, "Application of SVM and ANN for intrusion detection," Computers Operations Research, vol. 32, pp. 2617-2634, 2005.

شارک

عنوان URL للمقالة

به‌کارگیری وب‌کاوی در پیش‌بینی جهت قیمت سهام گروه محصولات شیمیایی در بورس اوراق بهادار

رایمگ

الروابط

المراكز ذات الصلة

دعامة

الصفحات الرسمية