ارائه مدلی برای پیش بینی بقای بیماران مبتلا به ملانوم بر اساس الگوریتم های داده کاوی

صناعی, فریناز; امین موسوی, سید عبدالله; طلوعی اشلقی, عباس; رجب زاده قطری, علی

doi:10.61186/jict.44093.15.57.1

رقم المقالة : 1402062844093 زيارة : 7114 الصفحة: 1 - 19

10.61186/jict.44093.15.57.1

20.1001.1.27170411.1402.15.57.1.6

نوع المخطوط: المحکّمة

ارائه مدلی برای پیش بینی بقای بیماران مبتلا به ملانوم بر اساس الگوریتم های داده کاوی

الموضوعات :

فریناز صناعی ¹ , سید عبدالله امین موسوی ² , عباس طلوعی اشلقی ³ , علی رجب زاده قطری ⁴

1 - دانشجوی دکتری رشته مدیریت فناوری اطلاعات،گرایش کسب کار هوشمند ، گروه مدیریت فناوری اطلاعات ،دانشکده مدیریت واقتصاد، واحد علوم تحقیقات، دانشگاه آزاد اسلامی،تهران ،ایران
2 - عضو هیات علمی( استادیار) ،گروه مدیریت صنعتی ، دانشکده مدیریت ، واحد تهران مرکز، دانشگاه آزاد اسلامی،تهران،ایران
3 - دانشگاه آزاد اسلامی واحد علوم و تحقیقات
4 - Tarbiat Modarres University

تاريخ الإرسال : 10 الخميس , ربيع الأول, 1444 تاريخ التأكيد : 26 الجمعة , رجب, 1444 تاريخ الإصدار : 04 الثلاثاء , ربيع الأول, 1445

الکلمات المفتاحية: داده کاوي, پیش بیني, ملانوم, بقاي بیماري, شبکه عصبي, درخت تصمیم گیري,

ملخص المقالة :

مقدمه: ملانوم جزء شایعترین سرطان تشخیصي و دومین علت مرگ ناشي از سرطان در میان افراد است. تعداد مبتلایان به آن در حال افزایش است. ملانوم، نادرترین و بدخیم ترین نوع سرطان پوست است.در شرایط پیشرفته توانایي انتشار به ارگانهاي داخلي را دارد و ميتواند منجر به مرگ شود. طبق برآوردهاي انجمن سرطان آمریکا براي ملانوم در ایالاتمتحده براي سال 2022 عبارتاند از: حدود 99،780 ز افراد مبتلابه ملانوم تشخیص داده شدند و حدود 7،650 نفر در اثر ملانوم جان خود را از دست ميدهند. لذا هدف از این مطالعه، طراحي بهبود دقت الگوریتم براي پیش بیني بقاي این بیماران است. روش پژوهش: روش حاضر کاربردي، توصیفي- تحلیلي و گذشتهنگر است. جامعه پژوهش را بیماران مبتلابه سرطان ملانوم پایگاه داده مرکز تحقیقات کشوري سرطان دانشگاه شهید بهشتي ) 1۳87 تا 1۳91 ( که تا 5 سال مورد پیگیري قرارگرفته بودند، تشکیل داده است. مدل پیشبیني بقاي ملانوم بر اساس شاخص هاي ارزیابي الگوریتم هاي داده کاوي انتخاب شد. یافته ها: الگوریتم هاي شبکه عصبي، بیز ساده، شبکه بیزي، ترکیب درخت تصمیم گیري با بیز ساده، رگرسیون لجستیک، J48 ، ID3 بهعنوان مدل هاي استفاده شده ي پایگاه داده کشور انتخاب شدند . عملکرد شبکه عصبي در همه شاخصهاي ارزیابي ازلحاظ آماري نسبت به سایر الگوریتم هاي منتخب بالاتر بود. نتیجه گیري: نتایج مطالعه حاضر نشان داد که شبکه عصبي با مقدار 97 / 0 ازلحاظ دقت پیش بیني عملکرد بهینه دارد. بنابراین مدل پیش بیني کننده بقاي ملانوم، هم ازلحاظ قدرت تمایز و هم ازلحاظ پایایي، عملکرد بهتري از خود نشان داد؛ بنابراین، این الگوریتم به عنوان مدل پیش بیني بقاي ملانوم پیشنهاد شد

المصادر:

1. Zamanian Azodi M, Azizi Jalilian F. Early detection of cancer and proteomics. Journal of Ilam University of Medical Sciences 2013; 21 (1): 112-22. (Persian)
2. Shariatzadeh MA, Hamta A, Solimani M, et al. Determination of chromosomal changes in DMBA-induced skin cancer in SD rat strains. J Arak Uni Med Sci 2009; 12 (2): 73-87. (Persian)
3. Howlader N, N.A., Krapcho M, Miller D, Brest A, Yu M, Ruhl J, Tatalovich Z, Mariotto A, Lewis DR, Feuer EJ, Cronin KA. SEER Cancer Statistics Review, 19752016. 2018 December, 11, 2019 2020].
4. Seyed Elham Hosseini Fadafen, Emad Fatemizadeh, “Diagnosis of skin cancer by extracting features from images“Shhab Dansh Institute(2016)
5 Hoseini. (25/06/1391). Available: http://www.fbme.ir/category/6. [1] A. Hoseini. (25/06/1391). Available: http://www.fbme.ir/category/6
6. David A. Kirchar DA, Mark R, et al. Melanoma brain metastasis: mechanisms, models and medicine. J Mol Sci 2016; 17 (7): 1-29.
7 .Wrobel, S., M. Przybylo, and E. Stepien, The Clinical Trial Landscape for Melanoma Therapies. J Clin Med, 2019. 8(3).
8. Longo D, Casper D, Jameson L, et al. Harrison’s principles of internal medicine.18th ed. New york; Mc Graw-Hill 2012; 1945-65.
9. L. Sophia, and M. S. Pallavi. “Predicting Protein in Cancer Diagnosis Using Effective Classification and Feature Selection Technique,” IEEE International Conference on Communication and Signal Processing (ICCSP), pp. 156-159, 2018
10. Burd, C.E., et al., Mutation-Specific RAS Oncogenicity Explains NRAS Codon 61 Selection in Melanoma. Cancer Discovery, 2014. 4(12): p. 1418.
11. S. Winiarti, H. Yuliansyah, and A. A. Purnama, “Identification of Toddlers’ Nutritional Status using Data Mining Approach,” International Journal of Advanced Computer Science and Applications, Vol. 9, No. 1, pp. 164 - 169, 2018.

12. Kim, R. H. & Meehan, S. A. Immunostain use in the diagnosis of melanomas referred to a tertiary medical center: a 15-year retrospective review (2001–2015). J. Cutan. Pathol. 44, 221–227 (2017).
13. Roebuck H, Moran K, MacDonald DA, Shumer S, McCune RL. Assessing Skin Cancer Prevention and Detection Educational Needs: An Andragogical Approach. The Journal for Nurse Practitioners. 2015;11(4):40916
14. Alizadeh S, Ghazanfari M & Teimorpour B. Data mining and knowledge discovery. 2nd ed. Tehran: Publication of Iran University of Science and Technology; 2011: 70-250[Book in Persian].

15. Witten I. Frank E.Hall M. Data mining : Practical machin learning tools techniques: Morgan Kaufinann: 2011
16. Habif, T.P., Campbell, J.L., Chapman, S., and Dinulos, J., Skin disease: diagnosis and treatment, Elsevier Mosby, 2010 .
17. Han J. Kamber M,Pei J. Data mining: Concepts and techniques: Publishers Inc.: 2011
18. Razavi AR Applications of knowledge discovery in quality registries - predicting recurrence of breast cancer and analyzing non-compliance with a clinical guideline: Institutionen för medicinsk teknik; 2015.

19 Masilamani, G. D. Praveenkumar, and R.Gayathri. “Comparative Study on Skin Cancer Using the Approach of Data Mining,” Int. J. Res. Appl. Sci. Eng. Tech, no. 4, 2016
20. Liu Peng LL. A review of missing data treatment methods .2005
21 Ameri H, Alizadeh S & Barzegari A. Knowledge extraction of diabetics’ data by decision tree method. Health Management
2013; 16(53): 58-72[in Persian]
22. Magnani M. Techniques for dealing with missing . Data in knowledge discovery Department of Computer Science, Universitiy of Bologna.2004
23 K. Q. Kanaan. “Classification of human skin diseases using data mining,” International Journal of Advanced Engineering Research and Sci, Vol. 4, no. 1, 2017.

24. Aftarczuk K, Kozierkiewicz A. Evaluation of selected data mining algorithms implemented in Medical Decision Support Systems. Report of Institute of Information Science & Engineering, University of Technology. Wroclaw 2009; (1).

25. Mahmoodi MS, Mahmoodi SA, Haghighi F, Mahmoodi SM. Determining the stage of breast cancer by data mining algorithms. ijbd. 2014;7(2):36-44.
26. Sarafi Nejad A, Saeid AH, Rose I.M, Rowhanimanesh AR. Modeling a Data Mining Decision Tree and Propose a New Model for the Diagnosis of Skin Cancer by Immunohistochemical Staining Methods. Journal of Health and Biomedical Informatics 2014; 1(1): 54-62.[Persian].
27. Dehghan P, Mogharabi M, Zabbah I, Layeghi K & Maroosi A. Modeling Breast cancer using data mining methods. Journal of Health and Biomedical Informatics 2018; 4(4): 266-78[Article in Persian].
28. Tahmasebian S, Ghazisaeedi M, Langarizadeh M, Mokhtaran M, Mahdavi-Mazdeh M, Javadian P. Applying data mining techniques to determine important parameters in chronic kidney disease and the relations of these parameters to each other. J Renal Inj Prev 2017; 6(2): 83–7.
29. Martınez AM, Webb GI, Chen S, Zaidi NA. Scalable learning of Bayesian network classifiers. Journal of Machine Learning Research. 2016;17(44):1-35
30. Finkelstein J, Jeong IC. Machine learning approaches to personalize early prediction of asthma exacerbations. Ann N Y Acad Sci 2017;1387(1):153- 65.
31. Ahmed K, Jesmin T, Rahman MZ. Early Prevention and Detection of Skin Cancer Risk using Data Mining. International Journal of Computer Applications 2013;62(4):1 -6.
32. Gopalakrishnan, V. et al. Gut microbiome modulates response to anti-PD-1 immunotherapy in melanoma patients. Science 359, 97–103 (2018).
33. Hira Beenish, Muhammad Fahadad International Conference on Computing and Information Technology, University o f Tabuk, Kingdom o f Saudi Arabia. Volume: 01, Issue: ICCIT- 1441, Page No.: 44 - 47, 9 & 1 9 Sep. 2020
34. McLaughlin JM, Fisher JL, Paskett ED. Marital status and stage at diagnosis of cutaneous melanoma: results from the Surveillance Epidemiology and End Results (SEER) program, 1973–2006. Cancer. 2011;117(9):1984–
1993

35. Chen, S., et al., Targeting MC1R depalmitoylation to prevent melanomagenesis in
redheads. Nature Communications, 2019. 10(1): p. 877.
36. N. R. Aaron, and T. M. Khoshgoftaar, “Modernizing analytics for melanoma with a large-scale research dataset,” In 2017 IEEE International Conference on Information Reuse and Integration (IRI), pp. 551 - 558, 2017.

37. Thongkam J. Xu GD, Zhang YC,Huang FC Toward breast cancer survivability prediction models through improving training space. 2009 Dec:36(10):12200-9.
38. Gibert K, Sanchez-Marre M, Codina V editors . Choosing the right data mining technique: Classification of methods and intelligent recommendation. Proceeding the IEMSs fifth biennial meeting international congress on environmental modeling and software ;2015

39. Witten I. Frank E.Hall M. Data mining : Practical machine Learning tools and techniques: Morgan Kaufinann: 2011.
40 Lee, C., Collichio, F., Ollila, D. & Moschos, S. Historical review of melanoma treatment and outcomes. Clin. Dermatol. 31, 141–147 (2013).

410 Dehghan P, Mogharabi M, Zabbah I, Layeghi K & Maroosi A. Modeling Breast cancer using data mining methods. Journal of Health and Biomedical Informatics 2018; 4(4): 266-78[Article in Persian].
42. H. Safigholi, A. S. Meigooni, and W. Y. J. M. p. Song, "Comparison of 192Ir, 169Yb, and 60Co high-dose rate brachytherapy sources for skin cancer treatment," vol. 44, no. 9, pp. 4426-4436, 2017.
43. Kasạcian A, Abadi A-R ، Mehrabi Y ،Mousavi-Jarahi A-R. Estimating to relative survival of skin cancer patients referring to imam khomeini cancer institute during 1990-95 Knowledge & Health. 2009:4(3):1-7. [In Persian].
44. U.-O. Dorj, K.-K. Lee, J.-Y. Choi, M. J. M. T. Lee, and Applications, "The skin cancer classification using deep convolutional neural network," pp. 1-16, 2018.
45. Jonsdottir T. Hvannberg ET, Sigurdsson H, Sigurdsson S. The feasibility of constructing a predictive outcome model for breast cancer using the tools of data mining . Expert Systems with Applications. 2008 Jan;34(1):108-18.
46. Yu CT, Chao CM, Cheng BW. Prediction of surv using three artificial intelligence techniques. Journal of Theoretical and applied Information Technology. 2014;60(1):179-83. 99.
47. Zhe Tang, Yuancheng Su, Er Meng Joo, Fang Qi,Li Zhang, Jianyong Zhou, “A local binary pattern based texture descriptors for classification of tea leaves”, NEUCOM15529, May. 2015.

48. Maimon O.Rokach L.Data mining and knowledge discover handbook;springer Verlag New York, Inc.; 2010

49. Kim, R. H. & Meehan, S. A. Immunostain use in the diagnosis of melanomas referred to a tertiary medical center: a 15-year retrospective review (2001–2015). J. Cutan. Pathol. 44, 221–227 (2017).
550. Gopalakrishnan, V. et al. Gut microbiome modulates response to anti-PD-1 immunotherapy in melanoma patient Science 359,97-103(2018).

51. MK Keleş, Tehnički vjesnik, Breast Cancer Prediction and Detection Using Data Mining Classification Algorithms, 2019, Sarıçam Adana, Turkey

نص كامل:

دو فصلنامه علمي

فناوري اطلاعات و ارتباطات ایران

سال پانزدهم، شماره ‌57 و58 ، پاییز و زمستان 1402

صفحات:1 الی19

$E:\E Drive\logo\iicta Logo0.JPG$

Design and implementation of a survival model for patients with melanoma based on data mining algorithms

Farinaz Sanaei*, Seyyed Abdolah Amin Mousavi**, Abbas Toloie Eshlaghi***, Ali Rajabzadeh Ghatari****

*Ph.D. student, Information Technology Management, Department of Information Technology Management, Faculty of Management and Economics, Islamic Azad University, Science and Research Branch, Tehran, Iran

**Assistant Professor, Department of Industrial Management, Faculty of Management, Islamic Azad University, Central Tehran Branch, Tehran, Iran

***Professor, Department of Information Technology Management, Faculty of Management and Economics, Islamic Azad University, Science and Research Branch, Tehran, Iran

****Professor, Industrial Management Department, Faculty of Management and Economics, Tarbiat Modares University, Tehran, Iran

Abstract

Background/Purpose: Among the most commonly diagnosed cancers, melanoma is the second leading cause of cancer-related death. A growing number of people are becoming victims of melanoma. Melanoma is also the most malignant and rare form of skin cancer. Advanced cases of the disease may cause death due to the spread of the disease to internal organs. The National Cancer Institute reported that approximately 99,780 people were diagnosed with melanoma in 2022, and approximately 7,650 died. Therefore, this study aims to develop an optimization algorithm for predicting melanoma patients' survival.

Methodology: This applied research was a descriptive-analytical and retrospective study. The study population included patients with melanoma cancer identified from the National Cancer Research Center at Shahid Beheshti University between 2008 and 2013, with a follow-up period of five years. An optimization model was selected for melanoma survival prognosis based on the evaluation metrics of data mining algorithms.

Findings: A neural network algorithm, a Naïve Bayes network, a Bayesian network, a combination of decision tree and Naïve Bayes network, logistic regression, J48, and ID3 were selected as the models used in the national database. Statistically, the studied neural network outperformed other selected algorithms in all evaluation metrics.

Conclusion: The results of the present study showed that the neural network with a value of 0.97 has optimal performance in terms of reliability. Therefore, the predictive model of melanoma survival showed a better performance both in terms of discrimination power and reliability. Therefore, this algorithm was proposed as a melanoma survival prediction model.

Keywords: data mining, prediction, melanoma, disease survival, neural network, decision tree.

ارائه مدلی برای پیش‌بینی بقای بیماران مبتلابه ملانوم بر اساس الگوریتم‌های داده‌کاوی

فریناز صناعی*، سید عبداله امین موسوی**×، عباس طلوعی اشلقی***، علی رجب‌زاده قطری****

*دانشجوی دکتری مدیریت فناوری اطلاعات، گروه مدیریت فناوری اطلاعات، دانشکده مدیریت و اقتصاد، واحد علوم و تحقیقات، دانشگاه آزاد اسلامی، تهران، ایران

** استادیار، گروه مدیریت صنعتی، دانشکده مدیریت، واحد تهران مرکز، دانشگاه آزاد اسلامی، تهران، ایران

استاد، گروه مدیریت فناوری اطلاعات، دانشکده مدیریت و اقتصاد، واحد علوم و تحقیقات، دانشگاه آزاد اسلامی، تهران

استاد، گروه مدیریت صنعتی، دانشکده مدیریت و اقتصاد، دانشگاه تربیت مدرس، تهران، ایران

تاریخ دریافت:14/07/1401 تاریخ پذیرش:28/11/1401

نوع مقاله:پژوهشی

چکیده

مقدمه: ملانوم جزء شایع‌ترین سرطان تشخیصی و دومین علت مرگ ناشی از سرطان در میان افراد است. تعداد مبتلايان به آن در حال افزايش است. ملانوم، نادرترين و بدخیم‌ترین نوع سرطان پوست است.در شرايط پيشرفته توانايي انتشار به ارگان‌های داخلي را دارد و می‌تواند منجر به مرگ شود. طبق برآوردهای انجمن سرطان آمریکا برای ملانوم در ایالات‌متحده برای سال 2022 عبارت‌اند از: حدود 99،780 ز افراد مبتلابه ملانوم تشخیص داده شدند و حدود 7،650 نفر در اثر ملانوم جان خود را از دست می‌دهند. لذا هدف از این مطالعه، طراحی بهبود دقت الگوریتم برای پیش‌بینی بقای این بیماران است.

روش پژوهش: روش حاضر کاربردی، توصیفی- تحلیلی و گذشته‌نگر است. جامعه پژوهش را بیماران مبتلابه سرطان ملانوم پایگاه داده مرکز تحقیقات کشوری سرطان دانشگاه شهید بهشتی (۱۳۸7 تا ۱۳91) که تا ۵ سال مورد پیگیری قرارگرفته بودند، تشکیل داده است. مدل پیش‌بینی بقای ملانوم بر اساس شاخص‌های ارزیابی الگوریتم‌های داده‌کاوی انتخاب شد.

یافته‌ها: الگوریتم‌های شبکه عصبی، بیز ساده، شبکه بیزی، ترکیب درخت تصمیم‌گیری با بیز ساده، رگرسیون لجستیک، J48، ID3 به‌عنوان مدل‌های استفاده‌شده‌ی پایگاه داده کشور انتخاب شدند. عملکرد شبکه عصبی در همه شاخص‌های ارزیابی ازلحاظ آماری نسبت به سایر الگوریتم‌های منتخب بالاتر بود.

نتیجه‌گیری: نتایج مطالعه حاضر نشان داد که شبکه عصبی با مقدار 97/0 ازلحاظ دقت پیش‌بینی عملکرد بهینه دارد. بنابراین مدل پیش‌بینی کننده بقای ملانوم، هم ازلحاظ قدرت تمایز و هم ازلحاظ پایایی، عملکرد بهتری از خود نشان داد؛ بنابراین، این الگوریتم به‌عنوان مدل پیش‌بینی بقای ملانوم پیشنهاد شد.

واژگان کلیدی: داده‌کاوی، پیش‌بینی، ملانوم، بقای بیماری، شبکه عصبی، درخت تصمیم‌گیری

×نویسنده مسئول:سید عبداله امین موسوی ، a.mousavi@iauctb.ac.ir

1. مقدمه

سرطان به گروهی از بیماری‌ها اطلاق می‌شود که با رشد کنترل نشده و گسترش سلول‌های غیرطبیعی مشخص می‌گردد. چنانچه این رشد غیرطبیعی مهار نشود به مرگ منجر می‌شود]1[. ملانوم بدخیم کشنده و تهاجمی‌ترین نوع سرطان پوست است ]2[.

خطرناک‌ترین ویژگی ملانوم این است که میتواند به‌طور گسترده‌ای در سراسر بدن از طریق عروق لنفاوی و رگ‌های خونی گسترش یابد؛ بنابراین تشخیص زودهنگام یک عامل کلیدی برای پیش‌آگهی این بیماری است]3[.

برآوردهای انجمن سرطان آمریکا برای ملانوم در ایالات‌متحده برای سال 2022 عبارت‌اند از: حدود 99،780 ملانوم جدید تشخیص داده می‌شود (حدود 57180 نفر در مردان و 42600 نفر در زنان). انتظار می‌رود حدود 7650 نفر در اثر ملانوم (حدود 5080 مرد و 2570 زن) جان خود را از دست دهند. نرخ ملانوم طی چند دهه گذشته به‌سرعت در حال افزایش است، اما این با افزایش سن متفاوت بوده است ]4[.

درحالحاضر با توجه به کشنده بودن ملانوم در ایران، این بیماری عامل مهم مرگ‌ومیر و آسیب‌های اجتماعی خواهد بود، لذا بهداشت سرطان و تصمیم‌گیری مدیریت هوشمند از مهم‌ترین اولویت‌های نظام سلامت کشور است و پیشگیری، غربالگری و درمان اولیه سرطان از اولویت بالایی برخوردار است]5[. این مهم نیازمند شناخت عوامل مؤثر بر بروز ملانوم بوده و اگر این شناخت در قالب مدل‌های داده‌کاوی ارائه گردد، از دقت وکارآیی بیشتری برخوردار خواهد بود. برقراری نظام ملی ثبت سرطان، به‌طوری‌که دربرگیرنده کلیه‌ی عوامل مؤثر بر بروز ملانوم باشد، میتواند در شناخت الگوی حاکم بر بروز ملانوم مؤثر بوده و چنانچه الگوی موردنظر به‌درستی تبیین شود می‌تواند نقش بسزایی در کاهش بروز ملانوم داشته باشد.

پيشرفت فنّاوری آسیب‌شناسی پوستي نقش قابل‌توجهی در تشخيص و بالا بردن نرخ بقا در اين بيماري داشته است. براي مثال، بيماران ‌مبتلابه ‌ملانوم كمتر يا برابر با 75/0 میلی‌متر ضخامت،‌ یک ‌پیش‌آگهی خوب داشته است]6[؛ و بيشتر از %93 از آن‌ها ميزان بقاي 5 ساله خود رادارند ]7[. بنابراين، تشخيص زودهنگام براي كاهش مرگ‌ومیر مربوط به ملانوم بسيار مهم است]8[. درپژوهشحاضر،برای اولین بار در کشور، با اعمال الگوریتم‌های داده‌کاویبرپایگاهداده‌یکشور و مقایسه مدل‌های پیش‌بینی، دقیق‌ترین مدل بقای ملانوم استفاده شد تا سیاست‌گذاران بهداشتی، کشورها در کنترل هر چه‌بهتر مرگ‌ومیر سرطان پوست افزایش کیفیت زندگی، امید به زندگی بیماران و مدیریت بهینه تصمیم‌گیری کسب‌وکار و صنعت‌سلامت یاری نماید]9[. با‌پیشرفت‌هاییکهدرزمینهی داده‌کاوی صورت گرفته است، ثابت‌شده که روش‌های به‌کاررفته، ازلحاظ ‌قدرت‌ و صحت پیش‌بینی بقا، عملکرد بهتری دارند]10[. همچنین به علت وجود روابط غیرخطی بین متغیرهای پیش‌بینی کننده و متغیر هدف، روش‌های استفاده‌شده در حوزه داده‌کاوی این‌گونه روابط را با خطای کمتری تحلیل می‌کنند]11[.

بر اساس مطالعات پژوهشگران، پژوهش مشابه و گسترده‌ای در حوزه استفاده از روش‌های داده‌کاوی در پیش‌بینی بقای ملانوم در سطح کشور و دانشگاه‌های مختلف ازجمله دانشگاههای علوم پزشکی صورت نپذیرفته است و مطالعات انجام‌شده بر اساس داده‌های آماده سایر کشورها بوده است.

ازلحاظ نو بودن در جامعه موردبررسی، لازم به ذکر است تاکنون بر روی ‌بانک اطلاعاتی مرکز تحقیقات سرطان کشوری دانشگاه شهید بهشتی مطالعه‌ای جهت بررسی پیش‌بینی بقای ملانوم انجام‌نشده است. در پژوهش‌های دیگر فقط گزارش صحت، حساسیت و ویژگی برای پیش‌بینی مدل‌ها استفاده‌شده است]12[و]13[. درحالی‌که در این پژوهش از مقدار شاخص ترجیح تطبیق یافته که از اثرات متعادل‌سازی است، استفاده‌شده است که جز بارزترین نکات قابل‌تمایز با پژوهش‌های دیگر است.

در این مطالعه بقای بیماری ملانوم ازلحاظ آماری و هوش مصنوعی موردبررسی قرارگرفته است. این دو رویکرد صرفاً جهت مقایسه نتایج روش‌های آماری و هوش مصنوعی نبوده است. بلکه در جهت افزایش آگاهی نسبت به موضوع بقای کلیه بیماران مبتلابه ملانوم با توجه به نقاط قوت هریک از روش‌ها بوده است. ازآنجایی‌که در این پژوهش تعداد متغیرهای بیشتر، در بازه گسترده‌تر بر روی کل بیماران مبتلابه ملانوم در سطح کشور بررسی‌شده است، لذانسبتبه پژوهش‌های گذشته عملکرد موفقیت‌آمیزتری خواهد داشت.

2. پیشینه تحقیق

تحقیقات ثابت کرده است که اکثر بیماران مبتلابه ملانوم مخصوصاً در مراحل پایین‌تر، حداقل تا ۵ سال بعد از تشخیص زنده مانده‌اند یا پاسخ آن‌ها به درمان حداقل تا آن فاصله زمانی مثبت بوده است. در صورت عدم درمان و مداوا، پیش‌بینی میزان بقای 5 ساله بیمار از 99٪ تا 14٪ کاهش می‌یابد [14].

در مطالعه‌ای كه توسط دكتر اسماعيلي و همكارانش در سال 1386 در موردبررسی ميزان بقا 5 ساله بيماران مبتلابه ملانوم در ايران برحسب سن، جنس، محل آناتوميكي و نوع كلينيكي تومور از 781 بيمار بر روي نمونه‌های ارسال‌شده به مركز سرطان پوست تهران بين سال‌های 79-75 انجام شد نتیجه‌ی زير حاصل شد:

درنهایت ميزان بقا 5 ساله بيماران در ايران 5/28% تخمين زده‌شده كه اين درصد پایین‌تر از کشورهای دیگر بود [15]. در مقام مقایسه، در این تحقیق که در آن 781 بیمار و تعداد 4 متغیر بررسی‌شده است تحقیق جاری با بررسی تعداد بیماران 4118 نفر بررسی‌شده که حدود 3337 بیمار از تحقیق مذکور بیشتر بوده، با توجه به این نکته که در این پژوهش 10 متغیر موردبررسی قرار گرفت که از تحقیق فوق 6 متغیر بیشتر مورد تحلیل و بررسی قرارگرفته، مطالعه گسترده‌تری انجام‌شده است. دقت شبکه عصبی 97% برآورد بقای بیماران مبتلابه ملانوم را بعد از پنج سال داشته است که در مقایسه با عملکرد پژوهش مطرح‌شده میزان صحت و دقت آن سنجیده نشده است. ضمناً ذكر نشده كه سلول‌های ملانوسيتي گیرنده‌ای براي هورمون‌های جنسي داشته باشند پس قاعدتاً نبايد تفاوتي بين بقاء مردان و زنان وجود داشته باشد. از سیستم‌های هوشمند و داده‌کاوی نیز استفاده‌نشده است.

در سال 1387 عابدی و مقدس زاده درباره تعیین تابع بقا ارزیابی روش‌های مختلف رگرسیون کاکس با رگرسیون چند متغیره، همراه با جدول طول عمر در سرطان پوست، 199بیمار مبتلابه سرطان پوست را بررسی کرده، بعد از استخراج اطلاعات موردنظر از پرونده‌های پزشکی، وضعیت سلامت بیماران به‌صورت تلفنی،پیگیری شده و پیشامد نهایی موردبررسی قرار گرفت. نتایج حاصله عبارت‌اند از:توابع بقا برآورد شده توسط روش جدول طول عمر و حد حاصل‌ضرب نشان می‌دهد که نرخ بقا یک‌ساله برابر 94/0است و نرخ مخاطره در سال اول برابر 063/0 است. مدل مخاطرات متناسب کاکس که بر داده‌های تحقیق برازش یافته بصورت زیر است:

(1)

در مقایسه با پژوهش ما تعداد بیماران بررسی‌شده بسیار کمتر بوده و بررسی روی سرطان پوست غیرملانومی بوده است و در این تحقیق 199 بیمار و تعداد 5 متغیر بررسی‌شده است. تحقیق جاری با بررسی 4118تعداد بیماران مبتلا شده و 10 متغیر (که تأثیر بیشتري درزمینه‌ي بقا دارند)، مطالعه گسترده‌تری انجام داده است. ضمناً در این مطالعه از روش‌های معمول پرکاربرد آماری مانند تحلیل کاکس استفاده کرده‌اند و طراحی مدل پیش‌بینی نداشته‌اند، درحالی‌که در مطالعه ما از روش‌های به‌روز و هوش مصنوعی استفاده‌شده است و ترکیب سیستم‌های هوشمند و نرم‌افزارهای آماری دقت و صحت بالاتری نسبت به سیستم‌های آماری محض دارد.

3. روش‌شناسی پژوهش

نوع پژوهش: هدف پژوهش حاضر ازنظر ماهیت کاربردی و ازنظر هدف به روش توصیفی- تحلیلی گذشته‌نگر و ازنظر زمان به‌صورت مقطعی انجام شد.

مراحل انجام پژوهش: با توجه با اهداف مراحل انجام پژوهش به دو مرحله مستقل تقسیم می‌شود:

1.3 مرحله اول: استفاده از الگوریتم‌های داده‌کاوی در پایگاه داده بومی (داده‌های سرطانی کل کشور)

1.1.3 جامعه پژوهش: بیماران مبتلابه ملانوم بین سال‌های ۱۳۸7 تا ۱۳91 که تا ۱۳۹1 در کل کشور پیگیری شده‌اند.

3.1.2 نمونه پژوهش (شامل حجم نمونه و روش نمونه‌گیری)

تعداد کل بیماران موردبررسی و تحقیق 7690 نفر است. بیمارانی که بعد از تشخیص ملانوم در آن‌ها، کمتر از ۵ سال پیگیری شده‌اند، حذف شدند. همچنین بیمارانی که قبل از رسیدن به پنجمین سال پیگیری بیماری فوت کرده و علت فوت آن‌ها غیر از ملانوم بود نیز حذف شدند؛ که درنهایت به 4118 نفر رسیدند.

3.1.3 ابزار گردآوری داده‌ها

داده‌های پرونده‌ها بر اساس فرم جمع‌آوری داده استخراج شد. در ایجاد این فرم که دربرگیرنده متغیرهای بااهمیت در پیش‌بینی بقای ملانوم و توضیحات مربوط به مقادیر متغیرها است، از مطالعات، پژوهش‌ها و تحقیقات مربوط بهپیش‌آگهیملانومکه توسط پژوهشگر و نهایتاً با مشورت و نظر تخصصی 5 پزشک متخصص پوست، ایجاد شد. فرم جمع‌آوری داده در جدول (2) آورده شده است که طبق توضیحات فوق متغیرهای دخیل در بقای ملانوم، بر اساس مطالعه مقالات و راهنماهای بالینی مربوط به ملانوم شناسایی شد و در فرم زیر قرار گرفت.

جدول 2. چک‌لیست داده‌های ملانوم برای استخراج متغیرهای موردنیاز از پرونده‌های بیماران سرطان کل کشور

نام متغیر	مقادیر متغیر
1-سن	بر اساس سن یادداشت شده در پرونده
2-ضخامت تومور	بر اساس ضخامت تومور اندازه‌گیری شده و درج در پرونده I: less than or equal to 1 mm II: 1.01-2 mm III: 2.01-4 mm IV: greather than or equal 4 >= mm
3-جنس	مرد=1 زن=2
4-ارتشاح لنفوسیتی	1=خفیف 2=متوسط 3=شدید
5-وضعیت تأهل	1=مجرد 2- متأهل 3=دوجنسی 9=نامشخص
6-درجه بیماری	1=Grade I 2=Grade II 3=Grade III 4=Grade IIII 9=NOS
7-محل تومور	0=Skin of lip (پوست لب) 1=Eyelid (پلک چشم) 2=External ear (گوش خارجی) 3=Skin of other face ) بقیه جاهای صورت) 4= Skin of scalp and neck(سرو گردن) 5= Skin of trunk (تنه) 6= Skin of upper limb and shoulder(اندام فوقانی و شانه) 7= Skin of lower limb and hip(اندام تحتانی و لگن) 8= Overlapping lesion of skin(بینابین نواحی) 9=NOS (تشخیص داده نشده)
8-مرحله بیماری (سرطان)	1= IA(1) 2= IB(1) 3= IIA(2) 4= IIB(2) 5 = IIC(2) 6= IIIA(3) 7= IIIB(3) 8= IIIC(3) 9= IV(4)
9-رفتار	0 = خوش‌خیم 1 = نامشخص ازلحاظ خوش‌خیمی یا بدخیمی 2 = کارسینوم درجا 3 = بدخیم اولیه 6 = بدخیم ثانویه (متاستاتیک) 9 = نامشخص ازلحاظ اولیه یا ثانویه
10-اشعه درمانی	1=بله 2=خیر

4.1.3 روش گردآوری داده‌ها

محقق به‌صورت حضوری به محیط پژوهش مراجعه کرده است. فرم مذکور بر اساس مطالعه متون تحقیقات، پژوهش‌های بقای بیماران مبتلابه ملانوم و نظرخواهی از متخصصین جراحی پوست ایجادشده است نظرخواهی از متخصصان جراحی پوست به روش مصاحبه و به‌صورت جداگانه انجام‌شده، سپس بر اساس فرم استخراج داده، متغیرهای ‌موردنیاز، از پرونده‌هایی که شرایط قرار گرفتن در نمونه‌گیری را دارا بودند، استخراج شد. برای رعایت مسائل اخلاقی، برخی مشخصات بیماران (متغیرها) محرمانه ماند. خصوصیات متغیرها با توجه به کدگذاري بین‌المللی سرطانها² ICD-O)) (که این طبقه‌بندی سرطان‌ها بر اساس ICD-O طبق توصیه (سازمان بهداشت جهانی) WHO³ صورت گرفته است تا بتوان در مقیاس‌های منطقه‌ای، ملی، بین‌المللی اطلاعات را مقایسه نمود.) کدگذاري شده بود به همراه سایر اطلاعات دموگرافیک بیماران (سن، جنس، محل سکونت) موردبررسی قرار گرفت.

2.3 روش تحلیل داده‌ها

یکی از روش‌های بسیار قوی برای پیاده‌سازی و اجرای پروژه‌های داده‌کاوی متدلوژی CRISP است [17]. در این پژوهش مدل پیشنهادی بر اساس CRISP که شامل پنج گام که در شکل (1) به نمایش گذاشته‌شده است و به شرح ذیل انجام میشود [18]. هریک از این فازها خود شامل زیر بخش‌هایی می‌شوند. حرکت روبه‌جلو و عقب بین فازهای مختلف نیاز است [19]، زیرا ورودی هر فاز به خروجی فاز مرحله قبل وابسته است [20]. در شکل (2) گام‌های روش ذکرشده با تمام مراحل تحقیق منطبق شده است.

شکل 1. مراحل اصلی داده‌کاوی در مدل crisp

شکل 2. گام‌های روش crisp و مدل پیشنهادی

1.3.2 شناخت سیستم

در این مرحله به شناخت سیستم موردنظر پرداخته می‌شود و سپس اهداف موردنظر و عوامل موفقیت کلیدی سیستم تعیین و بازنگری می‌گردد. طبق نظر متخصصان پوست، با توجه به رشد روزافزون سرطان‌های پوست، هزینه‌های سرسام‌آور درمان این بیماری سرطان‌های دیگر و عوارض شدیدی که روی اعضای حیاتی بدن در درازمدت می‌گذارد [21]، بررسی داده‌های جمع‌آوری‌شده در رابطه با این بیماری در تشخیص زودرس روش درمان بیماران جدید و مدیریت سیستم تصمیم‌یار پزشکی می‌تواند مفید باشد. بیماران جدید می‌توانند تا حد ممکن از توصیه‌های پزشکی تجویزشده متناسب با بیماران دسته‌ای که در آن قرارگرفته‌اند، بهره ببرند.

2.2.3 شناخت داده‌ها و آماده‌سازی آن‌ها

در این مرحله به جمع‌آوری داده‌های اولیه، توصیف داده‌ها، بازرسی و بررسی داده‌ها و اعتبار سنجی کیفیت داده‌ها پرداخته‌شده است. مطالعه‌ی حاضر از نوع توصیفی- مقطعی بوده و مجموعه داده‌های آن متعلق به مرکز تحقیقات کشوری سرطان وابسته به دانشگاه شهید بهشتی بیمارستان شهدای تجریش تهران است که بیماران مبتلابه ملانوم بین سال‌های ۱۳۸7 تا ۱۳91 در کل کشور پیگیری شدند.

شناخت و پیش‌پردازش داده‌ها (آماده‌سازی): مجموعه داده ملانوم که در این مرحله از پژوهش استفاده شد،5 فایل اکسل جداگانه که هرکدام متعلق به یک سال بود (از سال 1387 تا سال 1391) و در هر فایل کلیه بیماران مبتلابه انواع سرطان پوست در آن قرار داشت که طبق استاندارد ICD-O افراد مبتلابه ملانوم در هر فایل جدا و انتخاب‌شده و همگی دریک فایل اکسل⁴ تجمیع شدند. داده‌های پژوهش مربوط به مرکز تحقیقات کشوری سرطان وابسته به دانشگاه شهید بهشتی بیمارستان شهدای تجریش تهران بود که بعد از گردآوری داده توسط پژوهشگران ایجاد شد. این فایل حاوی 7690 رکورد و ۱۷ متغیر بود. برخی از متغیرها مانند شماره پرونده، نام و نام خانوادگی، نام پدر، آدرس بیماران، کد پستی، نام مرکز، شماره تلفن ثابت و موبایل بیماران است که به علت رعایت اصل محرمانگی، این متغیرها از مجموعه داده حذف گردید.

افزایش گرداوری و ثبت روزافزون داده‌های پیچیده در دنیای پزشکی، دلیل استفاده از فرایند داده‌کاوی از پایگاه داده است [22].

به علت وجود داده‌های ازدست‌رفته و تکراری و همچنین متغیرهایی با اسامی نامفهوم و نیاز به مدیریت دقیق این چالش‌ها، مراحل شناخت و آماده‌سازی داده، مهم‌ترین مراحل در داده‌کاوی بوده و بیشترین زمان صرف شده در استخراج دانش از پایگاه داده‌ها به این مراحل اولیه معطوف می‌شوند [23]. درواقع مرحله دوم و سوم از متدلوژی CRISP در این گام بررسی و اجرا می‌گردد.

برای بررسی دقیق‌تر و جزئی‌تر و همچنین اجرای عملیات پیش‌پردازش داده‌ها از قبیل مدیریت مقادیر ازدست‌رفته و پرت، مجموعه داده با محیط نرم‌افزار SPSSوارد گردید. جدول 3 و 4 و 5 توزیع متغیرهای پیش‌بینی کننده و متغیرهای پیش‌بینی کننده پیوسته و متغیر وابسته را نشان می‌دهند.

جدول 3. متغیرهای پیش‌بینی کننده در مجموعه داده ملانوم مرکز تحقیقات کشوری سرطان

اسامی متغیر گروهی	تعداد مقادیر منحصربه‌فرد
جنس	2
ارتشاح لنفوسیتی	3
وضعیت تأهل	4
درجه بیماری	5
محل تومور	10
مرحله سرطان	9
رفتار	6
اشعه درمانی	2

جدول 4. متغیرهای پیوسته پیش‌بینی کننده در مجموعه داده ملانوم مرکز تحقیقات کشوری سرطان

اسامی متغیر پیوسته	میانگین	انحراف معیار	بازه (محدوده)
سن	25/59	33/19	101-1
ضخامت تومور	39/2	24/2	05/9-01/0
تعداد میتوز	06/2	998/1	13-1

جدول 5. توزیع متغیر وابسته پایگاه داده کشوری

دسته	تعداد رکورد	درصد
0: عدم بقا	1404	1/34
1: بقا	2714	9/65
جمع کل	4118	100

متغیر وابسته، متغیری از نوع دوتایی بود که صفر و یک به ترتیب عدم بقا و بقا را نشان می‌دادند. برای تعیین متغیر وابسته، از مجموعه داده از نرم‌افزار SPSSبه نرم‌افزار اکسل وارد شد. متغیرهای «کدگذاری مجدد زمان بقا»، «کدگذاری مجدد وضعیت حیاتی» و «علت مرگ» در تعیین متغیر وابسته دخیل بودند. متغیر «کدگذاری مجدد زمان بقا» از چهار کاراکتر تشکیل می‌شود که دو نویسه اول نشانگر سال پی گیری و دو نویسه بعدی نشانگر ماه پی گیری بودند. ابتدا هر یک از اعداد در ستونی جداگانه تقسیم‌بر صد شدند و سپس با به‌کارگیری دستور ذیل، متغیر وابسته ایجاد شد. شکل (3)گویای قطعه کد نوشته‌شده است.

1-If STR⁵ >=5 year and VSR⁶=alive then

2-Record=1

3-Else if STR<5 year and COD⁷=melanom then

4-Record=0

5-Else

Ignore the Record-6

7-End if

شکل 3. نمایش تکه کد برای بررسی بقا

رکوردهایی که در هیچ‌یک از گروه‌های بقا و عدم بقا قرار نگرفته بودند، حذف شدند و تعداد رکوردها به 4118 رکورد رسید. اگر میزان مقادیر ازدست‌رفته مجموعه داده‌ها کمتر از 1 در صد باشد، در فرآیند استخراج دانش خللی ایجاد نمی‌کند، بین 1 تا 5 درصد قابل مدیریت، بین 5 تا 15 درصد مستلزم اعمال روش‌های پیچیده برای مدیریت و بیشتر از 15 درصد ممکن است به‌صورت جدی بر هر نوع تفسیردانشی تأثیرگذار باشد [24]؛ بنابراین برای مدیریت این مقادیر، به‌جای حذف آن‌ها که باعث از دست رفتن اطلاعات ارزشمندی می‌شود از خط‌مشی‌های زیر استفاده شد. البته لازم به ذکر است که برای اعمال خط‌مشی‌های ذیل باید مقادیر ازدست‌رفته به‌صورت کاملاً تصادفی رخ‌داده باشند [25].

خط‌مشی اول: اگر یک متغیر در بیش از ۵۰ درصد رکوردها با مقادیر ازدست‌رفته مواجه باشد، در مجموعه داده موردمطالعه متغیر اشعه درمانی مقدار ازدست‌رفته‌اش بالای 50 درصد بود که نهایتاً منجر به حذف این متغیر گردید.

خط: مشی دوم: اگر یک متغیر در کمتر از یک درصد رکوردها با مقادیر ازدست‌رفته مواجه باشد، در آن صورت اگر از نوع عددی باشد میانگین مقادیر موجود در آن متغیر جایگزین مقادیر ازدست‌رفته میشود و اگر متغیر از نوع اسمی یا ترتیبی باشد در این صورت مد مقادیر موجود در آن متغير جایگزین مقادیر ازدست‌رفته میشود. در مجموعه موردمطالعه برای متغیرهای «وضعیت تأهل» و «تعداد میتوز» از این خط‌مشی استفاده شد.

خط‌مشی سوم: اگر متغیر در کم‌تر از ده درصد از رکوردها با مقادیر ازدست‌رفته مواجه باشد، در آن صورت با توجه به نوع متغیر، مقدار میانگین یا مد در مقادیر موجود آن متغیر در هر کلاس محاسبه‌شده و با توجه به کلاس رکوردی که در متغیر موجود با مقدار ازدست‌رفته مواجه است، مقدار ازدست‌رفته مواجه است، مقدار میانگین یا مد مربوط به همان کلاس جایگزین می‌شود [24]. مقادیر ازدست‌رفته متغیر «مرحله سرطان» از این خط‌مشی به دست آمد.

خط‌مشی چهارم: برای متغیرهایی که بیش از ۱۰ درصد مقادیر ازدست‌رفته داشتند از الگوریتم‌های موجود در طبقه‌بندی برای برآورد مقادیر ازدست‌رفته در آن متغیر و پر کردن آن استفاده شد. در این روش متغیری که دارای اعداد ازدست‌رفته است ابتدا به‌صورت فیلد هدف یا کلاس وارد مطالعه شده و سایر متغیرها به‌صورت ورودی تعریف می‌شوند. پس از به دست آوردن دقت بالا در ایجاد مدل پیش‌بینی، الگوریتم شبیه‌ترین رکورد موجود در پایگاه داده که دارای متغیر ازدست‌رفته نیستند را جایگزین مقادیر ازدست‌رفته متغیر هدف می‌کند. یکی از نکات مثبت این خط‌مشی به‌این‌علت است که به خاطر وجود همبستگی‌هایی که معمولاً بین متغیرها وجود دارد، روش مذکور از این همبستگی‌ها برای ایجاد مدل پیش‌بینی مقادیر ازدست‌رفته استفاده می‌کند. مدل پیش‌بینی دسته‌بندی برای برآورد مقادیر ازدست‌رفته متغیرهای کیفی و مدل پیش‌بینی رگرسیون برای برآورد مقادیر ازدست‌رفته متغیرهای کمی کاربرد دارند مقادیر ازدست‌رفته متغیرهای ارتشاح لنفوسیتی، درجه بیماری، محل تومور، ضخامت تومور با این خط‌مشی جایگذاری شدند. در جدول (6) کلیه متغیرها و مقادیر ازدست‌رفته به تفکیک و درصد به نمایش درآمده است.

جدول 6. مقادیر ازدست‌رفته متغیرهای پیش‌بینی کننده پایگاه داده کشوری

متغیرها	تعداد مقادیر ازدست‌رفته	درصد
جنس	371	9
ارتشاح لنفوسیتی	1647	40
وضعیت تأهل	21	5/0
درجه بیماری	713	3/17
محل تومور	980	8/23
مرحله سرطان	91	2/2
سن	0	0
ضخامت تومور	643	6/15
تعداد میتوز	25	6/0
اشعه درمانی	2306	56
رفتار	873	2/21

3.2.3 مدل‌سازی

برای ارائه مدل پیش‌بینی کننده بقای ملانوم با استفاده از مجموعه داده سرطان کل کشور، الگوریتم‌های شبکه عصبی، بیزی ساده، شبکه بیزی، ترکیب درخت تصمیم‌گیری با بیز ساده، الگوریتم رگرسیون لجستیک و الگوریتم ID3 و الگوریتم درخت تصمیم‌گیری j48 بکار گرفته شد. کلیه الگوریتم‌های فوق‌الذکر با استفاده از نرم‌افزار وکا اجرا شدند. دلیل استفاده از این نرم‌افزار،برخورداربودنوکا از قابلیت‌های متنوع پیش‌پردازش داده‌ها، در برگرفتن تمام الگوریتم‌های حوزه هوش مصنوعی و همچنین متن‌باز بودن این نرم‌افزار بود. همچنین نرم‌افزار وکا به‌عنوان یک نرم‌افزار دانشگاهی و آکادمیک شناخته می‌شود.

برای ایجاد شبکه عصبی از ساختار معمول آن‌که پرسپترون چندلایه است استفاده‌شده است. ورودی‌های شبکه عصبی را دخل در بقای سرطان پوست و خروجی آن را متغير هدف یا بقای بیمار تشکیل دادند [26]. بنابراین، شبکه عصبی در پژوهش حاضر از10 ورودی (متغیرهای پیش‌بینی کننده) و یک خروجی (مقادیر متغیر هدف) تشکیل‌شده است. در اکثر پژوهش‌ها بر توانایی شبکه‌های دولایه تأکید شده است. برای تعیین لایه‌های مخفی به پژوهش‌هایی که درزمینه داده‌کاوی در حوزه بالینی انجام‌شده بوداستنادگردید [27]. در اکثر پژوهش‌ها بر توانایی شبکه‌های دولایه تأکید شده است البته لازم به ذکر است که از این دولایه، لابه خروجی و دیگری لایه مخفی است. ساختار شبکه عصبی پژوهش حاضر در شکل (4) آورده شده است.

شکل 4. ساختار کلی شبکه عصبی دسته‌بندی بقای مبتلایان به ملانوم

4.2.3 ارزیابی

پس از مدل‌سازی می‌باید به ارزیابی نتایج حاصل از مدل پرداخت. در اغلب موارد، مقایسه الگوریتم‌های داده‌کاوی در شناسایی این‌که کدام‌یک از آن‌ها در تحلیل مجموعه داده کاوش شده، عملکرد بهتری داشته است، امری ضروری است. بعضی مواقع نیز، اندازه‌گیری عملکرد یک الگوریتم با پارامترها و تنظیم‌های مختلف، مدنظر است [28].

نتایج ارزیابی باعث بهبود مدل شده و مدل را قابل‌استفاده می‌کند. در این مرحله اعتبار مدل بررسی می‌شود، زیرا روش‌های مدل‌سازی مختلف در شرایط مختلف، رفتارهای متفاوتی از خود نشان میدهند. برای مقایسه این روش‌ها با یکدیگر از شاخص‌های متفاوتی استفاده می‌کنند. در اغلب موارد، مقایسه الگوریتم‌های داده‌کاوی در شناسایی این‌که کدام‌یک از آن‌ها در تحلیل مجموعه داده کاوش شده، عملکرد بهتری داشته است، امری ضروری است. بعضی مواقع نیز، اندازه‌گیری عملکرد یک الگوریتم با پارامترها و تنظیم‌های مختلف، مدنظر است یک روش سنجش عملکرد الگوریتم‌ها، اندازه‌گیری صحت آن‌هاست. برای اندازه‌گیری صحت از فرمول زیر استفاده می‌شود.

فرمول فوق، جمع کل بیمارانی که برچسب دسته آن‌ها در اصل مثبت و منفی بوده و توسط الگوریتم نیز به‌درستی، شناسایی‌شده‌اند را بر جمع کل بیماران (اعم از درست یا اشتباه پیش‌بینی‌شده) تقسیم می‌کند؛ بنابراین، این فرمول عملکرد کلی الگوریتم را نشان می‌دهد.

دیگر معیارهای مقایسه بین الگوریتم‌های مختلف شامل: سرعت، قدرت⁸، مقیاس‌پذیری⁹و قابلیت فهم الگوریتم‌ها می‌باشند.

منظور از قدرت الگوریتم نحوه تعامل آن با داده‌های ناقص است، مقیاس‌پذیری، درباره مدیریت حجم زیاد داده‌ها توسط الگوریتم است. هراندازه توضیح و درک مدل به‌دست‌آمده از الگوریتم، آسان باشد، به همان اندازه قابلیت فهم آن بالاست.

هنگام مطالعه یک مدل پیش‌بینی در حوزه پزشکی، آشنایی با نحوه تشخیص موارد با برچسب‌های مختلف، مانند پرخطر/کمخطر یا سالم/ بیمار توسط مدل مهم است، لذا، اندازه‌گیری حساسیت¹⁰ و ویژگی¹¹ الگوریتم یا الگوریتم‌های تشکیل‌دهنده مدل، اهمیت پیدا می‌کند. در ذیل، فرمول‌های مربوط به حساسیت و ویژگی ذکرشده است.

همچنین شاخص‌های دیگری مانند دقت¹²، نرخ فراخوانی¹³ و اندازه‌گیری¹⁴F وجود دارند که از آن‌ها نیز بهره خواهیم گرفت.

نرخ فراخوانی، نسبت تعداد موارد بازیابی شده و مرتبط به تعداد کل موارد مرتبط و دقت نسبت تعداد موارد بازیابی شده و مرتبط به تعداد کل موارد بازیابی شده است.

اندازه‌گیریF نیز از میانگین هارمونیک نرخ فراوانی و دقت محاسبه می‌شود.

آزمون کاپا برای سنجش میزان انطباق بین تشخیص واقعی با تشخیص سیستم استفاده‌شده است. به‌منظور کسب اطمینان از تصادفی نبودن خروجی سیستم، نتایج حاصل از ارزیابی سیستم با تشخیص واقعی مقایسه گردید و برای این منظور از آزمون آماری کاپا استفاده شد. بیشترین مقدار کاپا یک است که تأثیر شانس در پاسخ‌ها است.

(2)

با استفاده از شاخص‌های فوق‌الذکر عملکرد الگوریتم‌های استفاده‌شده در پایگاه داده سرطان کشوری شهید بهشتی اعمال شدند و مورد مقایسه قرار گرفتند. همچنین ویژگی‌های الگوریتمی که بر مبنای شاخص‌های فوق نسبت به سایر الگوریتم‌ها عملکرد نهایی بهتری داشت استخراج‌شده و با نظر پزشکان متخصص مورد مقایسه قرار گرفت.

در دنیای پزشکی برای فائق آمدن بر محدودیت‌های حساسیت و ویژگی، از منحنی مشخصه عملکرد¹⁵ استفاده می‌شود. همچنین برای ارزیابی عملکرد مدل‌های ایجادشده توسط داده‌کاوی نیز، این منحنی کاربرد دارد.

AUC روشی برای کمی سازی صحت یک الگوریتم در تشخیص تعلق رکوردهای آموزشی به دسته‌های مختلف است. ازلحاظ مفهوم، AUC عددی است که با محدوده5/0(بدون صحت) تا 1 (صحت کامل) مشخص می‌شود. در حالت کلی، تفسیر AUC با مقادیر مختلف به این صورت است:

· 5/0 تا7/0: صحت صفرتا پایین

· 7/0 تا 9/0: صحت متوسط

· بزرگ‌تر از 9/0: صحت بالا

هنگام مقایسه یک مدل با AUC بالا نسبت به مدلی با AUC کوچک‌تر، برای انتخاب مدل بهتر، فقط بزرگی مقدار AUC کافی نیست، بلکه باید مقدار آن ازلحاظ آماری معنادار باشد. امکان دارد به‌عنوان‌مثال پیش‌بینی الگوریتم درباره فوتی‌های ناشی از ملانوم با مقدار واقعی آن در مجموعه داده تفاوت داشته باشد. اندازه‌گیری این تفاوت کالیبراسیون نام دارد. هراندازه تفاوت این دو پیش‌بینی کم باشد، نتیجه‌گیری می‌شود که کالیبراسیون مدل دسته‌بندی خوب است. یکی از آزمون‌های مهمی که کالیبراسیون را بررسی می‌کند. آمار کای دو هوسمر ولمشو¹⁶ است. تفاوت کالیبراسیون با منحنی مشخصه عملکرد در این است که اولی پایایی مدل و دومی قدرت وجه تمایز آن را نشان می‌دهد [28].

بعد از استفاده از الگوریتم‌های مختلف در نرم‌افزار وکا و پیدا کردن الگوریتمی که بتواند دقیق‌تر شانس بقای بیماران مبتلابه ملانوم را تشخیص دهد. مدل مفهومی پیش‌بینی کننده بقای بیماران با استفاده از الگوریتم‌های مورداستفاده در طرح، در قالب یک طرح گرافیکی رسم می‌کنیم. سپس از بین پایگاه داده منتخب، دقیق‌ترین مدل پیش‌بینی کننده بقای افراد مبتلابه ملانوم را با استفاده از آزمون ANOVA،FERIDMANS در نرم‌افزار SPSS تعیین می‌کنیم تا مشخص شود مدل انتخاب‌شده با سایر مدل‌ها ازلحاظ شاخص‌های عملکردی تفاوت معناداری را دارد یا خیر. سپس برای مقایسه دوبه‌دوی مدل‌ها (الگوریتم‌ها) با یکدیگر از آزمون ویکاکسیون¹⁷ استفاده شد تا فقط مدل‌هایی که ازلحاظ عملکرد تفاوت معناداری داشتند برای مقایسه با مدل‌های تعیین‌شده پایگاه داده انتخاب شوند؛ و در انتها برای تعیین مدل منتخب از آزمون من ویتنی¹⁸ استفاده می‌کنیم.

توسعه 5.2.3

ساخت مدل، پایان یک پروژه نیست و هدف از پروژه‌های داده‌کاوی کشف دانش و استفاده از دانش کشف‌شده به‌صورت عملی در آینده است. در حقیقت هدف از انجام مراحل مختلف کشف دانش، دست‌یابی به نتایجی است که بتوان از آن‌ها در دنیای واقعی و برای بهبود کارایی سازمان‌ها استفاده کرد.

3.3 مرحله دوم: مقایسه عملکرد الگوریتم‌های داده‌کاوی بادانش متخصصین سرطان پوست

این مرحله جهت مقایسه عملکرد الگوریتم‌های داده‌کاوی بادانش متخصصین پوست، در پیش‌بینی بقای بیماران مبتلابه ملانوم در پایگاه داده سرطان کل کشور انجام‌شده است. پزشکان متخصص سرطان پوست و پرونده‌های بیماران مبتلابه ملانوم بین سال‌های 1387 تا 1392 که در سال 1398 پیگیری شده‌اند، بر اساس محدودیت‌هایی که داشتند و می‌توانستند در اختیار پژوهشگر قرار دهند،100رکورد را پیشنهاد کردند.

چک‌لیستی مبتنی بر صفت‌های بیماران بستری‌شده مبتلابه (ملانوم) بود. این چک‌لیست بر اساس ویژگی‌های بالینی و دموگرافیکی بیماران است. در این چک‌لیست علائم بالینی، بیولوژیکی و پاتولوژیکی بیماران فهرست بندی شده و در مرحله بعد از متخصصان خواسته شد تا احتمال زنده ماندن بیمار را در ۵ سال بعد از تشخیص، با زدن علامتی بر محور مقیاس آنالوگ بصری مشخص کنند. این چک‌لیست از پایان‌نامه رضوی اقتباس و روایی آن نیز تائید شده است.

این مرحله برای اعتبار سنجی مراحل قبلی و مقایسه مدل ایجادشده بادانش متخصصان سرطان پوست اجرا شد. رکوردهای استفاده‌شده در این مرحله، قبل از شروع مرحله اول جداشده و در پایگاه داده دیگری نگه‌داری شدند. علت جداسازی این بود که الگوریتم‌های داده‌کاوی که در مراحل قبل برای ایجاد مدل بهینه پیش‌بینی بقای سرطان پوست به‌کاررفته‌اند بر روی این رکوردها عمل آموزش انجام ندهند، چون در این صورت این رکوردها نمی‌توانند به‌درستی میزان خطای مدل پیش‌بینی را مشخص کنند.

مدل‌های بهینه پیش‌بینی که از پایگاه داده‌های کشور انتخاب‌شده‌اند به ترتیب برای پیش‌بینی بقای هر یک از این رکوردها به‌کاررفته و احتمال پیش‌بینی آن‌ها برای هر رکورد ثبت شد. رکوردهای فوق به متخصصان سرطان پوست در قالب چک‌لیست داده شد تا پیش‌بینی آن‌ها نیز به دست آید. سپس، این پیش‌بینی‌ها با استفاده از سطح زیر منحنی مشخصه عملکرد و مقایسه این سطوح با یکدیگر توسط روش دوبه‌دو¹⁹ موردبررسی قرار گرفتند تا درنهایت مدل بهینه پیش‌بینی بقای (ملانوم) انتخاب شود.

بیمارانی که احتمال زنده ماندن آن‌ها ۵ سال بعد از تشخیص سرطان پوست (ملانوم) ۵۰ درصد یا کمتر از آن باشد در دسته فوتی‌ها بیشتر از ۵۰ درصد در دسته زنده مانده‌ها قرار گرفت. علت انتخاب این معیار برابر بودن اولیه و پیش‌فرض وزن پیش‌بینی‌های موارد بقای اشتباه با موارد فوت اشتباه بود. چون در پزشکی، پیش‌بینی‌های موارد بقای اشتباه قابل‌قبول‌تر از پیش‌بینی موارد فوت اشتباه است[28]. لذا برای مدیریت این مسئله منحنی مشخصه عملکرد که قابلیت پیش‌بینی همه موارد بقا و فوت را فراتر از معیارهای پیش‌فرض دارد، برای پیش‌بینی‌های متخصصان ملانوم رسم و با منحنی بهترین الگوریتم که در مراحل قبلی مشخص‌شده است، مقایسه گردید. برای سنجش پایایی پیش‌بینی متخصصان و الگوریتم‌ها از آزمون Hosmer Lemeshow goodness-of-fit استفاده شد [29].

4. یافته‌ها

بررسی نتایج حاصل از داده‌های 7 الگوریتم داده‌کاوی که متغیرهای بهکارگرفته شده در شکل (5) به نمایش گذاشته‌شده است، (در نرم‌افزار وکا) مورداستفاده جهت بررسی بقای افراد مبتلابه ملانوم را نشان می‌دهد که از میان هفت الگوریتم برای پیش‌بینی بقای بیماران مبتلابه ملانوم، الگوریتم شبکه عصبی ازلحاظ صحت، حساسیت و ویژگی بالاتر از دیگر الگوریتم‌ها بود.

شکل 5. نمایش گرافیکی فیلدها

جدول 7. حساسیت و صحت و ویژگی الگوریتم‌های پیش‌بین بقای بیماران مبتلابه سرطان پوست در پایگاه داده کل کشور

مدل	صحت	حساسیت	ویژگی
شبکه بیزی	80/90	14/93	18/86
J48	20/93	16/97	47/85
شبکه عصبی	50/93	79/97	03/91
رگرسیون لجستیک	70/92	35/96	54/85
ترکیب درخت تصمیم و بیز ساده	30/90	23/90	45/90
بیزی ساده	30/91	65/93	45/89
ID3	30/91	62/93	75/86

از میان هفت الگوریتم مورداستفاده برای پیش‌بینی بقای بیماران مبتلابه ملانوم طبق جدول (7) الگوریتم شبکه عصبی ازلحاظ صحت، حساسیت و ویژگی بالاتر از دیگر الگوریتم‌ها بود.

همچنین شاخص کاپا (عملکرد) برای الگوریتم‌های استفاده‌شده در پژوهش در پایگاه‌های داده کشور در جدول (8) است:

جدول 8. عملکرد کاپا الگوریتم‌های پایگاه داده کشور

الگوریتم	Kappa
شبکه عصبی	852/0
J48	844/0
رگرسیون لجستیک	833/0
شبکه بیزی	804/0
بیزی ساده	806/0
ID3	805/0
درخت تصمیم و بیزی ساده	789/0

طبق آمار جدول (7 و 8) کاملاً می‌توان عملکرد الگوریتم‌های داده‌کاوی اجراشده در پایگاه داده کل کشور را پیش‌بینی کرد. الگوریتم پایگاه داده کشوری در شاخص‌های صحت، دقت، حساسیت و ویژگی شبکه عصبی تعیین شد. در حوزه پزشکی، پیش‌بینی مواردی که منجر به ناخوشی یا مرگ می‌شوند از اهمیت بیشتری نسبت به پیش‌بینی موارد غیر آن برخوردار است. شاخصی که قدرت الگوریتم را برای پیش‌بینی این موارد بررسی می‌کند، ویژگی است؛ بنابراین مشاهده می‌شود که ویژگی الگوریتم‌های اجراشده در پایگاه داده کشوری کاملاً قابل‌قبول است. همچنین با توجه به این‌که پایگاه داده کشور متعادل‌سازی شده لذا محاسبه شاخص کاپا نیز ضروری است که در الگوریتم شبکه عصبی 852/0 بود. کلاً الگوریتم‌های استفاده‌شده در پایگاه داده کشوری بالأخص شبکه عصبی با اطمینان بیشتری، قادر به پیش‌بینی بیماران جدید مبتلا به ملانوم هستند.

جدول 9. نرخ فراخوانی،ROC اندازه‌گیری F الگوریتم‌های پیش‌بین بقای بیماران مبتلابه ملانوم در پایگاه داده کل کشور

الگوریتم‌ها	نرخ فراخوانی	ROC	دقت	اندازه‌گیری F
شبکه بیزی	80/90	40/95	80/90	80/90
J48	20/93	70/93	20/93	10/93
شبکه عصبی	50/93	10/96	97	40/93
رگرسیون لجستیک	70/92	60/95	70/92	60/92
ترکیب درخت تصمیم و بیز ساده	30/90	70/95	70/90	40/90
بیزی ساده	30/91	70/95	30/91	30/91
ID3	30/91	40/95	28/91	30/91

همان‌طور که در جدول (9) نشان داده‌شده است نرخ فراخوانی الگوریتم‌های بیزی، درخت تصمیم، شبکه عصبی، رگرسیون لجستیک، ترکیب درخت تصمیم و بیز ساده، بیز ساده و ID3 به ترتیب: 80/90، 20/93، 50/93، 70/92، 30/90، 30/91، 30/91 است. همچنین ترتیب پارامتر ROC برای الگوریتم‌های بیزی، درخت تصمیم، شبکه عصبی، رگرسیون لجستیک، ترکیب درخت تصمیم و بیز ساده، بیزی ساده و ID3 به ترتیب: 40/95، 70/93، 10/96، 60/95، 70/95، 70/95، 40 /95 و برای پارامتر اندازه‌گیریF برای الگوریتم‌های ذکرشده به ترتیب: 80/90، 10/93، 40/93،60/92، 40/90، 30/91، 30/91 است.

ارزیابی عملکرد متخصصین

سطح معنی‌دار تفاوت بین زیر منحنی مشخصه‌ی عملکرد بیز ساده و متخصص یک 039/0، متخصص دو 022/0، متخصص سه 04/0، متخصص چهار 023/0 و متخصص پنج 059/0 بوده است (آلفا=05/0). سطح معنی‌دار تفاوت بین مشخصه عملکرد الگوریتم درخت تصمیم‌گیری با بیز ساده با متخصصین سرطان پوست به ترتیب عبارت است از: 058/ 0، 04/0، 059/0، 042/0 و 077/0 (آلفا: 05/0). همچنین سطح معنی‌دار تفاوت بین مشخصه عملکرد شبکه بیزی با متخصصین سرطان پوست به ترتیب: 059/0، 042/0، 061/0، 430/0 و 079/0 (آلفا=05 / 0) بود. سطح معنی‌دار تفاوت بین مشخصه عملکرد شبکه عصبی با متخصصین سرطان پوست عبارت است از: 019/ 0، 001/ 0، 002/ 0، 002 / 0 و 038/ 0 (آلفا=05/ 0). سطح معنی‌دار تفاوت بین مشخصه عملکرد ID3 با متخصصین سرطان پوست به ترتیب: 081/0، 042/0، 063/0، 065/0و1/0، (آلفا=05/ 0). سطح معنی‌دار تفاوت بین مشخصه درخت تصمیم‌گیری با متخصصین سرطان پوست به ترتیب عبارت است از: 087/0، 07/0، 088/0، 071/ 0 و 107/ 0 (آلفا=05/ 0). سطح معنی‌دار تفاوت بین مشخصه عملکرد رگرسیون لجستیک با متخصصین سرطان پوست به ترتیب: 091/0، 073/0،8 08/ 0، 077 /0 و 111/ 0 (آلفا=05/0) بود.

در جداول10 و 11،که ماتریس اغتشاش²⁰ هستند پیش‌بینی‌های انجام‌شده به‌وسیله متخصصان و الگوریتم‌ها به همراه مقایسه آن‌ها با مقادیر واقعی گنجانده‌شده است.

جدول 10. بررسی ماتریس اغتشاش پیش‌بینی‌های انجام‌شده توسط 5 متخصص سرطان پوست و مقایسه آن‌ها با موارد به وقوع پیوسته 100 رکورد پایگاه داده‌های کشوری

	به وقوع پیوسته	متخصص 1		متخصص 2		متخصص 3		متخصص 4		متخصص 5
	به وقوع پیوسته	زنده	مرده	زنده	مرده	زنده	مرده	زنده	مرده	زنده	مرده
زنده	67	61	6	63	4	60	7	62	5	57	10
مرده	33	13	20	16	17	12	21	15	18	9	24

جدول 11. بررسی ماتریس اغتشاش پیش‌بینی‌های انجام‌شده توسط الگوریتم‌های مورداستفاده داده‌کاوی و مقایسه آن‌ها با موارد به وقوع پیوسته 100 رکورد پایگاه داده‌های کشوری

	به وقوع پیوسته	شبکه عصبی		J48		شبکه بیزی		بیزی ساده		رگرسیون لجستیک
	به وقوع پیوسته	زنده	مرده	زنده	مرده	زنده	مرده	زنده	مرده	زنده	مرده
زنده	67	47	20	57	10	56	11	51	16	58	9
مرده	33	1	32	9	24	8	25	3	30	10	23

الگوریتم‌های اجراشده در پایگاه داده بومی بر روی 100 رکورد از مجموعه رکوردهای متعلق به همین پایگاه داده که در پایگاه جداگانه قرارگرفته بودند، اجرا گردیدند. سپس پنج نفر از متخصصین سرطان پوست پیش‌بینی‌های خود را در رابطه با اطلاعات مربوط به این 100 رکورد انجام دادند. نتایج به‌دست‌آمده از این 7 الگوریتم و متخصصان سرطان پوست درباره 100 رکورد جمع‌آوری‌شده و منحنی‌های مشخص عملکرد آن‌ها رسم گردید. در جدول (12)، بخش زیر منحنی مشخصه‌ی عملکرد²¹ الگوریتم‌ها و متخصصان پوست را نشان می‌دهد.

پس از انجام بررسی ماتریس اختلاط، آماره لمشو، مقادیرchi-squared و-value p برای متخصصین سرطان پوست و برای الگوریتم‌های اجرا کرده و در یافته‌ها مقایسه می‌شوند.

ترکیب بیزی ساده و درخت تصمیم		ID3
زنده	مرده	زنده	مرده
55	12	56	11
7	26	9	24

مقایسه عملکرد الگوریتم‌های داده‌کاوی پایگاه داده کشور با پیش‌بینی‌های متخصصین سرطان پوست

پس از انجام آماره هاسمر- لم شو، مقادیر chi-squared و-value p برای متخصصین سرطان پوست و برای الگوریتم‌های اجراشده طبق جداول زیر به دست آمد.

جدول 12. سطح زیر منحنی عملکرد الگوریتم‌ها و متخصصین سرطان پوست برای 100 رکورد پایگاه داده کشور

الگوریتم‌ها	شاخص عملکرد سطح زیر منحنی
بیزی ساده	843/0
ترکیب درخت تصمیم و بیز ساده	811/0
بیزی شبکه	811/0
شبکه عصبی	879/0
ID3	771/0
J48	76/0
رگرسیون لجستیک	751/0
متخصص 1	751/0
متخصص 2	698/0
متخصص 3	732/0
متخصص 4	716/0
متخصص 5	762/0

جدول 13. مقدار کای دو و p-Value متخصصین سرطان پوست با استفاده از آزمون هاسمر-لمشو

افراد	کای 2	p-Value
متخصص 1	02/7	12/0
متخصص 2	03/6	13/0
متخصص 3	002/2	74/0
متخصص 4	63/3	16/0
متخصص 5	004/1	88/0

جدول 14. مقدار کای دو و p الگوریتم‌های داده‌کاوی با استفاده از آزمون هاسمر-لمشو

الگوریتم	کای 2	p-Value
بیز ساده	8/0	9/0
ترکیب درخت تصمیم‌گیری و بیز ساده	863/0	87/0
شبکه بیزی	945/0	764/0
شبکه عصبی	743/0	97/0
ID3	12/1	75/0
رگرسیون لجستیک	19/1	65/0
J48	1/1	78/0

در شکل (6) منحنی ROC سه الگوریتم برتر ازنظر عملکرد، با سه متخصص برتر مورد مقایسه قرار گرفت است.

شکل 6. مقایسه‌ی منحنی ROC سه الگوریتم برتر پایگاه داده‌های بومی با سه متخصص برتر

با توجه به شکل بالا مشخصگردیدکه سطح زیر منحنیROC الگوریتم‌ها نسبت به متخصصین بیشتر است. در بین متخصصین نیز سطح زیر منحنی متخصص 5 از سایر متخصصین بیشتر است.

با توجه به اینکه مقدار AUC بین 9/0 تا 1 بوده است. قدرت. تشخیص آزمون بسیار عالی است؛ بنابراین قدرت تشخیص آزمون با دقت بسیار بالایی انجام‌شده است.

در حالت کلی الگوریتم‌های (مدل‌های) اجراشده در پایگاه داده کشوری ازلحاظ عملکرد در شاخص‌های ارزیابی نسبت به یکدیگر ازلحاظ آماری تفاوت معنی‌داری داشتند:

0001 /0 = 2X

P< 001/0

برای مقایسه دوبه‌دوی مدل‌های (الگوریتم‌های) اجراشده در پایگاه داده کشوری با یکدیگر از آزمون‌های ویلکاکسون استفاده شد. همچنین تصحيح بونفرونی²² برای مقایسه‌های دوبه‌دو مدل‌ها بکار رفت و بنابراین تفاوت معنی‌داری مدل‌ها با یکدیگر در سطح معنی‌داری 007/0 گزارش شد. نتایج نشان دادند که تفاوت مدل‌های شبکه عصبی، بیز ساده، شبکه بیزی و ترکیب درخت تصمیم‌گیری با بیز ساده با ID3,J48 و رگرسیون لجستیک در شاخص‌های ارزیابی ازلحاظ آماری با یکدیگر تفاوت معناداری دارند. درحالی‌که عملکرد الگوریتم‌های شبکه عصبی، بیز ساده و شبکه بیزی و ترکیب درخت تصمیم‌گیری با بیز ساده با یکدیگر ازلحاظ آماری متفاوت نبودند. لذا مدل‌های شبکه عصبی، بیز ساده، شبکه بیزی و ترکیب درخت تصمیم‌گیری با بیز ساده، از پایگاه داده کشوری انتخاب شدند.

برای تعیین مدل نهایی از بین مدل‌های انتخاب‌شده از پایگاه داده کل کشور، آزمون من ویتنی استفاده شد که نتایج نشان داد که عملکرد مدل شبکه عصبی در همه شاخص‌های ارزیابی در پایگاه داده کشوری نسبت به سایر مدل‌ها بالاتر بوده و ازلحاظ آماری تفاوت معنی‌داری دارد. در ذیل نتایج همه مدل‌ها آورده شده است:

001/0, p< 18/2- z= و ۸=U: شبکه عصبی

05/0p> ,38/0z= - و 5/21= U: بیز ساده

05/0p> ,57/0z= - و 20U=: شبکه بیزی

05/0p> , 34/1 z=- و 14 U=: ترکیب درخت تصمیم با بیز ساده

در پایگاه داده کل کشور الگوریتم شبکه عصبی ازلحاظ شاخص‌های ارزیابی‌شده نسبت به سایر الگوریتم‌ها برتری داشت. در شکل 7 مدل نهایی در نرم‌افزار وکا با توجه به مقایسه الگوریتم‌ها در محیط KnowledgeFlow به اجرا درآمد.

شکل 7. نرم‌افزار وکا مدل نهایی (اجراشده)

5. بحث و نتیجه‌گیری

داده‌کاوی روی‌داده‌های پزشکی از اهمیت بالایی برخوردار است و طراحی سیستم‌های تصمیم‌یار هوشمند، جهت یاری‌رساندن به پزشکان درزمینه‌ی تشخیص نوع بیماری یا انتخاب نوع درمان مناسب و مدیریت بهینه تصمیم‌گیری در کسب‌وکار وزارت بهداشت و درمان، با کمک داده‌کاوی می‌تواند کمک شایانی درزمینه‌ی نجات جان انسان‌ها انجام دهد. در همین راستا در پژوهش حاضر الگوریتم شبکه عصبی با بهترین عملکرد به پیش‌بینی بقای بیماران مبتلابه ملانوم پرداخته است. پژوهش حاضر باهدف طراحی مدل پیش‌بینی بقای بیماران مبتلابه ملانوم بر اساس الگوریتم‌های داده‌کاوی با استفاده از روش داده‌کاوی به‌وسیله نرم‌افزار داده‌کاوی وکا و مدیریت هوشمندانه تصمیم‌یار، انجام گردید. از مزایای آن می‌توان به‌دقت و صحت پیش‌بینی بالا و ارائه‌ی راه‌حل‌های مختلف جهت بیشتر شدن شانس بقای افراد مبتلابه سرطان ملانوم اشاره کرد. در این پژوهش از مجموع داده موجود در مرکز سرطان کل کشور دانشگاه شهید بهشتی استفاده گردید؛ و با انتخاب الگوریتم‌های شبکه‌ی عصبی، ID3، ترکیب درخت تصمیم و بیزی ساده، بیزی ساده، رگرسیون لجستیک، شبکه بیزی و j48، طراحی و ارزیابی‌ها صورت گرفت. در این بررسی نشان داده شد که شبکه عصبی در پارامترهای صحت، دقت، حساسیت و ویژگی از همه‌ی الگوریتم‌های ذکرشده بالاتر بود.

اعمال روش‌های داده‌کاوی بر روی‌داده‌های پزشکی می‌تواند به‌عنوان سیستم‌های تصمیم‌یار، در تصمیم‌گیری برای انتخاب نوع درمان و یا تشخیص بیماری‌ها، به متخصصان کمک نماید. این همان فلسفه داده‌کاوی است که با شناخت درست از گذشته، آینده را پیش‌بینی می‌نماید. در این پژوهش با ارائه دقیق‌ترین مدل تصمیم‌یار، گام اثربخش و کارآمدی در مدیریت سیستم‌های هوشمند در علم پزشکی برداشته و در علم داده‌کاوی برای بررسی و ارزیابی الگوریتم‌ها و داده‌های خروجی آن‌ها پارامترهایی نظیر صحت، حساسیت، ویژگی، نرخ فراخوانی، شاخص ROC، شاخص کاپا و شاخص F وجود دارد که هر پارامتر برای بررسی یک الگوریتم مورداستفاده حائز اهمیت است. نتایج این پژوهش نشان داد، الگوریتم شبکه عصبی در پیش‌بینی بقای بیماران مبتلابه ملانوم در زمینه‌های صحت، حساسیت، دقت و ویژگی که از روش‌های اصلی ارزیابی یک الگوریتم محسوب می‌شوند، نسبت به سایر الگوریتم‌ها عملکرد بهتری داشت. برای ارزیابی عملکرد الگوریتم‌ها و تحلیل راجع به آن‌ها توجه به این پارامترهای اساسی، حائز اهمیت است.

متقاعد کردن متخصصین بالینی درباره فواید یک مدل حمایت از تصمیم‌گیری بالینی امر مهمی است. برای رسیدن به این هدف، اثبات کارایی مدل ضروری است. الگوریتم شبکه عصبی در پیش‌بینی موارد فوتی بهتر از سایر الگوریتم‌ها و متخصصین عمل کرده است. این نشانگر کاربردی بودن این الگوریتم است. از میان متخصصان هم متخصص 5 در پیش‌بینی موارد فوتی بهتر بوده است. نتایج آزمونHosmer Lemeshow goodness-of-fit که برای سنجش کالیبراسیون است. (منظور از کالیبراسیون پایایی تحقیق است) نشان می‌دهد از میان متخصصین، متخصص 5 به علت بیشتر بودن مقدار p-value (88/0) و از الگوریتم‌ها، شبکه عصبی با مقدار 97/0 ازلحاظ پایایی پیش‌بینی مناسب‌تر است؛ بنابراین مدل پیش‌بینی کننده بقای ملانوم، هم ازلحاظ قدرت تمایز و هم ازلحاظ پایایی، عملکرد بهتری از خود نشان داده است. لذا در صورت عدم وجود متخصصین پوست، به‌عنوان تصمیم‌یار هوشمند، جایگزین مناسبی برای آن‌ها خواهند بود.

پیشنهاد‌ها برای مطالعات بعدی پژوهشگران

· پیشنهاد می‌شود، پیش‌بینی بقای ملانوم با پیگیری بیش از 5 سال انجام شود.(10 الی 15 سال)

· پیشنهاد می‌شود، از معماری‌های مختلف الگوریتم شبکه عصبی برای پیش‌بینی بقای ملانوم و مقایسه عملکرد آن‌ها استفاده شود.

· پیشنهاد میشود، عملکرد مدل ایجاد در پایگاه داده بومی با پایگاه‌های داده منتخب سایت‌های مختلف مقایسه شود.

· پیشنهاد میشود، از الگوریتم‌های درخت تصمیم‌گیری برای غربال کردن متغیرهای کم‌اهمیت و ادغام خروجی آن در شبکه عصبی برای پیش‌بینی بقای ملانوم، استفاده شود.

· پیشنهاد می‌شود، مراکز داده‌کاوی بیماران مختلف در کنار مراکز پژوهشی بیماری ایجاد شود؛ که بعد از فرآیند داده‌کاوی و ایجاد مدل در قالب نرم‌افزار حمایت از تصمیم‌گیری بالینی وارد صنعت کند. تا در راستای پژوهش‌های دانش‌بنیان نیز قابل‌اجرا شود.

[1] Zamanian Azodi M, Azizi Jalilian F. Early detection of cancer and proteomics. Journal of Ilam University of Medical Sciences 2013; 21 (1): 112-22. (Persian)

[2] N. R. Aaron, and T. M. Khoshgoftaar, “Modernizing analytics for melanoma with a large-scale research dataset,” In 2017 IEEE International Conference on Information Reuse and Integration (IRI), pp. 551 - 558, 2017.

[3] Howlader N, N.A. Krapcho M, Miller D, Brest A, Yu M, Ruhl J, Tatalovich Z, Mariotto A, Lewis DR, Feuer EJ, Cronin KA. SEER Cancer Statistics Review, 19752016. 2018 December, 11, 2019 2020].

[4] Seyedeh Elham Hosseini Fadafen, Emad Fatemizadeh, “Diagnosis of skin cancer by extracting features from images“Shhab Dansh Institute(2016).

[5] R. Dolfe, and K. Matinzadeh, “Investigating Skin Cancer with Unsupervised Learning”, Project Thesis, ETH Royal Institute of Technology 2019.

[6] Kim, R. H. & Meehan, S. A. Immunostain use in the diagnosis of melanomas referred to a tertiary medical center: a 15-year retrospective review (2001–2015). J. Cutan. Pathol. 44, 221–227 (2017).

[7] David A. Kirchar DA, Mark R, et al. Melanoma brain metastasis: mechanisms, models and medicine. J Mol Sci 2016; 17 (7): 1-29.

[8] Wrobel, S. M. Przybylo, and E. Stepien, The Clinical Trial Landscape for Melanoma Therapies. J Clin Med, 2019. 8(3).

[9] K. Q. Kanaan. “Classification of human skin diseases using data mining,” International Journal of Advanced Engineering Research and Sci, Vol. 4, no. 1, 2017.

[10] L. Sophia, and M. S. Pallavi. “Predicting Protein in Cancer Diagnosis Using Effective Classification and Feature Selection Technique,” IEEE International Conference on Communication and Signal Processing (ICCSP), pp. 156-159, 2018

[11] MK Keleş, Tehnički vjesnik, Breast Cancer Prediction and Detection Using Data Mining Classification Algorithms, 2019, Sarıçam Adana, Turkey

[12] S. Winiarti, H. Yuliansyah, and A. A. Purnama, “Identification of Toddlers’ Nutritional Status using Data Mining Approach,” International Journal of Advanced Computer Science and Applications, Vol. 9, No. 1, pp. 164 - 169, 2018.

[13] Mahmoodi MS, Mahmoodi SA, Haghighi F, Mahmoodi SM. Determining the stage of breast cancer by data mining algorithms. ijbd. 2014;7(2):36-44.

[14] Dehghan P, Mogharabi M, Zabbah I, Layeghi K & Maroosi A. Modeling Breast cancer using data mining methods. Journal of Health and Biomedical Informatics 2018; 4(4): 266-78[Article in Persian].

[15] Ismaili N, Mohaghegh MA, Safai Faraq Z, Emami Razavi SZ, Chavoshi M, Emami Razavi S H. 5-year survival rate of malignant melanoma in Iran, Modval Scientific Journals, 1386: (11)3:1263-1263

[16] Hira Beenish, Muhammad Fahadad International Conference on Computing and Information Technology, University o f Tabuk, Kingdom o f Saudi Arabia. Volume: 01, Issue: ICCIT- 1441, Page No.: 44 - 47, 9 & 1 9 Sep. 2020

[17] Suma, V., & Hills, S. M. (2020). Data Mining based Prediction of Demand in Indian Market for

Refurbished Electronics. Journal of Soft Computing Paradigm (JSCP), 2(03), 153-159.

[18] . Martınez AM, Webb GI, Chen S, Zaidi NA. Scalable learning of Bayesian network classifiers. Journal of Machine Learning Research. 2016;17(44):1-35

[19] Wang, Haoxiang. "IoT based Clinical Sensor Data Management and Transfer using Blockchain Technology." Journal of ISMAC 2, no. 03 (2020): 154-159.

[20] Ameri H, Alizadeh S & Barzegari A. Knowledge extraction of diabetics’ data by decision tree method. Health Management

2013; 16(53): 58-72[in Persian]

[21] Ahmed K, Jesmin T, Rahman MZ. Early Prevention and Detection of Skin Cancer Risk using Data Mining. International Journal of Computer Applications 2013;62(4):1 -6.

[22] Gibert K, Sanchez-Marre M, Codina V editors . Choosing the right data mining technique: Classification of methods and intelligent recommendation. Proceeding the IEMSs fifth biennial meeting international congress on environmental modeling and software ;2015.

[23] Witten I. Frank E.Hall M. Data mining : Practical machine Learning tools and techniques: Morgan Kaufinann: 2011.

[24] R. Arulmurugan, K. R. Sabarmathi, and H. Anandakumar, “Classification of sentence level sentiment analysis using cloud machine learning techniques,” Cluster Computing, vol. 22, no. S1, pp. 1199–1209, Sep. 2017.

[25] Sarafi Nejad A, Saeid AH, Rose I.M, Rowhanimanesh AR. Modeling a Data Mining Decision Tree and Propose a New Model for the Diagnosis of Skin Cancer by Immunohistochemical Staining Methods. Journal of Health and Biomedical Informatics 2014; 1(1): 54-62.[Persian].

[26] U.-O. Dorj, K.-K. Lee, J.-Y. Choi, M. J. M. T. Lee, and Applications, "The skin cancer classification using deep convolutional neural network," pp. 1-16, 2018.

[27] Yu CT, Chao CM, Cheng BW. Prediction of surv using three artificial intelligence techniques. Journal of Theoretical and applied Information Technology. 2014;60(1):179-83. 99.

[28 ] Razavi AR Applications of knowledge discovery in quality registries - predicting recurrence of breast cancer and analyzing non-compliance with a clinical guideline: Institutionen för medicinsk teknik; 2015.

[29] Gopalakrishnan, V. et al. Gut microbiome modulates response to anti-PD-1 immunotherapy in melanoma patients. Science 359, 97–103 (2018).

[1] Modernizing Medicine to reach these goals

[2] International Classification of Diseases for Oncology

[3] World Health Organization

[4] Excel

[5] Survival Time Record (STR)

[6] Vital Status Record(VSR)

[7] Cause ofDeath (COD)

[8] Robustness

[9] Scalability

[10] Sensitivity

[11] Specificity

[12] Precision

[13] Recall

[14] F-measure

[15] Receiver Operating Characteristic (ROC)

[16] Hosmer and Lemeshoe" s2 statistic

[17] Wilcoxon

[18] Maan-Whitney

[19] pair-wise

[20] Confusion matrix

[21] Areas under the ROC curve (AUC)

[22] Bonferroni

شارک

عنوان URL للمقالة

ارائه مدلی برای پیش بینی بقای بیماران مبتلا به ملانوم بر اساس الگوریتم های داده کاوی

رایمگ

الروابط

المراكز ذات الصلة

دعامة

الصفحات الرسمية