Manuscript ID : ROW-45224 Visit : 6144 Page: 35 - 44

Article Type: Original Research

Predicting Generalized Anxiety Disorder Among Female Students Using Random Forest Approach

Subject Areas :

1 - Firoozabad Branch, Islamic Azad University, Firozabad, Iran.
2 - Assistant Professor, Department of Biology, Payam Noor University, Tehran, Iran.

Received: 2022-11-23 Accepted : 2023-02-04 Published : 2023-06-17

Keywords: Data mining, Generalized Anxiety Disorder (GAD), Random Decision Forest.,

Abstract :

Mental health is considered one of the major challenges for the generations. Generalized anxiety disorder (GAD) is one of many mental health complications. However, individuals with the disorder experience hyperbolic concerns and tensions regarding daily events. Furthermore, it is reported that approximately 5% of the population of developed countries suffer from GAD. Additionally, women are affected by this disease twice as often as men, and it is an increasing disorder among women, particularly female students. This paper aims to predict generalized anxiety disorder among female students using the random decision forest algorithm. The data mining method was utilized for prediction. Female students of Shiraz Azad University developed the research community. Therefore, 150 female students were selected by simple random method and tested with a DSM-IV questionnaire. Accordingly, a random forest algorithm is proposed to generate a prediction model. Moreover, NetBeans IDE was applied for operationalization. Java was the programming language to code the prototype, and the WEKA library was involved in the operation. However, the results showed that the prediction accuracy with the random forest algorithm exceeds 0.9, which indicates that the algorithm is likely to predict GAD accurately. The random decision forest algorithm consistently predicts an individual not suffering from GAD. The results are relatively consistent compared to the baseline employed in the R. However, the random decision forest algorithm produces high predictive performance and may display significant relationships between the proposed and dependent parameters.

References:

1- American Psychiatric Association, D. S. M. T. F., & American Psychiatric Association. (2013). Diagnostic and statistical manual of mental disorders: DSM-5 (Vol. 5, No. 5). Washington, DC: American psychiatric association.
2- Aminudin, M. A., Fadiawati, N., & Tania, L. (2015). Pengembangan LKS berbasis multipel representasi pada materi klasifikasi materi. Jurnal Pendidikan dan Pembelajaran Kimia, 4(2), 720-731.
3- Behar, E., DiMarco, I. D., Hekler, E. B., Mohlman, J., & Staples, A. M. (2009). Current theoretical models of generalized anxiety disorder (GAD): Conceptual review and treatment implications. Journal of anxiety disorders, 23(8), 1011-1023. doi:10.1016/j.janxdis.2009.07.006
4- Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From data mining to knowledge discovery in databases. AI magazine, 17(3), 37-37. doi:10.1609/aimag.v17i3.1230
5- Khalilia, M., Chakraborty, S., & Popescu, M. (2011). Predicting disease risks from highly imbalanced data using random forest. BMC medical informatics and decision making, 11, 1-13. doi:10.1186/1472-6947-11-51
6- Loukis, E., & Maragoudakis, M. (2010, June). Heart murmurs identification using random forests in assistive environments. In Proceedings of the 3rd International Conference on Pervasive Technologies Related to Assistive Environments (pp. 1-6). doi:10.1145/1839294.1839304
7- Antony, M. M. (2013). Recommended Readings and DVDs Anxiety Disorders, Depression, and Related Problems. vol, 2631, 1-17.
8- Matthiesen, R. (Ed.). (2010). Bioinformatics methods in clinical research. Totowa, NJ, USA: Humana Press. doi:10.1007/978-1-60327-194-3_5
9- Oza, N. C. (2009). Ensemble data mining methods. In Encyclopedia of Data Warehousing and Mining, Second Edition (pp. 770-776). IGI Global. doi:10.4018/978-1-59140-557-3.ch085
10- Tomar, D., & Agarwal, S. (2013). A survey on Data Mining approaches for Healthcare. International Journal of Bio-Science and Bio-Technology, 5(5), 241-266.
11- Torpy, J. M. (2011). Generalized anxiety disorder. JAMA, 305(5), 522. doi:10.1001/jama.305.5.522
12- Van, A., Gay, V. C., Kennedy, P. J., Barin, E., & Leijdekkers, P. (2010, December). Understanding risk factors in cardiac rehabilitation patients with random forests and decision trees. In Conferences in Research and Practice in Information Technology Series.
13- Yoo, I., Alafaireet, P., Marinov, M., Pena-Hernandez, K., Gopidi, R., Chang, J. F., & Hua, L. (2012). Data mining in healthcare and biomedicine: a survey of the literature. Journal of medical systems, 36, 2431-2448. doi:10.1007/s10916-011-9710-5

Full-Text:

پیش بینی اختلال اضطراب فراگیر در بین زنان دانشجو با استفاده از رویکرد جنگل تصادفی

زهرا غلامی1، حبیبه زارع2*

1- واحد فیروزآباد، دانشگاه آزاد اسلامی، فیروزآباد، ایران.

Zroyaee@yahoo.com

2- استادیارگروه زیست شناسی، دانشگاه پیام نور، تهران، ایران. (نویسنده مسئول)

drhzare@pnu.ac.ir

تاریخ دریافت: [2/9/1401] تاریخ پذیرش: [15/11/1401]

چکیده

سلامت روان یکی از بزرگترین چالش ها برای نسل کنونی است. اختلال اضطراب فراگیر (GAD) یکی از بسیاری از مشکلات سلامت روان است. افراد مبتلا به این اختلال نگرانی ها و تنش های اغراق آمیزی را در مورد رویدادهای روزمره تجربه می کنند. گزارش شده است که حدود 5 درصد از جمعیت کشورهای توسعه یافته به GAD مبتلا هستند و زنان دو برابر بیشتر از مردان به این بیماری مبتلا می شوند و یک اتفاق رو به رشد در بین زنان بالاخص زنان دانشجو است. این پژوهش با هدف پیش بینی اختلال اضطراب فراگیر در بین زنان دانشجو با رویکرد جنگل تصادفی، انجام شده است. از روش داده کاوی جهت پیش بینی استفاده شد.جامعه پژوهشی را زنان دانشجوی دانشگاه آزاد شیرازتشکیل دادند. تعداد 150 نفر از دانشجویان زن به روش تصادفی ساده انتخاب و با پرسشنامه DSM-IV, مورد ارزیابی قرار گرفتند. در این فرآیند، الگوریتم جنگل تصادفی برای تولید مدل پیش‌بینی پیشنهاد شده است. NetBeans IDE ابزاری بود که برای ساخت این پیاده سازی استفاده شد. جاوا زبان برنامه نویسی انتخاب شده برای کدگذاری این نمونه اولیه بود و از کتابخانه WEKA در این پیاده سازی استفاده شد. نتایج نشان داد که دقت پیش‌بینی با روش جنگل تصادفی بالای 0.9 است که نشان می‌دهد رویکرد جنگل تصادفی قادر به پیش‌بینی دقیق اختلال اضطراب فراگیر GAD است. برای ارزیابی ویژگی، رویکرد جنگل تصادفی در پیش‌بینی دقیق فردی که از GAD رنج نمی‌برد سازگاری نشان می‌دهد. نتایج به‌دست‌آمده از نمونه اولیه در مقایسه با خط پایه که در ابزار R پیاده‌سازی شده است، نسبتاً سازگار است. به طور خلاصه، رویکرد جنگل تصادفی عملکرد پیش‌بینی بالایی تولید می‌کند و می‌تواند روابط مهم بین پارامتر پیشنهادی و پارامتر وابسته را استخراج کند.

واژگان کلیدی: داده کاوی،اختلال اضطراب فراگیر؛ جنگل تصادفی.

1- مقدمه

در عصر پرشتاب امروز، همه از جمله دانش آموزان، والدین، کارمندان و کارفرمایان در تلاش هستند تا رقابتی باقی بمانند. سبک زندگی رقابتی باعث می شود افراد مشتاق به موفقیت دست یابند و باعث می شود چالش ها، ناامیدی ها و خواسته های متعدد را مدیریت کنند. در این محیط تحت فشار، اختلالات اضطرابی به آرامی به سلامت روان آنها هجوم آورده است.

اختلالات اضطرابی می تواند اشکال مختلفی داشته باشد از جمله اختلال اضطراب فراگیر، فوبیا، اختلال هراس و اختلال اضطراب اجتماعی. اختلالات اضطرابی با اضطراب مکرر و بیش از حد و سایر علائم ناتوان کننده مشخص می شوند. اختلال اضطراب فراگیر (GAD)، یکی از شایع ترین اختلالات اضطرابی، به عنوان نگرانی و استرس بیش از حد در مورد رویدادها و مشکلات روزمره از جمله مسائل بی اهمیت در زندگی روزمره تعریف می شود. طبق آمار انجمن اضطراب و افسردگی آمریکا (Torpy, 2011) 6.8 میلیون بزرگسال یا 3.1 درصد از جمعیت ایالات متحده، تحت تأثیر اختلال اضطراب فراگیر هستند. افراد مبتلا به این اختلال فاجعه را پیش بینی می کنند و نسبت به پول، سلامتی، خانواده، کار و مسائل دیگر بدبین هستند. آنها تحت تأثیر چرخه ای از نگرانی هستند که می تواند عملکرد روزانه آنها را مختل کند.

جالب توجه است که این اختلال در زنان دو برابر بیشتر از مردان شایع است. از این رو، این پژوهش قصد دارد به طور خاص بر اختلال اضطراب فراگیر در بین زنان دانشجو تمرکز کند. اهداف این تحقیق عبارتند از:

- بررسی، اتخاذ و تقویت الگوریتم جنگل تصادفی برای پیش‌بینی اختلال اضطراب فراگیر در بین زنان

- توسعه، اجرا و ارزیابی رویکرد جنگل تصادفی برای تعمیم اختلال اضطراب

2- مرور مبانی نظری و پیشینه

2-1- داده کاوی

امروزه داده کاوی در جریان اصلی است. این عملی است که در اواسط دهه 1990 به عنوان یک رویکرد جدید برای تجزیه و تحلیل داده ها و کشف دانش ظهور کرد (Yoo, Alafaireet, Marinov, Pena-Hernandez, Gopidi, Chang et al., 2012). پیشرفت فناوری محاسباتی و ذخیره سازی عظیم داده ها، علاقه محققان را برای کاوش در حوزه داده کاوی افزایش داده است. روش های مختلف داده کاوی به عنوان اقدامات متقابل برای بسیاری از مشکلات مانند ابداع استراتژی بازاریابی پیشرفته، تدوین برنامه های تجاری صرفه جویی در هزینه، تشخیص تقلب و شناسایی ایمیل های هرزنامه معرفی شده اند.

کاربرد داده کاوی را می توان به دو حوزه عمده طبقه بندی کرد که عبارتند از: پیش بینی خودکار روندها و رفتارها و کشف خودکار الگوهای ناشناخته قبلی (Yoo et al., 2012). فیاد، پیاتتسکی-شیپارو و اسمیت¹ (1996) نشان داد که اهداف پیش‌بینی و توصیف را می‌توان با استفاده از انواع روش‌های خاص داده‌کاوی به دست آورد. نباید مرزی وجود داشته باشد که مشخص کند هر تکنیک صرفاً در خدمت یک هدف از هدف پیشگویی یا توصیفی است. بنابراین، انتخاب روش های مناسب داده کاوی باید بر اساس ماهیت هدف (خروجی)، ویژگی ورودی، نیازهای محاسباتی روش ها، تحمل مقادیر از دست رفته، نقاط پرت و تعداد کمی از نقاط داده و قابلیت توضیح مدل باشد (Van, Gay, Kennedy, Barin & Leijdekkers, 2010).

روش های داده کاوی به دسته های مختلفی تقسیم می شوند. این مطالعه بر روی روش های داده کاوی خوشه بندی، طبقه بندی و تداعی تمرکز دارد. تجزیه و تحلیل خوشه‌ای یا خوشه‌بندی، یک تکنیک داده کاوی است که هدف آن گروه‌بندی اشیاء داده به کلاس‌ها یا خوشه‌ها است، به طوری که اشیاء درون یک خوشه شباهت زیادی به یکدیگر دارند، اما با اشیاء در همه خوشه‌های دیگر بسیار متفاوت هستند. هدف طبقه بندی پیش بینی کلاس اشیاء در مواردی است که برچسب کلاس ناشناخته است (Aminudin, Fadiawati & Tania, 2015). قواعد ارتباط دانشی را نشان می دهد که در مجموعه داده ها به عنوان پیامدهای احتمالی و مربوط به محاسبه مجموعه های مکرر است (Fayyad et al., 1996).

2-2- داده کاوی در حوزه بهداشت و درمان

فرآیند داده کاوی به طور گسترده در زمینه های متعددی به کار گرفته شده است و در حوزه مراقبت های بهداشتی رواج بیشتری یافته است زیرا نیاز به یک روش تحلیلی کارآمد برای شناسایی اطلاعات ناشناخته و با ارزش در داده های مراقبت های بهداشتی وجود دارد (Tomar & Agarwal, 2013). در مراقبت های بهداشتی، در میان سایر عملکردها، فرآیند داده کاوی برای شناسایی تقلب در بیمه سلامت و پیش بینی خطرات بیماری، هزینه های پزشکی بیماران و مدت اقامت بیماران در بیمارستان به کار گرفته شده است. نتیجه عمل داده کاوی در این زمینه برای ارائه مزایایی برای کل اکوسیستم مراقبت های بهداشتی در نظر گرفته شده است.

برای هدف پیش‌بینی در رابطه با مراقبت‌های بهداشتی، روش طبقه‌بندی در مقایسه با روش‌های داده‌کاوی خوشه‌بندی و ارتباط مناسب‌تر تلقی می‌شود. طبقه بندی دارای ویژگی های سادگی، سرعت طبقه بندی نمونه های بدون برچسب و نمایش گرافیکی بصری است. جدای از آن، مدل پیش بینی آن می تواند به راحتی توسط متخصصان حوزه تایید و درک شود (Matthiesen, 2010).

2-3- جنگل تصادفی

جنگل تصادفی یکی از روش های طبقه بندی است. این روشی برای تجمیع توانایی پیش‌بینی طبقه‌بندی‌کننده‌های متعدد است که به عنوان طبقه‌بندی گروهی شناخته می‌شود. طبقه‌بندی گروهی یک روش یادگیری ماشینی است که هدف آن دستیابی به دقت پیش‌بینی بهتر در مقایسه با مدل‌های منفرد با استفاده از مزایای مدل‌های متعدد است (Oza, 2009). تمایل دارد مدل های پایه ای را تولید کند که در عین حال مکمل باشند و در نتیجه یک طبقه بندی جامع ایجاد شود. بسیاری از الگوریتم های یادگیری ماشین سنتی یک مدل واحد مانند درخت تصمیم و شبکه عصبی تولید می کنند. با این حال، روش یادگیری گروهی چندین مدل تولید می کند. لوکیس و ماراگوداکیس² (2010) آزمایشی را نشان داد تا نشان دهد چگونه یک روش مجموعه ای می تواند عملکرد طبقه بندی کننده را بهبود بخشد. آزمایش میزان خطای محاسبه‌شده 06/0 را در طبقه‌بندی گروهی نشان داد که در مقایسه با طبقه‌بندی باینری 35/0 در آزمایش کمتر بود.

جنگل تصادفی بسیاری از طبقه‌بندی‌کننده‌های پایه درختی را ایجاد می‌کند، که در آنها هر درخت به مقادیر یک بردار ورودی تصادفی بستگی دارد که به طور مستقل از کل مجموعه داده با جایگزینی و با توزیع یکسان همه درختان در جنگل نمونه‌برداری شده است (Loukis & Maragoudakis, 2010). تصادفی بودن جنگل تصادفی از نمونه ها و متغیرهای تصادفی منتخب نشات می گیرد.

روش‌های خوشه‌بندی معمولاً زمانی انجام می‌شوند که اطلاعات بسیار کمی در مورد داده‌ها شناخته شده باشد یا هیچ اطلاعاتی وجود نداشته باشد (Fayyad et al., 1996). اغلب برای پیش‌بینی و طبقه‌بندی مسائل استفاده نمی‌شود، اما روش خوبی برای تشخیص یک الگوی پنهان از مجموعه داده است. موضوع اصلی مربوط به قوانین انجمن معدن در مجموعه داده های مراقبت های بهداشتی، تعداد زیادی از قوانین کشف شده است که اکثر آنها بی ربط هستند. برای ایجاد مشکل بیشتر، مرتبط ترین قوانین با معیارهای با کیفیت بالا فقط در مقادیر پشتیبانی پایین ظاهر می شوند (Yoo et al., 2012).

رویکرد جنگل تصادفی دقت خوبی در عملکرد کلی خود نشان داده است. خلیلیا، چاکرابورتی و پاپسیو³ (2011) نشان داد که جنگل تصادفی⁴ از ماشین بردار پشتیبان، کیسه‌بندی و تقویت از نظر ناحیه زیر منحنی⁵ مشخصه عملیاتی گیرنده⁶ برای پیش‌بینی خطرات بیماری ناشی از داده‌های بسیار نامتعادل عملکرد بهتری داشت. با این حال، محدودیتی در داده‌های به‌دست‌آمده وجود دارد که ممکن است منجر به استفاده چندین بار از داده‌های یکسان برای یک بیمار شود که ممکن است باعث سوگیری جزئی در نتیجه پیش‌بینی شود.

به طور کلی، الگوریتم جنگل تصادفی دقت پیش‌بینی بالایی ایجاد می‌کند. از این رو، در این پژوهش، این الگوریتم در حوزه دیگری از سلامت که همان سلامت روان است، برای تعیین تناسب و عملکرد آن اعمال می شود.

2-4- اختلال اضطراب فراگیر⁷ (GAD)

اضطراب یک واکنش طبیعی است مانند احساس اضطراب قبل از نشستن برای معاینه، عصبی بودن هنگام شرکت در مصاحبه و ناراحتی به دلیل مواجهه با مشکل مالی. اینها همه موقعیت های اضطراب آور هستند. با این حال، افرادی که دارای شرایط اضطرابی مزمن مانند داشتن نگرانی مداوم، بیش از حد و غیر واقعی در مورد چیزهای روزمره مانند مسئولیت های شغلی، سلامت خانواده یا مسائل بی اهمیت مانند کارها و قرار ملاقات ها و همراه با علائم جسمی هستند، می توانند به عنوان مبتلا به اختلال اضطراب فراگیر در نظر گرفته شوند. مبتلایان نگرانی و اضطراب بیش از حد را تجربه می کنند و اغلب انتظار بدترین اتفاقات را دارند حتی زمانی که هیچ دلیل واضحی برای نگرانی وجود ندارد. به طور خلاصه، آنها قادر به مهار نگرانی های خود نیستند.

GAD بر اساس کتابچه راهنمای تشخیصی و آماری اختلالات روانی، تعریف شده است که یک طبقه بندی استاندارد از اختلالات روانی است که توسط متخصصان بهداشت روان در جهان استفاده می شود. بر اساس راهنمای تشخیصی و آماری اختلالات روانی (American Psychiatric Association, 2013) این اختلال با ویژگی های انتظارات دلهره آمیز تشخیص داده می شود که بیش از روزها برای یک دوره حداقل شش ماهه، در مورد تعدادی از رویدادها یا موضوعات رخ می دهد. نگرانی باعث پریشانی یا اختلال عملکردی می شود و با حداقل سه مورد از علائم زیر مانند بی قراری، خستگی آسان، مشکل در تمرکز، تحریک پذیری، تنش عضلانی و اختلال خواب همراه است (Behar, DiMarco, Hekler, Mohlman & Staples, 2009). با این حال، تشخیص GAD تنها در صورتی امکان‌پذیر است که فرد معیارهای تشخیصی سایر اختلالات اضطرابی را در آن دوره نداشته باشد (American Psychiatric Association, 2013).

3- روششناسی

از آنجایی که پارامتر نشانه‌های افسردگی را هدف قرار داده بود، پارامترها از BDI، یکی از پرکاربردترین تست‌های روان‌سنجی برای اندازه‌گیری شدت افسردگی گرفته شد. آنها توسط یک روانپزشک ثبت شده تأیید شدند تا از ارتباط آن در ارزیابی اختلال اضطراب فراگیر اطمینان حاصل شود. پارامترها در جدول 1 نشان داده شده است که شامل 24 پارامتر شامل جزئیات شخصی و علائم افسردگی است.

جدول1- پارامترهای مورد استفاده

اطلاعات شخصی

1. سن (عددی)

2. شغل (اسمی)

3. دوران کودکی ناخوشایند

تجربه (اسمی)

علائم افسردگی

4. اندوه

5. بدبینی

6. شکست گذشته

7. از دست دادن لذت

8. احساس گناه

9. احساس تنبیه

10. بیزاری از خود

11. انتقاد از خود

12. افکار یا آرزوهای خودکشی

13. گریه کردن

14. آشفتگی

15. از دست دادن علاقه

16. بلاتکلیف

17. بی ارزشی

18. از دست دادن انرژی

19. تغییر در الگوی خواب

20. تحریک پذیری

21. تغییر در اشتها

22. مشکل تمرکز

23. خستگی ناشی از خستگی

24. از دست دادن علاقه به رابطه جنسی

داده های این پژوهش از طریق پیمایش جمع آوری شده است. در این نظرسنجی، هر شرکت کننده از دانشجویان زن دانشگاه آزاد شیراز موظف بود یک عدد را پر کند. پرسشنامه ای که مشتمل بر گروه هایی از عبارات برای توصیف احساسات وی بر اساس پارامترهایی است که در بالا ذکر شد. این پرسشنامه بر اساس پرسشنامه DSM V (American Psychiatric Association, 2013) طراحی شده است. این نظرسنجی با 150 پاسخ دهنده زن دانشجو برای ایجاد پایگاه داده GAD ایجاد کرد. بر اساس داده‌های جمع‌آوری‌شده، تنها داده‌های پاسخ‌دهندگان زن برای تمرکز بر زنان در این پژوهش استخراج شد.

پس از جمع آوری داده ها، کیفیت داده ها باید تایید شود. بنابراین، روش پیش پردازش داده ها انجام شد. در جمع آوری داده ها، مشکلی که با آن مواجه شد، ورود نامناسب داده ها مانند ارائه پاسخ نامربوط در نظرسنجی بود. تاپل با ورود نامناسب داده حذف شد تا داده‌های پر سر و صدا را هموار کند یا با محتمل‌ترین مقدار آن را پر کند که یکی از محبوب‌ترین استراتژی‌ها برای مقابله با این موضوع بود. علاوه بر این، تابع یافتن و جایگزینی برای رسیدگی به ناسازگاری در قالب داده‌ای که از نظرسنجی به‌دست آمده بود، استفاده شد. در مکانیزم تبدیل داده ها، داده های جمع آوری شده به فرم های مناسب برای استفاده در فرآیند پیاده سازی تبدیل شد.

داده‌های جمع‌آوری‌شده که به صورت بیانیه بود، سپس با فرمول‌بندی فرمول‌هایی برای ایجاد امتیاز برای هر تاپل با استفاده از Microsoft Excel به یک امتیاز تبدیل شد. مقیاس نمره برای هر پاسخ با ارزیابی وضعیت افسردگی پاسخگو از 0 تا 3 امتیاز اختصاص یافت. افرادی که بیش از 28 امتیاز کسب کردند، مبتلا به افسردگی شدید در نظر گرفته شدند که احتمالاً می تواند نشان دهنده GAD باشد. تعمیم تکنیکی بود که برای سازماندهی داده های اولیه در دسته های سطح بالاتر آن استفاده می شد. قالب مورد نیاز برای ورود به فرآیند پیاده سازی به صورت arff. از این رو، مجموعه داده پردازش شده به نوع فایل arff. تبدیل شد.

تجزیه و تحلیل داده ها یک مرحله مقدماتی قبل از اینکه مجموعه داده از طریق فرآیند داده کاوی منتقل شود برای بازرسی و شناسایی هر گونه مجموعه داده سوگیری احتمالی که ممکن است منجر به عملکرد ضعیف فرآیند داده کاوی شود، بود. پس از تجزیه و تحلیل مجموعه داده تمیز شده، عدم تعادل کلاس در جایی که موارد مثبت کلاس اقلیت بودند، شناسایی شد.

نسبت نمونه های مثبت به موارد منفی به دست آمده از داده های جمع آوری شده 1:10 بود. بر اساس این نسبت، روش کم‌نمونه‌گیری حذف شد، زیرا موارد مثبت در مقایسه با موارد منفی به طور قابل‌توجهی کم بود. از این رو، SMOTE به جای آن برای افزایش نمونه های اقلیت با ایجاد نمونه های "مصنوعی" در مجموعه داده به عنوان ابزاری برای کاهش مجموعه داده های سوگیری استفاده شد. در این فرآیند، از ابزار فیلتر Weka برای تولید توزیع داده های بی طرفانه استفاده شد و مجموعه داده به دست آمده برای استفاده در فرآیند بعدی ذخیره شد. پس از فرآیند SMOTE، داده های به دست آمده به 1: 2.3 تقسیم بندی شدند. سپس، این مجموعه داده برای جلوگیری از خوشه‌بندی داده‌های سنتز شده تصادفی شد. این مرحله از طریق تابع تصادفی در ابزار Weka به دست آمد و مجموعه داده پردازش شده نهایی برای فرآیند بعدی ذخیره شد.

در فرآیند طراحی و اجرا ، الگوریتم جنگل تصادفی برای تولید مدل پیش‌بینی پیشنهاد شده است.NetBeans IDE ابزاری بود که برای ساخت این پیاده سازی استفاده شد. جاوا زبان برنامه نویسی انتخاب شده برای کدگذاری این نمونه اولیه بود و از کتابخانه WEKA در این پیاده سازی استفاده شد. پارامترهای اجرای این جنگل تصادفی عبارتند از:

الف) نمونه گیری بوت استرپ: به اندازه مجموعه آموزشی.

ب) تعدادی درخت: 10 و 100 درخت تصادفی برای مقایسه همبستگی تعداد درختان و نتیجه تولید شده رشد می کنند.

پ) تعداد ویژگی های انتخاب شده به طور تصادفی برای انتخاب در یک گره خاص:

floor (log2(N))+1 = floor(log2(25))+1= 5

N تعداد کل ویژگی ها در داده ها، از جمله ویژگی کلاس است.

ت) اطلاعات برای انتخاب تقسیم به منظور تقسیم فضای داده های طبقه بندی شده به دست می آید. به دست آوردن اطلاعات و شاخص جینی هر دو معیارهای تقسیم ناخالصی هستند. تفاوت در تابع ناخالصی است. هر درخت به بیشترین میزان ممکن رشد می کند، هیچ هرس اعمال نمی شود، و پیش بینی کلی بر اساس اکثریت آرای طبقه طبقه بندی شده است. علاوه بر این، تخمین احتمال GAD تنظیم شده به عنوان احتمال پیش‌بینی 8/0>= به عنوان یک وضعیت جدی در نظر گرفته می‌شود، در حالی که بین 0.5 تا 0.8 یک وضعیت متوسط و کمتر از 5/0 یک وضعیت خفیف در نظر گرفته می‌شود. شاخص های عملکرد Random Forest نیز در نمونه اولیه گنجانده شده است.

پس از اجرای فرآیند، نتایج تجربی به دست آمد. به منظور ایجاد درک بهتر از روش پیشنهادی، تعداد درختان در جنگل‌های تصادفی، داده‌های پردازش‌شده و داده‌های پردازش نشده در نظر گرفته شد تا به نمونه اولیه جنگل تصادفی وارد شود و نتایج تولید شده در آن مورد بحث قرار گیرد.

4- یافتهها

نتایج حاصل از ابزار R بر اساس پیاده سازی تصادفی جنگل در زیر نشان داده شده است. واریانس داده های مجموعه داده متعادل و نامتعادل در جدول 2 نشان داده شده است.تحلیل عملکرد برای این مطالعه در جدول 3 نشان داده شده است.

جدول 2- مجموعه داده متعادل و نامتعادل مورد استفاده

پیاده سازی تصادفی جنگل R	تعداد درخت	تعداد ویژگی	مجموعه داده
مورد1	100	5	مجموعه داده متعادل
مورد2	10	5	مجموعه داده متعادل
مورد3	100	5	مجموعه داده نامتعادل
مورد4	10	5	مجموعه داده نامتعادل

جدول 3- تجزیه و تحلیل عملکرد از پیاده سازی R

تجزیه و تحلیل عملکرد	دقت	حساسیت	ویژگی
مورد1	0.9931	0.9773	1
مورد2	0.9379	0.9302	0.9759
مورد3	0.9464	0.4545	1
مورد4	0.9285	0.3636	0.9901

حساسیت (true positive rate) به معنی نسبتی از موارد مثبت است که آزمایش آن‌ها را به درستی به عنوان مثبت علامت‌گذاری می‌کند. ویژگی(true negative rate) به معنی نسبتی از موارد منفی است که آزمایش آن‌ها را به درستی به عنوان منفی علامت‌گذاری می‌کند.

5- بحث و نتیجهگیری

نتایج نشان داد که مجموعه داده متعادل از دقت، حساسیت و ویژگی بالاتری در مقایسه با مجموعه داده نامتعادل در هر دو پیاده سازی برخوردار است. با اعمال SMOTE به مجموعه داده، اثر مثبت نمونه‌گیری داده‌ها مشاهده شد. این نتیجه نشان می‌دهد که گنجاندن نمونه‌گیری داده‌ها عملکرد طبقه‌بندی را بهبود می‌بخشد.

نتایج اجرای نمونه اولیه نشان داد که افزایش تعداد درختان بر دقت، حساسیت و ویژگی تأثیری ندارد. با این حال، برای اجرای R، در مورد 100 درخت در مقایسه با 10 درخت دقت بهتری را نشان داد. به طور کلی، درختان بیشتر معمولاً دقت فزاینده ای ایجاد می کنند. با این حال، این اثر زمانی که به یک نقطه خاص برسد، صاف می شود. برای توضیح نتیجه به‌دست‌آمده از اجرای نمونه اولیه، این ممکن است به این دلیل باشد که مجموعه داده برای این تحقیق به طور قابل‌توجهی کوچک بود، جایی که تعداد درخت‌ها عملکرد طبقه‌بندی را به طور قابل‌توجهی بهبود نمی‌بخشد.

از آنجایی که این تحقیق برای دستیابی به هدف پیش‌بینی اختلال اضطراب فراگیر انجام شده است، نشان داده شده است که تمام دقت پیش‌بینی بالای 9/0 است که نشان می‌دهد رویکرد جنگل تصادفی قادر به پیش‌بینی دقیق GAD است. از نظر حساسیت، نتایج نوسان بین مجموعه داده متعادل و مجموعه داده نامتعادل را نشان می دهد. آنها نشان می دهند که مجموعه داده نامتعادل می تواند بر عملکرد طبقه بندی کننده تأثیر بگذارد. برای ارزیابی ویژگی، رویکرد جنگل تصادفی در پیش‌بینی دقیق فردی که از GAD رنج نمی‌برد سازگاری نشان می‌دهد. نتایج به‌دست‌آمده از نمونه اولیه در مقایسه با خط پایه که در ابزار R پیاده‌سازی شده است، نسبتاً سازگار است. به طور کلی، رویکرد جنگل تصادفی عملکرد پیش‌بینی خوبی ایجاد کرده است که با نتایج به‌دست‌آمده ثابت شده است، همانطور که در جدول 2 نشان داده شده است. به منظور آشکار کردن رابطه بین متغیرهای وابسته و مستقل، نتایج به‌دست‌آمده خستگی یا خستگی، افکار یا آرزوهای خودکشی، از دست دادن را توصیف می‌کنند. به عنوان پیشرو در تابلوی امتیاز متغیر اهمیت دارد، که توجیه می کند چرا این پارامترها نقش مهمی در پیش بینی اینکه آیا یک فرد دچار GAD شده است یا خیر. می توان این گونه تفسیر کرد که اگر فردی بیش از حد معمول خسته باشد و تمایل بیشتری به خودکشی داشته باشد و نسبت به افراد و چیزها از دست داده باشد، این علائم نشان می دهد که او دچار اختلال اضطراب فراگیر شده است. بنابراین، این می تواند بینش هایی را برای بخش سلامت روان فراهم کند تا بتواند GAD را در مراحل اولیه تشخیص دهد و آنها را قادر سازد تا اقداماتی را برای درمان بیمار انجام دهند.

به طور خلاصه، رویکرد جنگل تصادفی عملکرد پیش‌بینی بالایی تولید می‌کند و می‌تواند روابط مهم بین پارامتر پیشنهادی و پارامتر وابسته را استخراج کند.

6- منابع

1- American Psychiatric Association, D. S. M. T. F., & American Psychiatric Association. (2013). Diagnostic and statistical manual of mental disorders: DSM-5 (Vol. 5, No. 5). Washington, DC: American psychiatric association.

2- Aminudin, M. A., Fadiawati, N., & Tania, L. (2015). Pengembangan LKS berbasis multipel representasi pada materi klasifikasi materi. Jurnal Pendidikan dan Pembelajaran Kimia, 4(2), 720-731.

3- Behar, E., DiMarco, I. D., Hekler, E. B., Mohlman, J., & Staples, A. M. (2009). Current theoretical models of generalized anxiety disorder (GAD): Conceptual review and treatment implications. Journal of anxiety disorders, 23(8), 1011-1023. doi:10.1016/j.janxdis.2009.07.006

4- Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From data mining to knowledge discovery in databases. AI magazine, 17(3), 37-37. doi:10.1609/aimag.v17i3.1230

5- Khalilia, M., Chakraborty, S., & Popescu, M. (2011). Predicting disease risks from highly imbalanced data using random forest. BMC medical informatics and decision making, 11, 1-13. doi:10.1186/1472-6947-11-51

6- Loukis, E., & Maragoudakis, M. (2010, June). Heart murmurs identification using random forests in assistive environments. In Proceedings of the 3rd International Conference on Pervasive Technologies Related to Assistive Environments (pp. 1-6). doi:10.1145/1839294.1839304

7- Antony, M. M. (2013). Recommended Readings and DVDs Anxiety Disorders, Depression, and Related Problems. vol, 2631, 1-17.

8- Matthiesen, R. (Ed.). (2010). Bioinformatics methods in clinical research. Totowa, NJ, USA: Humana Press. doi:10.1007/978-1-60327-194-3_5

9- Oza, N. C. (2009). Ensemble data mining methods. In Encyclopedia of Data Warehousing and Mining, Second Edition (pp. 770-776). IGI Global. doi:10.4018/978-1-59140-557-3.ch085

10- Tomar, D., & Agarwal, S. (2013). A survey on Data Mining approaches for Healthcare. International Journal of Bio-Science and Bio-Technology, 5(5), 241-266.

11- Torpy, J. M. (2011). Generalized anxiety disorder. JAMA, 305(5), 522. doi:10.1001/jama.305.5.522

12- Van, A., Gay, V. C., Kennedy, P. J., Barin, E., & Leijdekkers, P. (2010, December). Understanding risk factors in cardiac rehabilitation patients with random forests and decision trees. In Conferences in Research and Practice in Information Technology Series.

13- Yoo, I., Alafaireet, P., Marinov, M., Pena-Hernandez, K., Gopidi, R., Chang, J. F., & Hua, L. (2012). Data mining in healthcare and biomedicine: a survey of the literature. Journal of medical systems, 36, 2431-2448. doi:10.1007/s10916-011-9710-5

Predicting Generalized Anxiety Disorder Among Female Students Using Random Forest Approach

Zahra Gholami1, Habibeh Zare2*

1. Firoozabad Branch, Islamic Azad University, Firozabad, Iran.

Zroyaee@yahoo.com

2. Assistant Professor, Department of Biology, Payam Noor University, Tehran, Iran. (Corresponding Author)

drhzare@pnu.ac.ir

Abstract

Keywords: Data mining, Generalized Anxiety Disorder (GAD), Random Decision Forest.

[1] . Fayyad, Piatetsky-Shapiro & Smyth

[2] . Loukis & Maragoudakis

[3] . Khalilia, Chakraborty & Popescu

[4] . Random Forest

[5] . AUC

[6] . ROC

[7] . Generalized Anxiety Disorder

Share To

Article Url

Predicting Generalized Anxiety Disorder Among Female Students Using Random Forest Approach

Rimag

Links

Related Centers

Technical Support

Official pages