-
حرية الوصول المقاله
1 - Extracting Credit Rules from Imbalanced Data: The Case of an Iranian Export Development Bank
Seyed Mahdi Sadatrasoul mohammadreza gholamian Kamran shahanaghiCredit scoring is an important topic, and banks collect different data from their loan applicant to make an appropriate and correct decision. Rule bases are of more attention in credit decision making because of their ability to explicitly distinguish between good and b أکثرCredit scoring is an important topic, and banks collect different data from their loan applicant to make an appropriate and correct decision. Rule bases are of more attention in credit decision making because of their ability to explicitly distinguish between good and bad applicants. The credit scoring datasets are usually imbalanced. This is mainly because the number of good applicants in a portfolio of loan is usually much higher than the number of loans that default. This paper use previous applied rule bases in credit scoring, including RIPPER, OneR, Decision table, PART and C4.5 to study the reliability and results of sampling on its own dataset. A real database of one of an Iranian export development bank is used and, imbalanced data issues are investigated by randomly Oversampling the minority class of defaulters, and three times under sampling of majority of non-defaulters class. The performance criterion chosen to measure the reliability of rule extractors is the area under the receiver operating characteristic curve (AUC), accuracy and number of rules. Friedman’s statistic is used to test for significance differences between techniques and datasets. The results from study show that PART is better and good and bad samples of data affect its results less. تفاصيل المقالة -
حرية الوصول المقاله
2 - استفاده از شبکه مولد متخاصم شرطی برای تولید داده با هدف بهبود کلاس¬بندی کاربران منتشرکننده اخبار جعلی
عارفه اسمعیلی سعید فرضیسالیان درازی است که اخبار و پیام های جعلی در جوامع انسانی منتشر می گردد و امروزه با فراگیرشدن شبکه های اجتماعی در بین مردم، امکان نشر اطلاعات نادرست بیشتر از قبل شده است. بنابراین، شناسایی اخبار و پیام های جعلی به موضوع برجسته ای در جوامع تحقیقاتی تبدیل شده است. ضمناً أکثرسالیان درازی است که اخبار و پیام های جعلی در جوامع انسانی منتشر می گردد و امروزه با فراگیرشدن شبکه های اجتماعی در بین مردم، امکان نشر اطلاعات نادرست بیشتر از قبل شده است. بنابراین، شناسایی اخبار و پیام های جعلی به موضوع برجسته ای در جوامع تحقیقاتی تبدیل شده است. ضمناً، شناسایی کاربرانی که این اطلاعات نادرست را ایجاد می کنند و در شبکه نشر می دهند، از اهمیت بالایی برخوردار است. این مقاله، به شناسایی کاربرانی که با زبان فارسی اقدام به انتشار اطلاعات نادرست در شبکه اجتماعی توئیتر می کنند، پرداخته است. در این راستا، سیستمی بر مبنای ترکیب ویژگی های بافتار-کاربر و بافتار-شبکه با کمک شبکه مولد متخاصم شرطی برای متوازن سازی مجموعه -داده پایه ریزی شده است. هم چنین، این سیستم با مدل کردن شبکه اجتماعی توئیتر به گراف تعاملات کاربران و تعبیه گره به بردار ویژگی توسط Node2vec، کاربران منتشرکننده اخبار جعلی را شناسایی می کند. علاوه بر این، با انجام آزمایشات متعدد، سیستم پیشنهادی تا حدود 11% ، 13 % ،12 % و 12 % به ترتیب در معیار های دقت، فراخوانی، معیار اف و صحت نسبت به رقبایش بهبود داشته است و توانسته است دقتی در حدود 99% در شناسایی کاربران منتشرکننده اخبار جعلی ایجاد کند. تفاصيل المقالة -
حرية الوصول المقاله
3 - ترکیب تکنیکهای انتخاب نمونه و دادهافزایي برای حل مسئله طبقهبندی مجموعه دادههای نامتوازن
پرستو محقق سميرا نوفرستی مهری رجائیدر عصر کلاندادهها، تکنیکهای تجزیه و تحلیل خودکار مانند دادهکاوی بهطور گستردهای برای تصمیمگیری بهکار گرفته شده و بسیار مؤثر واقع شدهاند. از جمله تکنیکهای دادهکاوی میتوان به طبقهبندی اشاره کرد که یک روش رایج برای تصمیمگیری و پیشبینی است. الگوریتمهای طبقهب أکثردر عصر کلاندادهها، تکنیکهای تجزیه و تحلیل خودکار مانند دادهکاوی بهطور گستردهای برای تصمیمگیری بهکار گرفته شده و بسیار مؤثر واقع شدهاند. از جمله تکنیکهای دادهکاوی میتوان به طبقهبندی اشاره کرد که یک روش رایج برای تصمیمگیری و پیشبینی است. الگوریتمهای طبقهبندی بهطور معمول بر روی مجموعه دادههای متوازن بهخوبی عمل میکنند. با وجود این، یکی از مشکلاتی که الگوریتمهای طبقهبندی با آن مواجه هستند، پیشبینی صحیح برچسب نمونههای جدید بر اساس یادگیری بر روی مجموعه دادههای نامتوازن است. در این نوع از مجموعه دادهها، توزیع ناهمگونی که دادهها در کلاسهای مختلف دارند باعث نادیده گرفتهشدن نمونههای کلاس با تعداد نمونه کمتر در یادگیری طبقهبند میشوند؛ در حالی که این کلاس در برخی مسائل پیشبینی دارای اهمیت بیشتری است. بهمنظور مقابله با مشکل مذکور در این مقاله، روشی کارا برای متعادلسازی مجموعه دادههای نامتوازن ارائه میشود که با متعادلنمودن تعداد نمونههای کلاسهای مختلف در مجموعه دادهای نامتوازن، پیشبینی صحیح برچسب کلاس نمونههای جدید توسط الگوریتم یادگیری ماشین را بهبود میبخشد. بر اساس ارزیابیهای صورتگرفته، روش پیشنهادی بر اساس دو معیار رایج در ارزیابی طبقهبندی مجموعه دادههای نامتوازن به نامهای «صحت متعادل» و «ویژگی»، عملکرد بهتری در مقایسه با روشهای دیگر دارد. تفاصيل المقالة