• فهرس المقالات Imbalanced Data

      • حرية الوصول المقاله

        1 - Extracting Credit Rules from Imbalanced Data: The Case of an Iranian Export Development Bank
        Seyed Mahdi  Sadatrasoul mohammadreza gholamian Kamran shahanaghi
        Credit scoring is an important topic, and banks collect different data from their loan applicant to make an appropriate and correct decision. Rule bases are of more attention in credit decision making because of their ability to explicitly distinguish between good and b أکثر
        Credit scoring is an important topic, and banks collect different data from their loan applicant to make an appropriate and correct decision. Rule bases are of more attention in credit decision making because of their ability to explicitly distinguish between good and bad applicants. The credit scoring datasets are usually imbalanced. This is mainly because the number of good applicants in a portfolio of loan is usually much higher than the number of loans that default. This paper use previous applied rule bases in credit scoring, including RIPPER, OneR, Decision table, PART and C4.5 to study the reliability and results of sampling on its own dataset. A real database of one of an Iranian export development bank is used and, imbalanced data issues are investigated by randomly Oversampling the minority class of defaulters, and three times under sampling of majority of non-defaulters class. The performance criterion chosen to measure the reliability of rule extractors is the area under the receiver operating characteristic curve (AUC), accuracy and number of rules. Friedman’s statistic is used to test for significance differences between techniques and datasets. The results from study show that PART is better and good and bad samples of data affect its results less. تفاصيل المقالة
      • حرية الوصول المقاله

        2 - استفاده از شبکه مولد متخاصم شرطی برای تولید داده با هدف بهبود کلاس¬بندی کاربران منتشرکننده اخبار جعلی
        عارفه اسمعیلی سعید فرضی
        سالیان درازی است که اخبار و پیام های جعلی در جوامع انسانی منتشر می گردد و امروزه با فراگیرشدن شبکه های اجتماعی در بین مردم، امکان نشر اطلاعات نادرست بیشتر از قبل شده است. بنابراین، شناسایی اخبار و پیام های جعلی به موضوع برجسته ای در جوامع تحقیقاتی تبدیل شده است. ضمناً أکثر
        سالیان درازی است که اخبار و پیام های جعلی در جوامع انسانی منتشر می گردد و امروزه با فراگیرشدن شبکه های اجتماعی در بین مردم، امکان نشر اطلاعات نادرست بیشتر از قبل شده است. بنابراین، شناسایی اخبار و پیام های جعلی به موضوع برجسته ای در جوامع تحقیقاتی تبدیل شده است. ضمناً، شناسایی کاربرانی که این اطلاعات نادرست را ایجاد می کنند و در شبکه نشر می دهند، از اهمیت بالایی برخوردار است. این مقاله، به شناسایی کاربرانی که با زبان فارسی اقدام به انتشار اطلاعات نادرست در شبکه اجتماعی توئیتر می کنند، پرداخته است. در این راستا، سیستمی بر مبنای ترکیب ویژگی های بافتار-کاربر و بافتار-شبکه با کمک شبکه مولد متخاصم شرطی برای متوازن سازی مجموعه -داده پایه ریزی شده است. هم چنین، این سیستم با مدل کردن شبکه اجتماعی توئیتر به گراف تعاملات کاربران و تعبیه گره به بردار ویژگی توسط Node2vec، کاربران منتشرکننده اخبار جعلی را شناسایی می کند. علاوه بر این، با انجام آزمایشات متعدد، سیستم پیشنهادی تا حدود 11% ، 13 % ،12 % و 12 % به ترتیب در معیار های دقت، فراخوانی، معیار اف و صحت نسبت به رقبایش بهبود داشته است و توانسته است دقتی در حدود 99% در شناسایی کاربران منتشرکننده اخبار جعلی ایجاد کند. تفاصيل المقالة
      • حرية الوصول المقاله

        3 - ترکیب تکنیک‌های انتخاب نمونه و داده‌افزایي برای حل مسئله طبقه‌بندی مجموعه داده‌های نامتوازن
        پرستو محقق سميرا نوفرستی مهری رجائی
        در عصر کلان‌داده‌ها، تکنیک‌های تجزیه و تحلیل خودکار مانند داده‌کاوی به‌طور گسترده‌ای برای تصمیم‌گیری به‌کار گرفته شده و بسیار مؤثر واقع شده‌اند. از جمله تکنیک‌های داده‌کاوی می‌توان به طبقه‌بندی اشاره کرد که یک روش رایج برای تصمیم‌گیری و پیش‌بینی است. الگوریتم‌های طبقه‌ب أکثر
        در عصر کلان‌داده‌ها، تکنیک‌های تجزیه و تحلیل خودکار مانند داده‌کاوی به‌طور گسترده‌ای برای تصمیم‌گیری به‌کار گرفته شده و بسیار مؤثر واقع شده‌اند. از جمله تکنیک‌های داده‌کاوی می‌توان به طبقه‌بندی اشاره کرد که یک روش رایج برای تصمیم‌گیری و پیش‌بینی است. الگوریتم‌های طبقه‌بندی به‌طور معمول بر روی مجموعه داده‌های متوازن به‌خوبی عمل می‌کنند. با وجود این، یکی از مشکلاتی که الگوریتم‌های طبقه‌بندی با آن مواجه هستند، پیش‌بینی صحیح برچسب نمونه‌های جدید بر اساس یادگیری بر روی مجموعه داده‌های نامتوازن است. در این نوع از مجموعه داده‌ها، توزیع ناهمگونی که داده‌ها در کلاس‌های مختلف دارند باعث نادیده گرفته‌شدن نمونه‌های کلاس با تعداد نمونه کمتر در یادگیری طبقه‌بند می‌شوند؛ در حالی که این کلاس در برخی مسائل پیش‌بینی دارای اهمیت بیشتری است. به‌منظور مقابله با مشکل مذکور در این مقاله، روشی کارا برای متعادل‌سازی مجموعه داده‌های نامتوازن ارائه می‌شود که با متعادل‌نمودن تعداد نمونه‌های کلاس‌های مختلف در مجموعه داده‌ای نامتوازن، پیش‌بینی صحیح برچسب کلاس نمونه‌های جدید توسط الگوریتم یادگیری ماشین را بهبود می‌بخشد. بر اساس ارزیابی‌های صورت‌گرفته، روش پیشنهادی بر اساس دو معیار رایج در ارزیابی طبقه‌بندی مجموعه داده‌های نامتوازن به نام‌های «صحت متعادل» و «ویژگی»، عملکرد بهتری در مقایسه با روش‌های دیگر دارد. تفاصيل المقالة