• فهرست مقالات Outlier detection

      • دسترسی آزاد مقاله

        1 - یک روش بدون پارامتر مبتنی بر نزدیکی برای تشخیص داده‌های پرت
        یحیی صالحی نگین دانشپور
        تشخیص داده‌های پرت به عنوان یک حوزه تحقیق در داده‌کاوی و یادگیری ماشین بوده و یک گام مهم در پیش‌پردازش داده‌ها به حساب می‌آید. در این مقاله یک روش بدون پارامتر به منظور تشخیص داده‌های پرت مبتنی بر نزدیکی به نام NPOD ارائه شده است. رهیافت ارائه‌شده، ترکیبی از روش‌های مبت چکیده کامل
        تشخیص داده‌های پرت به عنوان یک حوزه تحقیق در داده‌کاوی و یادگیری ماشین بوده و یک گام مهم در پیش‌پردازش داده‌ها به حساب می‌آید. در این مقاله یک روش بدون پارامتر به منظور تشخیص داده‌های پرت مبتنی بر نزدیکی به نام NPOD ارائه شده است. رهیافت ارائه‌شده، ترکیبی از روش‌های مبتنی بر فاصله و مبتنی بر چگالی بوده و توانایی تشخیص پرت‌ها را به صورت سراسری و محلی دارد. این روش نیاز به تعیین هیچ یک از پارامترهای شعاع همسایگی، حد آستانه نقاط موجود در شعاع همسایگی و پارامتر نزدیک‌ترین همسایگی ندارد. NPOD برای تشخیص داده‌های پرت، یک روش جدید نمره‌دهی ارائه می‌دهد. ارزیابی نتایج بر روی مجموعه داده‌های UCI نشان می‌دهد که این الگوریتم با وجود بدون پارامتر بودنش، عملکردی قابل رقابت با روش‌های پیشین و در بعضی مواقع بهترین عملکرد را دارد. پرونده مقاله
      • دسترسی آزاد مقاله

        2 - تشخیص داده پرت در دادگان با ابعاد بالا با استفاده از انتخاب زیرفضای مرتبط محلی مبتنی بر آنتروپی
        محبوبه ریاحی مدوار احمد اکبری بابک ناصرشريف
        یکی از چالش‌های مسئله تشخیص داده پرت با ابعاد بالا، طلسم بعد است که در آن برخی ابعاد (ویژگی‌ها) منجر به پنهان‌شدن داده‌های پرت می‌گردند. برای حل این مسئله، ابعادی که حاوی اطلاعات ارزشمندی در دادگان با ابعاد بالا جهت تشخیص داده پرت هستند، جستجو می‌شوند تا با نگاشت دادگان چکیده کامل
        یکی از چالش‌های مسئله تشخیص داده پرت با ابعاد بالا، طلسم بعد است که در آن برخی ابعاد (ویژگی‌ها) منجر به پنهان‌شدن داده‌های پرت می‌گردند. برای حل این مسئله، ابعادی که حاوی اطلاعات ارزشمندی در دادگان با ابعاد بالا جهت تشخیص داده پرت هستند، جستجو می‌شوند تا با نگاشت دادگان به زیرفضای متشکل از این ابعاد مرتبط، داده‌های پرت برجسته‌تر و قابل شناسایی شوند. این مقاله با معرفی یک روش جدید انتخاب زیرفضای مرتبط محلی و توسعه یک رویکرد امتیازدهی داده پرت مبتنی بر چگالی محلی، امکان تشخیص داده پرت در دادگان با ابعاد بالا را فراهم می‌نماید. در ابتدا، یک الگوریتم برای انتخاب زیرفضای مرتبط محلی بر اساس آنتروپی محلی ارائه می‌شود تا بتواند برای هر نقطه داده با توجه به داده‌های همسایه‌اش یک زیرفضای مرتبط انتخاب کند. سپس هر نقطه داده در زیرفضای انتخابی متناظرش با یک روش امتیازدهی پرت محلی مبتنی بر چگالی امتیازدهی می‌شود، به طوری که با در نظر گرفتن یک پهنای باند تطبیقی جهت تخمین چگالی هسته سعی می‌شود که اختلاف جزئی بین چگالی یک نقطه داده نرمال با همسایه‌هایش از بین رفته و به اشتباه به عنوان داده پرت تشخیص داده نشود و در عین حال، تخمین کمتر از مقدار واقعی چگالی در نقاط داده پرت، منجر به برجسته‌شدن این نقاط داده گردد. در پایان با آزمایش‌های تجربی روی چندین دادگان دنیای واقعی، الگوریتم پیشنهادی تشخیص داده پرت زیرفضای مبتنی بر آنتروپی محلی با چند تکنیک تشخیص داده پرت بر حسب دقت تشخیص مقایسه شده است. نتایج تجربی نشان می‌دهد که الگوریتم پیشنهادی مبتنی بر معیار آنتروپی محلی و روش پیشنهادی امتیازدهی داده پرت توانسته است به دقت بالایی جهت تشخیص داده پرت دست یابند. پرونده مقاله