کیفیت دادهها در امر تصمیمگیری سازمانها تأثیرگذار میباشد، به گونهای که تصمیمگیری مبتنی بر دادههای فاقد کیفیت سازمان را متحمل هزینههای بالایی میکند. کیفیت دادهها دارای ابعاد متنوعی میباشد که صحت از مهمترین این ابعاد است. جهت تصحیح دادهها نیاز به تشخیص خطا وجو More
کیفیت دادهها در امر تصمیمگیری سازمانها تأثیرگذار میباشد، به گونهای که تصمیمگیری مبتنی بر دادههای فاقد کیفیت سازمان را متحمل هزینههای بالایی میکند. کیفیت دادهها دارای ابعاد متنوعی میباشد که صحت از مهمترین این ابعاد است. جهت تصحیح دادهها نیاز به تشخیص خطا وجود دارد که با توجه به حجم بالای دادهها، نیاز به یک سیستم خودکار است تا بدون دخالت کاربر این فرایند انجام گیرد. در این مقاله راهکاری خودکار مبتنی بر خوشهبندی k - means جهت تشخیص خطا ارائه شده است. در ابتدا به ازای هر ویژگی، دادهها خوشهبندی میشوند و سپس به ازای هر داده در آن خوشه از روش شبه k نزدیکترین همسایه، جهت شناسایی خطا استفاده میشود. روش پیشنهادی توانایی تشخیص چندین خطا در یک رکورد را دارد و همچنین قادر است خطا در فیلدهایی با انواع داده متفاوت را نیز شناسایی کند. آزمایشات نشان میدهد که به طور متوسط این روش میتواند 91% خطاهای موجود در دادهها را شناسایی نماید. همچنین روش پیشنهادی با یک روش تشخیص خطا به وسیله قوانین که همانند راهکار پیشنهادی روشی خودکار برای تشخیص خطا در انواع دادهای متفاوت است نیز مورد مقایسه قرارگرفته و نتایج نشان میدهد که روش پیشنهادی به طور متوسط 25% عملکرد بهتری در تشخیص خطا داشته است.
Manuscript profile
Rimag
Rimag is an integrated platform to accomplish all scientific journal requirements such as submission, evaluation, reviewing, editing, DOI assignment and publishing in the web.