تشخیص خودکار خطا در پایگاه داده، مبتنی بر خوشه‌بندی و نزدیک‌ترین همسایگی

Fa | Ar | En

تشخیص خودکار خطا در پایگاه داده، مبتنی بر خوشه‌بندی و نزدیک‌ترین همسایگی


نویسنده	عطاییان مهدیه ,دانشپور نگین
منبع	مهندسي برق و مهندسي كامپيوتر ايران - 1395 - دوره : 14 - شماره : 4 - صفحه:349 -356
چکیده	کیفیت داده‌ها در امر تصمیم‌گیری سازمان‌ها تاثیرگذار می‌باشد، به گونه‌ای که تصمیم‌گیری مبتنی بر داده‌های فاقد کیفیت سازمان را متحمل هزینه‌های بالایی می‌کند. کیفیت داده‌ها دارای ابعاد متنوعی می‌باشد که صحت از مهم‌ترین این ابعاد است. جهت تصحیح داده‌ها نیاز به تشخیص خطا وجود دارد که با توجه به حجم بالای داده‌ها، نیاز به یک سیستم خودکار است تا بدون دخالت کاربر این فرایند انجام گیرد. در این مقاله راهکاری خودکار مبتنی بر خوشه‌بندی k - means جهت تشخیص خطا ارائه شده است. در ابتدا به ازای هر ویژگی، داده‌ها خوشه‌بندی می‌شوند و سپس به ازای هر داده در آن خوشه از روش شبه k نزدیک‌ترین همسایه، جهت شناسایی خطا استفاده می‌شود. روش پیشنهادی توانایی تشخیص چندین خطا در یک رکورد را دارد و همچنین قادر است خطا در فیلدهایی با انواع داده متفاوت را نیز شناسایی کند. آزمایشات نشان می‌دهد که به طور متوسط این روش می‌تواند 91% خطاهای موجود در داده‌ها را شناسایی نماید. همچنین روش پیشنهادی با یک روش تشخیص خطا به وسیله قوانین که همانند راهکار پیشنهادی روشی خودکار برای تشخیص خطا در انواع داده‌ای متفاوت است نیز مورد مقایسه قرارگرفته و نتایج نشان می‌دهد که روش پیشنهادی به طور متوسط 25% عملکرد بهتری در تشخیص خطا داشته است.
کلیدواژه	تصحیح داده، تشخیص خودکار خطا، خوشه‌بندی، k-means
آدرس	دانشگاه تربیت دبیر شهید رجایی, دانشکده مهندسی کامپیوتر, ایران, دانشگاه تربیت دبیر شهید رجایی, دانشکده مهندسی کامپیوتر, ایران
پست الکترونیکی	ndaneshpour@srttu.edu

Automatic Error Detecting in Databases, Based on Clustering and Nearest Neighbor

Authors