تشخیص خودکار خطا در پایگاه داده، مبتنی بر خوشهبندی و نزدیکترین همسایگی
|
|
|
|
|
نویسنده
|
عطاییان مهدیه ,دانشپور نگین
|
منبع
|
مهندسي برق و مهندسي كامپيوتر ايران - 1395 - دوره : 14 - شماره : 4 - صفحه:349 -356
|
چکیده
|
کیفیت دادهها در امر تصمیمگیری سازمانها تاثیرگذار میباشد، به گونهای که تصمیمگیری مبتنی بر دادههای فاقد کیفیت سازمان را متحمل هزینههای بالایی میکند. کیفیت دادهها دارای ابعاد متنوعی میباشد که صحت از مهمترین این ابعاد است. جهت تصحیح دادهها نیاز به تشخیص خطا وجود دارد که با توجه به حجم بالای دادهها، نیاز به یک سیستم خودکار است تا بدون دخالت کاربر این فرایند انجام گیرد. در این مقاله راهکاری خودکار مبتنی بر خوشهبندی k - means جهت تشخیص خطا ارائه شده است. در ابتدا به ازای هر ویژگی، دادهها خوشهبندی میشوند و سپس به ازای هر داده در آن خوشه از روش شبه k نزدیکترین همسایه، جهت شناسایی خطا استفاده میشود. روش پیشنهادی توانایی تشخیص چندین خطا در یک رکورد را دارد و همچنین قادر است خطا در فیلدهایی با انواع داده متفاوت را نیز شناسایی کند. آزمایشات نشان میدهد که به طور متوسط این روش میتواند 91% خطاهای موجود در دادهها را شناسایی نماید. همچنین روش پیشنهادی با یک روش تشخیص خطا به وسیله قوانین که همانند راهکار پیشنهادی روشی خودکار برای تشخیص خطا در انواع دادهای متفاوت است نیز مورد مقایسه قرارگرفته و نتایج نشان میدهد که روش پیشنهادی به طور متوسط 25% عملکرد بهتری در تشخیص خطا داشته است.
|
کلیدواژه
|
تصحیح داده، تشخیص خودکار خطا، خوشهبندی، k-means
|
آدرس
|
دانشگاه تربیت دبیر شهید رجایی, دانشکده مهندسی کامپیوتر, ایران, دانشگاه تربیت دبیر شهید رجایی, دانشکده مهندسی کامپیوتر, ایران
|
پست الکترونیکی
|
ndaneshpour@srttu.edu
|
|
|
|
|