|
|
یک روش بدون پارامتر مبتنی بر نزدیکی برای تشخیص دادههای پرت
|
|
|
|
|
نویسنده
|
صالحی یحیی ,دانشپور نگین
|
منبع
|
مهندسي برق و مهندسي كامپيوتر ايران - 1398 - دوره : 17 - شماره : 1 - صفحه:16 -24
|
چکیده
|
تشخیص دادههای پرت به عنوان یک حوزه تحقیق در دادهکاوی و یادگیری ماشین بوده و یک گام مهم در پیشپردازش دادهها به حساب میآید. در این مقاله یک روش بدون پارامتر به منظور تشخیص دادههای پرت مبتنی بر نزدیکی به نام npod ارائه شده است. رهیافت ارائهشده، ترکیبی از روشهای مبتنی بر فاصله و مبتنی بر چگالی بوده و توانایی تشخیص پرتها را به صورت سراسری و محلی دارد. این روش نیاز به تعیین هیچ یک از پارامترهای شعاع همسایگی، حد آستانه نقاط موجود در شعاع همسایگی و پارامتر نزدیکترین همسایگی ندارد. npod برای تشخیص دادههای پرت، یک روش جدید نمرهدهی ارائه میدهد. ارزیابی نتایج بر روی مجموعه دادههای uci نشان میدهد که این الگوریتم با وجود بدون پارامتر بودنش، عملکردی قابل رقابت با روشهای پیشین و در بعضی مواقع بهترین عملکرد را دارد.
|
کلیدواژه
|
بدون پارامتر، تشخیص دادههای پرت، مبتنی بر نزدیکی
|
آدرس
|
دانشگاه تربیت دبیر شهید رجایی, دانشکده مهندسی کامپیوتر, ایران, دانشگاه شهید رجایی, دانشکده مهندسی کامپیوتر, ایران
|
پست الکترونیکی
|
ndaneshpour@sru.ac.ir
|
|
|
|
|
|
|
|
|
A NonParametric ProximityBased Method for Outlier Detection
|
|
|
Authors
|
Salehi Y.
|
Abstract
|
The detection of outliers is a task in data mining and machine learning and it’s an important step in data preprocessing. In this paper, in order to detect proximitybased outliers, a nonparametric method is proposed called NPOD. The proposed method is a combination of distancebased and densitybased methods and has the ability to detect outliers in both local and global scenarios. This method does not require to determine any parameters of neighborhood radius, the threshold of existing points in the neighborhood radius, and the nearest neighbor parameters. In order to detect outliers, a new method of scoring is presented. Experimental results on the UCI datasets show that this algorithm, in spite of being nonparametric, has comparable results with previous methods. Also in some cases, it has the best performance.
|
Keywords
|
|
|
|
|
|
|
|
|
|
|
|