|
|
بهبود کارایی معیار طبقهبند چیرنف بهکمک الگوریتم تابع پرکننده
|
|
|
|
|
نویسنده
|
حمیدزاده جواد ,مرادی منا
|
منبع
|
پردازش علائم و داده ها - 1401 - شماره : 3 - صفحه:105 -118
|
چکیده
|
تحلیل تفکیککننده خطی یکی از روشهای پرکاربرد در حوزه کاهش ابعاد فضای ویژگی و طبقهبندی دادهها بهوسیله بیشینهسازی نسبت پراکندگی بین طبقهها به پراکندگی درون طبقهها است. این روش مبتنی بر معیار فیشر بوده و از تحلیل واریانس برای بیان تفکیکپذیری طبقهها استفاده میکند. مهمترین محدودیت این معیار در مواجهه با دادههای ناهمگن است. برای رفع این محدودیت، استفاده از فواصل توزیعی نظیر معیار چیرنف پیشنهاد شده است. معیار چیرنف با درنظرگرفتن فاصله چیرنف میان دو توزیع داده، قادر به اندازهگیری فواصل میان توابع چگالی احتمال و استخراج ویژگیهایی با بیشترین قابلیت تفکیککنندگی است؛ اما ایراد این روش آن است که چنانچه دو توزیع طبقه دادههای ناهمگن از یکدیگر فاصله کمی داشته باشند، موجب همپوشانی طبقهها در فضای نگاشت شده و باعث افزایش خطای طبقهبندی میشود. این مقاله، با معرفی روش انتخاب نمونه با نام حاشیه بیشینهای به شناسایی نمونههای مرزی و غیرمرزی پرداخته و با بهرهگیری از نمونههای مرزی، ماتریس پراکندگی مطلوبی برای افزایش کارایی تحلیل تفکیککننده خطی ایجاد میکند. در روش پیشنهادی، فرایند انتخاب نمونه همانند یک مساله بهینهسازی مقید دودویی در نظر گرفته شده و جوابهای مساله با استفاده از تابع پرکننده بهدست میآیند. عملکرد روش پیشنهادی بر روی دادههای برگرفتهشده از پایگاه داده uci بهوسیله روش اعتبارسنجی ضربدری دهتایی ارزیابی و با طبقه بندهای سنتی و مرز دانش مقایسه شده است. آزمایشها نشاندهنده برتری روش پیشنهادی از نظر صحت طبقهبندی و زمان محاسبه است.
|
کلیدواژه
|
طبقهبندی دادهها، معیار چیرنف، حاشیه حداکثری، تابع پرکننده
|
آدرس
|
دانشگاه سجاد, دانشکده مهندسی کامپیوتر و فناوری اطلاعات, ایران, دانشگاه سجاد, دانشکده مهندسی کامپیوتر و فناوری اطلاعات, ایران
|
پست الکترونیکی
|
mmoradi@semnan.ac.ir
|
|
|
|
|
|
|
|
|
improving chernoff criterion for classification by using the filled function
|
|
|
Authors
|
hamidzadeh javad ,moradi mona
|
Abstract
|
linear discriminant analysis is a well-known matrix-based dimensionality reduction method. it is a supervised feature extraction method used in two-class classification problems. however, it is incapable of dealing with data in which classes have unequal covariance matrices. taking this issue, the chernoff distance is an appropriate criterion to measure distances between distributions. in the proposed method, for data classification, lda is used to extract most discriminative features but instead of its fisher criterion, the chernoff distance is employed to preserve the discriminatory information for the several classes with heteroscedastic data. however, the chernoff distance cannot handle the situations where the component means of distributions are close and leads to the component distribution overlap and underperforming classification. to overcome this issue, the proposed method designs an instance selection method that provides the appropriate covariance matrices. aiming to improve lda-based feature selection, the proposed method includes two phases: (1) it removes non-border instances and keeps border ones by introducing a maximum margin sampling method. the basic idea of this phase is based on keeping the hyperplane that separates a two-class data and provides large margin separation. in this way, the most representative instances are selected. (2) it extracts features on selected instances by the proposed extension of lda which generates a desirable scatter matrix to increase the efficiency of lda. in the proposed method, the instance selection process is considered a constrained binary optimization problem with two contradicting objects, and the problem solutions are obtained by using a heuristic method named filled function. this optimization method does not easily get stuck in local minima; meanwhile, it is not affected by improper initial points. the performance of the proposed method on data collected from the uci database is evaluated by 10-fold validation. the results of experiments are compared to several competing methods, which show the superiority of the proposed method in terms of classification accuracy percentage and computational time.
|
Keywords
|
chernoff criterion ,data classification ,instance selection ,filled function ,maximum margin
|
|
|
|
|
|
|
|
|
|
|