عملکرد الگوریتم های ماتریس کواریانس با کمترین دترمینان در تحلیل داده های اکتشافی به روش تحلیل تمایز
|
|
|
|
|
نویسنده
|
گرانیان حمید
|
منبع
|
چهارمين كنفرانس ملي دادهكاوي در علوم زمين - 1402 - دوره : 4 - چهارمین کنفرانس ملی دادهکاوی در علوم زمین - کد همایش: 02231-42473 - صفحه:0 -0
|
چکیده
|
داده های خارج از ردیف باعث اریبدار شدن بردار میانگین و تورم ماتریس کواریانس برای یک مجموعه داده ی چندمتغیره می شوند. استفاده از چنین بردار و ماتریسی نیز نتایج اشتباهی را در تحلیل های آماری چندمتغیره و داده کاوی به همراه خواهد داشت. برای رفع این مشکل برآوردگرهای مقاوم پیشنهاد شده اند که نسبت به داده های خارج از ردیف پایا هستند. در این مقاله چهار برآوردگر مقاوم fast-mcd، det-mcd، mrcd و kernel-mrcd بر اساس کمینه کردن دترمینان ماتریس کواریانس معرفی شده اند که به ترتیب برای حالت های رسیدن سریع به جواب، جواب قطعی، داده ها با بعد زیاد و داده ها با ساختارهای پیچیده کاربرد دارند. کلاسه بندی یک مجموعه داده ی ژئوشیمیایی متعلق به نمونه های رسوبات آبراهه ای در برگه 000/1:100 خور در استان اصفهان با بعد 13×148 و با بردار میانگین و ماتریس کواریانس مرسوم توسط روش تحلیل تمایز نشان داد که صحت کلاسه بندی برای داده های آموزشی و آزمایشی حدود 71 درصد است. در حالیکه این صحت کلاسه بندی با برآوردگرهای مقاوم به حدود 85 درصد توسط الگوریتم fast-mcd، حدود 93 درصد توسط الگوریتم det-mcd، حدود 96 درصد توسط الگوریتم mrcd و حدود 98 درصد توسط الگوریتم kernel-mrcd میرسد. بنابراین استفاده از برآوردگرهای مقاوم در هنگام تحلیل داده های اکتشافی خصوصاً داده های ژئوشیمیایی که احتمال وجود داده ی خارج از ردیف در آنها بالا می باشد، لازم به نظر می رسد.
|
کلیدواژه
|
الگوریتم fast-mcd، الگوریتم det-mcd، الگوریتم mrcd، الگوریتم kernel-mrcd، تحلیل تمایز
|
آدرس
|
, iran
|
پست الکترونیکی
|
h.geranian@birjandut.ac.ir
|
|
|
|
|