>
Fa   |   Ar   |   En
   کاربرد الگوریتم های داده کاوی در تشخیص داده های ژئوشیمیایی خارج از ردیف چند متغیره  
   
نویسنده گرانیان حمید ,خواجه میری زهرا
منبع مهندسي معدن - 1398 - دوره : 14 - شماره : 45 - صفحه:63 -82
چکیده    ﺗﺸﺨﯿﺺ داده ﻫﺎی ﺧﺎرج از ردﯾﻒ ﭼﻨﺪ ﻣﺘﻐﯿﺮه ﺑﻪ ﮐﻤﮏ اﻟﮕﻮرﯾﺘﻢ ﻫﺎی داده ﮐﺎوی ﯾﮑﯽ از ﻧﮑﺎت ﺿﺮوری ﭘﯿﺶ ﭘﺮدازش داده ﻫﺎی اﮐﺘﺸﺎﻓﺎت ژﺋﻮﺷﯿﻤﯿﺎﯾﯽ ﻣﺤﺴﻮب ﻣﯽ ﺷﻮد. در اﯾﻦ ﻣﻘﺎﻟﻪ ﭼﻬﺎر اﻟﮕﻮرﯾﺘﻢ ﺑﺮآورد ﭼﮕﺎﻟﯽ ﮐﺮﻧﻞ (kde)، ﺿﺮﯾﺐ ﺧﺎرج از ردﯾﻒ ﺑﻮدن ﻣﺤﻠﯽ optics- ،)lof) of و svdd ﮐﻪ ﺑﻪ ﺗﺮﺗﯿﺐ ﺟﺰو روش ﻫﺎی آﻣﺎری، روش ﻫﺎی ﻣﺒﺘﻨﯽ ﺑﺮ ﻣﺠﺎورت، روش ﻫﺎی ﻣﺒﺘﻨﯽ ﺑﺮ ﺧﻮﺷﻪ ﺑﻨﺪی و روش ﻫﺎی ﻣﺒﺘﻨﯽ ﺑﺮ دﺳﺘﻪ ﺑﻨﺪی اﻧﺪ، ﻣﻌﺮﻓﯽ ﺷﺪه اﻧﺪ و در اداﻣﻪ ﮐﺎرﺑﺮد آن ﻫﺎ ﺑﺮ روی داده ﻫﺎی ژﺋﻮﺷﯿﻤﯿﺎﯾﯽ ورﻗﻪ 1:100،000 روم ﺑﺎ ﻣﺎﺗﺮﯾﺲ داده 902×41 ﺑﺮرﺳﯽ ﺷﺪه اﺳﺖ. ﺑﺮای اﯾﻦ ﻣﻨﻈﻮر اﺑﺘﺪا روش ilr ﺑﺮای ﺑﺎز ﮐﺮدن ﺳﯿﺴﺘﻢ ﻋﺪدی داده ﻫﺎ ﺑﻪ ﮐﺎر رﻓﺘﻪ و ﺳﭙﺲ داده ﻫﺎ در ﺑﺎزه ﺻﻔﺮ ﺗﺎ ﯾﮏ اﺳﺘﺎﻧﺪارد ﺷﺪه اﺳﺖ. ﻧﺘﺎﯾﺞ ﭘﯿﺎده ﺷﺪه ﭼﻬﺎر اﻟﮕﻮرﯾﺘﻢ ﻓﻮق ﺑﺮ روی ﻣﺠﻤﻮﻋﻪ داده ﻫﺎی اﺳﺘﺎﻧﺪارد ﺷﺪه، ﻧﺸﺎن ﻣﯽ دﻫﺪ ﮐﻪ در روﯾﮑﺮد ﺗﺸﺨﯿﺺ ﻧﻤﻮﻧﻪ ﻫﺎی دارای ﺧﻄﺎ، 10 ﻧﻤﻮﻧﻪ ﮐﻪ دارای ﺑﺎﻻﺗﺮﯾﻦ اﺣﺘﻤﺎل ﺧﺎرج از ردﯾﻒ ﺑﻮدن اﻧﺪ و در ﻫﺮ ﭼﻬﺎر اﻟﮕﻮرﯾﺘﻢ ﻧﯿﺰ ﯾﮑﺴﺎن اﻧﺪ را ﻣﯽ ﺗﻮان ﺑﺮای ﺑﺮرﺳﯽ ﺑﯿﺸﺘﺮ ﺑﻪ ﻋﻨﻮان ﻧﻤﻮﻧﻪ ﻫﺎی اﻧﺘﺨﺎﺑﯽ ﺑﺮای ﻧﻤﻮﻧﻪ ﺑﺮداری ﺗﮑﺮاری در ﻧﻈﺮ ﮔﺮﻓﺖ. در روﯾﮑﺮد ﺗﺸﺨﯿﺺ ﻧﻤﻮﻧﻪ ﻫﺎی ﻏﯿﺮﻧﺮﻣﺎل، از 150 ﻧﻤﻮﻧﻪ اﻧﺘﺨﺎﺑﯽ 74/5 درﺻﺪ از ﻧﻤﻮﻧﻪ ﻫﺎ در ﻫﺮ ﭼﻬﺎر اﻟﮕﻮرﯾﺘﻢ و 16/1 و 9/4 درﺻﺪ ﻧﯿﺰ ﺑﻪ ﺗﺮﺗﯿﺐ در ﯾﮏ و دو اﻟﮕﻮرﯾﺘﻢ ﺑﻪ ﻋﻨﻮان داده ﺧﺎرج از ردﯾﻒ ﺷﻨﺎﺳﺎﯾﯽ ﺷﺪه اﺳﺖ. ﻣﻘﺎﯾﺴﻪ ﻧﺘﺎﯾﺞ اﻟﮕﻮرﯾﺘﻢ ﻫﺎی اﻧﺘﺨﺎﺑﯽ ﺑﺎ روش ﮐﻼﺳﯿﮏ ﻓﺎﺻﻠﻪ ﻣﺎﻫﺎﻻﻧﻮﺑﯿﺘﺲ ﻧﺸﺎن دﻫﻨﺪه ﺑﺮﺗﺮی آن ﻫﺎ در ﻫﺮ دو روﯾﮑﺮد اﺳﺖ. ﻫﻤﭽﻨﯿﻦ ﭘﯿﺸﻨﻬﺎدی ﻣﯽ ﺷﻮد از اﻟﮕﻮرﯾﺘﻢ ﻫﺎی ﺗﺸﺨﯿﺺ داده ﻫﺎی ﺧﺎرج از ردﯾﻒ ﭼﻨﺪ ﻣﺘﻐﯿﺮه ﻣﯽ ﺗﻮان ﺑﺮای ﺗﻌﯿﯿﻦ ﻧﻤﻮﻧﻪ ﺑﺮداری ﻫﺎی ﺗﮑﺮاری، ﻣﺤﺎﺳﺒﻪ ﻣﺎﺗﺮﯾﺲ ﻣﻮﻗﻌﯿﺖ و ﭘﺮاﮐﻨﺪﮔﯽ در آﻣﺎر ﭼﻨﺪ ﻣﺘﻐﯿﺮه ﻣﻘﺎوم ﭘﺲ از ﺣﺬف داده ﻫﺎی ﻏﯿﺮ ﻧﺮﻣﺎل و ﺗﻌﯿﯿﻦ آﻧﻮﻣﺎﻟﯽ ﻫﺎی ژﺋﻮﺷﯿﻤﯿﺎﯾﯽ اﺳﺘﻔﺎده ﮐﺮد.
کلیدواژه داده ﻫﺎی ﺧﺎرج از ردﯾﻒ، ﺑﺮآورد ﭼﮕﺎﻟﯽ ﮐﺮﻧﻞ، ﺿﺮﯾﺐ ﺧﺎرج از ردﯾﻒ ﺑﻮدن ﻣﺤﻠﯽ، روش optics-of، روش svdd، ورﻗﻪ روم.
آدرس دانشگاه صنعتی بیرجند, گروه معدن, ایران, کارشناس سازمان صنعت، معدن و تجارت استان خراسان جنوبی, ایران
پست الکترونیکی zahra_khajemiri@yahoo.com
 
   Multivariate inlier and outlier data detection by using of data mining algorithms Case study: Geochemical data at 1:100000 Roum sheet in South Khorasan  
   
Authors Geranian Hamid ,Khajeh Miry Zahra
Abstract    In this paper, four data mining algorithms, namely, kernel density estimation, local outlier factor, OPTICSOF and SVDD are used to determine multivariate outlier data. So, stream sediment geochemical data, in 1:100000 Roum sheet, with 902⨉41 matrix dimensions have been utilized. Replacing censored data, converting the data set to an open number system and finally standardizing them are used as preprocessing methods. Results show that in error sample detection approach, 10 samples that have the highest outlier probability, and are present in equal numbers in the four mentioned algorithms, can be considered for more study as replicate sampling. In nonnormal sample detection approach, form 150 selected samples, 74.5درصد of samples are detected as outliers in the four mentioned algorithms, and 16.1 and 9.4 percent are recognized as the outlier data in one and two of the aforementioned algorithms, respectively. Determining of replicate sampling, calculating location and scatter matrices in multivariate robust statistics after eliminating nonnormal samples and geochemical anomaly detection are suggested as the applications of these algorithms.
Keywords
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved