>
Fa   |   Ar   |   En
   کاربرد رویکرد یادگیری حساس به هزینه برای پیش‌بینی کلاس‌های نامتعادل خاک  
   
نویسنده رحیمی مشکله مستانه ,دلاور محمد امیر ,جمشیدی محمد
منبع مديريت خاك و توليد پايدار - 1403 - دوره : 14 - شماره : 4 - صفحه:53 -73
چکیده    سابقه و هدف: مدیریت بهینه خاک و توسعه پایدار کشاورزی، نیاز به دسترسی اطلاعات دقیق و معتبر در مورد وضعیت و طبقه‌بندی خاک دارد و پیش‌بینی دقیق کلاس‌های خاک و تعیین مکانی آن‌ها از اهمیت بالایی برخوردار است. استفاده از روش‌های یادگیری ماشین و به‌خصوص رویکرد یادگیری حساس به هزینه می‌تواند با در نظر گرفتن نامتوازنی در توزیع کلاس‌های خاک، به بهبود دقت و کارایی پیش‌بینی کلاس‌های خاک کمک کرده و اطلاعات ارزشمندی برای مدیریت بهینه خاک و کشاورزی فراهم کند. با این هدف، این مطالعه در بخشی از اراضی جنوب غربی استان زنجان انجام شد.مواد و روش‌ها: تعداد 148 خاک‌رخ با روش الگوی شبکه‌بندی منظم و میانگین فاصله 500 متر حفر، تشریح و با تجزیه‌وتحلیل آزمایشگاهی تا سطح فامیل رده‌بندی شد. متغیرهای محیطی شامل اطلاعات نقشه‌های ژئومورفولوژی و زمین‌شناسی، مدل رقومی ارتفاع و داده‌های حاصل از تصاویر ماهواره‌ای لندست 8 بودند که بر اساس نظر کارشناسی و رویکرد تحلیل مولفه اصلی تعدادی از متغیرهای محیطی شامل اطلاعات نقشه‌های ژئومورفولوژی، اطلاعات زمین‌شناسی، سایه‌اندازی تپه‌ها، طلوع خورشید، عمق دره، شاخص طول در جهت شیب، فاصله تا شبکه آبراهه، شاخص رطوبتی توپوگرافی و شاخص همواری بالای پشته با درجه تفکیک بالا به‌عنوان موثرترین متغیرهای محیطی برای پیش‌بینی کلاس‌های خاک و ورودی مدل‌ها انتخاب شد. مدل‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌سازی رابطه خاک زمین‌نما با استفاده از الگوریتم یادگیرنده جنگل تصادفی و رویکرد یادگیری حساس به هزینه در محیط نرم‌افزار rstudio انجام شد.یافته‌ها: خاک‌های منطقه در پنج کلاس با توزیع نامتعادل تا سطح زیرگروه شامل تیپیک کلسی‌زرپتز، تیپیک هاپلوزرپتز، جیپسیک هاپلوزرپتز، تیپیک زراورتنتز و لیتیک زراورتنتز بودند. مقادیر صحت کلی و ضریب کاپا برای ارزیابی نقشه خاک در مدل جنگل تصادفی 65 درصد و 0.32 و در رویکرد یادگیری حساس به هزینه 86 درصد و 0.77 به دست آمد. مقادیر صحت‌سنجی پیش‌بینی کلاس‌های خاک در سطح زیرگروه نشان داد پس از متعادل‌سازی با رویکرد یادگیری حساس به هزینه تمامی کلاس‌های خاک به‌ویژه دو کلاس اقلیت جیپسیک هاپلوزرپتز و لیتیک زراورتنتز به ترتیب‌ با مقادیر صحت کاربر 100 درصد و صحت تولیدکننده 91 و 85 درصد، با صحت بسیار بالایی پیش‌بینی شدند. مقادیر شاخص حساسیت برای دو کلاس اقلیت جیپسیک هاپلوزرپتز (صفر) و لیتیک زراورتنتز (صفر) نشان می‌دهد که هیچ پیش‌بینی صحیحی برای این دو کلاس اقلیت انجام نگرفته است. مقادیر شاخص ویژگی برای کلاس های جیپسیک هاپلوزرپتز و لیتیک زراورتنتز به ترتیب‌ برابر 1 و 0.97 بود. این مقادیر نشان می‌دهند که توانایی مدل جنگل تصادفی در تشخیص این دو کلاس نسبت به سایر کلاس‌ها بسیار بالاتر است. نتایج صحت متعادل نشان داد که بااینکه تشخیص مدل در تمایز کلاس‌های اقلیت جیپسیک هاپلوزرپتز و لیتیک زراورتنتز با مقادیر 0.50 و 0.49 نسبت به سایر کلاس‌ها مشکل‌تر است اما بااین‌وجود مدل می‌تواند به‌صورت نسبتاً خوب کلاس‌ها را پیش‌بینی کند.نتیجه‌گیری: نتایج مطالعه موید آن است که روش بهبود داده‌های نامتعادل با رویکرد یادگیری حساس به هزینه سبب افزایش دقت پیش‌بینی در کلاس‌های خاک و نقشه تولیدشده می‌شود. تمرکز مدل در روش یادگیری حساس به هزینه‌بر روی داده‌های با فراوانی کم (اقلیت) است و این موضوع، موجب کاهش خطای پیش‌بینی و افزایش دقت مدل می‌گردد. نتایج نشان داد که الگوریتم جنگل تصادفی با استفاده از رویکرد یادگیری حساس به هزینه می‌تواند بهبود معناداری در تمایز دادن کلاس‌های خاک به‌ویژه کلاس‌های اقلیت داشته باشد.
کلیدواژه جنگل تصادفی، صحت متعادل، کلاس اقلیت، یادگیری ماشین
آدرس دانشگاه زنجان, دانشکده کشاورزی, گروه علوم خاک, ایران, دانشگاه زنجان, دانشکده کشاورزی, گروه علوم خاک, ایران, سازمان تحقیقات، آموزش و ترویج کشاورزی, موسسه تحقیقات خاک و آب, ایران
پست الکترونیکی mohammadjamshidi@yahoo.com
 
   using of cost-sensitive learning approach for prediction of imbalanced soil classes  
   
Authors rahimi mashkale mastaneh ,delavar mohammad amir ,jamshidi mohammad
Abstract    background and objectives: optimal soil management and sustainable agricultural development require access to accurate and reliable information about the condition and classification of soil, and accurate prediction of soil classes and their location is of great importance. the use of machine learning methods and especially the cost sensitive learning approach can help to improve the accuracy and efficiency of soil class prediction by considering the imbalance in the distribution of soil classes and providing valuable information for optimal soil management and agriculture. with this aim, this study was conducted in a part of the southwest lands of zanjan province.materials and methods: a number of 148 soil profiles were excavated using a regular grid pattern with an average spacing of 500 meters (and in some locations, up to 700 meters based on expert recommendations), described and classified by laboratory analysis up to the family level. covariates included geomorphological and geological map information, digital elevation model (dem), and data from landsat 8 satellite images that used principal component analysis (pca) and expert knowledge approaches, some covariates including geomorphological maps, geological information, analytical hill shading, sunrise, valley depth, ls factor, channel network distance, topographic wetness index and multi resolution ridge top flatness as the most effective covariates for predicting soil classes and model input is selected. modeling of the soil landscape relationship was performed using the algorithm, random forest (rf), and ensemble model (after data balancing) in “rstudio” software.results: the soils of the region at the subgroup level were categorized in five classes, with imbalanced distribution, including typic calcixerepts, typic haploxerepts, gypsic haploxerepts, typic xerorthents, and lithic xerorthents. the results of overall accuracy and kappa coefficient for evaluating soil map in random forest model were 65% and 0.32 before data balancing and after balancing the data with a cost sensitive learning approach 86% and 0.77, respectively. the accuracy values of the prediction of soil classes at the subgroup level showed that after balancing with a cost sensitive learning approach, all soil classes, especially the two minority classes of gypsic haploxerepts and lithic xerorthents, with user accuracy values of 100% and 100% and producer accuracy of 91% and 85% respectively, were predicted with very high accuracy. the values of the sensitivity index for the two minority classes of gypsic haploxerepts (zero) and lithic xerorthents (zero) show that no correct prediction has been made for these two minority classes. the specificity index values for gypsic haploxerepts and lithic xerorthents classes are equal to 1 and 0.97, respectively, these values show that the ability of the model to distinguish these two classes is very high compared to other classes. the results of balanced accuracy showed that the accuracy of the model in differentiating the minority classes of gypsic haploxerepts and lithic xerorthents with the values of 0.50 and 0.49 by the model is more difficult than other classes, but the model can predict the classes relatively well.conclusion: the results of the study confirm that the method of improving imbalanced data with a cost sensitive learning approach increases the accuracy of prediction in soil classes and produced maps. the focus of the model in the cost sensitive learning method is on the data with the low number (minority) and this reduces the prediction error and increases the accuracy of the model. the results showed that the random forest algorithm using the cost sensitive learning approach can have a significant improvement in distinguishing soil classes, especially minority classes.
Keywords balanced accuracy ,machine learning ,minority class ,random forest
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved