|
|
|
|
کاربرد رویکرد یادگیری حساس به هزینه برای پیشبینی کلاسهای نامتعادل خاک
|
|
|
|
|
|
|
|
نویسنده
|
رحیمی مشکله مستانه ,دلاور محمد امیر ,جمشیدی محمد
|
|
منبع
|
مديريت خاك و توليد پايدار - 1403 - دوره : 14 - شماره : 4 - صفحه:53 -73
|
|
چکیده
|
سابقه و هدف: مدیریت بهینه خاک و توسعه پایدار کشاورزی، نیاز به دسترسی اطلاعات دقیق و معتبر در مورد وضعیت و طبقهبندی خاک دارد و پیشبینی دقیق کلاسهای خاک و تعیین مکانی آنها از اهمیت بالایی برخوردار است. استفاده از روشهای یادگیری ماشین و بهخصوص رویکرد یادگیری حساس به هزینه میتواند با در نظر گرفتن نامتوازنی در توزیع کلاسهای خاک، به بهبود دقت و کارایی پیشبینی کلاسهای خاک کمک کرده و اطلاعات ارزشمندی برای مدیریت بهینه خاک و کشاورزی فراهم کند. با این هدف، این مطالعه در بخشی از اراضی جنوب غربی استان زنجان انجام شد.مواد و روشها: تعداد 148 خاکرخ با روش الگوی شبکهبندی منظم و میانگین فاصله 500 متر حفر، تشریح و با تجزیهوتحلیل آزمایشگاهی تا سطح فامیل ردهبندی شد. متغیرهای محیطی شامل اطلاعات نقشههای ژئومورفولوژی و زمینشناسی، مدل رقومی ارتفاع و دادههای حاصل از تصاویر ماهوارهای لندست 8 بودند که بر اساس نظر کارشناسی و رویکرد تحلیل مولفه اصلی تعدادی از متغیرهای محیطی شامل اطلاعات نقشههای ژئومورفولوژی، اطلاعات زمینشناسی، سایهاندازی تپهها، طلوع خورشید، عمق دره، شاخص طول در جهت شیب، فاصله تا شبکه آبراهه، شاخص رطوبتی توپوگرافی و شاخص همواری بالای پشته با درجه تفکیک بالا بهعنوان موثرترین متغیرهای محیطی برای پیشبینی کلاسهای خاک و ورودی مدلها انتخاب شد. مدلسازی رابطه خاک زمیننما با استفاده از الگوریتم یادگیرنده جنگل تصادفی و رویکرد یادگیری حساس به هزینه در محیط نرمافزار rstudio انجام شد.یافتهها: خاکهای منطقه در پنج کلاس با توزیع نامتعادل تا سطح زیرگروه شامل تیپیک کلسیزرپتز، تیپیک هاپلوزرپتز، جیپسیک هاپلوزرپتز، تیپیک زراورتنتز و لیتیک زراورتنتز بودند. مقادیر صحت کلی و ضریب کاپا برای ارزیابی نقشه خاک در مدل جنگل تصادفی 65 درصد و 0.32 و در رویکرد یادگیری حساس به هزینه 86 درصد و 0.77 به دست آمد. مقادیر صحتسنجی پیشبینی کلاسهای خاک در سطح زیرگروه نشان داد پس از متعادلسازی با رویکرد یادگیری حساس به هزینه تمامی کلاسهای خاک بهویژه دو کلاس اقلیت جیپسیک هاپلوزرپتز و لیتیک زراورتنتز به ترتیب با مقادیر صحت کاربر 100 درصد و صحت تولیدکننده 91 و 85 درصد، با صحت بسیار بالایی پیشبینی شدند. مقادیر شاخص حساسیت برای دو کلاس اقلیت جیپسیک هاپلوزرپتز (صفر) و لیتیک زراورتنتز (صفر) نشان میدهد که هیچ پیشبینی صحیحی برای این دو کلاس اقلیت انجام نگرفته است. مقادیر شاخص ویژگی برای کلاس های جیپسیک هاپلوزرپتز و لیتیک زراورتنتز به ترتیب برابر 1 و 0.97 بود. این مقادیر نشان میدهند که توانایی مدل جنگل تصادفی در تشخیص این دو کلاس نسبت به سایر کلاسها بسیار بالاتر است. نتایج صحت متعادل نشان داد که بااینکه تشخیص مدل در تمایز کلاسهای اقلیت جیپسیک هاپلوزرپتز و لیتیک زراورتنتز با مقادیر 0.50 و 0.49 نسبت به سایر کلاسها مشکلتر است اما بااینوجود مدل میتواند بهصورت نسبتاً خوب کلاسها را پیشبینی کند.نتیجهگیری: نتایج مطالعه موید آن است که روش بهبود دادههای نامتعادل با رویکرد یادگیری حساس به هزینه سبب افزایش دقت پیشبینی در کلاسهای خاک و نقشه تولیدشده میشود. تمرکز مدل در روش یادگیری حساس به هزینهبر روی دادههای با فراوانی کم (اقلیت) است و این موضوع، موجب کاهش خطای پیشبینی و افزایش دقت مدل میگردد. نتایج نشان داد که الگوریتم جنگل تصادفی با استفاده از رویکرد یادگیری حساس به هزینه میتواند بهبود معناداری در تمایز دادن کلاسهای خاک بهویژه کلاسهای اقلیت داشته باشد.
|
|
کلیدواژه
|
جنگل تصادفی، صحت متعادل، کلاس اقلیت، یادگیری ماشین
|
|
آدرس
|
دانشگاه زنجان, دانشکده کشاورزی, گروه علوم خاک, ایران, دانشگاه زنجان, دانشکده کشاورزی, گروه علوم خاک, ایران, سازمان تحقیقات، آموزش و ترویج کشاورزی, موسسه تحقیقات خاک و آب, ایران
|
|
پست الکترونیکی
|
mohammadjamshidi@yahoo.com
|
|
|
|
|
|
|
|
|
|
|
|
|
using of cost-sensitive learning approach for prediction of imbalanced soil classes
|
|
|
|
|
Authors
|
rahimi mashkale mastaneh ,delavar mohammad amir ,jamshidi mohammad
|
|
Abstract
|
background and objectives: optimal soil management and sustainable agricultural development require access to accurate and reliable information about the condition and classification of soil, and accurate prediction of soil classes and their location is of great importance. the use of machine learning methods and especially the cost sensitive learning approach can help to improve the accuracy and efficiency of soil class prediction by considering the imbalance in the distribution of soil classes and providing valuable information for optimal soil management and agriculture. with this aim, this study was conducted in a part of the southwest lands of zanjan province.materials and methods: a number of 148 soil profiles were excavated using a regular grid pattern with an average spacing of 500 meters (and in some locations, up to 700 meters based on expert recommendations), described and classified by laboratory analysis up to the family level. covariates included geomorphological and geological map information, digital elevation model (dem), and data from landsat 8 satellite images that used principal component analysis (pca) and expert knowledge approaches, some covariates including geomorphological maps, geological information, analytical hill shading, sunrise, valley depth, ls factor, channel network distance, topographic wetness index and multi resolution ridge top flatness as the most effective covariates for predicting soil classes and model input is selected. modeling of the soil landscape relationship was performed using the algorithm, random forest (rf), and ensemble model (after data balancing) in “rstudio” software.results: the soils of the region at the subgroup level were categorized in five classes, with imbalanced distribution, including typic calcixerepts, typic haploxerepts, gypsic haploxerepts, typic xerorthents, and lithic xerorthents. the results of overall accuracy and kappa coefficient for evaluating soil map in random forest model were 65% and 0.32 before data balancing and after balancing the data with a cost sensitive learning approach 86% and 0.77, respectively. the accuracy values of the prediction of soil classes at the subgroup level showed that after balancing with a cost sensitive learning approach, all soil classes, especially the two minority classes of gypsic haploxerepts and lithic xerorthents, with user accuracy values of 100% and 100% and producer accuracy of 91% and 85% respectively, were predicted with very high accuracy. the values of the sensitivity index for the two minority classes of gypsic haploxerepts (zero) and lithic xerorthents (zero) show that no correct prediction has been made for these two minority classes. the specificity index values for gypsic haploxerepts and lithic xerorthents classes are equal to 1 and 0.97, respectively, these values show that the ability of the model to distinguish these two classes is very high compared to other classes. the results of balanced accuracy showed that the accuracy of the model in differentiating the minority classes of gypsic haploxerepts and lithic xerorthents with the values of 0.50 and 0.49 by the model is more difficult than other classes, but the model can predict the classes relatively well.conclusion: the results of the study confirm that the method of improving imbalanced data with a cost sensitive learning approach increases the accuracy of prediction in soil classes and produced maps. the focus of the model in the cost sensitive learning method is on the data with the low number (minority) and this reduces the prediction error and increases the accuracy of the model. the results showed that the random forest algorithm using the cost sensitive learning approach can have a significant improvement in distinguishing soil classes, especially minority classes.
|
|
Keywords
|
balanced accuracy ,machine learning ,minority class ,random forest
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|