|
|
مقایسه عملکرد مدلهای دادهکاوی در پیشبینی بارش باران با استفاده از رویکرد دستهبندی (مطالعه موردی: ایستگاه هواشناسی سینوپتیک فرودگاه همدان)
|
|
|
|
|
نویسنده
|
صالحی سربیژن مرتضی ,دزفولیان حمید رضا
|
منبع
|
حفاظت منابع آب و خاك - 1402 - دوره : 13 - شماره : 4 - صفحه:113 -126
|
چکیده
|
زمینه و هدف: بارندگی یکی از پدیدههای پیچیده طبیعی و از مهمترین اجزای چرخه آب بوده و در سنجش خصوصیات اقلیمی هر منطقه نقش بسیار مهمی ایفا میکند. شناخت میزان و روند تغییرات بارش بهعنوان یکی از عناصر مهم هواشناسی، از یکسو جهت داشتن مدیریت اثربخش و برنامهریزی دقیقتر برای بخشهای کشاورزی، اقتصادی و اجتماعی و از سوی دیگر برای مطالعاتی مانند روانابها، خشکسالیها، وضعیت آبهای زیرزمینی و سیلابها ضروری است. همچنین پیشبینی بارش در مناطق شهری تاثیر بسیار زیادی بر کنترل ترافیک، جریان فاضلابها و فعالیتهای ساختوساز دارد. روش پژوهش: هدف این مطالعه مقایسه دقت مدلهای کلاسبندی درخت تصمیم (چاید (chaid)، درخت تصمیم c5، نیو بیزین (nb)، کوئست (quest) و جنگل تصادفی)، k نزدیکترین همسایگی (knn)، ماشین بردار پشتیبان (svm) و شبکه عصبی مصنوعی (ann) جهت پیشبینی وقوع بارش باران با استفاده از دادههای یک دوره 50 ساله در ایستگاه سینوپتیک فرودگاه همدان است. در این مطالعه از 80 درصد دادهها جهت آموزش و از 20 درصد دادهها جهت صحت سنجی مدلها استفادهشده و نتایج حاصل از اجرای مدلها با استفاده از معیارهای ماتریس درهمریختگی (اغتشاش)، منحنی roc و شاخص auc مقایسه شدند. برای ساخت متغیر کلاسبندی دادههای بارش و عدم بارش، با توجه به دادههای بارش، روزهای سال در دو کلاس روزهای وقوع بارش (y) و روزهای عدم وقوع بارش (n) دستهبندی شدند. در این تحقیق پیشپردازش دادهها با استفاده از پیشپردازش خودکار دادهها (adp) انجام شده و آنگاه کاهش ابعاد متغیرها از روش pca استفاده شد. یافتهها: در این مطالعه با توجه به روش pca ابعاد متغیرها به 5 بعد کاهش یافت. همچنین از دادههای موجود تقریباً 80 درصد، روزها بدون بارش و 20 درصد روزها با بارش هستند. نتایج تحقیق نشان داد که مدل knn با معیار صحت 91.9 برای دادههای آموزشی و مدل svm، 89.13 درصد برای دادههای آزمون بهترین عملکرد را بین مدلهای دادهکاوی داشتند. شاخص auc مدل knn برابر 0.97 در دادههای آموزشی و در دادههای آزمون مقدار 0.94 برای الگوریتم svm به دست آمد. همچنین با توجه به منحنی عملکرد سیستم (roc) برای دادههای بارش همدان مدل knn نسبت به سایر مدلها عملکرد بهتری را دارا میباشد. توجه به شاخص حساسیت در ماتریس اغتشاش، مدلهای knn و svm در پیشبینی عدم وقوع بارش برای دادههای آموزش بهتر عمل کردند. با توجه به شاخص خاصیت در پیشبینی وقوع بارش مدلهای rt و knn نتایج بهتری داشتند. نتایج: نتایج تحقیق نشان داد که در دادههای آموزش مقدار معیار صحت برای مدلهای rt، c5، ann، svm، bn،knn ، chaid و quest به ترتیب 86.82، 89.78، 89.55، 89.96، 88.06، 91.9، 88.29 و 87.46 بدست آمده اند. همچنین این معیار در دادههای آزمون برای این مدلها به ترتیب 83.2، 87.9، 88.12، 89.13، 87.12، 88.19، 86.93 و 86.76 به دست آمد. مقدار شاخص auc در دادههای آموزش برای مدلهای rt، c5، ann، svm، bn،knn ، chaid و quest به ترتیب 0.94، 0.92، 0.94، 0.94، 0.93، 0.97، 0.93 و 0.89 به دست آمد. همچنین این معیار در دادههای آزمون برای این مدلها به ترتیب 0.89، 0.89، 0.93، 0.94، 0.92، 0.90، 0.92 و 0.88 برآورد شد. همانطور که مشاهده شد، با توجه به معیارهای صحت و شاخص auc در دادههای آموزش مدل knn و با توجه به دادههای آزمون مدل svm کارا تر در پیشبینی بارش باران بودند.
|
کلیدواژه
|
شبکه عصبی مصنوعی، مدل k نزدیکترین همسایگی، ماشین بردار پشتیبان، پیشبینی بارش باران، مدلهای درخت تصمیم
|
آدرس
|
دانشگاه زابل, دانشکده فنی و مهندسی, گروه مهندسی مکانیک, ایران, دانشگاه بوعلی سینا, دانشکده فنی و مهندسی, گروه مهندسی صنایع, ایران
|
پست الکترونیکی
|
hrdezfoolian@basu.ac.ir
|
|
|
|
|
|
|
|
|
comparison of data mining models performance in rainfall prediction using classification approach (case study: hamedan airport synoptic weather station)
|
|
|
Authors
|
salehi sarbijan morteza ,dezfoulian hamidreza
|
Abstract
|
background and aim: rainfall is one of the complex natural phenomena and one of the most crucial component of the water cycle, playing a significant role in assessing the climatic characteristics of each region. understanding the amount and trends of rainfall changes is essential for effective management and more precise planning in agricultural, economic, and social sectors, as well as for studies related to runoff, droughts, groundwater status, and floods. additionally, rainfall prediction in urban areas has a significant impact on traffic control, sewage flow, and construction activities. method: the objective of this study is to compare the accuracy of classification models, including chi-squared automatic interaction detector (chaid), c5 decision tree, naive bayes (nb), quest tree, and random forest, k-nearest neighbors (knn), support vector machine (svm), and artificial neural network (ann) in predicting rainfall occurrence using 50 years of data from the synoptic station at hamedan airport. in this study, 80% of the data is used for training the models, and 20% for model validation and the results obtained from the model executions are compared using metrics such as confusion matrix, receiver operating characteristic (roc) curve, and the area under the curve (auc) index. to create the classification variable for rainfall and non-rainfall data, based on rainfall data, the days of the year are categorized into two classes: days with rainfall (y) and days without rainfall (n). data preprocessing is performed using automatic data preprocessing (adp). then, principal component analysis (pca) is employed to reduce the dimensions of the variables. results: in this study, the pca method reduces the dimensions of the variables to 5. also, approximately 80% of the available data corresponds to rainless days, while 20% corresponds to rainy days. the research results indicated that the knn model with an accuracy of 91.9% for training data and the svm model with 89.13% for test data exhibit the best performance among the data mining models. the auc index for the knn model is 0.967 for training data and 0.935 for test data, while for the svm algorithm, it is 0.967 for training data and 0.935 for test data. according to the roc curve for hamedan rainfall data, the knn model outperforms other models. considering the sensitivity index in the confusion matrix, the knn and svm models perform better in predicting non-rainfall occurrence for training data. in terms of the precipitation occurrence prediction, the rt and knn models show better results according to the specificity index. conclusion: the results demonstrated that for the rt, c5, ann, svm, bn, knn, chaid, quest, accuracy metrics was obtained 86.82%, 89.78%, 89.55%, 89.96%, 88.06%, 91.9%, 88.29%, 87.46%, 91.9%, respectively for training data. moreover, for test data, the accuracy metrics for this model was obtained 83.82%, 87.9%, 88.12%, 89.13%, 87.12%, 89.13%, 87.12%, 88.19%, 86.93%, 86.76%, respectively. the auc index in the training data for rt, c5, ann, svm, bn, knn, chaid quest models was 0.94%, 0.99%, 0.94%, 0.94%, 0.93%, 0.97%, 0.93%, 0.89%, respectively. in addition, for the test data, this metric was evaluated 0.89%, 0.89%, 0.93%, 0.94%, 0.92%, 0.90%, 0.92%, 0.88% respectively. as observed, considering accuracy metric and auc index for training data knn model and for test data svm model were more sufficient in rainfall prediction.
|
Keywords
|
rainfall prediction ,decision tree models ,k-nearest neighbors (knn) model ,artificial neural network ,support vector machine (svm)
|
|
|
|
|
|
|
|
|
|
|