|
|
بازسازی داده های گمشده جریان روزانه رودخانه با استفاده از الگوریتم جنگل گمشده در حوزه بلوچستان جنوبی، ایران
|
|
|
|
|
نویسنده
|
آریان منش جواد ,نظری پور حمید ,محمودی پیمان ,خسروی پرویز
|
منبع
|
پژوهشنامه مديريت حوزه آبخيز - 1403 - دوره : 15 - شماره : 2 - صفحه:49 -64
|
چکیده
|
مقدمه و هدف: سریهای زمانی کامل هیدرولوژیکی برای مدیریت و مدلسازی منابع آب و انرژی در یک اقلیم در حال تغییر حیاتی هستند. با اینحال، چنین متغیرهایی اغلب با دادههای گمشده همراه هستند، که فرایند تجزیه و تحلیل را دشوار و یا گاهی غیرممکن میکند. شکافهای داده باعث مشکلاتی در تفسیر، واسنجی ناکارآمد مدل و آمارههای اُریبدار میشوند. در این بررسی، اعتبار یک الگوریتم ماشین یادگیری تصادفی غیرپارامتری که جنگل گمشده (missforest) نام دارد برای پرکردن شکاف سریهای زمانی جریان روزانه در منطقهای با داده کمیاب و تغییرپذیری اقلیمی قوی، ارزیابی گردیده است.مواد و روشها: دادههای جریان روزانه در ایستگاههای جریانسنجی حوزه آبریز بلوچستان جنوبی در یک دوره طولانیمدت هیدرولوژیکی (1972/09/23 تا 2018/09/22) مورد بررسی قرار گرفته است. منطقه مورد مطالعه این پژوهش (حوزه آبریز بلوچستان جنوبی) از مجموعه حوزه آبریز خلیج فارس و دریای عمان بوده و با حدود بین سدیج و مرکز پاکستان شناخته میشود. درصد گمشدگی بر اساس یک معیار قراردادی (کمتر از 50 درصد) بهعنوان نسبت قابلقبول از نرخ گمشدگی در دادههای جریان انتخاب و سپس مکانیسمها و الگوهای گمشدگی دادهها تعیین گردیده است. بر این اساس، تعداد ایستگاههای جریانسنجی از 11 به 7 نمونه کاهش یافته است. سپس توزیع زمانی جریانهای روزانه گمشده در طول ماههای سال و فراوانی نسبی طول گمشدگی در کل دوره مورد بررسی قرار گرفته است. در ادامه، عملکرد الگوریتم بازسازی دادههای گمشده با دو سناریوی متفاوت داده گمشده مصنوعی به چالش کشیده شده است. برای اینمنظور، دو نوع شکاف مصنوعی در قسمت دادههای کامل ایجاد شده است. الف) در هر ایستگاه جریانسنجی یک بخش از دادهها (با طول 7، 14، 21، 30، 60، 180 و 365 روز) بهطور تصادفی از کل دوره حذف شده است. ب) نقاط داده منفرد شامل مقادیر مشاهده شده روزهای (30، 60، 90، 120، 180 و 365) بهطور تصادفی از کل دوره (2018-1972) حذف شدهاند. الگوریتم جنگل گمشده برای پُرکردن شکافهای مصنوعی اجرا و سپس اعتبارسنجی الگوریتم در پُرکردن دادههای گمشده جریان روزانه با مقایسه سریهای پُرشده با دادههای مشاهده شده، از طریق آزمونهای سهگانه نیکویی برازش (gof) شامل ضریب تعیین (r2)، درصد بایاس یا اریب (pbias) و معیار کلینگ- کوپتا (kge) تست شده است. علاوه بر آن، برخی کنترلها در عملکرد الگوریتم جنگل گمشده جهت حساسیتسنجی انجام شده است. به این مفهوم که الگوریتم جنگل گمشده با درصدهای مختلف از گمشدگی داده در ایستگاه هدف (%5، %10، %15، %20، %25 و %30) و همچنین تعداد رکوردهای پیشبینی کننده جریان ایستگاه هدف، آزمایش شده است.یافتهها: نتایج نشان داد که بهطور کلی الگوریتم جنگل گمشده عملکرد رضایتبخش و خوبی داشته و امکان شبیهسازی دقیق و مطمئن دادههای از دست رفته را بهسرعت و بهصورت خودکار فراهم میآورد. عملکرد الگوریتم جنگل گمشده بهشدت تابعی از تعداد رکوردهای پیشبینی کننده، طول رکورد و نوع جریان رودخانه میباشد. عملکرد الگوریتم جنگل گمشده به درصد گمشدگی دادههای ایستگاه هدف حساس و به تعداد رکوردهای پیشبینی کننده بیتفاوت بوده است. با افزایش درصد گمشدگی دادهها، عملکرد الگوریتم جنگل گمشده بهطور قابل ملاحظه کاهش یافته است. علاوه بر آن، این الگوریتم گمشدگیهای کوتاهمدت را نسبت به گمشدگیهای طولانیمدت، دقیقتر برآورد میکند. عملکرد الگوریتم جنگل گمشده به تعداد رکوردهای پیشبینی کننده حساس نمیباشد. این وضعیت، به ماهیت هیدروفیزیوگرافی زیرحوضههای آبریز و موقعیت ایستگاههای آبسنجی مربوط میشود. تنها در صورتی عملکرد الگوریتم جنگل گمشده برای یک ایستگاه خاص با افزایش رکوردهای پیشبینی کننده بهبود مییابد که ایستگاههای اهداءگر در حوضه آبریز مشترک با ایستگاه هدف قرار داشته باشند در نهایت، بازسازی شکافهای واقعی در دادههای جریان از طریق اعمال این الگوریتم هوشمند ممکن گردید. سریهای زمانی جریان رودخانهها با رژیم جریان طبیعی با عملکرد خوب شبیهسازی شد؛ درحالیکه این عملکرد برای تغییرات دبی در نتیجه ذخیرهسازی و انحراف آب برای آبیاری بهویژه در پایین دست سدها اندکی افت داشت. عملکرد این الگورتیم در پُرکردن سری زمانی روزانه جریان با تغییرات شدید رژیم جریان مانند دبی اوج، مطلوب ارزیابی نشد. این افت عملکرد بیشتر متوجه شرایط هیدرواقلیمی حوزه آبریز مورد مطالعه است تا ساختار الگوریتم. هیدروگرافهای بازسازی شده امکان تجزیه و تحلیل تغییر و تنوع جریان و برهمکنش آنها با متغیرهای آب و هوایی کلیدی را فراهم میکنند. نتیجهگیری: الگوریتم جنگل گمشده بهعنوان یکی از روشهای بازسازی مبتنی بر یادگیری ماشین دارای اعتبار و عملکرد بالا در بازسازی دادههای گمشده جریان روزانه رودخانه معرفی شده و میتوان از آن بهصورت خودکار و هوشمند در بازسازی نواقص آماری جریان رودخانه در مقیاس روزانه استفاده نمود. پیشنهاد میگردد اثرات حوضههای مختلف با ویژگیهای هیدروفیزیکی و اقلیمی خاص در مطالعات آتی بر روی عملکرد الگوریتم جنگل گمشده مورد تجزیه و تحلیل قرار گیرد. بررسی روش پیشنهادی این مطالعه در سایر مناطق هیدرواقلیمی و جغرافیایی، سنجش حساسیت به رژیم بارندگی و جریان رودخانه و در نهایت بررسی عملکرد آن در مقایسه با سایر روشهای رایج از جمله موارد دیگری است که در مطالعات آتی میتوان به آن پرداخت.
|
کلیدواژه
|
الگوریتم جنگل تصادفی، جریان رودخانه، داده گمشده، نیکویی برازش، یادگیری ماشین
|
آدرس
|
دانشگاه سیستان و بلوچستان, دانشکده جغرافیا و برنامهریزی محیطی, گروه جغرافیای طبیعی, ایران, دانشگاه سیستان و بلوچستان, دانشکده جغرافیا و برنامهریزی محیطی, گروه جغرافیای طبیعی, ایران, دانشگاه سیستان و بلوچستان, دانشکده جغرافیا و برنامهریزی محیطی, گروه جغرافیای طبیعی, ایران, سازمان هواشناسی کشور, ایران
|
پست الکترونیکی
|
p.khosravi929@gmail.com
|
|
|
|
|
|
|
|
|
reconstruction of missing daily streamflow data using the missforest algorithm in southern baluchestan basin, iran
|
|
|
Authors
|
aryanmanesh javad ,nazaripour hamid ,mahmoodi peyman ,khosravi parviz
|
Abstract
|
extended abstractbackground: long-term hydrometeorological variables can be used for planning and managing water resources at the basin level using different physical models, such as hydrological and hydraulic models. however, such variables are often accompanied by missing data, which makes analysis difficult or sometimes impossible. data gaps cause problems in interpretation, model calibration, and biased statistics. in this study, the validity of a non-parametric random learning machine algorithm, called missforest, has been evaluated to fill the gap of daily streamflow series in a region with scarce data and strong climate variability.methods: the daily streamflow data in the gauge stations of the southern baluchestan catchment were analyzed in a long-term hydrological period (09/23/1972 to 09/22/2018). first, the missingness percentage was selected based on a conventional criterion (less than 50%) as an acceptable ratio of the missing rate in the streamflow data, followed by investigating the mechanisms and patterns of the missing data. accordingly, the number of gauge stations was reduced to seven samples. then, the temporal distribution of the missing daily streamflows during the months of the year and the relative frequency of gap length were investigated during the period. next, the performance of the missing data reconstruction algorithm was challenged with two different artificial missing data scenarios. two types of artificial gaps were generated, namely a) removed contiguous segments: at each gauge only a segment (having lengths of 7, 14, 21, 30, 60, 180, and 365 days) was randomly removed from the entire record (1972–2018); b) removed single data points: observed values (30, 60, 90, 120, 180, and 365 days) were randomly removed from the entire record (1972–2018) at each of the gauges. missforest was applied to fill the gaps contained in the records together with the artificial gaps. our analysis includes reconstructions of the 1972–2018 period at each of the streamflow gauges. finally, the performance of missforest in infilling daily streamflow data was tested by comparing the filled series with the observed data using goodness-of-fit (gof) indicators, coefficient of determination (r2 ), the percent bias (pbias), and the kling-gupta efficiency (kge).results: the missforest algorithm generally performed satisfactorily, allowing for accurately and reliably simulating lost data quickly and automatically. the performance of the missforest algorithm is highly dependent on the number of predictor records, record length, and streamflow type. finally, the reconstruction of real gaps in streamflow data was possible by applying this intelligent algorithm. the river flow time series were simulated with the natural flow regime with good performance; however, this performance dropped slightly for flow rate changes as a result of water storage and diversion for irrigation, especially downstream of dams. the performance of this algorithm in filling the daily time series of flow with severe changes in the flow regime, such as peak discharge, was not evaluated optimally. this drop in performance is more related to the hydroclimatic conditions of the studied watershed than the structure of the algorithm. the reconstructed hydrographs allow for analyzing flow variability and their interaction with key climate variables. conclusion: the missforest algorithm is introduced as one of the imputation methods based on machine learning with high credibility and performance in reconstructing the missing data of the daily streamflow. it can also be used automatically and intelligently in the reconstruction of the statistical defects of the river flow in the scale used daily. future studies are suggested to analyze the effects of different watersheds with specific hydro-physical-climatic characteristics on the performance of the missforest algorithm. the other issues that need to be addressed in future studies include the investigation of the proposed method of this study in other climatic and geographical regions, the sensitivity measurement to the rainfall and flow regime, and finally, the investigation of its performance compared to other common methods.
|
Keywords
|
goodness of fit ,machine learning ,missforest algorithm ,missing data ,streamflow
|
|
|
|
|
|
|
|
|
|
|