>
Fa   |   Ar   |   En
   بازسازی داده‎ های گمشده جریان روزانه رودخانه با استفاده از الگوریتم جنگل گمشده در حوزه بلوچستان جنوبی، ایران  
   
نویسنده آریان منش جواد ,نظری پور حمید ,محمودی پیمان ,خسروی پرویز
منبع پژوهشنامه مديريت حوزه آبخيز - 1403 - دوره : 15 - شماره : 2 - صفحه:49 -64
چکیده    مقدمه و هدف: سری‌های زمانی کامل هیدرولوژیکی برای مدیریت و مدل‌سازی منابع آب و انرژی در یک اقلیم در حال تغییر حیاتی هستند. با این‎حال، چنین متغیرهایی اغلب با داده‌های گمشده همراه هستند، که فرایند تجزیه و تحلیل را دشوار و یا گاهی غیرممکن می‎کند. شکاف‎های داده باعث مشکلاتی در تفسیر، واسنجی ناکارآمد مدل و آماره‎های اُریب‎دار می‎شوند. در این بررسی، اعتبار یک الگوریتم ماشین یادگیری تصادفی غیرپارامتری که جنگل گمشده (missforest) نام دارد برای پرکردن شکاف سری‎های زمانی جریان روزانه در منطقه‎ای با داده کمیاب و تغییرپذیری اقلیمی قوی، ارزیابی گردیده است.مواد و روش‌ها: داده‎های جریان روزانه در ایستگاه‎های جریان‎سنجی حوزه آبریز بلوچستان جنوبی در یک دوره طولانی‎مدت هیدرولوژیکی (1972/09/23 تا 2018/09/22) مورد بررسی قرار گرفته است. منطقه مورد مطالعه این پژوهش (حوزه آبریز بلوچستان جنوبی) از مجموعه حوزه آبریز خلیج فارس و دریای عمان بوده و با حدود بین سدیج و مرکز پاکستان شناخته می‎شود. درصد گمشدگی بر اساس یک معیار قراردادی (کمتر از 50 درصد) به‎عنوان نسبت قابل‎قبول از نرخ گمشدگی در داده‎های جریان انتخاب و سپس مکانیسم‎ها و الگوهای گمشدگی داده‎ها تعیین گردیده است. بر این اساس، تعداد ایستگاه‌های جریان‌سنجی از 11 به 7 نمونه کاهش یافته است. سپس توزیع زمانی جریان‌های روزانه گمشده در طول ماه‌های سال و فراوانی نسبی طول گمشدگی در کل دوره مورد بررسی قرار گرفته است. در ادامه، عملکرد الگوریتم بازسازی داده‎های گمشده با دو سناریوی متفاوت داده گمشده مصنوعی به چالش کشیده شده است. برای این‎منظور، دو نوع شکاف مصنوعی در قسمت داده‌های کامل ایجاد شده است. الف) در هر ایستگاه جریان‌سنجی یک بخش از داده‌ها (با طول 7، 14، 21، 30، 60، 180 و 365 روز) به‎طور تصادفی از کل دوره حذف شده است. ب) نقاط داده منفرد شامل مقادیر مشاهده شده روزهای (30، 60، 90، 120، 180 و 365) به‎طور تصادفی از کل دوره (2018-1972) حذف شده‌اند. الگوریتم جنگل گمشده برای پُرکردن شکاف‌های مصنوعی اجرا و سپس اعتبارسنجی الگوریتم در پُرکردن داده‎های گمشده جریان روزانه با مقایسه سری‎های پُرشده با داده‎های مشاهده شده، از طریق آزمون‎های سه‎گانه نیکویی برازش (gof) شامل ضریب تعیین (r2)، درصد بایاس یا اریب (pbias) و معیار کلینگ- کوپتا (kge) تست شده است.  علاوه بر آن، برخی کنترل‌ها در عملکرد الگوریتم جنگل گمشده جهت حساسیت‎سنجی انجام شده است. به این مفهوم که الگوریتم جنگل گمشده با درصدهای مختلف از گمشدگی داده در ایستگاه هدف (%5، %10، %15، %20، %25 و %30) و همچنین تعداد رکوردهای پیش‌بینی کننده جریان ایستگاه هدف، آزمایش شده است.یافته‌ها: نتایج نشان داد که به‎طور کلی الگوریتم جنگل گمشده عملکرد رضایت‎بخش و خوبی داشته و امکان شبیه‎سازی دقیق و مطمئن داده‎های از دست رفته را به‎سرعت و به‎صورت خودکار فراهم می‎آورد. عملکرد الگوریتم جنگل گمشده به‎شدت تابعی از تعداد رکوردهای پیش‎بینی کننده، طول رکورد و نوع جریان رودخانه می‎باشد. عملکرد الگوریتم جنگل گمشده به درصد گمشدگی داده‌های ایستگاه هدف حساس و به تعداد رکوردهای پیش‌بینی کننده بی‎تفاوت بوده است. با افزایش درصد گمشدگی داده‎ها، عملکرد الگوریتم جنگل گمشده به‎طور قابل ملاحظه کاهش یافته است. علاوه بر آن، این الگوریتم گمشدگی‎های کوتاه‎مدت را نسبت به گمشدگی‎های طولانی‎مدت، دقیق‎تر برآورد می‎کند. عملکرد الگوریتم جنگل گمشده به تعداد رکوردهای پیش‎بینی کننده حساس نمی‎باشد. این وضعیت، به ماهیت هیدروفیزیوگرافی زیرحوضه‎های آبریز و موقعیت ایستگاه‎های آب‎سنجی مربوط می‎شود. تنها در صورتی عملکرد الگوریتم جنگل گمشده برای یک ایستگاه خاص با افزایش رکوردهای پیش‎بینی کننده بهبود می‎یابد که ایستگاه‎های اهداءگر در حوضه آبریز مشترک با ایستگاه هدف قرار داشته باشند در نهایت، بازسازی شکاف‎های واقعی در داده‎های جریان از طریق اعمال این الگوریتم هوشمند ممکن گردید. سری‎های زمانی جریان رودخانه‎ها با رژیم جریان طبیعی با عملکرد خوب شبیه‎سازی شد؛ درحالی‎که این عملکرد برای تغییرات دبی در نتیجه ذخیره‎سازی و انحراف آب برای آبیاری به‎ویژه در پایین دست سدها اندکی افت داشت. عملکرد این الگورتیم در پُرکردن سری زمانی روزانه جریان با تغییرات شدید رژیم جریان مانند دبی اوج، مطلوب ارزیابی نشد. این افت عملکرد بیشتر متوجه شرایط هیدرواقلیمی حوزه آبریز مورد مطالعه است تا ساختار الگوریتم. هیدروگراف‎های بازسازی شده امکان تجزیه و تحلیل تغییر و تنوع جریان و برهم‎کنش آن‎ها با متغیرهای آب و هوایی کلیدی را فراهم می‎کنند. نتیجه‌گیری: الگوریتم جنگل گمشده به‎عنوان یکی از روش‎های بازسازی مبتنی بر یادگیری ماشین دارای اعتبار و عملکرد بالا در بازسازی داده‎های گمشده جریان روزانه رودخانه معرفی شده و می‎توان از آن به‎صورت خودکار و هوشمند در بازسازی نواقص آماری جریان رودخانه در مقیاس روزانه استفاده نمود. پیشنهاد می‌گردد اثرات حوضه‌های مختلف با ویژگی‌های هیدروفیزیکی و اقلیمی خاص در مطالعات آتی بر روی عملکرد الگوریتم جنگل گمشده مورد تجزیه و تحلیل قرار گیرد. بررسی روش پیشنهادی این مطالعه در سایر مناطق هیدرواقلیمی و جغرافیایی، سنجش حساسیت به رژیم بارندگی و جریان رودخانه و در نهایت بررسی عملکرد آن در مقایسه با سایر روش‌های رایج از جمله موارد دیگری است که در مطالعات آتی می‎توان به آن پرداخت. 
کلیدواژه الگوریتم جنگل تصادفی، جریان رودخانه، داده گمشده، نیکویی برازش، یادگیری ماشین
آدرس دانشگاه سیستان و بلوچستان, دانشکده جغرافیا و برنامه‎ریزی محیطی, گروه جغرافیای طبیعی, ایران, دانشگاه سیستان و بلوچستان, دانشکده جغرافیا و برنامه‎ریزی محیطی, گروه جغرافیای طبیعی, ایران, دانشگاه سیستان و بلوچستان, دانشکده جغرافیا و برنامه‎ریزی محیطی, گروه جغرافیای طبیعی, ایران, سازمان هواشناسی کشور, ایران
پست الکترونیکی p.khosravi929@gmail.com
 
   reconstruction of missing daily streamflow data using the missforest algorithm in southern baluchestan basin, iran  
   
Authors aryanmanesh javad ,nazaripour hamid ,mahmoodi peyman ,khosravi parviz
Abstract        extended abstractbackground: long-term hydrometeorological variables can be used for planning and managing water resources at the basin level using different physical models, such as hydrological and hydraulic models. however, such variables are often accompanied by missing data, which makes analysis difficult or sometimes impossible. data gaps cause problems in interpretation, model calibration, and biased statistics. in this study, the validity of a non-parametric random learning machine algorithm, called missforest, has been evaluated to fill the gap of daily streamflow series in a region with scarce data and strong climate variability.methods: the daily streamflow data in the gauge stations of the southern baluchestan catchment were analyzed in a long-term hydrological period (09/23/1972 to 09/22/2018). first, the missingness percentage was selected based on a conventional criterion (less than 50%) as an acceptable ratio of the missing rate in the streamflow data, followed by investigating the mechanisms and patterns of the missing data. accordingly, the number of gauge stations was reduced to seven samples. then, the temporal distribution of the missing daily streamflows during the months of the year and the relative frequency of gap length were investigated during the period. next, the performance of the missing data reconstruction algorithm was challenged with two different artificial missing data scenarios. two types of artificial gaps were generated, namely a) removed contiguous segments: at each gauge only a segment (having lengths of 7, 14, 21, 30, 60, 180, and 365 days) was randomly removed from the entire record (1972–2018); b) removed single data points: observed values (30, 60, 90, 120, 180, and 365 days) were randomly removed from the entire record (1972–2018) at each of the gauges. missforest was applied to fill the gaps contained in the records together with the artificial gaps. our analysis includes reconstructions of the 1972–2018 period at each of the streamflow gauges. finally, the performance of missforest in infilling daily streamflow data was tested by comparing the filled series with the observed data using goodness-of-fit (gof) indicators, coefficient of determination (r2 ), the percent bias (pbias), and the kling-gupta efficiency (kge).results: the missforest algorithm generally performed satisfactorily, allowing for accurately and reliably simulating lost data quickly and automatically. the performance of the missforest algorithm is highly dependent on the number of predictor records, record length, and streamflow type. finally, the reconstruction of real gaps in streamflow data was possible by applying this intelligent algorithm. the river flow time series were simulated with the natural flow regime with good performance; however, this performance dropped slightly for flow rate changes as a result of water storage and diversion for irrigation, especially downstream of dams. the performance of this algorithm in filling the daily time series of flow with severe changes in the flow regime, such as peak discharge, was not evaluated optimally. this drop in performance is more related to the hydroclimatic conditions of the studied watershed than the structure of the algorithm. the reconstructed hydrographs allow for analyzing flow variability and their interaction with key climate variables. conclusion: the missforest algorithm is introduced as one of the imputation methods based on machine learning with high credibility and performance in reconstructing the missing data of the daily streamflow. it can also be used automatically and intelligently in the reconstruction of the statistical defects of the river flow in the scale used daily. future studies are suggested to analyze the effects of different watersheds with specific hydro-physical-climatic characteristics on the performance of the missforest algorithm. the other issues that need to be addressed in future studies include the investigation of the proposed method of this study in other climatic and geographical regions, the sensitivity measurement to the rainfall and flow regime, and finally, the investigation of its performance compared to other common methods.
Keywords goodness of fit ,machine learning ,missforest algorithm ,missing data ,streamflow
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved