Skip Navigation
Skip to contents

GEO DATA : GEO DATA

OPEN ACCESS
SEARCH
Search

Articles

Page Path
HOME > GEO DATA > Volume 5(2); 2023 > Article
Original Paper
댐 일유입량 예측을 위한 데이터 전처리 방법에 따른 머신러닝 및 딥러닝 모델 적용의 비교연구
조영식1,*orcid, 정관수2orcid
Comparative Study of Machine Learning and Deep Learning Models Applied to Data Preprocessing Methods for Dam Inflow Prediction
Youngsik Jo1,*orcid, Kwansue Jung2orcid
GEO DATA 2023;5(2):92-102.
DOI: https://doi.org/10.22761/GD.2023.0016
Published online: June 30, 2023

1박사과정생, 충남대학교 토목공학과, 대전광역시 유성구 대학로 99, 34134, 대한민국

2교수, 충남대학교 토목공학과, 대전광역시 유성구 대학로 99, 34134, 대한민국

1Ph.D Candidate, Department of Civil Engineering, Chungnam National University, 99 Daehak-ro, Yoosung-gu, 34134 Daejeon, South Korea

2Professor, Department of Civil Engineering, Chungnam National University, 99 Daehak-ro, Yoosung-gu, 34134 Daejeon, South Korea

Corresponding Author Youngsik Jo Tel: +82-42-629-3500 E-mail: jyslord@kwater.or.kr
• Received: June 14, 2023   • Revised: June 20, 2023   • Accepted: June 23, 2023

Copyright © 2023 GeoAI Data Society

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

prev next
  • 1,049 Views
  • 55 Download
  • In this study, we employed representative machine learning (ML) and deep learning (DL) models previously utilized in the fields of rainfall and runoff analysis in the water resources sector. We not only performed hyperparameter tuning of the models but also considered the characteristics of the model and the combination and preprocessing (such as lag-time and moving average) of meteorological and hydrological data. We then compared and evaluated the performance of the models according to various scenarios of data characteristics and ML & DL model combinations for predicting daily water inflow. To accomplish this, we utilized meteorological and hydrological data collected from 1974 to 2021 in the Soyang River Dam Basin to examine 1) precipitation, 2) inflow, and 3) meteorological data as primary independent variables. We then employed a total of 36 scenario combinations as input data for ML & DL, applying a) lag-time, b) moving average, and c) component separation conditions for inflow. To identify the most suitable data combination characteristics and ML & DL models for predicting daily inflow, we compared and evaluated 10 different ML & DL models: 1) Linear Regression, 2) Lasso, 3) Ridge, 4) Support Vector Regression, 5) Random Forest (RF), 6) Light Gradient Boosting Model, 7) XGBoost for ML, and 8) Long Short-Term Memory (LSTM) models, 9) Temporal Convolutional Network (TCN), and 10) LSTM-TCN for DL.
강우-유출 분석은 강우강도, 유역면적, 유출계수를 활용한 합리식(Rational Formula)을 시작으로 물의 흐름에 대한 물리적 개념의 고도화와 컴퓨터의 발달과 함께 지속적으로 발전해 오고 있다(Singh and Frevert, 2005). 이를 통해 개발된 강우-유출 분석 방법들은 국가 물관리기본계획 등 장기수자원 계획의 수립, 수자원 시설물의 계획 및 운영 등 물관리의 가장 기본이 되는 절차로써 활용되고 있다. 특히 이수, 치수 등의 기능을 담당하고 있는 다목적댐의 경우, 정확한 강우-유출 분석을 통한 Hourly, Daily와 Monthly 댐 유입량의 예측은 홍수와 가뭄으로부터 국민의 생명보호와 안정적 사회시스템의 유지를 위해 매우 중요하다고 할 수 있다.
따라서, 그동안 많은 연구자들은 다목적댐의 유입량 예측을 위해서 많은 연구를 진행해왔다(Babur et al., 2016; Ghoraba, 2015). 전통적으로 다목적댐의 유입량 추정을 위해서 댐수위 관측을 통한 저수용량의 변동(△S)과 방류량 계측을 통한 유입량을 역산하는 Water Balance Equation 방법을 활용하여 유입량을 산정해 오고 있다. 또한, 댐수위와 방류량 관측의 오차와 수위-저수용량곡선의 불확실성으로 인한 유입량 산정의 오차를 극복하기 위해서 Soil and Water Assessment Tool (SWAT; Arnold et al., 1998), Precipitation-Runoff Modeling System (PRMS; Leavesley et al., 1983), Hydrological Simulation Program-Fortran (HSPF; Bicknell et al., 2001) 등 다양한 물리모형기반의 강우유출 모형을 활용한 댐유입량의 산정에 대한 연구도 많이 진행되어 왔다(Babur et al., 2016; Ghoraba, 2015). 하지만 물리모형에도 물의 흐름을 개념화하고 수식을 만들어 가는 과정에서 여전히 불확실성이 존재하고 있는 것이 현실이다(Abbott et al., 1986; Bastola et al., 2008; Gourley and Vieux, 2006).
2010년대 말부터는 데이터 기반 machine learning (ML) 분석도구들이 Python 등을 활용하여 오픈소스의 형태로 공개되고(Pedregosa et al., 2011), 또한, 대부분의 다목적댐들이 건설되고 데이터도 30년 이상 축적되어 감에 따라 강우-유출 분석에서도 데이터 기반의 다양한 연구들이 활발히 진행되고 있다. 특히, 강우-유출의 비선형성을 고려하기 위하여 인공신경망(Artificial Neural Network [ANN]; McCulloch and Pitts, 1943), Support Vector Machine (SVM; Cortes and Vapnik, 1995), Random Forest (RF; Breiman, 2001), Extreme Gradient Boosting (XGBoost; Chen and Guestrin, 2016) 등을 활용하기 위한 연구가 진행되었다. 하지만 이러한 ML 수준의 데이터 기반 모델은 토양수분의 함량 등 다양한 유역의 여건에 따라 동일한 강우에도 다른 유출량을 보이는 강우-유출의 복잡한 비선형 관계를 설명하기에는 한계가 있었다(Janiesch et al., 2021). 따라서, ML 모델이 극복하기 어려운 다양한 강우와 유출의 반응관계를 강우 자료에 지체시간(lag-time)이나 이동평균(moving average)을 적용하거나 예측 이전 시간의 유입량 자료를 입력 자료(독립변수)로 활용해서 강우-유출의 정확도를 향상시키고자 하였다. 하지만 유역마다 다른 유역특성인자(유역의 크기, 경사 등)와 다양한 강우사상에 대한 유출 반응은 단순히 데이터의 조합이나 가공으로 극복하는 데는 한계가 있었다(Janiesch et al., 2021).
최근에는 이러한 ML 방법들의 한계를 극복하기 위하여 Recurrent Neural Network (RNN; Hopfield, 1982) 계열의 sequence를 고려한 deep learning (DL) 방법의 적용에 대한 연구가 활발히 진행되고 있다(Dawson and Wilby, 2001; Gao et al., 2020; Park et al., 2018; Zhang et al., 2021). 이는 최근 DL을 쉽고, 효율적으로 적용할 수 있는 Tensorflow (Abadi et al., 2016)와 Pytorch (Paszke et al., 2019) 등의 Python 라이브러리의 오픈소스화로 인해서 더욱 연구가 가속화되고 있다고 할 수 있다. 또한 기존에 활용된 RNN에 좀 더 긴 sequence를 적용하기 위하여 언어모델에서 사용되던 Long Short-Term Memory (LSTM; Hochreiter and Schmidhuber, 1997; Kim and Kang, 2021)와 같은 방법들이 강우-유출에 적용되었고(Fan et al., 2020; Hu et al., 2018; Kratzert et al., 2018; Xiang et al., 2020), 일부 연구에서는 LSTM 등을 활용한 하천의 유량예측이 기존의 물리모델을 활용한 방법보다 성능이 더 우수함을 보여주고 있다(Kratzert et al., 2018). 하지만 현재까지 연구되어 온 다양한 ML과 DL 방법들은 ANN, SVM, RF, XGBoost, LSTM 등의 vanilla 모델 자체만을 활용하여 모델의 성능을 평가하는 데 집중했을 뿐 데이터의 다양한 조합과 연계하여, ML과 DL 모델의 성능을 향상시키기 위한 데이터의 전처리(정규화, smoothing 등), 모델의 튜닝 등을 통한 모델의 성능 개선 등에 대해서 비교하는 연구는 미흡했다고 할 수 있다.
따라서 본 연구에서는 그동안 수자원분야 강우유출 해석분야에 활용되었던 대표적인 ML 및 DL 모델을 활용하여 모델의 하이퍼파라미터 튜닝뿐만 아니라 모델의 특성을 고려한 기상 및 수문데이터의 조합과 전처리(lag-time, 이동평균 등)를 통하여 데이터 특성과 ML, DL 모델의 조합 시나리오에 따른 일 유입량 예측성능을 비교 검토하는 연구를 수행하였다. 이를 위해 소양강댐 유역을 대상으로 1974년에서 2021년까지 축적된 기상 및 수문데이터를 활용하여 1) 강우, 2) 유입량, 3) 기상 자료를 주요 영향변수(독립변수)로 고려하고, 이에 a) 지체시간(lag-time), b) 이동평균, c) 유입량의 성분 분리조건을 적용하여 총 36가지 시나리오 조합을 ML 및 DL의 입력 자료로 활용하였다. ML, DL 모델은 1) Linear Regression (LR), 2) Lasso, 3) Ridge, 4) SVR, 5) RF, 6) Light Gradient Boosting Model (LGBM), 7) XGBoost의 7가지 ML 모델, 8) LSTM, 9) Temporal Convolutional Network (TCN), 10) LSTM-TCN의 3가지 DL 모델의 총 10가지 모델을 비교 검토하여, 일 유입량 예측을 위한 가장 적합한 데이터 전처리 조합 특성을 반영한 ML 및 DL 모델의 성능 평가 결과를 비교 분석하였다.
2.1 머신러닝 분석 모형의 선정
본 연구에서는 소양강댐의 일 유입량 예측을 위하여 ML 선형회귀모형 LR은 기본적인 ① Linear Regession 모델, 선형 모델의 성능을 높이기 위해 최소제곱법에 각 계수의 절대값의 합을 수식에 포함한 ② Lasso 모형, 선형회귀의 최소제곱법에 각 계수의 제곱의 합을 수식에 포함한 ③ Ridge 모형을 적용하였다. 모델의 라이브러리는 Scikit-learn Linear model의 LR, Ridge, Lasso 라이브러리이다. 서포트벡터 회귀모형은 분류를 위한 결정경계를 두는 SVM(서포트 벡터 머신)의 기법을 회귀에 적용한 ④ SVR 모형을 적용하였다. 모델의 라이브러리는 Scikit-learn SVM의 SVR 라이브러리이다. 랜덤포레스트 RF 모형은 트리형 구조로서 decision tree의 분류보다 정확도를 개선시키기 위해 여러 개의 나무를 만들고 각 나무의 예측을 조합하는 RF 기법을 회귀에 적용한 ⑤ Random Forest Regressor를 활용하였다. 모델의 라이브러리는 Scikit-learn ensemble의 Random Forest Regressor 라이브러리이다. LightGBM 모형은 여러 개의 tree를 만들되, 기존의 모델 tree를 조금씩 개선발전 시켜 이를 조합하는 LightGBM을 회귀에 적용한 ⑥ LGBM Regressor를 적용하였다. 모델의 라이브러리는 LightGBM의 LGBM Regressor 라이브러리이다. XGBoost Regression 모형은 여러 개의 tree를 만들고 정확도가 약한 tree를 조합해서 가중치를 두고 순차적으로 강한예측모형을 만드는 앙상블 기법 XGBoost를 회귀에 적용한 ⑦ XGBoost Regressor를 활용하였다. 모델의 라이브러리는 xgBoost의 XGBoost Regressor 라이브러리이다.
인공신경망 딥러닝(DL)은 ML 알고리즘 중에서 인공신경망을 기반으로 한 방법으로 시퀀셜한 데이터를 학습하고 예측하는 데 유리한 순환신경망 RNN 계열과 Convolutional Neural Network (CNN) 계열 그리고 두 가지를 결합한 모형을 구축하였다. LSTM 모형은 RNN의 한계점인 기울기 소실 문제와 오래된 정보 전달 문제를 해결하는 모형인 ⑧ LSTM을 적용하였는데, 모델의 라이브러리는 Keras의 모델 LSTM 라이브러리이다. ⑨ TCN은 최근 sequence modeling에 RNN 계열과 더불어 성능이 우수하여 활용될 수 있는 1차원 CNN 구조의 모델을 적용하였다. 모델의 라이브러리는 Keras의 모델 Conv1D 라이브러리이다. ⑩ TCN-LSTM 결합모형은 각 모형의 단점(공간적 특성 반영문제)을 보완하는 모델로 활용될 수 있어서 상기 모델에서 구축된 LSTM 모델과 TCN 모델을 순차적으로 포함된 결합모형을 개발하여 적용하였다. 모델의 라이브러리는 Keras의 모델 Conv1D와 LSTM 라이브러리이다.
2.2 수문 특성을 고려한 머신러닝 및 딥러닝 입력 자료의 시나리오 구성
입력데이터의 구축은 종속변수 댐유입량 Q(t)를 예측하기 위하여 다양한 독립변수인 강우, 유량, 기상(온도, 증발량)의 시나리오 조합으로 구성하였다. 강우는 가장 민감도가 큰 인자로서 당일 예측강우 R(t)를 입력자료로 하여 당일 유입량 Q(t)을 예측하는 모델로 구성하되, 강우와 유출 간의 물리적 상관관계가 나타날 수 있는 데이터의 규명을 위하여 lag time이 적용된 전일 data R(t-1), 전전일 data R(t-2), 3일전 data R(t-3), n일전 data R(t-n)를 구성하였고, 이동평균(moving average) 데이터(2일평균, 3일평균, 5일평균, 10일평균)를 입력데이터로 구성하였다. 유량계열은 전일까지의 유입량 Q(t-1)까지의 자료를 입력으로 구축하되 lag time이 적용된 전일 data R(t-1), 전전일 data R(t-2), 3일전 data R(t-3), n일전 data R(t-n)를 구성하였다. 또한 유량의 증감 경향을 고려한 차분유량 Q(t-n)-Q(t-(n-1))를 구성하였다. 특히 유출성분의 물리적 특성과 학습의 정도를 파악하기 위하여 유입량을 기저유출(base flow; Bf(t-n))과 직접유출(surface flow; Sf(t-n))로 유출성분을 분리(digital filtering에 의한 성분분리[Abu El-Nasr et al., 2002])하여 입력데이터로 구축하였다. 기상 자료는 강우량과 마찬가지로 예측이 가능한 기온 Tavg(t)과 증발량 Evap(t)을 대상으로 입력 자료로 구성하였다.
상기와 같이 구축된 입력데이터의 물리적인 특성이 반영되었을 경우의 학습능력과 상관성을 파악하기 위하여 강우, 유량, 기상 계열의 자료들을 다음 Table 1과 같이 조합하여 학습시나리오를 구성하였다.
2.3 모델 최적 하이퍼파라미터 검토 및 모델 성능평가
각 모형의 적합한 수행을 위하여 직접 설정해야 하는 변수인 하이퍼파라메터의 튜닝과 성능 검토가 필요하다. 각 모델은 하이퍼파라미터 조합별 최고의 성능을 검토하여 하이퍼파라메터 최적값을 Table 2와 같이 선정하였다. 이를 위하여 LR과 Lasso, Ridge는 모델라이브러리 default parameter를 사용하였고 SVR, RF, LightGBM, LSTM, TCN 모형은 Gridsearch 방법, Manual search 방법 등을 적용하여 최적 파라메터를 산정하였다.
모델 성능평가란 실제값과 모델에 의해 예측된 값을 비교하여 두 값의 차이(오차)를 구하는 것으로, 과적합(overfitting)을 방지하고 최적의 모델을 찾기 위함이며, 각 모델별로 데이터 입력 시나리오별로 성능 분석(metrics)을 실시하였는데, 본 연구에서 성능평가지표는 결정계수(coefficient of determination, R2), 평균절대오차(mean absolute error), 평균제곱오차(mean squared error), 평균제곱근오차(root mean squared error), Kling-Gupta 모델 효율성계수(Gupta et al., 2009), Nash-Sutcliffe Efficiency (NSE; Nash and Sutcliffe, 1970)로 구성하여 각 데이터모델 및 데이터 시나리오별로 평가하였다. 이를 통하여 36개 CASE별로 최적의 성능을 가지는 데이터 모델을 검토하고 예측력을 비교하였다.
3.1 연구 대상지역 및 자료수집
본 연구의 대상지역은 소양강 다목적댐으로 선정하였다. 소양강 댐은 강원도 춘천시 신북읍과 동면 소양강에 위치한 다목적댐으로 4대강 유역종합개발사업의 일환으로 발전, 홍수 조절 및 용수공급을 하기 위하여 1973년에 준공되었다. 소양강댐의 제원 및 수문현황은 다음 Table 3과 같고, 유역도는 Fig. 1과 같다.
소양강댐유역 강우량 및 유입량 자료는 K-water 댐 운영 자료를 이용하였고, 1974년 준공 이후부터 2021년 말까지의 평균 강우량 및 일 유입량 자료를 수집하였다(1974년 1월 1일부터 2021년 12월 31일, 총 17,532일). 기상 자료는 기상청에서 인제, 춘천관측소 자료를 수집하였다. 머신러닝 및 딥러닝을 위하여 데이터셋을 학습-검증-예측 자료로 Table 4Fig. 2와 같이 구분하였다. 학습구간과 검증 예측구간을 자동으로 분류하는 방법도 있지만, 수문 해석에 있어서는 학습구간에 최대치, 최소치 값이 포함되도록 구성하였다. 소양강댐의 일 유량 자료에서는 최대치 유량이 1st 7,405.6 CMS(1984년 9월 1일), 2nd 7,062.6 CMS (1990년 9월 10일)로 나타났다. 따라서 이 두 가지 최대치를 포함하는 구간을 학습 구간으로 설정하였다.
수자원 수문 해석을 위한 소양강댐 댐유입량 예측에 대하여 머신러닝(ML), 딥러닝(DL) 모델을 구축 적용하여 모델의 성능을 비교한 결과는 Table 5Fig. 3과 같으며, 딥러닝(DL) 중에서는 TCN 모형이 가장 우수한 성능을 보였고(TCN > TCN-LSTM > LSTM), 트리(tree) 기반 머신러닝(ML) 중에서는 RF와 LGBM이 우수한 성능을 보였으며(RF, LGBM > XGB), SVM 기반의 Regression 모형인 SVR도 LGBM 수준의 우수한 성능을 나타내었다. 선형회귀, Lasso, Ridge 세 가지 Regression 모형은 상대적으로 낮은 성능의 성능을 보였다.
소양강댐 댐유입량 예측에 대하여 강우계열, 유입량계열, 기상계열을 36가지 조합하여 데이터 전처리 시나리오를 비교한 결과, 1) 강우계열의 조합 분석(CASE#1-CASE#14)에서는 5일 전까지의 lagged된 강우 자료 R(t)-R(t-5)를 독립변수로 활용하였을 때 선형회귀계열(Linear, Lasso, Ridge)을 제외한 모든 모형에서 NSE 0.8 이상의 성능을 보였다. 또한 30일 전까지 lagged된 강우 자료 R(t)-R(t-30) 활용할수록 LSTM을 제외하고 성능은 더 좋아지는 것(NSE 0.83 이상)으로 나타났다. 이동평균 자료를 같이 활용할 경우, 성능은 약간 개선되는 것으로 나타났다. 2) 강우계열과 유입량계열을 조합하였을 경우(CASE#15-CASE#27), 강우만 활용하였을 경우보다 전일 유입량을 함께 활용하였을 때 성능이 개선되어졌으며, lagged된 강우, lagged된 유량을 함께 활용하였을 때 성능이 더 좋아지는 것으로 나타났다. 3) 또한 유입량계열 자료에서 유출성분분리를 통한 기저유출과 직접유출을 분리하고 입력 독립변수로 활용하였을 때(CASE#24-CASE#27) 가장 높은 성능을 보였다. 4) 기상계열 중 강우량 R(t)와 평균 기온과 증발량 만을 조합하였을 때에는 성능이 비슷하였고, 하절기에 더 크게 상승하는 기온과 증발량의 데이터 패턴이 나타나서 모의 결과가 적절하지 않았다. 그러나 평균 기온과 증발량은 lagged된 강우, lagged된 유량계열과 함께 활용하였을 때, 성능이 좋아지는 것으로 나타나는 것을 확인할 수 있었다(CASE#35-CASE#36). 5) 유량계열의 자료를 활용할 때는 Q(t-1)과 그 이전의 자료만을 활용하여야 한다. 목적함수 종속변수가 Q(t)이기 때문에 Q(t)를 입력변수로 넣을 경우 R2=1.0이 되기 때문에 유입량을 예측하는 모델에서는 입력 자료 활용 시 유의하여야 한다.
따라서, 머신러닝(ML) 및 딥러닝(DL)을 활용한 댐 일 유입량 예측 시 입력데이터의 조합 및 전처리에 따라 예측성능이 다르게 나오는 것으로 분석되어 성능 개선을 위해서는 강우, 유량, 기상 자료의 조합과 lagged되거나 성분 분리된 자료를 조합하여 사용하는 것이 성능이 개선됨을 확인할 수 있었다.

Conflict of Interest

On behalf of all authors, the corresponding author states that there is no conflict of interest.

Funding Information

None.

Data Availability Statement

The data that support the findings of this study are available on request from the corresponding author. The data are not publicly available due to privacy or ethical restrictions.

Fig. 1.
Status of River Basin of Soyang.
GD-2023-0016f1.jpg
Fig. 2.
Daily inflow dataset for machine learning and deep learning.
GD-2023-0016f2.jpg
Fig. 3.
The result of data preprocessing and machine learning and deep learning combination for daily inflow prediction (Nash-Sutcliffe Efficiency). TCN, Temporal Convolutional Network; LSTM, Long Short-Term Memory; LR, Linear Regression; SVR, Support Vector Regression; XGB, eXtream Gradient Boosting Model; LGBM, Light Gradient Boosting Model; RDFR, Random Forest.
GD-2023-0016f3.jpg
Table 1.
Proposed CASE scenarios for data preprocessing (CASE#1 to CASE#36)
Data group Data set
CASE scenario
CASE #N0
Independent variable Independent Dependent
Rainfall (R) Basic data R(t) R(t) Q(t) #1
Time lagged data R(t-1) R(t)-R(t-1) Q(t) #2
R(t-2) R(t)-R(t-2) Q(t) #3
R(t-3) R(t)-R(t-3) Q(t) #4
R(t-5) R(t)-R(t-5) Q(t) #5
R(t-10) R(t)-R(t-10) Q(t) #6
R(t-30) R(t)-R(t-30) Q(t) #7
Moving averaged data R(MA2) R(t)-R(t-3), R(MA2) Q(t) #8
R(MA3) R(t)-R(t-3), R(MA3) Q(t) #9
R(MA5) R(t)-R(t-3), R(MA5) Q(t) #10
R(MA10) R(t)-R(t-3), R(MA10) Q(t) #11
R(t)-R(t-10), R(MA10) Q(t) #12
R(t)-R(t-10), R(MA2, 3, 5, 10) Q(t) #13
R(t)-R(t-30), R(MA2, 3, 5, 10) Q(t) #14
Rainfall (R) and inflow (Q) Time lagged data Q(t-1) R(t), Q(t-1) Q(t) #15
Q(t-3) R(t)-R(t-3), Q(t-1) Q(t) #16
Q(t-5) R(t)-R(t-10), Q(t-1) Q(t) #17
Q(t-30) R(t)-R(t-3), Q(t-1)-Q(t-5) Q(t) #18
R(t)-R(t-5), Q(t-1)-Q(t-5) Q(t) #19
R(t)-R(t-10), Q(t-1)-Q(t-10) Q(t) #20
R(t)-R(t-30), Q(t-1)-Q(t-30) Q(t) #21
Differenced delta value delQ [Q(t-n)-Q(t-(n-1))] R(t)-R(t-3), Q(t-1), delQ(t-1) Q(t) #22
Component separation Bf(t-1) Sf(t-1) R(t), Bf(t-1) Q(t) #23
Bf(t-2) Sf(t-2) R(t), Bf(t-1), Sf(t-1) Q(t) #24
- Baseflow (Bf) Bf(t-3) Sf(t-3) R(t)-R(t-3), Bf(t-1), Sf(t-1) Q(t) #25
- Surfaceflow (Sf) Bf(t-5) Sf(t-5) R(t)-R(t-5), Bf(t-1), Sf(t-1) Q(t) #26
R(t)-R(t-5), Bf(t-1), Sf(t-1-t-5) Q(t) #27
Rainfall (R), inflow (Q) and meteorological data Temperature, evaporation Tavg(t) (averaged temperature) R(t), Tavg(t) Q(t) #28
R(t), Evap(t) Q(t) #29
Evap(t) R(t), Tavg(t), Evap(t) Q(t) #30
(evaporation) R(t)-R(t-3), Tavg(t), Evap(t) Q(t) #31
R(t)-R(t-5), Tavg(t), Evap(t) Q(t) #32
R(t)-R(t-5), Q(t-1), Tavg(t), Evap(t) Q(t) #33
R(t)-R(t-10), Tavg(t), Evap(t) Q(t) #34
R(t-t-3), B(t-1), Sf(t-1), Evap(t), Tavg(t) Q(t) #35
R(t)-R(t-10), Bf(t-1), Sf(t-1-t-5), Evap(t), Tavg(t) Q(t) #36
Table 2.
Results of determining the optimal hyperparameters for ML, DL models
Model Hyperparameter
SVR Kernel type (rbf), gamma (0.02), C-value (1300), epsilon (1), degree (-)
RF Bootstrap (true), max_deapth (5), max_feature (auto), n_estimator (100)
LightGBM Colsamples_bytree (0.8), min_child_samples (20), max-depth (3), n_estimators (100), num_leaves (20)
LSTM Layer (2), nodes (512), activation function (1-tanh, 2-relu), optimizer (Adam), batch size (512)
TCN Layer (3), filters (512-512-512)), kernel size (4,4,4), activation function (1-relu, 2-relu, 3-relu), batch size (512)

ML, machine learning; DL, deep learning; SVR, Support Vector Regression; RF, Random Forest; LSTM, Long Short-Term Memory; TCN, Temporal Convolutional Network.

Table 3.
Status of Soyang River Dam
Content Value
River basin Bukhan River
Basin area 2,703 km2
Length/height 530 m/123 m
Dam type E.C.R.D
Generation capacity 200 MW
Annual generation 353 GWh
Total storage volume 2,900 million m3
Storage area 70 km2
Annual averaged inflow (1974 to 2021) 67.7 m3/s
2,153 million m3
Annual averaged rainfall (1974 to 2021) 1,214 mm
Planned basic supply 1,468.4 million m3
Table 4.
Splitting the dataset into training, validation and test (prediction) data
Value
Training Day 1 to Day 10,000
Validation Day 10,001 to Day 15,000
Test (prediction) Day 15,001 to Day 17,532
Table 5.
The comparative result of data preprocessing and ML & DL combination for daily inflow prediction
No. Data case LR Lasso Ridge SVR RF LGBM XGB LSTM TCN TCN-LSTM
#1 R(t) 0.404 0.404 0.404 0.463 0.448 0.472 0.421 0.478 0.495 0.498
#2 R(t~t-1) 0.629 0.63 0.629 0.783 0.743 0.773 0.725 0.759 0.767 0.772
#3 R(t~t-2) 0.659 0.659 0.659 0.804 0.746 0.78 0.745 0.779 0.807 0.806
#4 R(t~t-3) 0.671 0.671 0.671 0.82 0.786 0.812 0.791 0.828 0.833 0.822
#5 R(t~t-5) 0.681 0.681 0.681 0.832 0.818 0.837 0.817 0.817 0.858 0.833
#6 R(t~t-10) 0.684 0.684 0.684 0.82 0.842 0.845 0.82 0.857 0.864 0.834
#7 R(t~t-30) 0.685 0.685 0.685 0.754 0.846 0.855 0.836 0.839 0.867 0.858
#8 R(t~t-3), R(MA2) 0.671 0.671 0.671 0.823 0.802 0.816 0.804 0.81 0.839 0.827
#9 R(t~t-3), R(MA3) 0.671 0.671 0.671 0.819 0.785 0.797 0.792 0.825 0.83 0.821
#10 R(t~t-3), R(MA5) 0.681 0.681 0.681 0.834 0.833 0.819 0.818 0.822 0.847 0.829
#11 R(t~t-3), R(MA10) 0.682 0.682 0.682 0.845 0.84 0.832 0.821 0.823 0.853 0.837
#12 R(t~t-10), R(MA10) 0.684 0.684 0.684 0.817 0.848 0.844 0.828 0.841 0.86 0.832
#13 R(t~t-10), R(MA2, 3, 5, 10) 0.682 0.684 0.684 0.809 0.834 0.845 0.833 0.853 0.865 0.837
#14 R(t~t-30), R(MA2, 3, 5, 10) 0.681 0.685 0.685 0.729 0.83 0.847 0.85 Fail 0.874 Fail
#15 R(t), Q(t-1) 0.663 0.663 0.663 0.783 0.756 0.759 0.747 0.793 0.796 0.79
#16 R(t~t-3), Q(t-1) 0.705 0.705 0.705 0.865 0.847 0.848 0.841 0.828 0.865 0.871
#17 R(t~t-10), Q(t-1) 0.708 0.708 0.708 0.825 0.863 0.86 0.829 0.841 0.866 0.846
#18 R(t~t-3), Q(t~t-5) 0.705 0.706 0.705 0.873 0.874 0.875 0.848 0.81 0.884 0.886
#19 R(t~t-5), Q(t~t-5) 0.704 0.704 0.704 0.846 0.874 0.878 0.848 0.85 0.887 0.851
#20 R(t~t-10), Q(t~t-10) 0.705 0.706 0.705 0.787 0.875 0.88 0.863 0.835 0.868 0.848
#21 R(t~t-30), Q(t~t-30) 0.702 0.702 0.702 0.735 0.862 0.874 0.856 Fail 0.872 Fail
#22 R(t~t-3), Q(t-1), delQ(t-1) 0.705 0.705 0.705 0.865 0.85 0.848 0.841 0.826 0.871 0.863
#23 R(t), Bf(t-1) 0.527 0.527 0.527 0.661 0.672 0.696 0.686 0.654 0.679 0.679
#24 R(t), Bf(t-1), Sf(t-1) 0.666 0.666 0.666 0.777 0.78 0.78 0.759 0.765 0.81 0.805
#25 R(t~t-3), Bf(t-1), Sf(t-1) 0.715 0.715 0.715 0.898 0.878 0.879 0.860 0.829 0.901 0.905
#26 R(t~t-5), Bf(t-1), Sf(t-1) 0.714 0.714 0.714 0.882 0.894 0.884 0.865 0.832 0.887 0.86
#27 R(t~t-5), Bf(t-1), Sf(t-1~t-5) 0.711 0.711 0.711 0.842 0.894 0.889 0.869 0.851 0.891 0.869
#28 R(t), Tavg(t) 0.408 0.408 0.408 0.502 0.456 0.486 0.442 0.508 0.507 0.497
#29 R(t), Evap(t) 0.41 0.41 0.41 0.488 0.51 0.505 0.48 0.482 0.498 0.492
#30 R(t), Tavg(t), Evap(t) 0.41 0.41 0.41 0.507 0.46 0.507 0.43 0.516 0.513 0.498
#31 R(t~t-3), Tavg(t), Evap(t) 0.675 0.675 0.675 0.831 0.798 0.822 0.796 0.828 0.839 0.834
#32 R(t~t-5), Tavg(t), Evap(t) 0.687 0.687 0.687 0.842 0.824 0.850 0.824 0.839 0.843 0.836
#33 R(t~t-5), Q(t-1), Tavg(t), Evap(t) 0.713 0.713 0.713 0.866 0.868 0.859 0.846 0.844 0.867 0.841
#34 R(t~t-10), Tavg(t), Evap(t) 0.692 0.693 0.692 0.826 0.845 0.851 0.821 0.827 0.864 0.842
#35 R(t~t-3), B(t-1), Sf(t-1), Evap(t), Tavg(t) 0.725 0.726 0.725 0.905 0.891 0.884 0.868 0.839 0.894 0.900
#36 R(t~t-10), Bf(t-1), Sf(t-1~t-5), Evap(t), Tavg(t) 0.722 0.722 0.722 0.801 0.896 0.884 0.876 0.845 0.866 0.849
Maximum 0.725 0.726 0.725 0.905 0.896 0.889 0.876 0.857 0.901 0.905
Average 0.654 0.654 0.654 0.782 0.791 0.799 0.778 0.782 0.812 0.796
Minimum 0.404 0.404 0.404 0.463 0.448 0.472 0.421 0.478 0.495 0.492

ML, machine learning; DL, deep learning; LR, Linear Regression; SVR, Support Vector Regression; RF, Random Forest; LGBM, Light Gradient Boosting Model; XGB, eXtream Gradient Boosting Model; LSTM, Long Short-Term Memory; TCN, Temporal Convolutional Network.

  • Abadi M, Barham P, Chen J, et al (2016) TensorFlow: a system for large-scale machine learning. Proceedings of the 12th USENIX Symposium on Operating Systems Design and Implementation; Savannah. 2-4 Nov 2016
  • Abbott MB, Bathurst JC, Cunge JA, O’Connell PE, Rasmussen J (1986) An introduction to the European Hydrological System—Systeme Hydrologique Europeen,“SHE”, 1: history and philosophy of a physically-based, distributed modelling system. J Hydrol 87(12):45–59Article
  • Abu El-Nasr A, Willems P, Arnold J, Feyen J (2002) Comparison of two methods to split the total discharge in its components. Hydroinformatics 2002:253–258
  • Arnold JG, Srinivasan R, Muttiah RS, Williams JR (1998) Large area hydrologic modeling and assessment part I: model development 1. JAWRA 34(1):73–89Article
  • Babur M, Babel MS, Shrestha S, Kawasaki A, Tripathi NK (2016) Assessment of climate change impact on reservoir inflows using multi climate-models under RCPs—The case of Mangla Dam in Pakistan. Water 8(9):389Article
  • Bastola S, Ishidaira H, Takeuchi K (2008) Regionalisation of hydrological model parameters under parameter uncertainty: a case study involving TOPMODEL and basins across the globe. J Hydrol 357(3-4):188–206Article
  • Bicknell BR, Imhoff JC, Kittle JL Jr, Jobes TH, Donigian AS Jr (2001) Hydrological simulation program–FORTRAN (HSPF), user’s manual for version 12.0. U.S. Environmental Protection Agency, Athens
  • Breiman L (2001) Random forests. Mach Learn 45(1):5–32
  • Chen T, Guestrin C (2016) XGBoost: a scalable tree boosting system. Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining; San Francisco. 13-17 Aug 2016
  • Cortes C, Vapnik V (1995) Support-vector networks. Mach Learn 20(3):273–797ArticlePDF
  • Dawson CW, Wilby RL (2001) Hydrological modelling using artificial neural networks. Prog Phys Geogr 25(1):80–108Article
  • Fan H, Jiang M, Xu L, Zhu H, Cheng J, Jiang J (2020) Comparison of long short term memory networks and the hydrological model in runoff simulation. Water 12(1):175Article
  • Gao S, Huang Y, Zhang S, et al (2020) Short-term runoff prediction with GRU and LSTM networks without requiring time step optimization during sample generation. J Hydrol 589:125188Article
  • Ghoraba SM (2015) Hydrological modeling of the Simly Dam watershed (Pakistan) using GIS and SWAT model. Alex Eng J 54(3):583–594Article
  • Gourley JJ, Vieux BE (2006) A method for identifying sources of model uncertainty in rainfall-runoff simulations. J Hydrol 327(1-2):68–80Article
  • Gupta HV, Kling H, Yilmaz KK, Martinez GF (2009) Decomposition of the mean squared error and NSE performance criteria: implications for improving hydrological modelling. J Hydrol 377(1-2):80–91Article
  • Hochreiter S, Schmidhuber J (1997) Long short-term memory. Neural Comput 9(8):1735–1780ArticlePubMed
  • Hopfield JJ (1982) Neural networks and physical systems with emergent collective computational abilities. Proc Natl Acad Sci USA 79(8):2554–2558ArticlePubMedPMC
  • Hu C, Wu Q, Li H, Jian S, Li N, Lou Z (2018) Deep learning with a long short-term memory networks approach for rainfall-runoff simulation. Water 10(11):1543Article
  • Janiesch C, Zschech P, Heinrich K (2021) Machine learning and deep learning. Electron Mark 31(3):685–695ArticlePDF
  • Kim D, Kang S (2021) Data collection strategy for building rainfall-runoff LSTM model predicting daily runoff. J Korea Water Resour Assoc 54(10):795–805
  • Kratzert F, Klotz D, Brenner C, Schulz K, Herrnegger M (2018) Rainfall–runoff modelling using Long Short-Term Memory (LSTM) networks. HESS 22(11):6005–6022Article
  • Leavesley GH, Lichty RW, Troutman BM, Saindon LG (1983) Precipitation-runoff modeling system: user’s manual USGS, Water Resources Investigations Report 83-4238
  • McCulloch WS, Pitts W (1943) A logical calculus of the ideas immanent in nervous activity. Bull Math Biophys 5(4):115–133ArticlePDF
  • Nash JE, Sutcliffe JV (1970) River flow forecasting through conceptual models part I—A discussion of principles. J Hydrol 10(3):282–290Article
  • Park MK, Yoon YS, Lee HH, Kim JH (2018) Application of recurrent neural network for inflow prediction into multipurpose dam basin. J Korea Water Resour Assoc 51(12):1217–1227
  • Paszke A, Gross S, Massa F, et al (2019) PyTorch: an imperative style, high-performance deep learning library. Proceedings of the 33rd Conference on Neural Information Processing Systems (NeurIPS 2019); Vancouver Convention Centre, Vancouver. 8-14 Dec 2019
  • Pedregosa F, Varoquaux G, Gramfort A, et al (2011) Scikit-learn: machine learning in python. J Mach Learn Res 12:2825–2830
  • Singh VP, Frevert DK (2005) Watershed models. CRC Press, Boca Raton
  • Xiang Z, Yan J, Demir I (2020) A rainfall‐runoff model with LSTM‐ based sequence‐to‐sequence learning. Water Resour Res 56(1):e2019WR025326ArticlePDF
  • Zhang J, Chen X, Khan A, et al (2021) Daily runoff forecasting by deep recursive neural network. J Hydrol 596:126067Article
Metadata for Dataset
Sort Filed Subcategory#1 Subcategory#2
Essential *Title Dam inflow of Soyangdam
*DOI name https://doi.org/10.22761/GD.2023.0016
*Category Hydrology
Abstract
*Temporal Coverage 1974 January 1 to 2021 December 31
*Spatial Coverage Address Chuncheon Kangwondo Korea Rep.
WGS84 Coordinates 37.945556, 127.814444
*Personnel Name YS. JO
Affiliation K-water
E-mail jyslord@kwater.or.kr
*CC License None
Optional *Project None
*Instrument None

Figure & Data

References

    Citations

    Citations to this article as recorded by  

      Figure
      • 0
      • 1
      • 2
      Comparative Study of Machine Learning and Deep Learning Models Applied to Data Preprocessing Methods for Dam Inflow Prediction
      Image Image Image
      Fig. 1. Status of River Basin of Soyang.
      Fig. 2. Daily inflow dataset for machine learning and deep learning.
      Fig. 3. The result of data preprocessing and machine learning and deep learning combination for daily inflow prediction (Nash-Sutcliffe Efficiency). TCN, Temporal Convolutional Network; LSTM, Long Short-Term Memory; LR, Linear Regression; SVR, Support Vector Regression; XGB, eXtream Gradient Boosting Model; LGBM, Light Gradient Boosting Model; RDFR, Random Forest.
      Comparative Study of Machine Learning and Deep Learning Models Applied to Data Preprocessing Methods for Dam Inflow Prediction
      Data group Data set
      CASE scenario
      CASE #N0
      Independent variable Independent Dependent
      Rainfall (R) Basic data R(t) R(t) Q(t) #1
      Time lagged data R(t-1) R(t)-R(t-1) Q(t) #2
      R(t-2) R(t)-R(t-2) Q(t) #3
      R(t-3) R(t)-R(t-3) Q(t) #4
      R(t-5) R(t)-R(t-5) Q(t) #5
      R(t-10) R(t)-R(t-10) Q(t) #6
      R(t-30) R(t)-R(t-30) Q(t) #7
      Moving averaged data R(MA2) R(t)-R(t-3), R(MA2) Q(t) #8
      R(MA3) R(t)-R(t-3), R(MA3) Q(t) #9
      R(MA5) R(t)-R(t-3), R(MA5) Q(t) #10
      R(MA10) R(t)-R(t-3), R(MA10) Q(t) #11
      R(t)-R(t-10), R(MA10) Q(t) #12
      R(t)-R(t-10), R(MA2, 3, 5, 10) Q(t) #13
      R(t)-R(t-30), R(MA2, 3, 5, 10) Q(t) #14
      Rainfall (R) and inflow (Q) Time lagged data Q(t-1) R(t), Q(t-1) Q(t) #15
      Q(t-3) R(t)-R(t-3), Q(t-1) Q(t) #16
      Q(t-5) R(t)-R(t-10), Q(t-1) Q(t) #17
      Q(t-30) R(t)-R(t-3), Q(t-1)-Q(t-5) Q(t) #18
      R(t)-R(t-5), Q(t-1)-Q(t-5) Q(t) #19
      R(t)-R(t-10), Q(t-1)-Q(t-10) Q(t) #20
      R(t)-R(t-30), Q(t-1)-Q(t-30) Q(t) #21
      Differenced delta value delQ [Q(t-n)-Q(t-(n-1))] R(t)-R(t-3), Q(t-1), delQ(t-1) Q(t) #22
      Component separation Bf(t-1) Sf(t-1) R(t), Bf(t-1) Q(t) #23
      Bf(t-2) Sf(t-2) R(t), Bf(t-1), Sf(t-1) Q(t) #24
      - Baseflow (Bf) Bf(t-3) Sf(t-3) R(t)-R(t-3), Bf(t-1), Sf(t-1) Q(t) #25
      - Surfaceflow (Sf) Bf(t-5) Sf(t-5) R(t)-R(t-5), Bf(t-1), Sf(t-1) Q(t) #26
      R(t)-R(t-5), Bf(t-1), Sf(t-1-t-5) Q(t) #27
      Rainfall (R), inflow (Q) and meteorological data Temperature, evaporation Tavg(t) (averaged temperature) R(t), Tavg(t) Q(t) #28
      R(t), Evap(t) Q(t) #29
      Evap(t) R(t), Tavg(t), Evap(t) Q(t) #30
      (evaporation) R(t)-R(t-3), Tavg(t), Evap(t) Q(t) #31
      R(t)-R(t-5), Tavg(t), Evap(t) Q(t) #32
      R(t)-R(t-5), Q(t-1), Tavg(t), Evap(t) Q(t) #33
      R(t)-R(t-10), Tavg(t), Evap(t) Q(t) #34
      R(t-t-3), B(t-1), Sf(t-1), Evap(t), Tavg(t) Q(t) #35
      R(t)-R(t-10), Bf(t-1), Sf(t-1-t-5), Evap(t), Tavg(t) Q(t) #36
      Model Hyperparameter
      SVR Kernel type (rbf), gamma (0.02), C-value (1300), epsilon (1), degree (-)
      RF Bootstrap (true), max_deapth (5), max_feature (auto), n_estimator (100)
      LightGBM Colsamples_bytree (0.8), min_child_samples (20), max-depth (3), n_estimators (100), num_leaves (20)
      LSTM Layer (2), nodes (512), activation function (1-tanh, 2-relu), optimizer (Adam), batch size (512)
      TCN Layer (3), filters (512-512-512)), kernel size (4,4,4), activation function (1-relu, 2-relu, 3-relu), batch size (512)
      Content Value
      River basin Bukhan River
      Basin area 2,703 km2
      Length/height 530 m/123 m
      Dam type E.C.R.D
      Generation capacity 200 MW
      Annual generation 353 GWh
      Total storage volume 2,900 million m3
      Storage area 70 km2
      Annual averaged inflow (1974 to 2021) 67.7 m3/s
      2,153 million m3
      Annual averaged rainfall (1974 to 2021) 1,214 mm
      Planned basic supply 1,468.4 million m3
      Value
      Training Day 1 to Day 10,000
      Validation Day 10,001 to Day 15,000
      Test (prediction) Day 15,001 to Day 17,532
      No. Data case LR Lasso Ridge SVR RF LGBM XGB LSTM TCN TCN-LSTM
      #1 R(t) 0.404 0.404 0.404 0.463 0.448 0.472 0.421 0.478 0.495 0.498
      #2 R(t~t-1) 0.629 0.63 0.629 0.783 0.743 0.773 0.725 0.759 0.767 0.772
      #3 R(t~t-2) 0.659 0.659 0.659 0.804 0.746 0.78 0.745 0.779 0.807 0.806
      #4 R(t~t-3) 0.671 0.671 0.671 0.82 0.786 0.812 0.791 0.828 0.833 0.822
      #5 R(t~t-5) 0.681 0.681 0.681 0.832 0.818 0.837 0.817 0.817 0.858 0.833
      #6 R(t~t-10) 0.684 0.684 0.684 0.82 0.842 0.845 0.82 0.857 0.864 0.834
      #7 R(t~t-30) 0.685 0.685 0.685 0.754 0.846 0.855 0.836 0.839 0.867 0.858
      #8 R(t~t-3), R(MA2) 0.671 0.671 0.671 0.823 0.802 0.816 0.804 0.81 0.839 0.827
      #9 R(t~t-3), R(MA3) 0.671 0.671 0.671 0.819 0.785 0.797 0.792 0.825 0.83 0.821
      #10 R(t~t-3), R(MA5) 0.681 0.681 0.681 0.834 0.833 0.819 0.818 0.822 0.847 0.829
      #11 R(t~t-3), R(MA10) 0.682 0.682 0.682 0.845 0.84 0.832 0.821 0.823 0.853 0.837
      #12 R(t~t-10), R(MA10) 0.684 0.684 0.684 0.817 0.848 0.844 0.828 0.841 0.86 0.832
      #13 R(t~t-10), R(MA2, 3, 5, 10) 0.682 0.684 0.684 0.809 0.834 0.845 0.833 0.853 0.865 0.837
      #14 R(t~t-30), R(MA2, 3, 5, 10) 0.681 0.685 0.685 0.729 0.83 0.847 0.85 Fail 0.874 Fail
      #15 R(t), Q(t-1) 0.663 0.663 0.663 0.783 0.756 0.759 0.747 0.793 0.796 0.79
      #16 R(t~t-3), Q(t-1) 0.705 0.705 0.705 0.865 0.847 0.848 0.841 0.828 0.865 0.871
      #17 R(t~t-10), Q(t-1) 0.708 0.708 0.708 0.825 0.863 0.86 0.829 0.841 0.866 0.846
      #18 R(t~t-3), Q(t~t-5) 0.705 0.706 0.705 0.873 0.874 0.875 0.848 0.81 0.884 0.886
      #19 R(t~t-5), Q(t~t-5) 0.704 0.704 0.704 0.846 0.874 0.878 0.848 0.85 0.887 0.851
      #20 R(t~t-10), Q(t~t-10) 0.705 0.706 0.705 0.787 0.875 0.88 0.863 0.835 0.868 0.848
      #21 R(t~t-30), Q(t~t-30) 0.702 0.702 0.702 0.735 0.862 0.874 0.856 Fail 0.872 Fail
      #22 R(t~t-3), Q(t-1), delQ(t-1) 0.705 0.705 0.705 0.865 0.85 0.848 0.841 0.826 0.871 0.863
      #23 R(t), Bf(t-1) 0.527 0.527 0.527 0.661 0.672 0.696 0.686 0.654 0.679 0.679
      #24 R(t), Bf(t-1), Sf(t-1) 0.666 0.666 0.666 0.777 0.78 0.78 0.759 0.765 0.81 0.805
      #25 R(t~t-3), Bf(t-1), Sf(t-1) 0.715 0.715 0.715 0.898 0.878 0.879 0.860 0.829 0.901 0.905
      #26 R(t~t-5), Bf(t-1), Sf(t-1) 0.714 0.714 0.714 0.882 0.894 0.884 0.865 0.832 0.887 0.86
      #27 R(t~t-5), Bf(t-1), Sf(t-1~t-5) 0.711 0.711 0.711 0.842 0.894 0.889 0.869 0.851 0.891 0.869
      #28 R(t), Tavg(t) 0.408 0.408 0.408 0.502 0.456 0.486 0.442 0.508 0.507 0.497
      #29 R(t), Evap(t) 0.41 0.41 0.41 0.488 0.51 0.505 0.48 0.482 0.498 0.492
      #30 R(t), Tavg(t), Evap(t) 0.41 0.41 0.41 0.507 0.46 0.507 0.43 0.516 0.513 0.498
      #31 R(t~t-3), Tavg(t), Evap(t) 0.675 0.675 0.675 0.831 0.798 0.822 0.796 0.828 0.839 0.834
      #32 R(t~t-5), Tavg(t), Evap(t) 0.687 0.687 0.687 0.842 0.824 0.850 0.824 0.839 0.843 0.836
      #33 R(t~t-5), Q(t-1), Tavg(t), Evap(t) 0.713 0.713 0.713 0.866 0.868 0.859 0.846 0.844 0.867 0.841
      #34 R(t~t-10), Tavg(t), Evap(t) 0.692 0.693 0.692 0.826 0.845 0.851 0.821 0.827 0.864 0.842
      #35 R(t~t-3), B(t-1), Sf(t-1), Evap(t), Tavg(t) 0.725 0.726 0.725 0.905 0.891 0.884 0.868 0.839 0.894 0.900
      #36 R(t~t-10), Bf(t-1), Sf(t-1~t-5), Evap(t), Tavg(t) 0.722 0.722 0.722 0.801 0.896 0.884 0.876 0.845 0.866 0.849
      Maximum 0.725 0.726 0.725 0.905 0.896 0.889 0.876 0.857 0.901 0.905
      Average 0.654 0.654 0.654 0.782 0.791 0.799 0.778 0.782 0.812 0.796
      Minimum 0.404 0.404 0.404 0.463 0.448 0.472 0.421 0.478 0.495 0.492
      Sort Filed Subcategory#1 Subcategory#2
      Essential *Title Dam inflow of Soyangdam
      *DOI name https://doi.org/10.22761/GD.2023.0016
      *Category Hydrology
      Abstract
      *Temporal Coverage 1974 January 1 to 2021 December 31
      *Spatial Coverage Address Chuncheon Kangwondo Korea Rep.
      WGS84 Coordinates 37.945556, 127.814444
      *Personnel Name YS. JO
      Affiliation K-water
      E-mail jyslord@kwater.or.kr
      *CC License None
      Optional *Project None
      *Instrument None
      Table 1. Proposed CASE scenarios for data preprocessing (CASE#1 to CASE#36)

      Table 2. Results of determining the optimal hyperparameters for ML, DL models

      ML, machine learning; DL, deep learning; SVR, Support Vector Regression; RF, Random Forest; LSTM, Long Short-Term Memory; TCN, Temporal Convolutional Network.

      Table 3. Status of Soyang River Dam

      Table 4. Splitting the dataset into training, validation and test (prediction) data

      Table 5. The comparative result of data preprocessing and ML & DL combination for daily inflow prediction

      ML, machine learning; DL, deep learning; LR, Linear Regression; SVR, Support Vector Regression; RF, Random Forest; LGBM, Light Gradient Boosting Model; XGB, eXtream Gradient Boosting Model; LSTM, Long Short-Term Memory; TCN, Temporal Convolutional Network.


      GEO DATA : GEO DATA
      TOP