Skip Navigation
Skip to contents

GEO DATA : GEO DATA

OPEN ACCESS
SEARCH
Search

Articles

Page Path
HOME > GEO DATA > Volume 6(4); 2024 > Article
Data Article
자가 학습데이터를 활용한 딥러닝 모델 기반 세분류 토지피복 분류
정봉석1orcid, 이선민2orcid, 이명진3,*orcid
Classification of Subdivision Land Use and Land Cover Using Deep Learning Models
Bongseok Jeong1orcid, Sunmin Lee2orcid, Moung-jin Lee3,*orcid
GEO DATA 2024;6(4):535-551.
DOI: https://doi.org/10.22761/GD.2024.0059
Published online: December 31, 2024

1연구원, 한국환경연구원 물국토연구본부 환경계획연구실, 세종특별자치시 시정대로 370, 30147, 대한민국

2전문연구원, 한국환경연구원 환경평가모니터링센터, 세종특별자치시 시정대로 370, 30147, 대한민국

3연구위원, 한국환경연구원 물국토연구본부 환경계획연구실, 세종특별자치시 시정대로 370, 30147, 대한민국

1Resercher, Division for Environmental Planning, Water and Land Research Group, Korea Environment Institute (KEI), 370 Sicheong-daero, 30147 Sejong, South Korea

2Research Specialist, Environmental Assessment Group, Center for Environmental Assessment Monitoring, Korea Environment Institute (KEI), 370 Sicheongdaero, 30147 Sejong, South Korea

3Senior Research Fellow, Division for Environmental Planning, Water and Land Research Group, Korea Environment Institute (KEI), 370 Sicheong-daero, 30147 Sejong, South Korea

Corresponding Author Moung-jin Lee Tel: +82-44-415-7314 E-mail: leemj@kei.re.kr
• Received: December 2, 2024   • Revised: December 17, 2024   • Accepted: December 22, 2024

Copyright © 2024 GeoAI Data Society

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

prev next
  • 189 Views
  • 16 Download
  • Land cover provides crucial information related to biological geography, ecological climatology, and human activities. In the past, land cover mapping was performed based on visual interpretation, but it had limitations in terms of time and cost. Recently, it has become possible to create land cover maps with higher temporal resolution over wider areas using artificial intelligence-based models. The accuracy and reliability of AI model-based land cover maps increase with the amount of training data, but it is difficult to acquire large amounts of data due to the time required for label data annotation. In South Korea, the Environmental Geographic Information Service provides self-learning data consisting of aerial orthoimages and subdivision land cover classification level label data, making it possible to collect high-quality data. Therefore, this study examined the feasibility of self-learning data by building and evaluating a U-Net-based land cover classification model for waterfront areas using self-learning data. The trained model showed relatively low performance with an F-1 score of 0.61 for training data and 0.31 for test data. The model’s low performance is thought to be due to insufficient training caused by the large number of classification categories (34) and data imbalance between categories. Although the model performance using self-learning data was low, it is believed that model performance can be improved by grouping classification categories according to research purposes or resolving data imbalance through data augmentation techniques. Therefore, self-learning data is expected to be utilized in various studies using land cover.
토지피복(land cover)은 산림, 수체, 토지 등 지구 표면의 물리적, 생물학적 피복을 포함한다(Vali et al., 2020). 토지피복을 통해 지형, 기후, 생물종 및 토양 등 생물지리학적, 생태기후학적 정보와 인간 활동과 관련된 정보를 파악할 수 있어 이에 대한 높은 시간해상도와 공간해상도의 자료를 확보하는 것이 중요하다(Wulder et al., 2018). 전 세계적으로 현장 조사, 참조 자료 및 원격탐사를 활용한 토지피복지도 제작을 수행 중에 있다. 토지피복 분류 체계는 제작 기관의 활용 목적에 따라 상이하며 주거용, 상업용 및 산업용 등 토지 이용(land use)과 관련된 정보도 함께 포함하는 경우도 다수 존재한다.
국내에서는 해상도에 따라 대분류, 중분류 및 세분류 토지피복지도를 제공하고 있다. 대분류 토지피복지도는 30 m 급 해상도로 7개 항목에 대한 정보를 제공하고, 중분류 토지피복지도는 5 m급 해상도로 22개 항목에 대한 정보를 제공한다. 세분류 토지피복지도는 1 m급 해상도로 토지피복 정보와 토지 이용 정보를 모두 포함하는 41개 항목에 대한 정보를 제공하여(Appendix 1) 다양한 연구 분야에서의 활용도가 크다(Park et al., 2022; Son et al., 2021; Yu et al., 2020). 2010년부터 아리랑 2호 및 항공정사영상 등 기본 자료와 수치지도, 지적도 및 임상도 등 참조 자료를 활용하여 세분류 토지피복지도 제작이 수행되었고 2019년 이후로 전국 세분류 토지피복지도가 매년 갱신되고 있다(Ministry of Environment, 2020).
전국 단위의 세분류 토지피복지도가 처음 제작된 2018년에는 육안 판독을 기반으로 기본 자료와 참조 자료를 활용하여 세분류 토지피복지도를 제작하였다(Ministry of Environment, 2024). 육안 판독 기반의 토지피복지도 제작은 신뢰할 수 있는 결과를 제공하지만 금전적 및 시간적으로 상당한 자원을 소비하고 분류 기준, 최소 매핑 단위와 같은 요인들로 인하여 소규모 면적이 일부 간과되는 단점을 지닌다(Fonseca et al., 2021). 또한 긴 갱신 주기(1년)로 인하여 높은 시간해상도의 모니터링 결과를 제공하지 못해 재난으로 인한 피해 예측 및 의사결정 지원에 어려움이 있다(Brown et al., 2022). 따라서 최근 원격탐사, 컴퓨팅 기능 및 인공지능 모델 등의 발달과 함께 모델 기반의 토지피복 모니터링이 수행되고 있다(Naboureh et al., 2020; Phan et al., 2020; Ren et al., 2020). 국내에서도 2020년부터 인공지능 모델과 참조 자료를 활용한 지능형 토지피복 자동분류시스템을 구축하여 운영 중에 있다(Ministry of Environment, 2023).
머신러닝 및 딥러닝 등 모델을 활용한 토지피복 모니터링은 학습하는 영상데이터와 동일한 시간해상도와 공간해상도 수준의 자료를 제공한다. 따라서 양질의 토지피복 자료를 수집할 수 있으나 모델을 학습시키기 위해서는 많은 양의 학습데이터가 필요하다(Zhang et al., 2018). 학습데이터 중 영상 데이터는 Google Earth Engine 및 국토지리정보원 등 다양한 오픈 데이터 플랫폼에서 확보할 수 있으나 해당 영상과 대응되는 라벨 데이터 확보는 어렵다. 최근에는 국토지리정보원에서 항공정사영상 및 토지피복지도로 구성된 학습데이터셋을 제공하고 있어 양질의 데이터 확보가 가능하다.
본 연구에서는 환경공간정보서비스 학습데이터 기반 토지피복 분류 모델을 활용하여 세분류 토지피복 모니터링을 수행하고자 한다. 연구 지역은 수질 및 수생태에 영향을 주는 토지피복의 변화를 모니터링하기 위하여 수변의 토지피복을 포함하는 도엽을 선정하였다. 토지피복 분류 모델로는 머신러닝 기반의 분류 모델보다 데이터의 공간적인 특징을 고려하는 segmentation 모델 중 하나인 U-Net 모델을 사용하였다. 학습된 U-Net 모델은 4가지 성능 지표를 적용하여 모델의 성능을 평가하였고 모델의 결과와 실제 라벨 데이터를 비교하여 모델의 활용성을 분석하였다.
환경공간정보서비스에서는 환경부 정보화담당관실에서 구축한 토지피복지도 세분류 이미지를 제공하고 있다. 토지피복지도 세분류 이미지는 항공정사영상과 환경부 세분류 토지피복지도를 전처리하고 일정 크기의 영상으로 절단한 후 PNG 파일로 변환하여 구축되었다. 현재 2024년 10월 기준으로 총 4가지 버전에 대한 학습데이터를 개방하고 있다(Table 1). 첫 번째 버전의 학습데이터는 357개의 도엽에 대해 제공하고 있으며 항공정사영상 및 토지피복 기반으로 생성한 후 추가적인 알고리즘을 적용하지 않았다. 두 번째 버전의 학습데이터는 605개의 도엽에 대해 제공하고 있으며 항공정사영상 및 토지피복 기반으로 생성한 후 분류 항목 간의 불균형을 해소하기 위해 균질화 알고리즘을 적용하였다. 세 번째 버전의 학습데이터는 균질화된 데이터를 인공지능을 활용하여 자동 분류한 후 오분류 항목을 수정한 자가 학습데이터를 400개의 도엽에 대해 제공한다(Fig. 1). 네 번째 버전의 학습데이터는 자가 학습데이터를 균질화하여 900개의 도엽에 대한 데이터를 제공한다.
본 연구는 4가지 버전의 학습데이터 중 세 번째 버전의 자가학습 데이터를 사용하여 분류 모델을 구축하였다. 세 번째 버전의 자가학습 데이터는 2022년 항공정사영상 및 2023년 KOMPSAT 위성영상을 활용하며 1) 영상 자료 전처리, 2) 학습데이터셋 생성, 3) 학습데이터 균질화, 4) 자가학습 데이터 생성 단계를 거쳐 구축된다(Ministry of Environment, 2024). 영상 자료 전처리 단계에서는 항공정사영상과 토지피복지도를 동일한 해상도를 가지는 PNG 형식의 파일로 변환한다. 학습데이터셋 생성 단계에서는 항공정사영상과 토지피복지도의 위치를 맞추고 일정 크기와 간격(512×512, 1,024×1,024, 2,048×2,048)으로 분할하여 tile을 생성한다. 학습데이터 균질화 단계에서는 데이터 불균형으로 인한 모델 성능 저하를 방지하기 위하여 tile별 분류 항목의 majority 항목과 minority 항목을 분석한 후 majority 항목에 대해서는 undersampling을 수행하고 minority 항목에 대해서는 oversampling을 수행한다. 자가학습 데이터 생성 단계에서는 균질화된 학습데이터셋을 인공지능 모델을 통해 자동 분류한 후 오류 항목을 수정 및 편집하여 자가학습 데이터를 생성한다.
자가학습 데이터 생성에는 전국 중 산악 지역을 제외하고 토지피복 분류 항목과 지역별 배분을 고려한 900개의 도엽에 대한 데이터를 활용하였다. 하지만 환경공간정보서비스에서는 데이터의 크기 등을 고려하여 400개의 도엽에 대한 512×512 크기의 데이터셋만을 제공 중에 있다. 학습데이터는 용도에 따라 Train, Val 및 Test 폴더로 구분되고 각 폴더를 다시 도엽번호 폴더로 구성한다. 각 도엽번호 폴더는 영상 자료가 포함된 X폴더와 라벨 데이터가 포함된 Y폴더로 구성한다(Fig. 2). 자가학습 데이터의 항공정사영상은 red, blue, green에 대한 분광 정보를 제공하며 라벨 데이터의 경우 세 분류 토지피복지도와 동일한 41개의 항목과 미분류 항목을 포함한 42개에 대한 정보를 제공한다(Table 2).
전체적인 연구 절차는 1) 데이터 수집, 2) 입력 데이터 샘플링, 3) 딥러닝 모델 학습 및 검증, 4) 딥러닝 모델 성능 평가로 구성된다(Fig. 3). 데이터 수집 과정에서 환경공간정보서비스에서 제공하는 400개의 도엽에 대한 자가학습 데이터를 수집하였다. 데이터 샘플링 단계에서는 400개의 도엽 중 금강유역을 포함하는 6개 도엽을 활용하여 학습데이터와 검증데이터 그리고 시험데이터를 구축하였다. 학습데이터 및 검증데이터는 딥러닝 모델인 U-Net 모델의 학습 과정에서 활용하였고 시험데이터는 최종 모델의 성능을 분석하기 위해 사용되었다.
3.1 U-Net 모델 구축
U-Net 모델은 데이터의 특징을 추출하는 인코더와 추출된 특징을 기반으로 이미지를 복원하는 디코더로 구성한다. 인코더에서 추출된 특징을 스킵 구조(skip connection) 연결을 통해 이미지를 복원하는 과정에 전달하여 공간 정보 손실이 적으며 pixel wise loss를 산정하여 적은 양의 학습데이터로도 우수한 성능을 보인다(Siddique et al., 2021). 본 연구는 합성곱 레이어, 배치 정규화 레이어, 활성화 함수 2개와 1개의 드롭아웃 층으로 구성된 인코딩 블록과 디코딩 블록을 구성하여 U-Net을 구축하였다(Fig. 4). 인코딩 블록은 입력 값과 동일한 크기의 특성맵(feature map)을 생성하였고 맥스풀링(maxpooling)을 사용하여 크기를 절반으로 줄이고 새로운 특성맵을 추출하였다. 인코딩 블록과 맥스풀링을 통해 데이터의 크기는 가로, 세로 방향으로 절반씩 줄어들지만 필터의 수는 두 배로 증가한다. 인코딩 블록과 맥스풀링을 적용하는 과정을 3번 반복하여 최종 특성맵을 생성하였다. 최종 특성맵은 업샘플링(upsampling)을 사용하여 가로, 세로 방향으로 두 배씩 크기를 늘인 후 스킵 구조 연결을 활용하여 동일한 크기를 가진 인코더의 특성맵과 중첩해 공간 정보의 소실을 방지하였다. 중첩된 특성맵은 디코딩 블록을 적용하였고 최종적으로 입력된 이미지의 라벨을 분류하도록 모델을 구축하였다.
3.2 모델 성능 지표
세분류 토지피복 분류 모델의 분류 성능을 평가하기 위해 픽셀 정확도(pixel accuracy), 재현율(recall), 정밀도(precision), F1 점수(F1 score)를 사용하였다. 픽셀 정확도는 올바르게 분류된 픽셀의 수를 전체 픽셀의 수로 나누어서 산정하고 데이터 불균형에 민감한 특성을 보인다. 재현율은 분류 항목을 올바르게 분류한 픽셀의 수를 실제 분류 항목 픽셀의 수로 나누어서 산정한다. 정밀도는 분류 항목을 올바르게 분류한 픽셀의 수를 분류 항목으로 분류한 전체 픽셀의 수로 나누어서 산정한다. F1 점수는 정밀도와 재현율의 조화 평균으로 산정한다. 재현율, 정밀도, F1 점수는 각 분류 항목에 대해서 산정한 후 평균값을 산정하며 각 분류 항목에 대한 산정식은 다음과 같다(Eq. 1-4)
Eq. 1
 Pixel accuracy =TP+TNTP+TN+FP+FN
Eq. 2
Recalli=TPiTPi+FNi
Eq. 3
Precisioni=TPiTPi+FPi
Eq. 4
F1 score i=2×Precisioni×RecalliPrecisioni+Recalli
수식에서 i는 임의의 분류 항목을 의미하며 TP는 i를 i로 옳게 분류한 경우, FN은 i를 i 이외의 분류 항목으로 오분류 한 경우, FP는 i 이외의 분류 항목을 i로 오분류한 경우를 의미한다.
4.1 결과
U-Net 모델은 학습데이터에 대해서 픽셀 정확도 0.7710, 재현율 0.5430, 정밀도 0.6893, F1 점수 0.6075를 보였다(Table 3). 픽셀 정확도에 비해 상대적으로 재현율, 정밀도, F1 score가 낮게 산정되었고 이는 재현율, 정밀도, F1 score가 학습데이터의 분류 항목의 불균형에 대하여 강건한 결과를 제공한 것으로 판단된다(Baek et al., 2021). 검증데이터와 시험데이터에 대한 U-Net 모델의 성능은 4가지 지표 모두 훈련데이터보다 낮은 성능을 보였다(Appendix 2). 이는 분류 항목이 많고, 각 분류 항목이 비율이 불균형해서 충분한 학습이 이루어지지 못한 것으로 판단된다(Ghaseminik et al., 2021).
학습된 U-Net 모델과 시험데이터의 항공정사영상을 활용하여 세분류 토지피복 분류 결과 라벨데이터에 비해 다소 오분류하는 결과를 보였다(Fig. 5). 특히 활엽수림과 침엽수림 혹은 하천과 호수와 같이 유사한 분광 특성을 보이는 분류 항목 간에 오분류하는 경향성이 높았다(Fig. 5A-C, G-I). 하지만 Fig. 5D-F와 같이 주변 공간 특성을 반영하지 못하고 전혀 다른 분류 항목으로 오분류하는 경우도 존재하였다. 이는 현재 비교적 낮은 시험데이터에 대한 모델 성능에 기인한 것으로 모델 성능 향상 시 오분류 경향이 낮아질 것으로 판단된다.
4.2 토의
학습된 모델은 시험데이터에 대하여 픽셀 정확도 0.5899, 재현율 0.3027, 정밀도 0.3113, F1 점수 0.3069로 다소 낮은 성능을 보였다(Table 3). 학습된 모델의 낮은 성능은 크게 학습한 데이터의 특징과 모델 최적화 방법에서 기인된 것으로 판단된다. 첫 번째로 데이터 자체 특성을 고려하였을 때 라벨데이터 분류 항목이 34개 항목으로 많다. 이는 많은 데이터 항목 간의 데이터 불균형이 높은 것이 원인으로 판단된다(Fonseca et al., 2021; Naboureh et al., 2020). 따라서 유사한 분광 특성의 항목을 서로 그룹화한 후 학습을 수행하거나 데이터 증강기법을 적용해서 데이터 불균형을 해소한다면 모델의 성능이 향상될 것으로 기대된다(Lee et al., 2023; Ministry of Environment, 2024). 두 번째로 모델 최적화의 경우 모델의 가중치 및 편의는 batch와 epoch의 수에 따라 지속적으로 학습되지만 모델의 하이퍼파라미터에 대한 최적화를 수행하지 않은 것이 모델 성능 감소로 이어진 것 판단된다(Shankar et al., 2020). 본 연구에서는 epoch, batch size, learning rate 등 주요 모델 하이퍼파라미터에 단일 값을 사용하였다(Table 4). 하지만 딥러닝 모델의 학습 성능은 모델의 초기값에 따라 상이한 결과를 도출하기 때문에 적절한 하이퍼파라미터를 선정하는 것이 중요하다. 또한 U-Net 모델의 학습 곡선에서 학습데이터에 대한 손실함수 값은 감소하는 반면 검증데이터에 대한 손실함수 값은 증가하여 과적합 경향성을 보였다(Fig. 6). 이는 모델 학습 시 validation accuracy를 learning rate 조정 및 학습 조기 종료에 활용한 것이 영향을 미친 것으로 판단된다. 게다가 학습 과정에서 모델 최적화 시 데이터 불균형을 고려하지 않은 손실함수를 사용한 것이 majority 항목에 대한 성능을 증가하는 방향으로 학습하여 minority 항목에 대해서는 학습이 부족했던 것이 추가적인 원인으로 판단된다. 따라서 차후 다양한 하이퍼 파라미터 최적화 기법 적용 및 minority 항목에 집중하는 손실함수 적용을 통해 모델의 성능 향상을 도모하고자 한다.
본 연구는 환경공간정보서비스에서 제공하는 자가학습 데이터셋의 활용 가능성을 확인하기 위하여 U-Net 기반 분류 모델을 구축하여 세분류 토지피복 분류를 수행하였다. U-Net 모델은 학습데이터의 경우 양호한 픽셀 정확도를 보였지만 재현율, 정밀도, F1 점수에서는 비교적 낮은 성능을 보였다. 또한 검증데이터와 시험데이터에 대해서도 낮은 성능을 보였기 때문에 충분한 학습이 이루어지지 않은 것으로 판단된다. 학습이 충분하지 않은 대표적인 원인으로는 학습데이터의 많은 분류 항목과 분류 항목 간의 데이터 불균형으로 판단된다. 해당 원인은 유사한 항목을 서로 그룹화해서 분류 항목을 감소시키거나 다양한 데이터 증강기법을 적용하여 데이터 불균형을 해소함으로써 해결할 수 있다. 비록 본 연구에서는 분류 항목 그룹화, 데이터 증강기법을 사용하지 않아 U-Net 모델의 성능이 낮았지만 차후 자가 학습데이터를 활용한 다양한 연구에서 목적으로 하는 분류 항목으로 그룹화하고 데이터의 불균형을 해소한다면 우수한 성과를 도출할 수 있을 것으로 기대된다.
또한 본 연구에 활용된 세분류 토지피복 학습데이터는 환경부에 구축하여 다양한 연구에 활용할 수 있도록 개방한 데이터이다. 즉 사업 보고서의 형태가 아닌, 환경부의 공개된 토지피복 학습데이터를 사용하는 초기 연구이다. 비전 기반 AI의 확대와 더불어 원격탐사 이미지를 AI로 분류하는 연구는 현재 꾸준히 증가 중이다. 특히 위성영상은 접근이 어려우며 넓은 지역을 모니터링하는 데 유용하다. 환경 이슈는 광범위한 지역에 다양한 형태로 표출되기 때문에 Black Box 모델인 AI 방법론을 적용하는 사례가 확대될 것으로 기대된다. 이에 본 연구에서 활용된 데이터는 향후 다양한 연구에 활용될 것으로 사료된다.
Acknowledgements
This paper is based on the results of the research work (2024-086) conducted by the Korea Environment Institute (KEI) upon the request of the Korea Water Resources Corporation (K-water).

Conflict of Interest

On behalf of all authors, the corresponding author states that there is no conflict of interest.

Funding Information

This paper is supported by research work (2024-086) conducted by the Korea Environment Institute (KEI) upon the request of the Korea Water Resources Corporation (K-water).

Data Availability Statement

The data are not publicly available due to privacy or ethical restrictions.

Fig. 1.
Distribution map of 400 sheets.
GD-2024-0059f1.jpg
Fig. 2.
Structure of dataset provided by EGIS version 3. EGIS, Environmental Geographic Information Service.
GD-2024-0059f2.jpg
Fig. 3.
Study workflow for classify subdivision land cover.
GD-2024-0059f3.jpg
Fig. 4.
Description of U-Net structure.
GD-2024-0059f4.jpg
Fig. 5.
Aerial orthophotographs (A, D, G). Label data (B, E, H). Predicted landcovers (C F, I).
GD-2024-0059f5.jpg
Fig. 6.
Learning curve of U-Net model.
GD-2024-0059f6.jpg
Table 1.
Description of dataset provided by EGIS
Data property Data version 1 Data version 2 Data version 3 Data version 4
Patch size 512×512 512×512 512×512 1,024×1,024
The size of data (GB) 150 258 350 342
The number of data 321,797 549,713 1,313,516 171,634
The number of map sheets 357 605 400 900
The number of classes 42 42 42 42

EGIS, Environmental Geographic Information Service.

Table 2.
Proportions by classification category of study data of 400 sheets
Land cover type P (%)
Single-family residential facilities 1.435
Multi-family residential facilities 0.318
Industrial facility 0.908
Commercial and business facilities 1.132
Mixed-use area 0.002
Cultural, sports, and recreational facilities 0.167
Airport 0.000
Port 0.661
Railway 0.147
Road 11.273
Other transportation and communication facilities 0.014
Environmental infrastructure facilities 0.175
Educational and administrative facilities 0.138
Other public facilities 0.323
Farmland improvement paddy fields 8.478
Unimproved paddy fields 5.071
Farmland improvement dry fields 0.773
Unimproved dry fields 6.811
Greenhouse cultivation area 2.609
Orchard 3.743
Livestock farm and aquaculture farm 0.453
Other cultivation areas 0.356
Broadleaf forest 8.200
Coniferous forest 10.627
Mixed forest 3.655
Natural grassland 0.277
Golf course 0.242
Cemetery 1.798
Other grasslands 16.748
Inland wetland (riparian vegetation) 2.660
Tidal flat 1.181
Salt pan 0.142
Beach 0.335
Riverbank 0.257
Rock cliff 0.126
Mining area 0.211
Sports field 0.108
Other bare land 4.243
River 1.984
Lake 1.070
Seawater 1.007
Unclassified 0.143

P, proportions.

Table 3.
Performance evaluation indices of the U-Net models
Dataset Evaluation indices
Pixel accuracy Recall Precision F1 score
Train data 0.7710 0.5430 0.6893 0.6075
Validation data 0.5244 0.2444 0.2962 0.2678
Test data 0.5899 0.3027 0.3113 0.3069
Table 4.
Hyperparameters of the U-Net model
Hyperparameter Value
Epoch 200
Batch size 10
Learning rate 0.001
Optimizer Adam
  • Baek WK, Lee YS, Park SH, Jung HS (2021) Classification of natural and artificial forests from KOMPSAT-3/3A/5 images using deep neural network. KJRS 37(6_3):19651974
  • Brown CF, Brumby SP, Guzder-Williams B, et al (2022) Dynamic world, near real-time global 10 m land use land cover mapping. Sci Data 9(1):251ArticlePMCPDF
  • Fonseca J, Douzas G, Bacao F (2021) Improving imbalanced land cover classification with K-Means SMOTE: detecting and oversampling distinctive minority spectral signatures. Information 12(7):266Article
  • Ghaseminik F, Aghamohammadi H, Azadbakht M (2021) Land cover mapping of urban environments using multispectral LiDAR data under data imbalance. Remote Sens Appl Soc Environ 21:100449Article
  • Lee YK, Sim WD, Lee JS (2023) Assessing the impact of sampling intensity on land use and land cover estimation using high-resolution aerial images and deep learning algorithms. J Korean Soc For Sci 112(3):267–279
  • Ministry of Environment (MOE) (2020) Development of the 2020 Land Cover Map Update. MOE Report. MOE, Sejong
  • Ministry of Environment (MOE) (2023) 2023 Intelligent Land Cover Map Update. MOE Report. MOE, Sejong
  • Ministry of Environment (MOE) (2024) Evaluation of AI applicability for Subdivision Land Cover Classification. MOE Report. MOE, Sejong
  • Naboureh A, Ebrahimy H, Azadbakht M, Bian J, Amani M (2020) RUESVMs: an ensemble method to handle the class imbalance problem in land cover mapping using Google Earth Engine. Remote Sen 12(21):3484Article
  • Park JM, Lee YK, Lee JS (2022) A comparative analysis of forest area differences between statistics information and spatial thematic maps. For Sci Technol 18(2):76–85Article
  • Phan TN, Kuch V, Lehnert LW (2020) Land cover classification using Google Earth Engine and random forest classifier-The role of image composition. Remote Sens 12(15):2411Article
  • Ren Y, Zhang X, Ma Y, et al (2020) Full convolutional neural network based on multi-scale feature fusion for the class imbalance remote sensing image classification. Remote Sens 12(21):3547Article
  • Shankar K, Zhang Y, Liu Y, Wu L, Chen CH (2020) Hyperparameter tuning deep learning for diabetic retinopathy fundus image classification. IEEE Access 8:118164–118173Article
  • Siddique N, Paheding S, Elkin CP, Devabhaktuni V (2021) U-net and its variants for medical image segmentation: a review of theory and applications. IEEE Access 9:82031–82057Article
  • Son MB, Chung JH, Lee YG, Kim SJ (2021) A comparative analysis of vegetation and agricultural monitoring of Terra MODIS and Sentinel-2 NDVIs. J Korean Soc Agric Eng 63(6):101–115
  • Vali A, Comai S, Matteucci M (2020) Deep learning for land use and land cover classification based on hyperspectral and multispectral earth observation data: a review. Remote Sens 12(15):2495Article
  • Wulder MA, Coops NC, Roy DP, White JC, Hermosilla T (2018) Land cover 2.0. Int J Remote Sens 39(12):4254–4284Article
  • Yu J, Kim Y, Sung HC, Lee KI, Choi JY, Jeon SW (2020) Method for calculating the pollution load amount of agricultural non-point sources using land cover map. J Environ Sci Int 29(12):1249–1260Article
  • Zhang Q, Yang LT, Chen Z, Li P (2018) A survey on deep learning for big data. Inf Fusion 42:146–157Article
Meta Data for Dataset
Essential
Field Sub-Category
Title of Dataset Self-learning data
DOI The data is available for free download at the Environmental Geographic Information Service (https://egis.me.go.kr)
Category Environment
Temporal Coverage 2022
Spatial Coverage Address Cheongju-si, Chungcheongnam-do
Gongju-si, Chungcheongbuk-do
Daejeon Metropolitan City
WGS84 Coordinates EPSG: 5186
[Latitude] 36°26’60.00” to 36°28’30.00”
[Longitude] 127°2’59.94” to 127°25’30.49”
Personnel Name
Affiliation
E-mail
CC License CC BY-NC
Optional
Field Sub-Category
Summary of Dataset Training dataset converted to PNG format, generated to allow retraining after correcting and editing error items identified by AI automatic classification trained on aerial orthophoto imagery and subdivision land use and land cover map of Ministry of Environment
Project Development of Water Resources Satellite Application Technology Services (II)
Instrument Openly published data
Appendix 1. Subdivision land cover classification taxonomy
GD-2024-0059-Appendix-1.pdf
Appendix 2. Proportions and model performances by classification category of model input dataset
GD-2024-0059-Appendix-2.pdf

Figure & Data

References

    Citations

    Citations to this article as recorded by  

      Figure
      • 0
      • 1
      • 2
      • 3
      • 4
      • 5
      Classification of Subdivision Land Use and Land Cover Using Deep Learning Models
      Image Image Image Image Image Image
      Fig. 1. Distribution map of 400 sheets.
      Fig. 2. Structure of dataset provided by EGIS version 3. EGIS, Environmental Geographic Information Service.
      Fig. 3. Study workflow for classify subdivision land cover.
      Fig. 4. Description of U-Net structure.
      Fig. 5. Aerial orthophotographs (A, D, G). Label data (B, E, H). Predicted landcovers (C F, I).
      Fig. 6. Learning curve of U-Net model.
      Classification of Subdivision Land Use and Land Cover Using Deep Learning Models
      Data property Data version 1 Data version 2 Data version 3 Data version 4
      Patch size 512×512 512×512 512×512 1,024×1,024
      The size of data (GB) 150 258 350 342
      The number of data 321,797 549,713 1,313,516 171,634
      The number of map sheets 357 605 400 900
      The number of classes 42 42 42 42
      Land cover type P (%)
      Single-family residential facilities 1.435
      Multi-family residential facilities 0.318
      Industrial facility 0.908
      Commercial and business facilities 1.132
      Mixed-use area 0.002
      Cultural, sports, and recreational facilities 0.167
      Airport 0.000
      Port 0.661
      Railway 0.147
      Road 11.273
      Other transportation and communication facilities 0.014
      Environmental infrastructure facilities 0.175
      Educational and administrative facilities 0.138
      Other public facilities 0.323
      Farmland improvement paddy fields 8.478
      Unimproved paddy fields 5.071
      Farmland improvement dry fields 0.773
      Unimproved dry fields 6.811
      Greenhouse cultivation area 2.609
      Orchard 3.743
      Livestock farm and aquaculture farm 0.453
      Other cultivation areas 0.356
      Broadleaf forest 8.200
      Coniferous forest 10.627
      Mixed forest 3.655
      Natural grassland 0.277
      Golf course 0.242
      Cemetery 1.798
      Other grasslands 16.748
      Inland wetland (riparian vegetation) 2.660
      Tidal flat 1.181
      Salt pan 0.142
      Beach 0.335
      Riverbank 0.257
      Rock cliff 0.126
      Mining area 0.211
      Sports field 0.108
      Other bare land 4.243
      River 1.984
      Lake 1.070
      Seawater 1.007
      Unclassified 0.143
      Dataset Evaluation indices
      Pixel accuracy Recall Precision F1 score
      Train data 0.7710 0.5430 0.6893 0.6075
      Validation data 0.5244 0.2444 0.2962 0.2678
      Test data 0.5899 0.3027 0.3113 0.3069
      Hyperparameter Value
      Epoch 200
      Batch size 10
      Learning rate 0.001
      Optimizer Adam
      Essential
      Field Sub-Category
      Title of Dataset Self-learning data
      DOI The data is available for free download at the Environmental Geographic Information Service (https://egis.me.go.kr)
      Category Environment
      Temporal Coverage 2022
      Spatial Coverage Address Cheongju-si, Chungcheongnam-do
      Gongju-si, Chungcheongbuk-do
      Daejeon Metropolitan City
      WGS84 Coordinates EPSG: 5186
      [Latitude] 36°26’60.00” to 36°28’30.00”
      [Longitude] 127°2’59.94” to 127°25’30.49”
      Personnel Name
      Affiliation
      E-mail
      CC License CC BY-NC
      Optional
      Field Sub-Category
      Summary of Dataset Training dataset converted to PNG format, generated to allow retraining after correcting and editing error items identified by AI automatic classification trained on aerial orthophoto imagery and subdivision land use and land cover map of Ministry of Environment
      Project Development of Water Resources Satellite Application Technology Services (II)
      Instrument Openly published data
      Table 1. Description of dataset provided by EGIS

      EGIS, Environmental Geographic Information Service.

      Table 2. Proportions by classification category of study data of 400 sheets

      P, proportions.

      Table 3. Performance evaluation indices of the U-Net models

      Table 4. Hyperparameters of the U-Net model


      GEO DATA : GEO DATA
      TOP