1. 서문

구름은 우주에서 지구를 관측할 때 지구 면적의 최대 80%까지 차지하는 요소로, 다목적실용위성으로 촬영한 광학영상에서 구름이 없는 영상을 얻는 것은 매우 어렵다. 광학영상에 구름이 존재하는 경우 태양광이 지표에 도달하지 못하고 구름에 의 해 반사되기 때문에 지표의 정보를 얻을 수 없다. 즉, 구름이 존재하는 광학영상에서는 구름의 양과 위치에 대한 정보 제공은 영상의 활용도를 결정짓는 기초자료 역할을 한다. 하지만 다목적실용위성의 경우 전체 영상에 대하여 목측을 기반으로 운량 만을 제공할 뿐 구름이 어느 위치에 존재하는지에 대한 정보 제공이 이루어지지 못하고 있다. 이러한 문제는 검증에 활용할 수 있는 구름 데이터셋의 부재로부터 기인한 것으로 판단되어 향후 개발될 구름 알고리즘의 검증 데이터 및 AI 기반 구름 탐지 알고리즘 작성 연구 등에 활용할 수 있는 구름 데이터셋 구축에 대한 요구가 커지고 있다.

해외 위성의 경우 다양한 광학위성을 기반으로 한 구름 데이터셋이 제공중이다. LandSat 7, 8을 활용한 초기 구름 데이터 셋인 Irish (Scaramuzza et al., 2012), 학습이 용이하게 1000 × 1000 화소 기준으로 작성된 Spatial Procedures for Automated Removal of Cloud and Shadow (SPARCS; Hughes and Hayes, 2014; Hughes and Kennedy, 2018), 다양한 지면을 고려하여 데이터셋 영상을 선정한 Biome (Foga et al., 2017)이 무료로 제공되고 있다. 이 밖에도 Landsat을 활용한 38 Clouds와 이 확장버전인 95-Clouds (Mohajerani and Saeedi, 2020), 국내 다목적실용위성과 가장 유사한 사양을 소유한 PeruSat을 이용한 CloudPeru2 데이터셋(Morales et al., 2019) 등이 제공되고 있다. 이러한 데이터셋은 다양한 구름 알고리즘을 검증하는 기준 이 될 뿐 아니라, 딥러닝 구름 탐지 알고리즘의 학습 자료로 활용돼 알고리즘 개발에도 기여하고 있다.

따라서, 본 연구에서는 국내 다목적실용위성의 특성을 고려한 구름 데이터셋 구축을 위하여 다목적실용위성에서 관측한 자료를 수집하고 다양한 지면조건에서 발생한 구름 사례를 선정, 데이터셋 구축을 통해 다목적실용위성 구름 탐지 알고리즘 개발에 기여하고자 한다.

2. 구름 데이터셋 정의

구름 데이터셋 구축에는 다목적실용위성 3호와 3A호에서 관측한 광학영상을 활용하였다. 두 위성 모두 R, G, B, NIR 채널을 포함하고 있으며 각각의 공간해상도는 2.8 m와 2.2 m로 고해상도의 영상을 제공한다. 다목적실용위성에서 구름이 존재하는 경우, 지표의 정보를 차단해 관측을 방해하는 점에 주안점을 두고 구름 데이터셋을 설계하였다. 즉, 구름의 영향으로 인해 지표 정보의 영향 정도에 따라 구름을 두꺼운 구름과 얇은 구름으로 정의하였으며, 구름 그림자에 의해 어둡게 나타나는 영역은 구름 그림자로 정의하여 그 영향을 고려하고자 하였다. 그 결과 다목적실용위성의 구름 데이터셋 라벨은 아래와 같이 정의된다.

  • • 두꺼운 구름: 구름의 영향으로 지면의 정보를 식별할 수 없는 영역

  • • 얇은 구름: 구름의 영향을 받지만 지면의 정보를 식별할 수 있는 영역

  • • 구름 그림자: 구름으로 생성된 그림자로 지면의 정보가 어둡게 나타나는 영역; 건물, 지형 등의 그림자와 혼동이 쉬우나 반드시 구분되어야 함.

  • • 청천: 구름이나 구름 그림자의 영향을 받지 않는 영역으로 지표 정보를 식별하기 좋은 영역

구축된 구름 데이터셋은 구름 라벨과 구름 라벨링 작업에 활용된 RGB 합성영상과 NGR 합성영상, 원본영상으로 구성된다. 본 연구에서는 구름 라벨링 과정에서 작업의 편리성을 위해 흑백의 단일영상이 아닌, 합성영상을 활용하였다. RGB 합성영상 은 사람이 눈으로 보는 것과 같은 형태로 작업자에게 익숙하다는 특징이 있으며, NGR 합성영상은 Blue 채널 대신 NIR 채널 을 활용한 합성영상으로 대기의 영향이 상대적으로 적게 나타나며, 녹지의 특성이 두드러지게 나타난다. Fig. 1은 농경지와 도심지에서의 입력자료 예시로, RGB 합성영상에 비해 NGR 합성영상에서 구름 그림자가 두드러지게 나타나는 것을 쉽게 확 인할 수 있다. 따라서, 명확한 라벨링 수행을 위해 두 합성영상을 동시에 활용하였다.

새창으로 보기
Fig. 1

KOMPSAT RGB and NGR image examples

GEODATA-2-2-56_F1.tif

구축된 데이터셋은 총 162 장면으로 1000 × 1000 화소 기준으로 패치를 생성할 경우, 한 장면에 최소 25장의 패치가 생성 되므로, 4000장 이상의 데이터셋이 구축되었다. 또한 농경지, 숲, 습지, 도심지뿐 아니라, 구름 식별이 어려운 눈과 얼음 지역 에 대해서도 데이터셋에 포함하여, 위성에서 관측되는 다양한 사례를 고려하였다.

3. 구름 데이터셋 구축 방법

구름 데이터셋 구축은 기존 해외 사례를 바탕으로 사람이 포토샵을 통해 직접 작업하는 것을 원칙으로 하였다. 사람이 직접 작업하기 때문에 데이터셋 구축과정에서 휴먼 에러가 불가피하다. 따라서, 본 작업에서는 작업자에 따른 데이터셋의 오차를 최소화하기 위해 사전 교육을 비롯한 작업자간 상호검수와 2차 전수 검수 및 3차 샘플링 검수 과정을 통해 최종 데이 터셋을 생산하였다.

사전 교육에서는 입력영상(RGB, NGR 합성영상)에서 나타나는 구름의 특성과 작업 시 주의 사항에 대해 안내하였다. 눈/ 얼음 지역을 제외하고 RGB와 NGR 영상에서 모두 구름은 지표에 비해 밝게 나타난다. 일부 밝은 건물과 구름이 모두 흰색으 로 나타나 혼동을 줄 수 있으나, 건물의 경우 그 디자인에 따라 사각형 또는 원형으로 경계가 분명하게 나타나는 특징을 기반 으로 분류가 가능하다. 얇은 구름의 경우 주로 두꺼운 구름의 주변부에 위치하는 사례가 대부분으로, 지표의 특징(차량 유무, 건물의 종류 등)을 식별할 수 있으나 청천에 비해 흐리게 나타나는 영역을 의미한다. 광학영상에서 에어로졸, 안개는 구름과 분류가 어려우므로 이에 영향을 받은 화소도 얇은 구름의 영역으로 분류한다. 광학영상에서 그림자는 다양한 원인으로 나타 나게 된다. 본 데이터셋 구축 과정에서는 구름에 의해 발생한 그림자만을 구름 그림자로 정의하기 위해 전체 영상을 패치단 위로 나누지 않고 작업을 수행하였다. 구름 그림자는 구름의 형태와 유사한 형태로 존재하기 때문에 전체 영상을 활용한 작 업 시에 대부분 구름과 짝을 이루어 나타난다.

구름 데이터셋 작업은 식별이 용이한 두꺼운 구름 작업, 두꺼운 구름 주변과 일부 영역에서 나타나는 얇은 구름에 대한 작업, 구름과 짝을 이루는 구름 그림자 작업 순으로 이루어진다. Fig. 2 는 각 라벨의 작업 단계별 모습을 보여주며, Fig. 2 (d)는 최종 구름 라벨이 제공되는 모습을 보여준다. 두꺼운 구름은 빨간색, 얇은 구름은 연두색, 구름 그림자는 노란색으로 라벨링 되며, 청천은 검정색으로 정의된다.

새창으로 보기
Fig. 2

Examples of cloud labeling process

GEODATA-2-2-56_F2.tif

Fig. 3 은 구름 라벨작업 시에 발생한 오류에 대한 실제 검수 예시를 보여준다. Fig. 3(a)는 얇은 구름과 그림자의 짝을 보여주며, 구름 그림자가 누락된 예시를 보여준다. 구름과 구름 그림자 작업 시에 구름과 구름 그림자가 짝을 이룬다는 점을 고려하면 라벨이 누락되는 오탐지를 방지할 수 있다. (b)는 건물에 의한 그림자를 구름 그림자로 오탐지한 사례를 보여 주고 있다. 다른 지역에 비해 어둡게 나타나는 그림자의 특성을 가지고 있지만 지형과 짝이 되는 구름의 존재를 확인하면 구름 그림자 여부를 판단할 수 있다. 검수과정 역시 이러한 구름의 특징을 바탕으로 이루어지기 때문에, Fig. 3 와 같은 검수 사항이 발생하여, 수정을 진행할 수 있다.

새창으로 보기
Fig. 3

Examples of incorrect labeling

GEODATA-2-2-56_F3.tif

4. 자료 예시 및 구조

Fig. 4.는 위의 과정을 통해 구축된 데이터셋의 예시를 보여준다. 두꺼운 주변에 얇은 구름이 존재하는 경우가 대다수이며, 구름 그림자와 구름의 형태가 유사하게 나타나는 특징을 쉽게 확인할 수 있다. 구름 데이터셋은 데이터셋 구축에 활용된 RGB, NGR 합성영상 PNG 파일 두 장과 구름 라벨영상 한 장, 지면 정보를 포함하고 있는 위성 원본영상(tiff 형식)으로 구성 되어 있다. 이러한 자료는 2021년 중 aihub.or.kr 사이트를 통해 무료로 공개 예정이며, 누구나 자유롭게 다운로드 받아 활용 할 수 있다.

새창으로 보기
Fig. 4

Examples of the cloud dataset

GEODATA-2-2-56_F4.tif

5. 기대효과

구름은 위성영상 활용 시 영상의 가치를 판단하는 자료로 영상에 활용에 필수적으로 제공되어야 한다. 본 연구에서 구축된 구름 데이터셋은 이러한 구름 자료 산출의 첫 단계로 데이터셋은 AI 기반의 구름 자동 탐지 알고리즘의 학습자료로의 가치를 갖는 것뿐 아니라, 다양한 구름 탐지 알고리즘의 검증 자료로 쓰일 수 있다. 또한, 현재 LandSat-7, 8, PeruSat 등 해외위성에 서만 구름 데이터셋을 제공하고 있다는 점에서 다목적실용위성 구름 데이터셋 구축은 다목적실용위성에 적합한 구름 알고리 즘 개발에 활용될 수 있다는 점에서 기본적인 가치를 찾을 수 있다. 다목적실용위성 데이터셋 제공은 최근 AI 모델 개발에 대한 관심이 큰 상황에서 위성 홍보에도 좋은 기회가 될 것으로 기대된다. 본 데이터셋을 기반으로 개발된 구름 정보는 추후 영상 활용시 화소 활용여부의 근거 자료로 쓰일 뿐 아니라, 구름 탐지 결과를 기반으로 사전에 구름에 의한 영향을 제공함으 로써 연구의 효율성 제고에도 기여할 것이다.

References

1. 

Foga S, Scaramuzza PL, Guo S, Zhu Z, Dilley Jr. RD, Beckmann T, Schmidt GL, Dwyer JL, Hughes MJ, Laue B (2017) Cloud detection algorithm comparison and validation for operational Landsat data products. Remote Sensing of Environment 194:379-390. https://doi.org/10.1016/j.rse.2017.03.026

2. 

Hughes MJ, Hayes DJ (2014) Automated detection of cloud and cloud shadow in single-date landsat imagery using neural networks and spatial post-processing. Remote Sensing 6:4907-4926. https://doi.org/10.3390/rs6064907

3. 

Hughes MJ, Kennedy R (2019) High-quality cloud masking of landsat 8 imagery using convolutional neural networks. Remote Sensing 11(21):2591. https://doi.org/10.3390/rs11212591

4. 

Mohajerani S, Saeedi P (2020) Cloud-Net+: A cloud segmentation CNN for landsat 8 remote sensing imagery optimized with filtered jaccard loss function. arXiv:2001.08768v1.

5. 

Morales G, Ramirez A, Telles J (2019) End to end cloud segmentation in high-resolution multispectral satellite imagery using deep learning. arXiv:1904.12743v1. https://doi.org/10.1109/INTERCON.2019.8853549

6. 

Scaramuzza PL, Bouchard MA, Dwyer JL (2012) Development of the landsat data continuity mission cloud-cover assessment algorithms. IEEE Transactions on Geoscience and Remote Sensing 50(4):1140-1154. https://doi.org/10.1109/TGRS.2011.2164087

7. 메타데이터

GEODATA-2-2-56_A1.tif