Skip Navigation
Skip to contents

GEO DATA : GEO DATA

OPEN ACCESS
SEARCH
Search

Articles

Page Path
HOME > GEO DATA > Volume 7(1); 2025 > Article
Data Article
대형 멀티모달 모델 학습을 위한 KOMPSAT-3/3A호 이미지-텍스트 데이터셋
오한1,2orcid, 신동빈3orcid, 정대원1,2,*orcid
KOMPSAT-3/3A Image-text Dataset for Training Large Multimodal Models
Han Oh1,2orcid, Dong-Bin Shin3orcid, Dae-Won Chung1,2,*orcid
GEO DATA 2025;7(1):27-35.
DOI: https://doi.org/10.22761/GD.2025.0003
Published online: March 19, 2025

1책임연구원, 한국항공우주연구원 국가위성정보활용지원센터, 대전광역시 유성구 과학로 169-84, 34133, 대한민국

2교수, 과학기술연합대학원대학교 항공우주시스템공학전공, 대전광역시 유성구 과학로 169-84, 34133, 대한민국

3석사과정생, 과학기술연합대학원대학교 항공우주시스템공학전공, 대전광역시 유성구 과학로 169-84, 34133, 대한민국

1Principal Researcher, National Satellite Operation & Application Center, Korea Aerospace Research Institute (KARI), 169-84 Gwahak-ro, Yuseong-gu, 34133 Daejeon, South Korea

2Professor, Major in Aerospace System Engineering, University of Science and Technology (UST), 169-84 Gwahak-ro, Yuseong-gu, 34133 Daejeon, South Korea

3Master Student, Major in Aerospace System Engineering, University of Science and Technology (UST), 169-84 Gwahak-ro, Yuseong-gu, 34133 Daejeon, South Korea

Corresponding Author Dae-Won Chung Tel: +82-42-476-6259 E-mail: dwchung@kari.re.kr
• Received: February 6, 2025   • Accepted: February 28, 2025

Copyright © 2025 GeoAI Data Society

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

prev next
  • 374 Views
  • 27 Download
  • This study aims to improve the accuracy and interpretability of large multimodal models (LMMs) specialized in satellite image analysis by constructing an image-text dataset based on KOMPSAT-3/3A imagery and presenting the results of training using this dataset. Conventional LMMs are primarily trained on general images, limiting their ability to effectively interpret the specific characteristics of satellite imagery, such as spectral bands, spatial resolution, and viewing angles. To address this limitation, we developed an image-text dataset, divided into pretraining and finetuning stages, based on the existing KOMPSAT object detection dataset. The pretraining dataset consists of captions summarizing the overall theme and key information of each image. The fine-tuning dataset integrates metadata -including acquisition time, sensor type, and coordinates- with detailed object detection labels to generate six types of question-answer pairs: detailed descriptions, conversations with varying answer lengths, bounding box identification, multiple choice questions, and complex reasoning. This structured dataset enables the model to learn not only the general context of satellite images but also fine-grained details such as object quantity, location, and geographic attributes. Training with the new KOMPSAT-based dataset significantly improved the model’s accuracy in recognizing regional information and object characteristics in satellite imagery. Finetuned models achieved substantially higher accuracy than previous models, surpassing even the GPT-4o model and demonstrating the effectiveness of a domain-specific dataset. The findings of this study are expected to contribute to various remote sensing applications, including automated satellite image analysis, change detection, and object detection.
딥러닝 기술의 발전으로 대형 언어 모델(large language model, LLM)이 등장하면서 인공지능 연구와 응용 분야에 큰 변화를 가져왔다. LLM은 자연어 처리, 이해, 생성에서 뛰어난 성능을 보이며 번역, 문서 요약, 질의응답 등 다양한 작업에서 실질적인 가치를 제공하고 있다. 최근에는 언어 모델에 시각 정보를 통합한 대형 멀티모달 모델(large multimodal model, LMM)이 개발되어 텍스트와 이미지를 함께 활용한 심층적 분석과 이해가 가능해졌다.
LMM은 이미지 캡션 생성(image captioning)을 통해 이미지의 맥락적 의미를 언어로 표현하고 시각적 질문 답변(visual question answering, VQA)을 통해 이미지 내 숨겨진 패턴을 추론할 수 있다. 또한 방대한 데이터로 학습한 지식을 기반으로 복잡한 추론(complex reasoning)까지 수행할 수 있어 이미지 검색, 콘텐츠 생성, 이상 탐지 등 다양한 응용 분야에서 새로운 가능성을 제시하고 있다.
그러나 이러한 기술적 우수성에도 불구하고 위성 영상과 같은 특수 도메인 데이터에 대한 적용은 아직 충분히 검증되지 않았다. 위성 영상은 기존 컴퓨터 비전 연구에서 사용되는 일반적인 영상과 달리 수직에 가까운 촬영 각도, 광범위한 지역을 포괄하는 복잡한 장면 구성, 촬영 고도에 따른 함축적 공간 정보, 적외선 및 다중 분광 채널 등 고유한 물리적 특성을 지닌다. 기존의 LMM은 주로 일반 영상 데이터를 기반으로 학습되기 때문에 이러한 특수한 공간 정보를 해석하는 데 한계를 보인다.
본 연구는 이러한 한계를 극복하고자 KOMPSAT-3/3A호 영상을 활용한 위성 영상 분석에 특화된 이미지-텍스트 데이터셋을 구축하고 이를 LMM 모델에 적용한 실험 결과를 제시하였다. 기반 모델로는 일반 이미지 분석에서 뛰어난 성능을 보이며 특히 제로샷 학습에서도 우수한 결과를 보이는 large language and vision assistant (LLaVA) 모델을 채택하였다(Liu et al., 2023). 본 연구에서 제안하는 방법으로 구축한 데이터셋을 통해 학습된 모델은 자동 이미지 분석, 변화 탐지, 객체 식별 등 다양한 응용에서 높은 정확도와 효율성을 달성하였다. 이러한 결과는 환경 모니터링, 도시 계획, 해양 관측 등 원격탐사의 광범위한 응용 분야에 실질적으로 기여할 수 있을 것으로 기대된다.
본 논문의 구성은 다음과 같다. 2장에서는 원격탐사 분야에서 활용되는 멀티모달 모델의 선행 연구를 체계적으로 검토한다. 3장에서는 위성 영상의 고유한 특성을 고려한 LMM 학습 데이터셋의 구축 방법론을 제시한다. 4장에서는 다양한 위성 영상 분석 작업에 대한 실험 설계와 그 결과를 소개하고 제안 방법의 성능 우수성을 실증적으로 검증한다. 마지막으로 5장에서는 본 연구의 주요 성과를 종합하고 위성 영상 분석을 위한 LMM의 발전 방향을 제시한다.
원격탐사 분야의 초기 멀티모달 데이터셋은 주로 영상 캡셔닝이나 VQA와 같은 기초적인 작업을 위하여 구축되었다. UCM-Captions, Sydney-Captions (Qu et al., 2016), RSICD (Lu et al., 2018)와 같은 대표적인 캡션 데이터셋들은 원격탐사 영상에 대한 기본적인 설명을 제공하며 이 분야의 기반을 마련하였다. 그러나 이러한 데이터셋들은 장면의 전반적인 묘사에 초점을 맞추어 세부적인 영상 특징이나 객체 간의 관계성을 충분히 포함하지 못한다는 한계를 보였다. VQA 분야에서는 RSVQA-LR/HR (Lobry et al., 2020)이 대표적인 데이터셋으로 저해상도 및 고해상도 원격탐사 영상을 기반으로 다양한 유형의 질의응답을 포함하며 구체적으로 객체의 존재 여부, 수량, 상대적 위치 관계, 면적 계산, 도시-농촌 분류 등에 대한 단답형 응답을 제공한다. 이러한 초기 데이터셋들은 원격탐사 분야에서 멀티모달 기술 발전의 토대를 마련하였으며 영상 분석에서 텍스트 기반 상호작용의 가능성을 확장하는 데 핵심적인 역할을 수행하였다.
LMM은 다양한 과제에서 영상과 텍스트 간의 관계를 학습하여 복잡한 시각-언어 문제를 해결하는 데 중점을 둔다. 이러한 모델의 성능은 대형 고품질 이미지-텍스트 데이터셋에 크게 의존하며 이는 다양한 도메인에 걸쳐 모델의 일반화와 학습 효율성을 결정짓는 핵심 요소이다. 특히 원격탐사 분야에서는 객체의 특성과 위치, 지리적 맥락, 공간적 관계를 포함하는 정교한 데이터셋의 중요성이 강조되고 있다. 이러한 맥락에서 주목할 만한 최근의 연구로 RemoteCLIP (Liu et al., 2024)과 GeoRSCLIP (Zhang et al., 2024)이 있다. RemoteCLIP은 다양한 원격탐사 데이터셋을 기반으로 80만 개의 이미지-텍스트 쌍을 구축하였는데 기존 캡션은 그대로 활용하고 객체 분할 및 객체 탐지 데이터셋의 주석은 규칙 기반으로 캡션화하였다. GeoRSCLIP은 원격탐사 LMM을 위한 대형 데이터셋인 RS5M을 제안하였다. RS5M은 CC3 (Sharma et al., 2018)와 LAION400M (Schuhmann et al., 2021)과 같은 대형 공개 데이터셋에서 원격탐사 영상을 선별하여 구축되었으며 BLIP2 모델(Li et al., 2023)로 캡션을 생성하고 CLIP 모델(Radford et al., 2021)로 필터링하여 최종적으로 약 5백만 개의 이미지-텍스트 쌍을 확보하였다.
그러나 이러한 데이터셋들은 영상에 대한 기본적인 설명이나 특정 도메인의 텍스트 생성에는 효과적이지만 사용자의 복잡한 지시 사항에 대해 맥락을 반영하여 일관성 있게 처리하거나 연속적인 질의에 동적으로 응답하는 데에는 한계를 보인다.
이러한 한계를 극복하기 위하여 이미지-텍스트 데이터셋은 지시어 데이터셋(instruction-following dataset)의 형태로 발전하였다. 지시어 데이터셋은 단순한 영상 캡션을 넘어서 LMM이 사용자의 지시를 이해하고 다양한 과제를 수행할 수 있도록 설계된 학습 데이터를 의미한다. 이는 복합적인 과제 수행과 대화형 상호작용을 지원하는 방향으로 발전하였으며 원격탐사 분야에서 LMM의 실용적 활용을 가능하게 하는 중요한 진전으로 평가받고 있다.
최근의 주요 연구들은 다양한 방식으로 지시어 데이터셋을 구축하고 있다. GeoChat (Kuckreja et al., 2024)은 객체 탐지, VQA, 장면 분류 데이터셋의 주석을 활용하여 LLM으로 세부적인 장면 묘사, 단답형 대화, 추론, 객체 위치 정보를 포함하는 지시어 데이터셋을 구축하였다. LHRS-Bot (Muhtar et al., 2024)은 OpenStreetMap (OpenStreetMap Foundation, Cambridge, UK)의 좌표와 데이터를 기반으로 GPT-4를 활용하여 지리적 속성과 객체 간 관계를 반영한 지시어 데이터셋을 개발하였다. VHM (Pang et al., 2024)은 객체 탐지 데이터셋을 기반으로 Gemini-Vision을 통해 캡션을 생성한 후 이를 순수 언어 모델인 Gemini를 활용하여 지시어 데이터셋으로 확장하였다.
이러한 지시어 데이터셋의 발전은 원격탐사 분야에 혁신적 변화를 가져오고 있다. 특히 실시간 재난 모니터링, 도시 계획, 환경 변화 탐지와 같은 실제 응용 분야에서 인공지능(artificial intelligence, AI) 시스템의 활용 가능성을 크게 확대하고 있다.
본 연구에서는 LMM 학습을 위하여 사전 학습(pretraining)과 미세 조정(finetuning) 두 단계의 데이터셋을 구축하였다. 위성 영상의 특성을 정확하게 반영하기 위해 사람이 직접 라벨링하고 다단계 검수를 거쳐 구축된 고품질 KOMPSAT 객체 탐지 데이터셋(Oh, 2024)을 기반 데이터로 활용하였다.
3.1 KOMPSAT-3/3A 객체 탐지 데이터셋
KOMPSAT-3/3A 객체 탐지 데이터셋은 한국지능정보사회진흥원(National Information Society Agency, NIA)의 AI Hub에서 공개한 ‘위성영상 객체 판독 데이터셋’과 한국과학기술정보연구원(Korea Institute of Science and Technology Information, KISTI) DataON의 ‘객체 탐지 데이터셋(1, 2차년도)’을 통합하여 구축되었다. 이 데이터셋은 1024×1024 해상도의 위성 이미지 총 4,003장으로 구성되며 학습용 3,073장, 검증용 470장, 테스트용 460장으로 분할되어 있다. 객체는 회전 경계 상자(rotated bounding box) 형태로 라벨링되어 있어 객체의 방향과 길이를 정확히 표현하고 있다.
클래스는 기존 20종에서 총 33개 세분류로 재정의되었으며 중분류는 선박, 항공기, 차량, 컨테이너, 인프라의 5개로 나뉜다. 각 중분류와 세분류는 다음과 같다.
1. 선박(10종): 모터보트(MB), 범선(SB), 예인선(TB), 바지선(BG), 어선(FB), 연락선(FR), 화물선(CS), 유조선(OT), 시추선(DS), 군함(WS).
2. 항공기(5종): 전투기(FT), 대형 군용기(LM), 소형 민항기(SC), 대형 민항기(LC), 헬리콥터(HC).
3. 차량(4종): 소형 차량(SV), 트럭(TR), 버스(BS), 기차(TN).
4. 컨테이너(2종): 개별 컨테이너(IC), 그룹 컨테이너(GC).
5. 인프라(12종): 크레인(CR), 교량(BR), 댐(DM), 저장 탱크(ST), 실외 운동장(SF), 스타디움(SD), 수영장(SP), 원형 교차로(RA), 헬리패드(HP), 풍력 발전기(WG), 양식장(AF), 해양 조사 시설(OR).
객체 탐지 데이터셋에는 Table 1에 제시된 바와 같이 약 88만 개 이상의 객체가 포함되어 있으며 다양한 환경과 조건에서 세부적인 객체 분류와 탐지를 수행할 수 있도록 설계되었다. 객체 탐지 용도로 구축되었음에도 라벨이 정교하고 물리적, 공간적 특성이 반영되어 있어 위성 영상의 의미적 정보를 풍부하게 담은 LMM 학습용 데이터 제작에 유용하다.
3.2 사전 학습 데이터셋
사전 학습 데이터셋은 이미지 인코더를 통해 해석된 시각 정보와 대형 언어 모델을 연결하는 멀티모달 어댑터의 학습을 위해 제작되었다. 이 데이터셋은 이미지-텍스트 쌍으로 구성되며 시각적 특징과 언어적 의미의 정렬(alignment)에 초점을 맞춘다.
데이터셋 구축을 위하여 KOMPSAT-3/3A 객체 탐지 데이터셋의 학습용 및 검증용 이미지 3,543장을 활용하였다. 해상도 1024×1024 원본 영상을 336×336 크기로 다운 샘플링한 후 GPT-4o (OpenAI, San Francisco, CA, USA) application programming interface (API)를 통해 각 영상에 대한 텍스트를 자동 생성하였다. 각 영상마다 하나의 질문-답변(캡션) 쌍을 생성하여 총 3,543개의 이미지-텍스트 쌍을 구축하였다.
질문은 위성 영상이 담고 있는 주제나 핵심 정보를 묻는 방식으로 구성하였으며 답변은 GPT-4o가 제공하는 영상 전반에 대한 간략한 설명으로 구성된다(Fig. 1). 구체적인 객체의 수량이나 위치보다는 영상의 전반적 특징을 요약하는 형태를 취한다. 이렇게 구축된 데이터셋은 LMM의 사전 학습을 위한 기본 자료로 활용할 수 있으며 독립적으로도 위성 영상 캡션 생성용 시각-언어 모델의 학습에 사용할 수 있다.
3.3 미세 조정 데이터셋
미세 조정 데이터셋은 사전 학습 단계에서 습득한 기초적인 시각-언어 능력을 실제 응용 과제에 최적화하기 위한 자료로 구성되었다. 이를 위해 위성 영상에 대한 정확하고 풍부한 설명을 제공하고자 다양한 메타 정보를 별도로 생성하였다.
Fig. 2는 미세 조정 데이터셋의 생성 과정을 요약한 것이다. 구체적으로 위성 영상 태그(tag) 정보에서 촬영 시간, 센서 종류, 좌표 등을 추출하고 역 지오코딩(inverse geocoding)을 통해 촬영 지역을 식별하였다. 또한 KOMPSAT-3/3A 객체 탐지 라벨을 바탕으로 각 영상에 등장하는 객체의 종류, 수량, 위치 정보를 추가로 파악하였다.
그러나 기존 객체 탐지 라벨만을 GPT-4o 모델에 입력한 결과 객체 수량을 정확하게 인식하지 못하는 등의 정보 획득 한계가 발견되었다. 이에 영상별 객체 수량은 별도의 프로그램으로 직접 카운팅하여 모델에 입력함으로써 정확도를 향상시켰다.
수집된 메타 정보와 위성 영상을 결합하여 총 6가지 유형의 질문-답변 쌍을 생성하였다. GPT-4o 모델에 서로 다른 프롬프트를 적용하여 다양한 형식의 응답을 생성하도록 설계하였으며 메타데이터(위성명, 촬영 시간, 좌표, 객체 경계 상자 등)를 기반으로 검증 가능한 정보만을 답변하도록 유도하여 신뢰성을 확보하였다. 또한 실제 AI 서비스에서의 활용을 고려하여 대화 형식의 상호작용을 고려하였다. 생성된 6가지 질문답변 유형은 다음과 같다.
1. 상세한 설명(detailed description): 위성 영상의 전체 장면을 자연스럽고 상세하게 묘사한다. 지형적 특징, 인공 구조물, 수체 등을 가능한 한 풍부하게 설명하도록 유도한다. Fig. 3은 질문-답변 쌍 생성을 위해 사용한 프롬프트 예시를 보여준다.
2. 짧은 답변의 대화(conversation with short answers): 객체 종류, 수량, 위치 등을 간단한 질문-답변으로 빠르게 확인한다. 답변을 한 문장 또는 한 단어 정도로 제한하여 직관적 정보를 제공한다.
3. 긴 답변의 대화(conversation with long answers): 복잡한 질의에 대하여 객체 간 관계나 지리적 맥락, 환경적 배경 지식을 활용한 심층적 분석을 수행한다.
4. 경계 상자 중심 대화(conversation for bounding boxes): 특정 경계 상자 좌표를 중심으로 객체를 식별하거나 위치를 정확히 제시한다. 경계 상자 정보의 적극적 활용을 통해 객체 탐지 성능을 향상시킨다.
5. 객관식 답변 대화(conversation with multiple choices): 객체 종류, 위치, 수량 등에 대해 주어진 선택지 중 하나를 선택하도록 하여 주관적 기술보다는 객관적 문제 해결에 집중한다.
6. 복잡한 추론(complex reasoning): LLM의 지리적, 환경적, 사회적 배경 지식을 활용하여 심층적 추론과 논리적 분석을 수행하도록 설계한다.
이러한 6가지 유형의 질문-답변 쌍은 학습용 및 검증용 데이터를 기준으로 총 약 55,300개가 생성되었으며 이를 통해 사전 학습된 모델이 위성 영상 기반 실제 응용 작업에서 정교하고 정확한 답변을 제공할 수 있도록 미세 조정에 활용된다.
이렇게 구축된 사전 학습 및 미세 조정 데이터셋은 DataON을 통해 공개되어 있으며 누구나 자유롭게 다운로드하여 활용할 수 있다(Oh et al., 2025).
본 연구에서는 LLaVA-HR 모델(Luo et al., 2024)을 기본 모델로 사용하였으며 LLM로는 Vicuna 1.5 버전(Zheng et al., 2023)을 채택하였다. LLaVA-HR은 기존 LLaVA 대비 위성 영상과 같은 복잡하고 세밀한 시각 정보를 효과적으로 처리할 수 있도록 설계되었으며 저해상도와 고해상도 시각 정보를 결합하는 mixture-of-resolution adaptation (MRA) 기법을 통해 효율성과 성능을 동시에 향상시켰다는 특징이 있다.
LLaVA-HR 모델의 학습은 KOMPSAT-3/3A 객체 탐지 데이터셋의 학습 및 검증셋(총 3,543장) 영상에 대해서 앞서 설명한 방식으로 구축한 데이터셋을 활용하여 사전 학습(pretraining)과 미세 조정(finetuning) 두 단계로 나누어 진행하였다.
사전 학습 단계에서는 기존 LLaVA Visual Instruct Pretrain LCS-558K 데이터셋과 본 연구에서 제작한 KOMPSAT-3/3A 기반 데이터셋을 혼합하여 모델을 학습시켰다. LCS-558K 데이터셋은 BLIP, LAION, Common Crawl (CC), Stony Brook University (SBU) 등 다양한 출처의 시각-언어 데이터를 추출하여 약 55만 8천여 개의 이미지-텍스트 쌍으로 구성되어 있다. 이는 여러 도메인의 시각적 개념과 언어적 맥락을 폭넓게 학습할 수 있도록 설계된 대형 데이터셋이다.
미세 조정 단계에서는 기존 LLaVA v1.5 모델의 미세 조정에 활용되었던 665K 규모의 멀티모달 데이터셋을 본 연구 데이터와 결합하여 학습을 진행하였다. 해당 665K 데이터셋은 COCO, Visual Genome, GQA, OCR-VQA, TextVQA 등 공개된 시각-언어 데이터셋들을 융합한 것으로 약 665,000개의 이미지-텍스트 쌍과 질문-응답 데이터로 구성되어 있다. 이를 통해 이미지 캡션 생성, 시각적 질의응답, 텍스트 기반 질의응답 등 다양한 작업을 수행할 수 있도록 모델을 학습하였다.
사전 학습과 미세 조정은 모두 NVIDIA H100 GPU 8장이 장착된 서버에서 수행되었으며 총 1 epoch 동안 학습을 진행하였다. 학습 시간은 사전 학습에 약 3시간, 미세 조정에 약 9시간이 소요되었다.
추가 학습을 마친 모델은 기존 LLaVA-HR 모델 대비 답변 능력이 유의미하게 개선되었다. Fig. 4는 추가 학습 전후 모델의 위성 영상 설명 능력을 비교한 것이다. 기존 모델이 촬영 지역에 대한 간략한 정보만 제공했다면 추가 학습 모델은 더 정확한 지역 정보와 상세한 맥락을 포함한 설명을 제시한다.
Fig. 5Fig. 6은 추가 학습 후 모델의 객체 탐지 능력을 보여주는데 관심 객체의 개수와 객체 정보를 이전보다 정확히 파악하고 있음을 시각적으로 확인할 수 있다. Fig. 7은 모델의 복잡한 추론 능력을 평가한 사례로 탐지된 객체 정보를 근거로 질문에 대해 보다 종합적이고 체계적인 판단을 내릴 수 있음을 보여준다.
미세 조정된 모델의 성능을 정량적으로 측정하기 위하여 본 연구는 검증셋(총 460장)을 대상으로 GPT-4o 모델을 이용해 4지선다형 문제를 생성하였다. 각 영상과 해당 메타 정보(촬영 시간, 센서 종류, 좌표, 객체 정보 등)를 입력으로 하여 영상당 10문항을 출제하였으며 구체적인 문제 유형은 Table 2와 같이 구성되었고 그 예시는 Fig. 8과 같다.
생성된 문제를 동일한 조건에서 GPT-4o 모델로 다시 풀게 하였으며 오답이 발생한 문제들은 평가셋에서 제외되었다. GPT-4o의 확률적 답변 생성 특성으로 인하여 약간의 문맥 차이로 서로 다른 답을 제시할 수 있어 객관적 평가를 위해 전체 문항 중 4%를 제거하여 최종 4,378문항을 확보하였다.
최종 4,378문항에 대한 4지선다형 문제의 정답률 비교 결과는 Table 3에 요약되어 있다. LLaVA-HR-7B 모델의 경우 기존 모델의 54.02%에서 추가 학습 후 78.57%로 약 24.55% 향상되었으며 LLaVA-HR-X-13B 모델은 72.27%에서 82.88%로 약 14.32% 개선되었다. 또한 메타 정보를 제공하지 않았을 때 GPT-4o 모델의 정답률은 82.43%를 기록하였다.
이상의 결과를 통해 본 연구에서 제안하는 방법으로 구축한 데이터셋으로 학습한 모델이 위성 영상 기반의 세밀한 정보를 정확하게 학습하고 추론 능력을 향상시키는 데 효과적임을 확인할 수 있다.
본 연구에서 제안한 방법으로 추가 학습된 모델은 KOMPSAT 위성 영상을 활용한 실험에서 기존 모델 대비 현저히 향상된 영상 이해도를 보였다. 모델의 파라미터 수가 증가할수록 더 우수한 성능을 나타냈으며 130억 개(13B) 파라미터를 갖는 모델이 70억 개(7B) 파라미터를 갖는 모델보다 우수한 성능을 보였다. 특히 13B 모델은 1조 8천억 개 파라미터를 보유한 GPT-4o의 성능을 상회하는 결과를 달성하였다. 이는 도메인 특화 데이터셋의 잠재력을 입증함과 동시에 13B 규모의 모델이 자체(on-premise) 환경에서 구현 가능해 데이터 보안이 중요한 특정 부처 및 기업에서 발생할 수 있는 정보 유출 및 보안 문제를 해결할 수 있다는 이점을 제공한다. 또한 학습된 모델은 영상 분석 자동화, 이상 탐지(anomaly detection), 위성 영상 키워드 검색 등 다양한 분야에 활용될 수 있다.
향후 연구에서는 비전 인코더의 구조를 개선하고 데이터셋을 확장하며 Qwen 2.5, LLaMA 3.1 등 개선된 LLM을 적용하여 추가적인 성능 향상을 도모할 예정이다. 아울러 데이터셋의 품질과 규모를 지속적으로 확대하면서 한국어 버전을 구축하여 한국어 사용성 또한 높이고자 한다.

Conflict of Interest

On behalf of all authors, the corresponding author states that there is no conflict of interest.

Funding Information

This work was supported by the Satellite Data Applications (No. FR25J00) project through the Korea Aerospace Research Institute (KARI).

Data Availability Statement

The data that support the findings of this study are openly available in DataON at https://doi.org/10.22711/idr/1083.

Fig. 1.
Examples of pretraining dataset.
GD-2025-0003f1.jpg
Fig. 2.
Overview of fine-tuning dataset generation.
GD-2025-0003f2.jpg
Fig. 3.
Prompt for generating detailed description image-text pairs.
GD-2025-0003f3.jpg
Fig. 4.
Detailed description: fine-tuned model vs. base model.
GD-2025-0003f4.jpg
Fig. 5.
Object counting: fine-tuned model vs. base model.
GD-2025-0003f5.jpg
Fig. 6.
Bounding box-based object detection capability: fine-tuned model vs. base model.
GD-2025-0003f6.jpg
Fig. 7.
Complex reasoning: fine-tuned model vs. base model.
GD-2025-0003f7.jpg
Fig. 8.
Examples of evaluation questions.
GD-2025-0003f8.jpg
Table 1.
Class-wise statistics for the dataset
Class MB SB TB BG FB FR CS OT DS WS FT LM SC LC HC SV TR
Train 31,469 5,536 409 1,218 4,231 1,678 768 195 55 320 827 325 820 1,265 605 501,394 42,776
Val 3,105 967 70 198 538 195 184 17 17 66 95 17 80 170 81 70,055 6,153
Test 5,296 594 104 239 625 209 109 40 17 23 198 16 159 258 197 69,617 6,441
Total 39,870 7,097 583 1,655 5,394 2,082 1,061 252 89 409 1,120 358 1,059 1,693 883 641,066 55,370
Class BS TN IC GC CR BR DM ST SF SD SP RA HP WG AF OR Total
Train 11,133 17,332 24,005 18,362 1,754 497 262 5,486 2,049 118 7,982 842 989 181 1,618 11 686,512
Val 1,356 3,712 3,781 3,292 283 79 47 1,041 325 20 1,269 146 114 22 144 2 97,641
Test 1,200 1,950 4,481 3,294 296 83 26 606 370 20 1,100 155 165 16 357 3 98,264
Total 13,689 22,994 32,267 24,948 2,333 659 335 7,133 2,744 158 10,351 1,143 1,268 219 2,119 16 882,417

MB, motorboat; SB, sailboat; TB, tugboat; BG, barge; FB, fishing boat; FR, ferry; CS, cargo ship; OT, oil tanker; DS, drillship; WS, warship; FT, fighter jet; LM, large military aircraft; SC, small civilian aircraft; LC, large civilian aircraft; HC, helicopter; SV, small vehicle; TR, truck; BS, bus; TN, train; IC, individual container; GC, group container; CR, crane; BR, bridge; DM, dam; ST, storage tank; SF, sports field; SD, stadium; SP, swimming pool; RA, roundabout; HP, helipad; WG, wind generator; AF, aquaculture facility; OR, ocean research facility.

Table 2.
Distribution of question types in the evaluation dataset
Question type Proportion (%)
Detailed description 60
Object counting 10
Bounding box-based object detection capability 10
Complex reasoning 20
Table 3.
Comparison of answer accuracy
Model Accuracy (%)
LLaVA-HR (7B) baseline 54.02
LLaVA-HR (7B) fine-tuned 78.57
LLaVA-HR-X (13B) baseline 72.27
LLaVA-HR-X (13B) fine-tuned 86.59
GPT-4o 82.43
  • Kuckreja K, Danish MS, Naseer M, Das A, Khan S, Khan FS (2024) GeoChat: grounded large vision-language model for remote sensing. In: 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle Convention Center, Seattle, 17-21 Jun 2024, pp 27831-27840Article
  • Li J, Li D, Savarese S, Ho S (2023) BLIP-2: bootstrapping language-image pre-training with frozen image encoders and large language models. In: 40th International Conference on Machine Learning, Hawaii Convention Center, Honolulu, 23-29 Jul 2023
  • Liu F, Chen D, Guan Z, et al (2024) RemoteCLIP: a vision language foundation model for remote sensing. IEEE Trans Geosci Remote Sens 62:5622216Article
  • Liu H, Li C, Li Y, Lee YJ (2023) Improved baselines with visual instruction tuning. In: 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle Convention Center, Seattle, 17-21 Jun 2024, pp 26296-26306Article
  • Lobry S, Marcos D, Murray J, Tuia D (2020) RSVQA: visual question answering for remote sensing data. IEEE Trans Geosci Remote Sens 58(12):8555–8566Article
  • Lu X, Wang B, Zheng X, Li X (2018) Exploring models and data for remote sensing image caption generation. IEEE Trans Geosci Remote Sens 56(4):2183–2195Article
  • Luo G, Zhou Y, Zhang Y, Zheng X, Sun X, Ji R (2024) Feast your eyes: mixture-of-resolution adaptation for multimodal large language models. arXiv https://arxiv.org/abs/2403.03003 Accessed 5 Feb 2025
  • Muhtar D, Li Z, Gu F, Zhang X, Xiao P (2024) LHRS-Bot: empowering remote sensing with VGI-enhanced large multimodal language model. In: 18th European Conference on Computer Vision ECCV 2024, MiCo Milano, Milan, 29 Sep-Oct 4 2024Article
  • Oh H (2024) AI training datasets for national satellite images-II. doi: 10.22711/idr/1024
  • Oh H, Shin D, Chung D (2025) KOMPSAT-3/3A image-text dataset for training large multimodal dataset. doi: 10.22711/idr/1083
  • Pang C, Weng X, Wu J, et al (2024) VHM: versatile and honest vision language model for remote sensing image analysis. arXiv https://arxiv.org/abs/2403.20213 Accessed 12 Feb 2025ArticlePDF
  • Qu B, Li X, Tao D, Lu X (2016) Deep semantic understanding of high resolution remote sensing image. In: 2016 International Conference on Computer, Information and Telecommunication Systems, Yunnan Minzu University, Kunming, 6-8 Jul 2016Article
  • Radford A, Kim JW, Hallacy C, et al (2021) Learning transferable visual models from natural language supervision. In: 38th International Conference on Machine Learning, Virtual, 18- 24 Jul 2021
  • Schuhmann C, Vencu R, Beaumont R (2021) LAION-400M: open dataset of CLIP-filtered 400 million image-text pairs. arXiv https://arxiv.org/abs/2111.02114 Accessed 12 Feb 2025
  • Sharma P, Ding N, Goodman S, Soricut R (2018) Conceptual captions: a cleaned, hypernymed, image alt-text dataset for automatic image captioning. In: 56th Annual Meeting of the Association for Computational Linguistics, Melbourne Convention and Exhibition Centre, Melbourne, 15-20 Jul 2018, pp 2556-2565Article
  • Zhang Z, Zhao T, Guo Y, Yin J (2024) RS5M and GeoRSCLIP: a large-scale vision- language dataset and a large vision-language model for remote sensing. IEEE Trans Geosci Remote Sens 62:5642123Article
  • Zheng L, Chiang WL, Sheng Y, et al (2023) Judging LLM-as-a-judge with MT-bench and Chatbot arena. In: 37th Conference on Neural Information Processing Systems, Ernest N. Morial Convention Center, New Orleans, 10-16 Dec 2023
Meta Data for Dataset
Essential
Field Sub-Category
Title of Dataset KOMPSAT-3/3A Image-Text Dataset for Training Large Multimodal Dataset
DOI https://doi.org/10.22711/idr/1083
Category Geoscientific Information
Temporal Coverage 2024.01.-2024.12.
Spatial Coverage Address Worldwide
WGS84 Coordinates
Personnel Name Han Oh
Affiliation Korea Aerospace Research Institute
E-mail ohhan@kari.re.kr
CC License CC BY-NC
Optional
Field Sub-Category
Summary of Dataset KOMPSAT-3/3A Image-Text Dataset for Training Large Multimodal Models
Project
Instrument

Figure & Data

References

    Citations

    Citations to this article as recorded by  

      Figure
      • 0
      • 1
      • 2
      • 3
      • 4
      • 5
      • 6
      • 7
      Related articles
      KOMPSAT-3/3A Image-text Dataset for Training Large Multimodal Models
      Image Image Image Image Image Image Image Image
      Fig. 1. Examples of pretraining dataset.
      Fig. 2. Overview of fine-tuning dataset generation.
      Fig. 3. Prompt for generating detailed description image-text pairs.
      Fig. 4. Detailed description: fine-tuned model vs. base model.
      Fig. 5. Object counting: fine-tuned model vs. base model.
      Fig. 6. Bounding box-based object detection capability: fine-tuned model vs. base model.
      Fig. 7. Complex reasoning: fine-tuned model vs. base model.
      Fig. 8. Examples of evaluation questions.
      KOMPSAT-3/3A Image-text Dataset for Training Large Multimodal Models
      Class MB SB TB BG FB FR CS OT DS WS FT LM SC LC HC SV TR
      Train 31,469 5,536 409 1,218 4,231 1,678 768 195 55 320 827 325 820 1,265 605 501,394 42,776
      Val 3,105 967 70 198 538 195 184 17 17 66 95 17 80 170 81 70,055 6,153
      Test 5,296 594 104 239 625 209 109 40 17 23 198 16 159 258 197 69,617 6,441
      Total 39,870 7,097 583 1,655 5,394 2,082 1,061 252 89 409 1,120 358 1,059 1,693 883 641,066 55,370
      Class BS TN IC GC CR BR DM ST SF SD SP RA HP WG AF OR Total
      Train 11,133 17,332 24,005 18,362 1,754 497 262 5,486 2,049 118 7,982 842 989 181 1,618 11 686,512
      Val 1,356 3,712 3,781 3,292 283 79 47 1,041 325 20 1,269 146 114 22 144 2 97,641
      Test 1,200 1,950 4,481 3,294 296 83 26 606 370 20 1,100 155 165 16 357 3 98,264
      Total 13,689 22,994 32,267 24,948 2,333 659 335 7,133 2,744 158 10,351 1,143 1,268 219 2,119 16 882,417
      Question type Proportion (%)
      Detailed description 60
      Object counting 10
      Bounding box-based object detection capability 10
      Complex reasoning 20
      Model Accuracy (%)
      LLaVA-HR (7B) baseline 54.02
      LLaVA-HR (7B) fine-tuned 78.57
      LLaVA-HR-X (13B) baseline 72.27
      LLaVA-HR-X (13B) fine-tuned 86.59
      GPT-4o 82.43
      Essential
      Field Sub-Category
      Title of Dataset KOMPSAT-3/3A Image-Text Dataset for Training Large Multimodal Dataset
      DOI https://doi.org/10.22711/idr/1083
      Category Geoscientific Information
      Temporal Coverage 2024.01.-2024.12.
      Spatial Coverage Address Worldwide
      WGS84 Coordinates
      Personnel Name Han Oh
      Affiliation Korea Aerospace Research Institute
      E-mail ohhan@kari.re.kr
      CC License CC BY-NC
      Optional
      Field Sub-Category
      Summary of Dataset KOMPSAT-3/3A Image-Text Dataset for Training Large Multimodal Models
      Project
      Instrument
      Table 1. Class-wise statistics for the dataset

      MB, motorboat; SB, sailboat; TB, tugboat; BG, barge; FB, fishing boat; FR, ferry; CS, cargo ship; OT, oil tanker; DS, drillship; WS, warship; FT, fighter jet; LM, large military aircraft; SC, small civilian aircraft; LC, large civilian aircraft; HC, helicopter; SV, small vehicle; TR, truck; BS, bus; TN, train; IC, individual container; GC, group container; CR, crane; BR, bridge; DM, dam; ST, storage tank; SF, sports field; SD, stadium; SP, swimming pool; RA, roundabout; HP, helipad; WG, wind generator; AF, aquaculture facility; OR, ocean research facility.

      Table 2. Distribution of question types in the evaluation dataset

      Table 3. Comparison of answer accuracy


      GEO DATA : GEO DATA
      TOP