일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 코드 트리 #개발자 #언어 공부 #코딩 공부
- 개발 일기
- 책 #오늘 밤
- ste
- Unity
- vlm #clip #object detection
- vision language model #transformer
- ROS2
- vlm 정리 #glip #object detection
- ROS1
- 탐색
- planning #ste #논문 리뷰
- dino #grounding dino #vlm #object detection
- 정보이론
- 로봇 #로봇공학과 #공대생 #대학생 #일상 #휴무 #교수
- 세계에서 이 세상이 사라진다 해도
- 소울러닝 #책리뷰 #느낀점
- Infotaxis
- 자율주행 #로봇공학과
- 경로 계획
- path planning #mcts
- AirSim #RL #Drone
- Today
- Total
퇴근할게요 교수님
[논문 리뷰] VLM 돌파하기 - GLIP(Grounded Language-Image Pre-training) 본문
GLIP(Grounded Language-Image Pre-training)은 CLIP과 함께 VLM의 기초가 되는 논문입니다. 이 논문은 CLIP에 대해서 알고 있다는 가정 하에 쉽게 이해할 수 있으니, 아직 CLIP이 익숙하지 않은 사람은 다음 블로그를 참고하는 것이 도움이 될 것이다.
[논문 리뷰] VLM 돌파하기 - CLIP: Learning Transferable Visual Models from Natural Language Supervision
CLIP: Learning Transferable Visual Models from Natural Language Supervision 0. 시작하기 전에최근 DETR[End to End Detection]을 통해서 VLM을 이용한 객체 탐지[object detection]이 핫하다. 이 중 VLM의 시초라 할 수 있는 CLIP이
run2run.tistory.com
자 그럼, GLIP에 대해서 알아보자.
GLIP: Grounded Language-Image Pre-training
기존의 객체 탐지 모델(Object detection)들은 학습된 정보가 있는 객체에 대해서만 탐지할 수 있었으며, 같은 물체(예를 들어 가스 통, 강아지, 고양이 등)에서도 모습이 바뀌게 되면 정확히 탐지하지 못하는 문제가 발생한다. 이는 결정된 객체 범주의 고정 집합을 예측하도록 훈련되어서 정해진 데이터 라벨의 물체만 감지할 수 있었던 것이다.
GLIP은 이러한 문제를 해결하기 위해 텍스트와 이미지 간의 유사도를 측정하는 CLIP의 아이디어에서 동기를 얻었다. 즉, 고정된 범주 예측 방식에서 벗어나 텍스트(언어 정보)와 이미지 정보를 함께 학습함으로써, 더 다양한 물체와 형태 변화를 유연하게 다룰 수 있게 되었다. 또한, 객체에 대해서 더 잘 파악하기 위해서 구문 접지(pharse grounding)를 사용하였다. 이는 조금 있다가 알아보도록 하자.
Pharse grounding
Phrase Grounding이란 텍스트(문장이나 구문)가 지시하는 대상이 이미지 속에서 어떤 위치에 있는지를 찾아내는 작업이다. 예컨대 “blue car”라는 표현이 주어졌다면, 실제 이미지에서 파란 차가 위치한 바운딩 박스를 정확히 추적해야 한다.
CLIP은 텍스트와 이미지에 대한 유사도를 계산하는 것에 초점을 맞추고 있어서, 모든 객체 탐지(Object Detection all) 등을 통해서 생성된 바운딩 박스가 있어야 사용이 가능하다. GLIP은 객체 탐지에 초점을 맞추어서, 한 모델을 통해서 객체 탐지까지 가능하도록 구성되었다.
GLIP 분석
1. Unifying detection and grounding by reformulating object detection as phrase grounding.
기존의 CLIP은 텍스트와 이미지가 엔코더를 통해 나타난 마지막의 특징(Feature)에 대해서만 Fusion을 하여 Alignment Score를 계산하지만, GLIP은 "텍스트와 이미지가 Feature가 되기 전에 계속해서 Fusion하면 어떨까?"라는 아이디어를 통해서 Feature를 생성하기 전에 계속해서 Fusion을 진행한다. 이러한 상호작용을 통해서 우수한 성능을 보여준다.
2. Scaling up visual concepts with massive image-text data.
GLIP은 기존에 학습된 접지(grounding) 모델을 활용해, 많은 이미지-텍스트 쌍에 대해 자동으로 바운딩 박스를 생성하는 방식을 쓴다. 이를 통해 학습 데이터의 양과 개념 범위를 크게 넓힐 수 있다.
예컨대 2천7백만 건 이상의 이미지-텍스트 데이터를 다루며, 이 중에는 “백신” 같은 다소 낯설거나 추상적인 표현들도 포함된다. 기존 방법들은 교사 모델이 미리 알고 있는 범주밖에 다루기 어려웠지만, GLIP은 텍스트 기반으로 바운딩 박스를 만들 수 있기 때문에 훨씬 더 다양한 개념까지 학습할 수 있다.
이를 통해서, 드문 범주나 새로운 표현을 다뤄야 하는 상황에서도 높은 정확도를 유지하며, 실제 여러 객체 검출 과제에서 기존 모델보다 상당한 성능 향상을 보여준다.
3. Transfer learning with GLIP: one model for all
GLIP은 객체 감지를 ‘구문 접지(phrase grounding)’ 방식으로 재해석하고, 앞서 말한 대규모 데이터로 사전 학습했기 때문에 여러 분야로 쉽게 확장할 수 있다. COCO나 LVIS 같은 데이터셋을 학습에 직접 사용하지 않아도 괜찮은 성능을 내며, 서로 다른 13개 이상의 검출 작업에서도 작은 샘플만으로 우수한 결과를 얻는다. 또한 전체 모델을 다시 학습하지 않고, 특정 작업에 필요한 프롬프트 임베딩(prompt embedding)만 새롭게 조정(프롬프트 튜닝)해도 충분히 좋은 성능을 낼 수 있다.
Conclusion
GLIP은 객체 감지와 구문 접지를 통합하여, 시각과 언어를 함께 학습함으로써 범주 한계를 극복하고 더 세밀한 인식을 가능하게 한다고 주장한다. 대규모 데이터와 멀티스케일 융합 기법을 사용해, Detection뿐 아니라 Segmentation, Scene Understanding, Vision-Language Understanding 등 여러 작업으로의 확장 가능성을 시사한다.
따라서 GLIP은 시각 언어 모델(VLM)의 한계를 넓혀가는 데 중요한 전환점이 될 수 있다. 실제로 다양한 응용 분야에서 추가 주석 없이도 빠른 파인튜닝(혹은 Zero-Shot)으로 쓸 수 있다는 점이 큰 매력이다. 앞으로도 많은 후속 연구들이 GLIP을 기반으로 발전할 것으로 예상한다.
마지막 요약 및 개인적인 분석
한계
- 대규모 데이터 의존
GLIP은 대규모 이미지-텍스트 쌍을 활용하여 학습 효과를 높이지만, 이러한 데이터 수집 및 전처리에 많은 자원과 시간이 필요하다. - 고성능 하드웨어 요구
멀티모달(이미지+텍스트) 융합 과정을 반복적으로 수행하기 때문에, 학습 단계에서 상당한 연산 비용이 발생한다. 이는 범용 하드웨어 환경에서는 다소 부담스러울 수 있다. - 언어적 미묘함 처리 한계
구문 접지(phrase grounding) 방식은 텍스트와 이미지 간의 명시적인 매핑에는 강력하지만, 미묘한 뉘앙스나 암시적 표현, 복잡한 문맥을 완전히 해석하는 데는 추가 연구가 필요하다.
활용 가능성
- 범용 객체 인식 모델
다양한 도메인(예: 의료 영상, 자율주행, 로봇 비전 등)에 적용할 수 있는 범용 객체 인식 모델로 발전할 수 있다. - Zero-shot 및 Few-shot 학습
텍스트 기반의 범주 정의 덕분에, 기존에 보지 못했던 새로운 객체나 환경에 대해 Zero-shot 혹은 Few-shot 상황에서도 빠르게 적용 가능하다. - 다운스트림 태스크로의 확장
객체 탐지는 물론, 시각적 질문응답(VQA), 이미지 캡셔닝, 세분화(Segmentation), 행동 인식(Action Recognition) 등 다양한 비전+언어 작업에 유연하게 확장될 수 있다. - 프롬프트 튜닝(Prompt Tuning)의 간편성
모델 전체를 다시 학습하지 않고도, 필요한 작업에 맞춰 프롬프트 임베딩만 새롭게 조정해 사용할 수 있으므로, 응용 분야에 따라 손쉽게 성능을 최적화할 수 있다.
GLIP은 기존의 CLIP의 모델에서 객체 탐지로의 분야를 개척한 논문이라고 생각된다. 이후 나오는 논문들을 통해서 천천히 VLM에 대해서 분석해 보자.
참고한 자료
GLIP : Grounded Language-Image Pre-training
오늘은 GLIP(Grounded Language-Image Pre-training)이라는 논문에 대해서 리뷰하겠습니다. 본 논문은 CLIP 등에 대한 기초 지식을 알고 있다는 전제하에 작성한 글입니다. 따로 해당 논문들에 대해에 대해
ainotes.tistory.com
논문 : Li, Liunian Harold, et al. "Grounded language-image pre-training." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.
VLM 정리
모델(VLM) | 연도 | 데이터 셋 | 모델 간단 설명 |
CLIP★ | 2021 | CLIP* | Transformer 기반으로 텍스트와 이미지의 임베딩을 학습하여, 텍스트-이미지 유사도를 빠르게 계산하고 zero-shot 분류/검색 등에 활용 가능한 모델 |
GLIP★ | 2022 | COCO, Objects365 | Grounded Language-Image Pre-training, Text Encoder를 통해 얻은 데이터와 Image Encoder를 통한 데이터를 Transformer 과정 속에서 계속해서 중복 연결하여 object grounding과 detection 능력을 향상시키는 사전학습 기법 |