일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 책 #오늘 밤
- Infotaxis
- vlm 정리 #glip #object detection
- 소울러닝 #책리뷰 #느낀점
- ROS2
- path planning #mcts
- 정보이론
- AirSim #RL #Drone
- 세계에서 이 세상이 사라진다 해도
- 코드 트리 #개발자 #언어 공부 #코딩 공부
- 자율주행 #로봇공학과
- 로봇 #로봇공학과 #공대생 #대학생 #일상 #휴무 #교수
- ste
- Unity
- 탐색
- 경로 계획
- dino #grounding dino #vlm #object detection
- planning #ste #논문 리뷰
- 개발 일기
- ROS1
- vlm #clip #object detection
- vision language model #transformer
- Today
- Total
목록논문 리뷰/VLM (4)
퇴근할게요 교수님

이후 Grounding DINO(현재 사용하고 있는) 논문을 리뷰하기 위해, Vision-language model(VLM)은 아니지만, 최근 많은 사람들이 사용하고 있는 Object Detection 논문이다. 이 논문을 알고 있다면, 앞으로 리뷰할 논문에 대해서 편하게 이해할 수 있다.DINO: Grounded Language-Image Pre-training DINO: Detr with Improved DeNoising Anchor Boxes for End-to-End Object Detection DINO는 DETR(Detection Transformer, 순서가 살짝 꼬였지만 이후 보는 사람은다음을 참고하자.) 구조에 기반하여 object detection 성능을 향상시킨 방식이다. DINO가 ..

GLIP(Grounded Language-Image Pre-training)은 CLIP과 함께 VLM의 기초가 되는 논문입니다. 이 논문은 CLIP에 대해서 알고 있다는 가정 하에 쉽게 이해할 수 있으니, 아직 CLIP이 익숙하지 않은 사람은 다음 블로그를 참고하는 것이 도움이 될 것이다. [논문 리뷰] VLM 돌파하기 - CLIP: Learning Transferable Visual Models from Natural Language SupervisionCLIP: Learning Transferable Visual Models from Natural Language Supervision 0. 시작하기 전에최근 DETR[End to End Detection]을 통해서 VLM을 이용한 객체 탐지[obje..

CLIP: Learning Transferable Visual Models from Natural Language Supervision 0. 시작하기 전에최근 DETR[End to End Detection]을 통해서 VLM을 이용한 객체 탐지[object detection]이 핫하다. 이 중 VLM의 시초라 할 수 있는 CLIP이라는 논문에 대해서 리뷰해 보았다.1. CLIP란?CLIP[Contrastive Language-Image Pre-training]은 OpenAI에서 제안한 모델로, 이미지와 텍스트 쌍을 통해 학습하는 대규모 학습 기법이다. 기존 이미지 분류 모델들은 고정된 범주를 예측하도록 학습되지만, CLIP은 훨씬 더 유연하게 동작한다. 인터넷에 있는 방대한 이미지-텍스트 쌍을 이용해 이미..

Transformer: Attention Is All You NeedTransformer는 자연어 처리[NLP] 분야에서 기존 순환 신경망[RNN]과 합성곱 신경망[CNN]의 한계를 극복하며 혁신적인 성과를 거둔 알고리즘이다. 이 모델은 2017년 논문 "Attention Is All You Need" 에서 처음 소개되었으며, 현재 GPT, BERT, T5 등 다양한 모델의 근간이 되고 있다.Transformer 란?Transformer는 기존 RNN 기반 모델과 달리 순차적인 연산 없이 병렬 처리가 가능하다는 점에서 큰 장점을 가진다. 이는 Self-Attention 메커니즘을 기반으로 작동하며, 문장 내 모든 단어 간의 관계를 한 번에 학습할 수 있도록 설계되었다.주요 개념은 다음과 같다:Self-A..