일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 코드 트리 #개발자 #언어 공부 #코딩 공부
- planning #ste #논문 리뷰
- 개발 일기
- ROS2
- 책 #오늘 밤
- vlm #clip #object detection
- 소울러닝 #책리뷰 #느낀점
- Unity
- vlm 정리 #glip #object detection
- ste
- 탐색
- vision language model #transformer
- 세계에서 이 세상이 사라진다 해도
- ROS1
- path planning #mcts
- 로봇 #로봇공학과 #공대생 #대학생 #일상 #휴무 #교수
- Infotaxis
- AirSim #RL #Drone
- dino #grounding dino #vlm #object detection
- 정보이론
- 경로 계획
- 자율주행 #로봇공학과
- Today
- Total
목록논문 리뷰 (8)
퇴근할게요 교수님

이후 Grounding DINO(현재 사용하고 있는) 논문을 리뷰하기 위해, Vision-language model(VLM)은 아니지만, 최근 많은 사람들이 사용하고 있는 Object Detection 논문이다. 이 논문을 알고 있다면, 앞으로 리뷰할 논문에 대해서 편하게 이해할 수 있다.DINO: Grounded Language-Image Pre-training DINO: Detr with Improved DeNoising Anchor Boxes for End-to-End Object Detection DINO는 DETR(Detection Transformer, 순서가 살짝 꼬였지만 이후 보는 사람은다음을 참고하자.) 구조에 기반하여 object detection 성능을 향상시킨 방식이다. DINO가 ..

GLIP(Grounded Language-Image Pre-training)은 CLIP과 함께 VLM의 기초가 되는 논문입니다. 이 논문은 CLIP에 대해서 알고 있다는 가정 하에 쉽게 이해할 수 있으니, 아직 CLIP이 익숙하지 않은 사람은 다음 블로그를 참고하는 것이 도움이 될 것이다. [논문 리뷰] VLM 돌파하기 - CLIP: Learning Transferable Visual Models from Natural Language SupervisionCLIP: Learning Transferable Visual Models from Natural Language Supervision 0. 시작하기 전에최근 DETR[End to End Detection]을 통해서 VLM을 이용한 객체 탐지[obje..

CLIP: Learning Transferable Visual Models from Natural Language Supervision 0. 시작하기 전에최근 DETR[End to End Detection]을 통해서 VLM을 이용한 객체 탐지[object detection]이 핫하다. 이 중 VLM의 시초라 할 수 있는 CLIP이라는 논문에 대해서 리뷰해 보았다.1. CLIP란?CLIP[Contrastive Language-Image Pre-training]은 OpenAI에서 제안한 모델로, 이미지와 텍스트 쌍을 통해 학습하는 대규모 학습 기법이다. 기존 이미지 분류 모델들은 고정된 범주를 예측하도록 학습되지만, CLIP은 훨씬 더 유연하게 동작한다. 인터넷에 있는 방대한 이미지-텍스트 쌍을 이용해 이미..

Transformer: Attention Is All You NeedTransformer는 자연어 처리[NLP] 분야에서 기존 순환 신경망[RNN]과 합성곱 신경망[CNN]의 한계를 극복하며 혁신적인 성과를 거둔 알고리즘이다. 이 모델은 2017년 논문 "Attention Is All You Need" 에서 처음 소개되었으며, 현재 GPT, BERT, T5 등 다양한 모델의 근간이 되고 있다.Transformer 란?Transformer는 기존 RNN 기반 모델과 달리 순차적인 연산 없이 병렬 처리가 가능하다는 점에서 큰 장점을 가진다. 이는 Self-Attention 메커니즘을 기반으로 작동하며, 문장 내 모든 단어 간의 관계를 한 번에 학습할 수 있도록 설계되었다.주요 개념은 다음과 같다:Self-A..

Monte Carlo Tree Search 알고리즘알파고가 바둑으로 사람을 이긴 것으로 유명해지고 나서 지금까지, AI의 발전은 무궁무진하게 흘러갔다. MCTS는 알파고에서 사용된 알고리즘으로, 강화학습을 사용하는 사람들이나 불확실성에 관련한 연구를 진행하는 사람은 많이 들어봤을 주제이다. MCTS는 시뮬레이션을 거쳐 가장 승률이 좋은 행동을 하는 알고리즘이다.다만, 어떠한 행동을 할 지의 선택지를 정해 주어야 하며, 내가 정한 환경에서만 작동된다. MCTS에 대해서 얘기 하기 전에 그 근본이 되는 MDP에 대해서 얘기해 보자.MDP란 [Markov Decision Proccess]로, 시간 t에서의 상태는 t-1 에서의 상태에만 영향을 받는다는 정의를 기반으로, 현재 나의 상태에서 행동에 대해서 확률..

1. Abstract여기서는 STE를 SAT[search and tracking]이라고 표현한다. MCTS의 non-myopic[멀리 내다볼 수 있는] 방식을 채택하여 planning을 하려고 하지만, MCTS의 많은 계산량으로 인한 문제점이 존재한다. 이로 인해 MCTS는 제한된 particle filter를 사용한다. 이를 해결하기 위해 이 사람들은 Sigma Point-based mutual information reward pproximation[ASPIRe]를 제시한다. 이는 SP-based인 MI[mutual information]으로, 훨씬 우월한 real-time 계산시간을 보여주고, search에 대한 효율성을 지닌다.2. Main[System Formulation]Sensor model..

논문 이전에 Path Planning에 대한 관심은 언제나 존재한다. 로봇의 자율주행 기능을 책임지는 Path Planning은 전체적인 지도[Map]를 지니고 있을 때의 경로를 제작하는 Global Planning, 카메라, LiDAR 등의 센서 데이터를 받아와 시간에 따라 현재 위치에서 목적지와 충돌 가능한 장애물 등을 고려한 Local Planning[Motion planning 이 여기에 속해 있을 것이다.] 등이 있다. 이러한 기술들은 차량 자율 주행, 로봇의 목적지 도착에 주로 쓰이며, 움직여 목적지에 도착을 해야하는 Task를 가진 임무에는 어디든 쓰인다고 생각하면 된다. 그래서 주로, 로봇 전문가 및 자동차, 무인이동체 등의 개발자는 필수적으로 필요한 개념이다. 오늘 소개할 논문은 Info..

논문 이전에 DD3D의 정식 논문 이름은 DD3D(is pseudo-lidar needed for monocular 3d object detection?)이다. 이는 기존 존재하는 논문 pseudo-lidar needed for monocular 3d object detection에 대해서 더 나은 발전 방향을 가지고 만든 논문이다. 그렇다면 기존 논문에 대해 요약한다면 pseudo-lidar란? 저렴한 센서인 카메라는 깊이 정보의 부재로 3D object detection에 낮은 정확도를 가진다. 하지만, 이 논문은 낮은 정확도의 원인은 camera 의 depth 정보가 아니라 데이터의 대표적인 문제라고 생각한다. 그.래.서 image로 depth map을 만들고, 이를 pseudo-lidar로 lid..