일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 탐색
- 경로 계획
- ROS1
- 코드 트리 #개발자 #언어 공부 #코딩 공부
- 세계에서 이 세상이 사라진다 해도
- vision language model #transformer
- ste
- 개발 일기
- 소울러닝 #책리뷰 #느낀점
- Infotaxis
- Unity
- vlm 정리 #glip #object detection
- 정보이론
- dino #grounding dino #vlm #object detection
- ROS2
- 로봇 #로봇공학과 #공대생 #대학생 #일상 #휴무 #교수
- path planning #mcts
- vlm #clip #object detection
- 자율주행 #로봇공학과
- planning #ste #논문 리뷰
- 책 #오늘 밤
- AirSim #RL #Drone
- Today
- Total
목록전체 글 (22)
퇴근할게요 교수님

이후 Grounding DINO(현재 사용하고 있는) 논문을 리뷰하기 위해, Vision-language model(VLM)은 아니지만, 최근 많은 사람들이 사용하고 있는 Object Detection 논문이다. 이 논문을 알고 있다면, 앞으로 리뷰할 논문에 대해서 편하게 이해할 수 있다.DINO: Grounded Language-Image Pre-training DINO: Detr with Improved DeNoising Anchor Boxes for End-to-End Object Detection DINO는 DETR(Detection Transformer, 순서가 살짝 꼬였지만 이후 보는 사람은다음을 참고하자.) 구조에 기반하여 object detection 성능을 향상시킨 방식이다. DINO가 ..

자율주행 분야란?2024.01.18 - [일상 이야기] - 로봇공학과를 선택한 이유, 로봇공학과란?을 이어서 이번엔 자율주행 분야에 대해서 말해보려고 합니다. GPT와 같은 생성형 Ai와 함께 가장 핫한 주제 중 하나죠? 자율주행은 운전자가 직접 조작하지 않아도 주행환경을 인식해 위험을 판단하고 최적의 주행 경로를 계획해 스스로 주행하는 시스템을 말해요.자율주행에는 5가지의 단계가 있는데요, 현재 자율주행 기술은 어느 정도까지 왔을까요? 테슬라의 FSD(Full Self-Driving), 구글 웨이모(Waymo), 그리고 여러 자동차 제조사들이 개발 중인 자율주행 시스템을 보면, 우리가 기대하는 완전한 자율주행(Level 5)까지는 아직 시간이 필요해요. 현재 가장 발전한 수준은 Level 3~4 정도로..

GLIP(Grounded Language-Image Pre-training)은 CLIP과 함께 VLM의 기초가 되는 논문입니다. 이 논문은 CLIP에 대해서 알고 있다는 가정 하에 쉽게 이해할 수 있으니, 아직 CLIP이 익숙하지 않은 사람은 다음 블로그를 참고하는 것이 도움이 될 것이다. [논문 리뷰] VLM 돌파하기 - CLIP: Learning Transferable Visual Models from Natural Language SupervisionCLIP: Learning Transferable Visual Models from Natural Language Supervision 0. 시작하기 전에최근 DETR[End to End Detection]을 통해서 VLM을 이용한 객체 탐지[obje..

CLIP: Learning Transferable Visual Models from Natural Language Supervision 0. 시작하기 전에최근 DETR[End to End Detection]을 통해서 VLM을 이용한 객체 탐지[object detection]이 핫하다. 이 중 VLM의 시초라 할 수 있는 CLIP이라는 논문에 대해서 리뷰해 보았다.1. CLIP란?CLIP[Contrastive Language-Image Pre-training]은 OpenAI에서 제안한 모델로, 이미지와 텍스트 쌍을 통해 학습하는 대규모 학습 기법이다. 기존 이미지 분류 모델들은 고정된 범주를 예측하도록 학습되지만, CLIP은 훨씬 더 유연하게 동작한다. 인터넷에 있는 방대한 이미지-텍스트 쌍을 이용해 이미..

Transformer: Attention Is All You NeedTransformer는 자연어 처리[NLP] 분야에서 기존 순환 신경망[RNN]과 합성곱 신경망[CNN]의 한계를 극복하며 혁신적인 성과를 거둔 알고리즘이다. 이 모델은 2017년 논문 "Attention Is All You Need" 에서 처음 소개되었으며, 현재 GPT, BERT, T5 등 다양한 모델의 근간이 되고 있다.Transformer 란?Transformer는 기존 RNN 기반 모델과 달리 순차적인 연산 없이 병렬 처리가 가능하다는 점에서 큰 장점을 가진다. 이는 Self-Attention 메커니즘을 기반으로 작동하며, 문장 내 모든 단어 간의 관계를 한 번에 학습할 수 있도록 설계되었다.주요 개념은 다음과 같다:Self-A..

이전 문제점인 탐색 시간 [MST] 이 너무 높게 나오는 것을 파악하여 새로운 Reward 설계를 진행하였다.기존 논문과는 다르게 Reward 설계를 해서 새롭게 제시해 주었다. 생각보다 성능과 탐색 시간 모두 이전에 뽑았던 성능들보다 우수하게 나와서 좋았다.논문 제출일이 13일 남았으니까 빠르게 써보자!

이전 일기 이후로, 해결했다는 생각에 기뻐서 열심히 결과값들을 뽑았다.내 생각보다 둘 다 성능이 좋아 놀랐지만, 드디어 코드를 다 짰다! 라는 생각에 행복했던 것 같다. 결과를 뽑고 나니 새로운 문제가 생겼다.RRT는 Random 한 Tree 구조를 가지기에 목적지까지의 거리를 Reward로 함께 받는다. 이로 인하여 목적지 까지 빨리 가려고 하는 성질이 생겨, 목적지 까지 도착하는 데 걸린 시간인 MST$(Mean Search Time)$이 MCTS 보다 낮게 나오게 되었다. 이게 문제가 되는 것이, STE 문제에서는 빠르게, 정확하게 목적지를 찾는 게 목표라서정확하게 찾는 것은 MCTS가 낫지만, 빠르게 찾는 것이 RRT가 더 우수하게 나오고 있는 것이었다. 그래서 Baseline 코드는 유지한 채,..
드디어 드디어 코드 구현이 끝났다....MCTS의 확률론적 경로 생성을 STE 에 적용하여 논문을 작성하기 위해서 기존 논문의 구현이 필요했다. 같은 환경을 제작하고 논문의 코드를 구현하였는데, 논문에 작성된 성능보다 한참 못미쳤다 ( 80% -> 42%)...정말 2주 정도 내 코드에서 어떤 게 잘못된 건지 한참을 보았던 것 같다. 코드를 작성하면서 평소 기능 별로 함수 설정을 해서 코드 구현을 이루려 하는 편이지만, 이번엔 빠른 연구를 위해 그러지 않았는데 그게 오히려 시간을 더 잡아먹는 꼴이 되었다. 그리고 오.늘. 드디어 코드에서 어떤 문제가 존재했는 지 찾고, 해결하였다.STE 문제에서는 가스 추정에 대해서 Particle Filter를 사용하는데, 이 Particle을 받아오는 과정에서 배열 ..

인스타, SNS에서 너무 많이 광고했던 책이 자주 가는 카페에 있어 읽어볼 수 있었다. "장기 기억을 하지 못하는 여자와 알면서도 그 사람을 좋아하는 남자 간의 사랑 이야기" 였다.책을 읽으면서 급 전개에 당황하기도 하였지만, 몰입감 넘치게 재밌게 읽을 수 있었다. 책 내용 중 다음과 같은 내용이 나오는데, "같은 즐거움도 나는 매일 새롭게 느낄 수 있으니까" 라는 내용이 있었다. 요즘 새로움이 없고 반복되는 일상에서 살아가고 있다고 느끼고 있던 나 이다. 그래서 '나 우울한 건가?' 라는 생각까지 들게끔 되었다. 그래서 해보지 않았던 거, 새로운 것들을 조금씩 해 보려고 한다. 그러한 경험들을 조금씩 써 볼 생각이다.

Monte Carlo Tree Search 알고리즘알파고가 바둑으로 사람을 이긴 것으로 유명해지고 나서 지금까지, AI의 발전은 무궁무진하게 흘러갔다. MCTS는 알파고에서 사용된 알고리즘으로, 강화학습을 사용하는 사람들이나 불확실성에 관련한 연구를 진행하는 사람은 많이 들어봤을 주제이다. MCTS는 시뮬레이션을 거쳐 가장 승률이 좋은 행동을 하는 알고리즘이다.다만, 어떠한 행동을 할 지의 선택지를 정해 주어야 하며, 내가 정한 환경에서만 작동된다. MCTS에 대해서 얘기 하기 전에 그 근본이 되는 MDP에 대해서 얘기해 보자.MDP란 [Markov Decision Proccess]로, 시간 t에서의 상태는 t-1 에서의 상태에만 영향을 받는다는 정의를 기반으로, 현재 나의 상태에서 행동에 대해서 확률..