일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- ste
- path planning #mcts
- 탐색
- vlm 정리 #glip #object detection
- 소울러닝 #책리뷰 #느낀점
- 개발 일기
- 책 #오늘 밤
- 자율주행 #로봇공학과
- 세계에서 이 세상이 사라진다 해도
- 정보이론
- 경로 계획
- Unity
- vlm #clip #object detection
- ROS2
- vision language model #transformer
- planning #ste #논문 리뷰
- 로봇 #로봇공학과 #공대생 #대학생 #일상 #휴무 #교수
- Infotaxis
- ROS1
- dino #grounding dino #vlm #object detection
- AirSim #RL #Drone
- 코드 트리 #개발자 #언어 공부 #코딩 공부
- Today
- Total
퇴근할게요 교수님
[논문 리뷰] ASPIRe: An Informative Trajectory Planner with Mutual InformationApproximation for Target Search and Tracking [2024] 본문
[논문 리뷰] ASPIRe: An Informative Trajectory Planner with Mutual InformationApproximation for Target Search and Tracking [2024]
휴무 교수 2024. 5. 27. 18:07
1. Abstract
여기서는 STE를 SAT[search and tracking]이라고 표현한다. MCTS의 non-myopic[멀리 내다볼 수 있는] 방식을 채택하여 planning을 하려고 하지만, MCTS의 많은 계산량으로 인한 문제점이 존재한다. 이로 인해 MCTS는 제한된 particle filter를 사용한다. 이를 해결하기 위해 이 사람들은 Sigma Point-based mutual information reward pproximation[ASPIRe]를 제시한다. 이는 SP-based인 MI[mutual information]으로, 훨씬 우월한 real-time 계산시간을 보여주고, search에 대한 효율성을 지닌다.
2. Main[System Formulation]
- Sensor models
discrete-time kinematic model을 다음과 같이 표현하자.
xrk+1=fr(xrk,urk)
이 때, f는 kinematic model이고, x, u는 robot의 state와 control이다. r은 로봇을 의미한다. k는 time step이다. 이 때, noise로 인해서 위 공식은 현실에서는 다음과 같이 표현된다.
xrk+1=fr(xrk,urk)+ηk,ηk N(0,Q)
η은 gaussian noise다. 이 곳에서 zk[sensor measurement]에 대해서 다음과 같이 표현한다.
zk={h(xrk,xtk)+ϵk,ϵk∼N(0,Σ)γk=1∅γk=0
즉, zk는 FOV안에 있을 때 값을 지닌다. h는 observation function, epsilon은 gaussian noise다.
- Belief MDP Formulation
SAT문제에 대해서 MDP[Markov decision process]를 이용해서 해결한다. 변수로는 h, B, A, τ, R, γ을 가지고, B : belief state space, A : action space, τ : belief transition model, h: planning horizon, γ : discount factor, R : Reward function. 그리고, particle filter에 대한 가중치에 대해서 설명한다.
P(xtk|q)∼N∑j=1wj,kδ(xtk−˜xt,jk)
이는 추정되는 위치는 particle들의 가중치에 대한 합산을 통해서 나타난다는 것이다. 그리고 가중치는 다음과 같다.
˜xk+1t,j∼N(ft(˜xkt,j,utk),Q),j=1,…,N,wk+1j=P(zk+1∣˜xk+1t,j)∑j=1NP(zk+1∣˜xt,jk+1)wjk,j=1,…,N,
가중치는 x의 point에 따라서 업데이트 된다.
- Sigma Point-Based Mutual Information
기존 Reward Function SP에서의 보상함수는 다음과 같다.
R(Bk,ak)=I(xk+1;zk+1)=H(zk+1)−H(zk+1∣xk+1)
즉, target의 위치 예상과 현재 내 위치에서의 target 정보간 차이가 보상 함수가 된다.
여기까지는 기존의 GMM(Gaussian Mixture Model)과 같다. 여기까지 진행했을 때, GMM의 문제점을 제시한다.
1. GMM은 정확하게 평가할 수 없고, MC 적분을 사용하여 수치적으로 평가할 수 있지만, 정확한 근사를 하는 과정에 계산량이 너무 많다.
2. 이 문제를 해결하기 위해 사용하는 Taylor 전개법은 GMM의 엔트로피를 근사하기 위해 사용되었으나 이는 큰 오류값을 지닌다.
이러한 문제점을 해결하기 위해 Sigma Point를 도입한다.- Sigma Point-Based Entropy
entropy H[zk+1]은 다음과 같이 표현가능하다.
H(zk+1)=−∫P(zk+1)logP(zk+1)dzk+1≈−∑Nj=1wkkpj
이전에, 정말 어려운 개념 하나를 들고 가자.
UKF : 함수를 선형화 하지 않고 여러 샘플을 통해 가우시안의 근사분포를 얻어내는 것이 목표. point들의 새로운 mean값과 covariance를 계산하여 새로운 가우시안 분포를 만드는 것이 목표이다.
샘플로 사용할 점을 먼저 정한다. 이 때, 샘플로 정하는 point를 Sigma Point, 우리가 이 논문에서 제시한 점이다. 또한 weight w를 구하게 된다.
∑iw[i]=1μ=∑iw[i]χ[i]Σ=∑iw[i](χ[i]−μ)(χ[i]−μ)T
Choosing Sigma Points
χ[0]=μχ[i]=μ+(√(n+λ)Σ)ifor i=1,…,nχ[i]=μ−(√(n+λ)Σ)i−nfor i=n+1,…,2n
μ를 중심으로 샘플을 뽑는다고 생각하면 된다. 이 때, 𝜆는 𝜇에서부터 샘플을 얼마나 먼 지점에서 뽑느냐를 결정한다.
Choosing Sigma Point weights
w[0]m=λn+λw[i]m=w[i]c=12(n+λ)
마지막으로 Gaussian Approximation을 다음과 같이 표현한다.
μ′=2n∑i=0w[i]mg(χ[i])Σ′=2n∑i=0w[i]c(g(χ[i])−μ′)(g(χ[i])−μ′)T
다시 논문으로 돌아와서, μ는 Point P들의 평균값이 된다.
그리고, 논문에서는 P에 대해서 다음과 같이 approximated 한다.
P(zk+1|˜xk+1t,j)≈∑l=02mwj,lsδ(zk+1−˜zj,lk+1)
여기까지가 이 논문에서 제시한 방식이다.
- Sigma Point-Based Entropy
3. Algorithm
알고리즘은 다음과 같다.

이는 기존의 MCTS 방법과 비슷하다. 보상에 따라 UCB[경계]를 통해 반복하며, 새로운 노드와 환경에 대해서 탐색하고 업데이트 하는 방식이다.
기존의 MCTS와 다른 점은, Tree가 계속해서 뻗어나가지 않아도[정해진 길이 만큼] 그 이전의 임계값을 초과한다면 최대 깊이에 도달하기 이전에 종료한다. 이를 통해서 target를 넘어가는 일이 발생하지 않는다.
4. Conclusion

결과적으로, 기존의 MC, Taylor 방식보다 더 나은 성능이 나타났다.

또한, Simulation하는 과정에 대해서도 다음과 같이 제공을 해 주었다. 제공한 모습을 통해서, Target이 관측이 되지 않았을 때는 무작위의 행동을 하는 모습을 보이지만, 관측이 되고 나서 Tracking 할 때에는 정확히 수행하는 것을 볼 수 있다.
5. Summery
이 논문에서는 기존 Gaussian 방식에 대해서 많은 계산량으로 인해 생기는 실시간적 적용이 이루어지지 않는 것에 대해서 문제점을 제기하였다. 그리고, UKF의 Sigma Point를 사용하여 이 문제를 해결하려고 하고 있다. 하지만, Sigma Point 를 사용하며 오차가 생기는 것과, 모든 Particle에 대해서 계산하는 것이 아니라는 것에 대해서 문제가 생길 수 있을 것 같다.
'논문 리뷰 > STE' 카테고리의 다른 글
Monte Carlo Tree Search [MCTS Path Planning] (0) | 2024.06.27 |
---|---|
[논문 리뷰] 'Infotaxis' as a strategy for searching without gradients(2007) (0) | 2024.03.14 |