[논문 리뷰] ASPIRe: An Informative Trajectory Planner with Mutual InformationApproximation for Target Search and Tracking [2024]

Notice

Recent Posts

Recent Comments

Link

포트폴리오

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

퇴근할게요 교수님

[논문 리뷰] ASPIRe: An Informative Trajectory Planner with Mutual InformationApproximation for Target Search and Tracking [2024] 본문

논문 리뷰/STE

[논문 리뷰] ASPIRe: An Informative Trajectory Planner with Mutual InformationApproximation for Target Search and Tracking [2024]

휴무 교수 2024. 5. 27. 18:07

1. Abstract

여기서는 STE를 SAT[search and tracking]이라고 표현한다. MCTS의 non-myopic[멀리 내다볼 수 있는] 방식을 채택하여 planning을 하려고 하지만, MCTS의 많은 계산량으로 인한 문제점이 존재한다. 이로 인해 MCTS는 제한된 particle filter를 사용한다. 이를 해결하기 위해 이 사람들은 Sigma Point-based mutual information reward pproximation[ASPIRe]를 제시한다. 이는 SP-based인 MI[mutual information]으로, 훨씬 우월한 real-time 계산시간을 보여주고, search에 대한 효율성을 지닌다.

2. Main[System Formulation]

Sensor models
discrete-time kinematic model을 다음과 같이 표현하자.
$x^r_{k+1} = f^r(x^r_k, u^r_k)$
이 때, f는 kinematic model이고, x, u는 robot의 state와 control이다. r은 로봇을 의미한다. k는 time step이다. 이 때, noise로 인해서 위 공식은 현실에서는 다음과 같이 표현된다.
$x^r_{k+1} = f^r(x^r_k, u^r_k) + η_k,η_k ~ N(0, Q)$
η은 gaussian noise다. 이 곳에서 $z_k$ [sensor measurement]에 대해서 다음과 같이 표현한다.
$\begin{equation*} z_k = \begin{cases} \mathbf{h}(x_k^r, x_k^t) + \epsilon_k, \quad \epsilon_k \sim \mathcal{N}(0, \Sigma) & \gamma_k = 1 \\ \emptyset & \gamma_k = 0 \end{cases} \end{equation*}$
즉, $z_k$ 는 FOV안에 있을 때 값을 지닌다. h는 observation function, epsilon은 gaussian noise다.

Belief MDP Formulation
SAT문제에 대해서 MDP[Markov decision process]를 이용해서 해결한다. 변수로는 h, B, A, τ, R, γ을 가지고, B : belief state space, A : action space, τ : belief transition model, h: planning horizon, γ : discount factor, R : Reward function. 그리고, particle filter에 대한 가중치에 대해서 설명한다.
$P(x_k^t | q) \sim \sum_{j=1}^{N} w_{j,k} \delta(x_k^t - \tilde{x}_{k}^{t,j})$
이는 추정되는 위치는 particle들의 가중치에 대한 합산을 통해서 나타난다는 것이다. 그리고 가중치는 다음과 같다.
$\begin{align*}\tilde{x}{k+1}^{t,j} &\sim \mathcal{N}(f^t(\tilde{x}k^{t,j}, u_k^t), \mathbf{Q}), \quad j = 1, \ldots, N, \\w{k+1}^j &= \frac{P(z{k+1} \mid \tilde{x}{k+1}^{t,j})}{\sum{j=1}^{N} P(z_{k+1} \mid \tilde{x}_{k+1}^{t,j})} w_k^j, \quad j = 1, \ldots, N,\end{align*}$
가중치는 x의 point에 따라서 업데이트 된다.

Sigma Point-Based Mutual Information
기존 Reward Function SP에서의 보상함수는 다음과 같다.
$R(B_k,a_k)=I(x_{k+1};z_{k+1})=H(z_{k+1})−H(z_{k+1}∣x_{k+1})$
즉, target의 위치 예상과 현재 내 위치에서의 target 정보간 차이가 보상 함수가 된다.
여기까지는 기존의 GMM(Gaussian Mixture Model)과 같다. 여기까지 진행했을 때, GMM의 문제점을 제시한다.
1. GMM은 정확하게 평가할 수 없고, MC 적분을 사용하여 수치적으로 평가할 수 있지만, 정확한 근사를 하는 과정에 계산량이 너무 많다.
2. 이 문제를 해결하기 위해 사용하는 Taylor 전개법은 GMM의 엔트로피를 근사하기 위해 사용되었으나 이는 큰 오류값을 지닌다.
이러한 문제점을 해결하기 위해 Sigma Point를 도입한다.
- Sigma Point-Based Entropy
  entropy H[zk+1]은 다음과 같이 표현가능하다.
  $H(z_{k+1})=−∫P(z_{k+1})logP(z_{k+1})dz_{k+1}≈−∑^N_{j=1}w^k_kp_j$
  이전에, 정말 어려운 개념 하나를 들고 가자.
  UKF : 함수를 선형화 하지 않고 여러 샘플을 통해 가우시안의 근사분포를 얻어내는 것이 목표. point들의 새로운 mean값과 covariance를 계산하여 새로운 가우시안 분포를 만드는 것이 목표이다.
  
  샘플로 사용할 점을 먼저 정한다. 이 때, 샘플로 정하는 point를 Sigma Point, 우리가 이 논문에서 제시한 점이다. 또한 weight $w$ 를 구하게 된다.
  $\begin{align*} \sum_i w^{[i]} &= 1 \\ \mu &= \sum_i w^{[i]} \chi^{[i]} \\ \Sigma &= \sum_i w^{[i]} (\chi^{[i]} - \mu)(\chi^{[i]} - \mu)^T \end{align*}$
  Choosing Sigma Points
  $\begin{align*} \chi^{[0]} &= \mu \\ \chi^{[i]} &= \mu + \left(\sqrt{(n + \lambda) \Sigma}\right)i \quad \text{for } i = 1, \ldots, n \\ \chi^{[i]} &= \mu - \left(\sqrt{(n + \lambda) \Sigma}\right){i-n} \quad \text{for } i = n+1, \ldots, 2n \end{align*}$
  μ를 중심으로 샘플을 뽑는다고 생각하면 된다. 이 때, 𝜆는 𝜇에서부터 샘플을 얼마나 먼 지점에서 뽑느냐를 결정한다.
  Choosing Sigma Point weights
  $\begin{align*} w_m^{[0]} &= \frac{\lambda}{n + \lambda} \\ w_m^{[i]} = w_c^{[i]} &= \frac{1}{2(n + \lambda)} \end{align*}$
  마지막으로 Gaussian Approximation을 다음과 같이 표현한다.
  $\begin{align*} \mu' &= \sum_{i=0}^{2n} w_m^{[i]} g(\chi^{[i]}) \\ \Sigma' &= \sum_{i=0}^{2n} w_c^{[i]} \left( g(\chi^{[i]}) - \mu' \right) \left( g(\chi^{[i]}) - \mu' \right)^T \end{align*}$
  다시 논문으로 돌아와서, μ는 Point P들의 평균값이 된다.
  그리고, 논문에서는 P에 대해서 다음과 같이 approximated 한다.
  $\begin{align*} P(z_{k+1} | \tilde{x}{k+1}^{t,j}) &\approx \sum{l=0}^{2m} w_s^{j,l} \delta(z_{k+1} - \tilde{z}_{k+1}^{j,l}) \end{align*}$
  
  여기까지가 이 논문에서 제시한 방식이다.

3. Algorithm

알고리즘은 다음과 같다.

이는 기존의 MCTS 방법과 비슷하다. 보상에 따라 UCB[경계]를 통해 반복하며, 새로운 노드와 환경에 대해서 탐색하고 업데이트 하는 방식이다.

기존의 MCTS와 다른 점은, Tree가 계속해서 뻗어나가지 않아도[정해진 길이 만큼] 그 이전의 임계값을 초과한다면 최대 깊이에 도달하기 이전에 종료한다. 이를 통해서 target를 넘어가는 일이 발생하지 않는다.

4. Conclusion

결과적으로, 기존의 MC, Taylor 방식보다 더 나은 성능이 나타났다.

또한, Simulation하는 과정에 대해서도 다음과 같이 제공을 해 주었다. 제공한 모습을 통해서, Target이 관측이 되지 않았을 때는 무작위의 행동을 하는 모습을 보이지만, 관측이 되고 나서 Tracking 할 때에는 정확히 수행하는 것을 볼 수 있다.

5. Summery

이 논문에서는 기존 Gaussian 방식에 대해서 많은 계산량으로 인해 생기는 실시간적 적용이 이루어지지 않는 것에 대해서 문제점을 제기하였다. 그리고, UKF의 Sigma Point를 사용하여 이 문제를 해결하려고 하고 있다. 하지만, Sigma Point 를 사용하며 오차가 생기는 것과, 모든 Particle에 대해서 계산하는 것이 아니라는 것에 대해서 문제가 생길 수 있을 것 같다.

저작자표시 비영리 변경금지

'논문 리뷰 > STE' 카테고리의 다른 글

Monte Carlo Tree Search [MCTS Path Planning] (0)	2024.06.27
[논문 리뷰] 'Infotaxis' as a strategy for searching without gradients(2007) (0)	2024.03.14

'논문 리뷰/STE' Related Articles

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

퇴근할게요 교수님

퇴근할게요 교수님

[논문 리뷰] ASPIRe: An Informative Trajectory Planner with Mutual InformationApproximation for Target Search and Tracking [2024] 본문

[논문 리뷰] ASPIRe: An Informative Trajectory Planner with Mutual InformationApproximation for Target Search and Tracking [2024]

1. Abstract

2. Main[System Formulation]

3. Algorithm

4. Conclusion

5. Summery

'논문 리뷰 > STE' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역