logo

[강화학습] 탐색 전략

 

엡실론 그리디 (Epsilon-Greedy) 전략

 

엡실론 그리디 전략의 개념

엡실론 그리디 전략은 강화학습에서 탐색(explore)과 활용(exploit) 사이의 균형을 유지할 수 있는 간단하면서도 효과적인 방법입니다. 이 전략에서, 에이전트는 임의로 정의된 확률 ϵ \epsilon 으로 새로운 선택을 시도(탐색)하고, 확률 1ϵ 1 - \epsilon 로 현재까지 알려진 최적의 선택을 반복합니다(활용). 여기서 ϵ \epsilon 은 0과 1 사이의 값이며, 일반적으로 작은 값(예: 0.1)을 사용합니다.

 

엡실론 그리디의 장점 및 단점

  • 장점: 엡실론 그리디 전략은 매우 단순하고 구현하기 쉽습니다. 이는 초기 탐색과 학습에 매우 유용합니다.
  • 단점: 고정된 ϵ \epsilon 값으로 인해 학습이 진행됨에 따라 여전히 비효율적인 탐색을 수행할 수 있다는 한계가 있습니다.
 

엡실론 감소 전략 (Decaying Epsilon)

엡실론 감소 전략은 시간이나 시행착오를 거치면서 ϵ \epsilon 값을 점진적으로 감소시켜, 초기에는 탐색을 적극적으로 하다가 점차 활용을 더 많이 하도록 유도하는 방식입니다. 이는 ϵ \epsilon 의 값을 시간이 지남에 따라 줄여가며, 시간에 따라 에이전트가 학습을 통해 더 나은 결정을 내릴 수 있도록 돕습니다.

 

상위 신뢰 경계 (Upper Confidence Bound, UCB) 전략

 

UCB 전략의 개념

UCB 전략은 추정된 최대 보상을 주는 선택에 대한 신뢰 구간을 계산하여, 그 신뢰 구간의 상위 경계를 기준으로 선택을 하는 방법입니다. 이는 탐색과 활용 사이의 균형을 자동으로 조절할 수 있는 메커니즘을 제공합니다.

 

식과 알고리즘 설명

  • UCB 계산 공식은 일반적으로 아래와 같이 표현됩니다.
At=argmaxa(Qt(a)+clntNt(a)) A_t = \arg\max_{a} \left( Q_t(a) + c \sqrt{\frac{\ln t}{N_t(a)}} \right)

여기서, At A_t 는 시점 t t 에서 선택되는 행동입니다. Qt(a) Q_t(a) 는 행동 a a 의 추정된 가치, Nt(a) N_t(a) 는 행동 a a 가 선택된 횟수, c c 는 탐색의 정도를 조절하는 상수, 그리고 t t 는 총 시도한 횟수입니다.

  • 시간에 따른 탐색 강도 조절: 이 공식의 중요한 부분은 선택된 횟수가 적은 행동은 더 큰 신뢰 구간이 주어지며, 이는 자연스럽게 탐색을 촉진합니다.
 

UCB 전략의 장점 및 단점

  • 장점: 더 정교한 탐색-활용 균형을 제공하며, 시간이 지남에 따른 행동의 보상을 고려합니다.
  • 단점: 계산 복잡성이 엡실론 그리디 전략에 비해 높습니다. 특히, 많은 선택지가 있을 경우 계산 부담이 커질 수 있습니다.
 

톰슨 샘플링 (Thompson Sampling)

 

톰슨 샘플링 전략의 개념

톰슨 샘플링은 각 선택의 보상 분포에 대한 불확실성을 베이지안 방식으로 모델링하고, 이를 통해 각 선택지에 대한 보상 분포에서 샘플을 추출하여, 추출된 보상이 가장 큰 선택을 하는 전략입니다.

 

알고리즘 설명 및 예시

톰슨 샘플링은 각 선택에 대한 보상을 베이지안 업데이트를 통해 계속해서 추정합니다. 예를 들어, 베르누이 보상을 가정한다면, 성공 확률에 대한 사전 분포를 베타 분포로 설정할 수 있습니다. 선택이 이루어질 때마다, 관측된 결과(성공 또는 실패)를 통해 사후 분포를 업데이트합니다. 이후 각 선택에 대해 새로운 사후 분포에서 샘플을 추출하고, 가장 높은 샘플이 나온 선택을 수행합니다.

 

톰슨 샘플링의 장점 및 단점

  • 장점: 높은 효율과 실용성을 가지며, 특히 실시간 결정을 요구하는 온라인 학습 환경에 적합합니다. 보상 분포의 불확실성을 직접 모델링하기 때문에, 정보가 적을 때 더 좋은 탐색을 가능하게 합니다.
  • 단점: 구현의 복잡성이 있으며, 계산 부담이 클 수 있습니다. 특히, 복잡한 보상 구조에서는 분포의 업데이트와 샘플링 과정이 계산적으로 요구되는 작업이 될 수 있습니다.
Previous
탐색과 활용의 딜레마