[강화학습] 강화학습의 주요 개념 및 용어 소개
환경(Environment)
- 환경은 에이전트가 행동을 취하고 그 결과를 경험하는 모든 것을 포함하는 외부 세계를 의미합니다.
- 에이전트는 환경에서 행동을 취하고, 환경은 그 행동에 대한 결과로 상태 변화와 보상을 에이전트에게 제공합니다.
- 환경은 정적(변하지 않는) vs 동적(변하는), 연속(연속적인 상태 및 행동) vs 이산(유한하고 구분된 상태 및 행동)으로 분류될 수 있습니다.
에이전트(Agent)
- 에이전트는 환경에서 행동을 취하며 학습하고 결정을 내리는 주체입니다.
- 에이전트는 주어진 환경에서 보상을 최대화하기 위한 최적의 행동 방식을 학습하는 것이 주요 역할입니다.
- 에이전트는 정책(policy), 가치 함수(value function), 모델(model) 등으로 구성됩니다. 정책은 상태에 따른 행동의 맵핑, 가치 함수는 특정 상태나 행동의 가치를 추정하는 함수입니다.
상태(State)
- 상태는 에이전트와 환경의 현재 상황을 기술하는 정보입니다.
- 상태는 에이전트가 결정을 내릴 때 참고하는 중요한 정보로, 각 상태에 대한 적절한 행동을 결정하는 데 필요합니다.
- 상태공간은 에이전트가 존재할 수 있는 모든 가능한 상태의 집합입니다. 상태공간이 크고 복잡할수록 학습은 더 어려워집니다.
행동(Action)
- 행동은 에이전트가 특정 상태에서 취할 수 있는 모든 가능한 조치입니다.
- 행동은 연속적이거나 이산적일 수 있습니다. 에이전트는 정책에 따라 특정 상태에서 어떤 행동을 선택할지 결정합니다.
- 행동공간은 에이전트가 취할 수 있는 모든 가능한 행동의 집합입니다. 행동공간의 크기가 학습 과제의 난이도에 큰 영향을 미칩니다.
보상(Reward)
- 보상은 에이전트가 특정 행동을 취했을 때 환경으로부터 받는 피드백입니다.
- 보상은 에이전트가 목표를 달성하는 데 얼마나 잘하고 있는지를 나타내며, 학습 과정에서 에이전트의 행동을 조정하는 데 사용됩니다.
- 적절한 보상 구조는 효과적인 학습을 위해 매우 중요합니다. 보상 구조가 잘못 설계되면 비효율적이거나 원치 않는 행동을 학습할 수 있습니다.
정책(Policy)
- 정책은 특정 상태에서 에이전트가 취할 행동을 결정하는 규칙 또는 전략입니다.
- 결정론적 정책은 특정 상태에서 항상 동일한 행동을 취하는 반면, 확률론적 정책은 특정 상태에서 여러 행동 중 하나를 확률적으로 선택합니다.
- 최적의 정책은 에이전트가 환경에서 가능한 최대의 보상을 얻게 하는 정책입니다. 정책 최적화는 강화학습의 주요 목표 중 하나입니다.
가치 함수(Value Function)
- 가치 함수는 특정 상태나 행동의 장기적 가치를 추정하는 함수입니다.
- 상태 가치 함수(V(s))는 특정 상태에서 시작해 정책을 따를 때 기대할 수 있는 반환값을 나타내고, 행동 가치 함수(Q(s,a))는 특정 상태에서 특정 행동을 취했을 때 기대할 수 있는 반환값을 나타냅니다.
- 가치 함수는 최적의 정책을 찾는 데 핵심적인 역할을 합니다. 이를 통해 어떤 상태나 행동이 좋은 결과로 이어지는지 판단할 수 있습니다.
감가율(Discount Factor)
- 감가율은 미래 보상의 현재 가치를 결정하는 요소로, 값이 0과 1 사이입니다.
- 감가율은 미래의 보상을 얼마나 중요하게 고려할지 결정합니다. 낮은 감가율은 단기적 보상을, 높은 감가율은 장기적 보상을 더 중요시합니다.
- 감가율은 에이전트의 목표와 태스크의 특성에 따라 적절히 선택되어야 합니다.
에피소드(Episode) VS 연속 태스크(Continuing Task)
- 에피소드는 시작과 끝이 있는 태스크이며, 연속 태스크는 끝이 정해져 있지 않은 태스크입니다.
- 에피소드는 한정된 시간 동안 일어나는 일련의 상호작용을 포함하는 반면, 연속 태스크는 시간 제한 없이 지속됩니다.
- 에피소드 태스크의 예로는 보드 게임이나 비디오 게임의 각 레벨이 있고, 연속 태스크의 예로는 주식 시장에서의 트레이딩이나 자율 주행 자동차의 운행이 있습니다.