강좌
뉴스
위키
프롬프트
강화학습
섹션
5개
강의
42개
커리큘럼
5개 섹션, 42개 강의
1
기본 개념
1.1
시작하기
1.2
강화학습이란 무엇인가
1.3
기본 용어
1.4
gymnasium
1.5
할인
1.6
가치
1.7
강화학습의 역사
1.8
강화학습의 주요 개념 및 용어 소개
2
추정과 탐색
2.1
동적 계획법
2.2
부트스트랩
2.3
MAB
2.4
몬테카를로
2.5
탐색과 활용의 딜레마
2.6
탐색 전략
3
제어와 딥러닝
3.1
시간차 학습
3.2
제어 문제
3.3
SARSA 알고리즘
3.4
시간차 학습(Temporal-Difference Learning)
3.5
마르코프 결정 과정(MDP)
3.6
가치 반복과 정책 반복
3.7
강화학습의 안정성과 일반화
3.8
딥러닝
4
심층 강화학습
4.1
경험 리플레이
4.2
정책 경사
4.3
Actor-Critic
4.4
Q-러닝
4.5
가치 기반 강화 학습
4.6
DQN의 심화
5
최근 동향
5.1
[사례] 선박 제어
5.2
A2C 및 A3C 알고리즘
5.3
심층 결정론적 정책 경사(DDPG)
5.4
소프트 액터-크리틱(SAC)
5.5
TRPO
5.6
PPO
5.7
GRPO
5.8
off-policy 정책 경사
5.9
알파고
5.10
다른 방법들
5.11
챗봇
5.12
문제점
5.13
강화학습의 적용 분야 예시
5.14
멀티 에이전트 강화학습