Notice
Recent Posts
Recent Comments
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
Tags
- 스네이크케이스
- 딥러닝
- 도커 개념
- mmoe
- 파스칼케이스
- off-policy
- q learning
- 산업공학
- 유전알고리즘
- 도커 컨테이너
- 그리드월드
- 카멜케이스
- Federated learning
- 케밥케이스
- 몬테카를로 학습
- 연합학습
- Sarsa
- genetic algorithm
- 코딩스타일
- Metaheuristic
- 헝가리안노테이션
- 배반사건
- 큐러닝
- 강화학습
- on-policy
- 확률공리
- Docker Image
- multi task learning
- Traveling salesman problem
- routing problem
Archives
- Today
- Total
목록큐러닝 (1)
SU Library

강화학습을 공부하다보면 환경에 최적화된 에이전드$a$를 구축하는 것이 가장 큰 목표입니다. 여기서 에이전트의 행동을 결정하는데 기여하는 것이 정책이라는 $\pi$ 입니다. 또한, 매 에피소드마다 행동에 따른 결과 값을 리턴 값$r$이라 부릅니다. 이러한 최적 정책을 갖게하는 데 있어서 크게 On-policy와 Off-policy의 방법으로 나눠서 에이전트를 학습할 수 있습니다. 이 두방식은 학습과정에서 생성되는 데이터를 활용하여 최적의 정책을 구축하려는 궁극적인 목표는 동일하나 다음과 같은 두가지 차이점이 있습니다. On-policy 방법에서는 학습 과정에서 생성된 데이터를 이용하여 현재의 정책을 평가하고 개선합니다. 즉, 현재 정책에 따라 행동을 선택하고, 그 행동의 결과로 받은 보상과 다음 상태를 ..
인공지능/강화학습
2024. 6. 2. 15:32