Notice
Recent Posts
Recent Comments
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
Tags
- Docker Image
- 헝가리안노테이션
- Metaheuristic
- mmoe
- 연합학습
- 확률공리
- 코딩스타일
- 그리드월드
- q learning
- multi task learning
- 스네이크케이스
- 딥러닝
- on-policy
- 배반사건
- off-policy
- 파스칼케이스
- Federated learning
- 강화학습
- genetic algorithm
- 도커 개념
- Traveling salesman problem
- 도커 컨테이너
- routing problem
- 카멜케이스
- 산업공학
- Sarsa
- 유전알고리즘
- 케밥케이스
- 큐러닝
- 몬테카를로 학습
Archives
- Today
- Total
목록그리드월드 (1)
SU Library

요즘 회사에서 강화학습 쪽으로 업무를 진행할 것 같아서, 대학원 때 이후로 덮어두었던 강화학습을 조금씩 다시 복습하며 공부하고 있습니다. 이번 포스팅에서는 환경의 정보가 없는 모델 프리(model free) 상황에서 자주 쓰이는 몬테카를로 학습에 대해 정리하겠습니다. 강화학습에 대한 첫 포스팅인만큼 policy, value, reward 등 생소한 이야기가 나올 수 있는데, 이는 추후에 따로 정리하겠습니다. 몬테카를로 학습이란?몬테카를로 방법은 확률론적 시뮬레이션을 기반으로 한 방법으로, 에이전트가 환경과 상호작용하며 얻은 경험(에피소드)을 분석하여 정책(policy)이나 가치 함수(value function)를 평가하고 개선하는 방법입니다. 에피소드가 모두 끝난 이후에 에피소드로부터 얻은 반환값(ret..
인공지능/강화학습
2024. 5. 23. 09:51