일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- base64
- 직장인공부
- 프레임워크
- ui
- Custom Package
- adfit
- 암호화
- sha
- Dots
- 2D Camera
- 샘플
- AES
- Job 시스템
- TextMeshPro
- Tween
- C#
- 가이드
- RSA
- 패스트캠퍼스후기
- 직장인자기계발
- 최적화
- 패스트캠퍼스
- unity
- 환급챌린지
- job
- Framework
- 커스텀 패키지
- 오공완
- DotsTween
- Unity Editor
- Today
- Total
EveryDay.DevUp
패스트캠퍼스 환급챌린지 53일차 : Part5. 강화학습 본문
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.
https://bit.ly/4hTSJNB
커리어 성장을 위한 최고의 실무교육 아카데미 | 패스트캠퍼스
성인 교육 서비스 기업, 패스트캠퍼스는 개인과 조직의 실질적인 '업(業)'의 성장을 돕고자 모든 종류의 교육 콘텐츠 서비스를 제공하는 대한민국 No. 1 교육 서비스 회사입니다.
fastcampus.co.kr
Chapter08. Policy 기반 에이전트
- 폴리시 네트워크를 신경망으로 표현해서 바로 학습을 진행
Ch08-01 Policy Gradient Theorem
- 정책 기반 에이전트가 필요한 경우
: 확률적 액션이 필요한 경우
: 액션 스페이스가 Continue 한 경우
- 목적 함수 정의하기
: 정책의 정답을 모르기 때문에 로스 함수를 정의하기 어려움 -> 정책은 리워드를 많이 받는 것을 목표로 하기 때문에 -> 큰 리턴을 받을 수 있는, 즉 벨류가 높은 첫 상태를 구한다고 할 수 있음
: 첫 상태의 벨류가 높은 것을 구하기 위해 Gradient asent, 샘플 기반 방법론을 사용함
Ch08-02 REINFORCE 알고리즘
- Policy Gradient 알고리즘 중 기본적이로 고전적인 알고리즘
- 프로세스
ㄱ. 정책의 파라미터를 랜덤으로 초기화
ㄴ. 에이전트의 상태 초기화
ㄷ. 정책을 이용하여 에피소드를 끝까지 진행
ㄹ. 에피소스 진행을 하면서 끝까지 얻은 리워드와 파리터와 러닝 레이트 폴리스 그라디언트를 곱한 값의 합을 구함
ㅁ. (ㄷ~ㄹ)의 과정을 반복함
- 의미
: 리턴이 높으면 해당 에피소드에서 행한 모든 액션의 확률을 높여주고, 리턴이 낮으면 해당 에피소드에서 행한 모든 액션의 확률을 낮춰주는 방법
Ch08-03 REINFORCE 알고리즘 실습
- Colab, Cart Pole 문제로 실습
Ch08-04 액터 크리틱 1분
- 액터 크리틱의 종류
1) Q 액터 크리틱
: Policy와 Value를 함께 학습하는 것
2) 어드벤티지 액터 크리틱
: 이전 상태까지의 보상이 커서, 현재 액션에 대한 보상 차이가 크지 않은 경우 미세한 차이로 인해 아주 많은 샘플이 필요해지는 이슈를 대응하기 위한 방법
: 효율성을 높이기 위해 이전 상태까지의 보상과 현재 보상의 차이를 어드벤티지로 계산함
Ch08-05 액터 크리틱 2부
3) TD 액터 크리틱
: 어드벤티지 액터 크리틱에 필요한 신경망 하나를 줄이는 방버으로, 벨류를 학습할 때의 TD 에러를 사용함