일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- TextMeshPro
- Job 시스템
- C#
- Dots
- 오공완
- 직장인공부
- Custom Package
- 가이드
- job
- Framework
- 환급챌린지
- Tween
- unity
- sha
- Unity Editor
- DotsTween
- AES
- 커스텀 패키지
- 2D Camera
- 패스트캠퍼스
- ui
- 직장인자기계발
- RSA
- 프레임워크
- base64
- adfit
- 샘플
- 암호화
- 패스트캠퍼스후기
- 최적화
- Today
- Total
EveryDay.DevUp
패스트캠퍼스 환급챌린지 51일차 : Part5. 강화학습 본문
패스트캠퍼스 환급챌린지 51일차 : Part5. 강화학습
EveryDay.DevUp 2025. 4. 24. 23:34본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.
https://bit.ly/4hTSJNB
커리어 성장을 위한 최고의 실무교육 아카데미 | 패스트캠퍼스
성인 교육 서비스 기업, 패스트캠퍼스는 개인과 조직의 실질적인 '업(業)'의 성장을 돕고자 모든 종류의 교육 콘텐츠 서비스를 제공하는 대한민국 No. 1 교육 서비스 회사입니다.
fastcampus.co.kr
Ch05-03 MC 와 TD 실습
- Colab을 사용하여 정책, 에피소드 횟수, 러닝 레이트를 조정하여 결과 확인
Ch05-04 MC vs TD
- 평가의 기준
1) 학습 시점
- MC는 에피소드 종료 후 학습을 하지만 TD는 한 스텝만 끝나도 학습을 하기 때문에 유연성 측면에서 TD가 좋음
2) Bias
- MC는 편향되지 않은 추정치를 가지지만, TD는 테이블 안에 값을 사용하여 편향되지 않은 추정지를 만드는 것에 한계가 있음.
- MC가 편향되지 않은 추정치를 구하기 좋음
3) Variance
- MC는 하나의 리턴을 얻기까지 수 많은 확률 과정을 거치기 때문에, Variance가 크지만 TD는 한 스텝의 확률적 과정을 거치면 얻을 수 있기 때문에 Variance가 작음
MC와 TD는 결국 스텝을 하나만 쓰는가 n개를 쓰는가의 차이로, 중간의 X개의 스텝을 하이퍼 파라미터로 사용할 수 있음
Chapter06. RL into world wild - Depp RL 첫걸음
- 큰 문제에 강화학습을 적용하기 위해 딥러닝을 이용한 방법론을 사용함
Ch06-01 함수를 이용한 근사
- 작은 문제와 달리 큰 문제는 테이블이 무한히 커질 수 있어, 저장 용량과 속도적인 측면에서 이슈가 됨
- 작은 문제에서의 테이블 방법론을 사용할 수 없기 때문에 함수를 사용
- 함수를 사용하여 값을 기록하는데, 기록하는 방법은 함수의 그래프가 기록 된 값에 가깝게 지날 수 있도록 함수를 구하는 것
- 값의 범위나 개수가 많아질 수록 값을 지나는 함수를 만들기 어렵기 때문에 근사하게 지날 수 있는 함수를 구함
- 함수를 구하는 과정에서 오버피팅과 언더피팅이 발생할 수 있음
- 함수의 장점
: 일반화를 통해 접하지 않은 정답을 추론할 수 있고, 저장공간도 덜 사용함
- 함수를 구하기 위해 딥러닝을 사용하게 됨
Ch06-02 인공 신경망의 도입
- 인공신경망
: 인공신경망의 본질은 유연한 함수, 유연성을 결정하는 것은 프리파라미터
: 인공신경망은 노드의 연산, 레이어에 따른 추상화, 그라디언트를 통한 학습을 통해 구현
Ch06-03 파이토치를 활용한 간단한 실습
- 코랩과 파이토치 패키지를 사용
'패스트캠퍼스 > 딥러닝·인공지능Signature초격차패키지Online' 카테고리의 다른 글
패스트캠퍼스 환급챌린지 55일차 : Part5. 강화학습 (0) | 2025.04.28 |
---|---|
패스트캠퍼스 환급챌린지 52일차 : Part5. 강화학습 (0) | 2025.04.25 |
패스트캠퍼스 환급챌린지 50일차 : Part5. 강화학습 (0) | 2025.04.23 |
패스트캠퍼스 환급챌린지 49일차 : Part5. 강화학습 (0) | 2025.04.22 |
패스트캠퍼스 환급챌린지 48일차 : Part5. 강화학습 (0) | 2025.04.21 |