EveryDay.DevUp

패스트캠퍼스 환급챌린지 51일차 : Part5. 강화학습 본문

패스트캠퍼스/딥러닝·인공지능Signature초격차패키지Online

패스트캠퍼스 환급챌린지 51일차 : Part5. 강화학습

EveryDay.DevUp 2025. 4. 24. 23:34

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.

https://bit.ly/4hTSJNB

 

커리어 성장을 위한 최고의 실무교육 아카데미 | 패스트캠퍼스

성인 교육 서비스 기업, 패스트캠퍼스는 개인과 조직의 실질적인 '업(業)'의 성장을 돕고자 모든 종류의 교육 콘텐츠 서비스를 제공하는 대한민국 No. 1 교육 서비스 회사입니다.

fastcampus.co.kr

Ch05-03 MC 와 TD 실습

- Colab을 사용하여 정책, 에피소드 횟수, 러닝 레이트를 조정하여 결과 확인

Ch05-04  MC vs TD

- 평가의 기준

1) 학습 시점

- MC는 에피소드 종료 후 학습을 하지만 TD는 한 스텝만 끝나도 학습을 하기 때문에 유연성 측면에서 TD가 좋음

2) Bias

- MC는 편향되지 않은 추정치를 가지지만, TD는 테이블 안에 값을 사용하여 편향되지 않은 추정지를 만드는 것에 한계가 있음.

- MC가 편향되지 않은 추정치를 구하기 좋음

3)  Variance

- MC는 하나의 리턴을 얻기까지 수 많은 확률 과정을 거치기 때문에, Variance가 크지만 TD는 한 스텝의 확률적 과정을 거치면 얻을 수 있기 때문에 Variance가 작음

MC와 TD는 결국 스텝을 하나만 쓰는가 n개를 쓰는가의 차이로, 중간의 X개의 스텝을 하이퍼 파라미터로 사용할 수 있음

Chapter06. RL into world wild - Depp RL 첫걸음

- 큰 문제에 강화학습을 적용하기 위해 딥러닝을 이용한 방법론을 사용함

Ch06-01 함수를 이용한 근사

- 작은 문제와 달리 큰 문제는 테이블이 무한히 커질 수 있어, 저장 용량과 속도적인 측면에서 이슈가 됨

- 작은 문제에서의 테이블 방법론을 사용할 수 없기 때문에 함수를 사용

- 함수를 사용하여 값을 기록하는데, 기록하는 방법은 함수의 그래프가 기록 된 값에 가깝게 지날 수 있도록 함수를 구하는 것

- 값의 범위나 개수가 많아질 수록 값을 지나는 함수를 만들기 어렵기 때문에 근사하게 지날 수 있는 함수를 구함

- 함수를 구하는 과정에서 오버피팅과 언더피팅이 발생할 수 있음

- 함수의 장점

: 일반화를 통해 접하지 않은 정답을 추론할 수 있고, 저장공간도 덜 사용함

- 함수를 구하기 위해 딥러닝을 사용하게 됨

Ch06-02 인공 신경망의 도입

- 인공신경망

: 인공신경망의 본질은 유연한 함수, 유연성을 결정하는 것은 프리파라미터

: 인공신경망은 노드의 연산, 레이어에 따른 추상화, 그라디언트를 통한 학습을 통해 구현

Ch06-03 파이토치를 활용한 간단한 실습

- 코랩과 파이토치 패키지를 사용