EveryDay.DevUp

패스트캠퍼스 환급챌린지 50일차 : Part5. 강화학습 본문

패스트캠퍼스/딥러닝·인공지능Signature초격차패키지Online

패스트캠퍼스 환급챌린지 50일차 : Part5. 강화학습

EveryDay.DevUp 2025. 4. 23. 21:31

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.

https://bit.ly/4hTSJNB

커리어 성장을 위한 최고의 실무교육 아카데미 | 패스트캠퍼스

성인 교육 서비스 기업, 패스트캠퍼스는 개인과 조직의 실질적인 '업(業)'의 성장을 돕고자 모든 종류의 교육 콘텐츠 서비스를 제공하는 대한민국 No. 1 교육 서비스 회사입니다.

fastcampus.co.kr

Ch04-02 Policy Iteration
- 정책이 주어졌을 때 정책을 평가하도 개선하는 것을 반복함
- 반복 횟수를 정하고 최적 정책을 구함

Ch04-03 Value Iteration
- Policy Iteration의 핵심은 정책의 벨류(리턴의 기댓값)을 이용해 greedy 정책을 만듬
- Value Iteration은 벨만 최적 방정식을 이용해 한번에 최적의 값을 구하는 것
- Value Iteration 방법
1) 테이블 초기화
- 각 상태별 Optimal Value를 저장하는 테이블을 만들고 임의의 값으로 초기화
2) 하나의 값에 벨만 최적 방정식 2단계를 사용
3) 같은 방식으로 모든 값을 업데이트, 단 끝의 상태 값은 0으로 고정
- Value Iteration을 통해 테이블에 최적의 값이 저장되었기 때문에 액션을 했을 때 다음 상태의 최적 벨류가 무엇인지 알아서, 가장 좋은 상태를 고를 수 있음

Ch05 RL in toy problems - MDP를 모를 때의 벨류 평가
- 전이 확률과 보상함수를 모를 때
- 주어짘 수식을 이용해 정확한 값을 계산하는 대신 수 많은 샘플응 통해 근사하는 샘플 기반 방법론

Ch05-01 Monte Carlo Learning
- 샘플링 기반 방법론
- 테이블을 임의의 값으로 초기화하고 무작정 여러번 경험을 쌓게함
- 경험의 결과를 테이블에 기록하면서 쌓아두다가 모든 경험이 끝나면 평균 값을 구해서 테이블을 업데이트함

Ch05-02 Temporal Difference Learning
- Monte Carlo Learning 의 단점
: 업데이트릉 하려면 에피소드가 끝날 때까지 기다려야함
: 리턴이 에피소드가 끝나야 결정 됨
: 에피소드가 끝나지 않는 경우도 있음
- Temporal Differencw Learning
: 추측으로 추측을 업데이트 하는 방식
: 에피소드 1개가 끝날 때마다 업데이트 하는 방식을 사용