패스트캠퍼스 환급챌린지 47일차 : Part5. 강화학습
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.
https://bit.ly/4hTSJNB
커리어 성장을 위한 최고의 실무교육 아카데미 | 패스트캠퍼스
성인 교육 서비스 기업, 패스트캠퍼스는 개인과 조직의 실질적인 '업(業)'의 성장을 돕고자 모든 종류의 교육 콘텐츠 서비스를 제공하는 대한민국 No. 1 교육 서비스 회사입니다.
fastcampus.co.kr
Ch01. Introduction to RL - 강화학습 입문하기
Ch01-01 지도학습과 강화학습
- 기계학습 분류
: 지도 학습 / 비지도학습 / 강화 학습
- 강화학습의 위력
: 병렬로 경험을 쌓으면서, 한 곳에 모이게 하는 힘을 가짐
: 인간을 따라하는 것이 아니기 때문에 인간을 뛰어넘을 수 있음
Ch01-02 순차적 의사 결정 문제
- 강화학습으로 풀 수 있는 문제는 순차적 의사결정 문제
- 순차적 의사결정 문제의 정의
: 쉬운 정의 => 일단 해보고 결과가 좋으면 더하고, 안좋으면 덜하는 과정을 반복함
: 정확한 정의 => 순차적의사결정에서 누적 보상을 최적화하기 위해 시행 착오를 거치면서 행동을 교정하는 과정
- 순차적 의사결정 문제의 예
: 주식 => 주식 시장은 상태가 계속 변경되기 때문에 매수/매도 의사결정이 끊임없이 발생함
: 게임 => 게임안에서 어떤 행동을 할지에 대한 의사결정이 반복됨
: 운전 => 운전을 하는 동안 엑셀 / 브레이크 / 핸들 조향등의 판단이 발생함
Ch01-03 리워드
- 리워드의 특징
: 리워드를 통해 어떻게 해야하는지를 직접적으로 알려주는 것이 아닌 얼마나 좋았는지를 알려주게됨
: 리워드는 스칼라 값으로 1차원 실수값 하나로 표현됨
: 리워드는 희소하고 지연될 수 있음
- 리워드의 정의
: 어떤 목표를 달성할 때, 예상할 수 있는 누적보상의 최대 값을 표현할 수 있는가.
Ch01-04 에이전트와 환경
- 에이전트
: 행동과 학습을 하는 주체, 현재 시점에서의 환경에 대한 정보를 받아 의사결정을 하고, 의사결정을 환경에게 전달함
- 환경
: 에이전트를 둘러싼 나머지 모든 환경
: 에이전트로부터 받은 행동을 통해 상태변화를 일으킴
: 상태변화 후에 에이전트에게 바뀐 상태를 전달함
- 강화학습 에이전트의 종류
: Value Based / Policy Based / Actor Critic
Ch01-05 Exploitation vs Exploration
- Exploitation
: 아는 것을 바탕으로 최선을 다하는 것
- Exploration
: 정보를 모으고자 모험적 행동을 하는 것
- 강화학습은 두 개념의 줄타기를 끊임없이 하게 됨