패스트캠퍼스 환급챌린지 47일차 : Part5. 강화학습

EveryDay.DevUp 2025. 4. 20. 11:32

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.

https://bit.ly/4hTSJNB

커리어 성장을 위한 최고의 실무교육 아카데미 | 패스트캠퍼스

성인 교육 서비스 기업, 패스트캠퍼스는 개인과 조직의 실질적인 '업(業)'의 성장을 돕고자 모든 종류의 교육 콘텐츠 서비스를 제공하는 대한민국 No. 1 교육 서비스 회사입니다.

fastcampus.co.kr

Ch01. Introduction to RL - 강화학습 입문하기

Ch01-01 지도학습과 강화학습

- 기계학습 분류

: 지도 학습 / 비지도학습 / 강화 학습

- 강화학습의 위력

: 병렬로 경험을 쌓으면서, 한 곳에 모이게 하는 힘을 가짐

: 인간을 따라하는 것이 아니기 때문에 인간을 뛰어넘을 수 있음

Ch01-02 순차적 의사 결정 문제

- 강화학습으로 풀 수 있는 문제는 순차적 의사결정 문제

- 순차적 의사결정 문제의 정의

: 쉬운 정의 => 일단 해보고 결과가 좋으면 더하고, 안좋으면 덜하는 과정을 반복함

: 정확한 정의 => 순차적의사결정에서 누적 보상을 최적화하기 위해 시행 착오를 거치면서 행동을 교정하는 과정

- 순차적 의사결정 문제의 예

: 주식 => 주식 시장은 상태가 계속 변경되기 때문에 매수/매도 의사결정이 끊임없이 발생함

: 게임 => 게임안에서 어떤 행동을 할지에 대한 의사결정이 반복됨

: 운전 => 운전을 하는 동안 엑셀 / 브레이크 / 핸들 조향등의 판단이 발생함

Ch01-03 리워드

- 리워드의 특징

: 리워드를 통해 어떻게 해야하는지를 직접적으로 알려주는 것이 아닌 얼마나 좋았는지를 알려주게됨

: 리워드는 스칼라 값으로 1차원 실수값 하나로 표현됨

: 리워드는 희소하고 지연될 수 있음

- 리워드의 정의

: 어떤 목표를 달성할 때, 예상할 수 있는 누적보상의 최대 값을 표현할 수 있는가.

Ch01-04 에이전트와 환경

- 에이전트

: 행동과 학습을 하는 주체, 현재 시점에서의 환경에 대한 정보를 받아 의사결정을 하고, 의사결정을 환경에게 전달함

- 환경

: 에이전트를 둘러싼 나머지 모든 환경

: 에이전트로부터 받은 행동을 통해 상태변화를 일으킴

: 상태변화 후에 에이전트에게 바뀐 상태를 전달함

- 강화학습 에이전트의 종류

: Value Based / Policy Based / Actor Critic

Ch01-05 Exploitation vs Exploration

- Exploitation

: 아는 것을 바탕으로 최선을 다하는 것

- Exploration

: 정보를 모으고자 모험적 행동을 하는 것

- 강화학습은 두 개념의 줄타기를 끊임없이 하게 됨