패스트캠퍼스 환급챌린지 47일차 : Part5. 강화학습

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

EveryDay.DevUp

패스트캠퍼스 환급챌린지 47일차 : Part5. 강화학습 본문

패스트캠퍼스/딥러닝·인공지능Signature초격차패키지Online

패스트캠퍼스 환급챌린지 47일차 : Part5. 강화학습

EveryDay.DevUp 2025. 4. 20. 11:32

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.

https://bit.ly/4hTSJNB

커리어 성장을 위한 최고의 실무교육 아카데미 | 패스트캠퍼스

성인 교육 서비스 기업, 패스트캠퍼스는 개인과 조직의 실질적인 '업(業)'의 성장을 돕고자 모든 종류의 교육 콘텐츠 서비스를 제공하는 대한민국 No. 1 교육 서비스 회사입니다.

fastcampus.co.kr

Ch01. Introduction to RL - 강화학습 입문하기

Ch01-01 지도학습과 강화학습

- 기계학습 분류

: 지도 학습 / 비지도학습 / 강화 학습

- 강화학습의 위력

: 병렬로 경험을 쌓으면서, 한 곳에 모이게 하는 힘을 가짐

: 인간을 따라하는 것이 아니기 때문에 인간을 뛰어넘을 수 있음

Ch01-02 순차적 의사 결정 문제

- 강화학습으로 풀 수 있는 문제는 순차적 의사결정 문제

- 순차적 의사결정 문제의 정의

: 쉬운 정의 => 일단 해보고 결과가 좋으면 더하고, 안좋으면 덜하는 과정을 반복함

: 정확한 정의 => 순차적의사결정에서 누적 보상을 최적화하기 위해 시행 착오를 거치면서 행동을 교정하는 과정

- 순차적 의사결정 문제의 예

: 주식 => 주식 시장은 상태가 계속 변경되기 때문에 매수/매도 의사결정이 끊임없이 발생함

: 게임 => 게임안에서 어떤 행동을 할지에 대한 의사결정이 반복됨

: 운전 => 운전을 하는 동안 엑셀 / 브레이크 / 핸들 조향등의 판단이 발생함

Ch01-03 리워드

- 리워드의 특징

: 리워드를 통해 어떻게 해야하는지를 직접적으로 알려주는 것이 아닌 얼마나 좋았는지를 알려주게됨

: 리워드는 스칼라 값으로 1차원 실수값 하나로 표현됨

: 리워드는 희소하고 지연될 수 있음

- 리워드의 정의

: 어떤 목표를 달성할 때, 예상할 수 있는 누적보상의 최대 값을 표현할 수 있는가.

Ch01-04 에이전트와 환경

- 에이전트

: 행동과 학습을 하는 주체, 현재 시점에서의 환경에 대한 정보를 받아 의사결정을 하고, 의사결정을 환경에게 전달함

- 환경

: 에이전트를 둘러싼 나머지 모든 환경

: 에이전트로부터 받은 행동을 통해 상태변화를 일으킴

: 상태변화 후에 에이전트에게 바뀐 상태를 전달함

- 강화학습 에이전트의 종류

: Value Based / Policy Based / Actor Critic

Ch01-05 Exploitation vs Exploration

- Exploitation

: 아는 것을 바탕으로 최선을 다하는 것

- Exploration

: 정보를 모으고자 모험적 행동을 하는 것

- 강화학습은 두 개념의 줄타기를 끊임없이 하게 됨

저작자표시

'패스트캠퍼스 > 딥러닝·인공지능Signature초격차패키지Online' 카테고리의 다른 글

패스트캠퍼스 환급챌린지 49일차 : Part5. 강화학습 (0)	2025.04.22
패스트캠퍼스 환급챌린지 48일차 : Part5. 강화학습 (0)	2025.04.21
패스트캠퍼스 환급챌린지 46일차 : Part4. 인공지능의 이해 Lv3 : 인공지능을 바탕으로한 실습 (0)	2025.04.19
패스트캠퍼스 환급챌린지 45일차 : Part4. 인공지능의 이해 Lv3 : 인공지능을 바탕으로한 실습 (0)	2025.04.18
패스트캠퍼스 환급챌린지 44일차 : Part4. 인공지능의 이해 Lv3 : 인공지능을 바탕으로한 실습 (0)	2025.04.17

'패스트캠퍼스/딥러닝·인공지능Signature초격차패키지Online' Related Articles

EveryDay.DevUp

패스트캠퍼스 환급챌린지 47일차 : Part5. 강화학습 본문

패스트캠퍼스 환급챌린지 47일차 : Part5. 강화학습

'패스트캠퍼스 > 딥러닝·인공지능Signature초격차패키지Online' 카테고리의 다른 글

티스토리툴바