일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- Dots
- adfit
- RSA
- unity
- 직장인자기계발
- 커스텀 패키지
- 프레임워크
- 2D Camera
- 오공완
- sha
- AES
- 패스트캠퍼스후기
- Framework
- 환급챌린지
- 가이드
- Job 시스템
- 최적화
- 직장인공부
- 샘플
- 패스트캠퍼스
- Unity Editor
- 암호화
- Custom Package
- base64
- C#
- TextMeshPro
- ui
- DotsTween
- job
- Tween
- Today
- Total
EveryDay.DevUp
패스트캠퍼스 환급챌린지 47일차 : Part5. 강화학습 본문
패스트캠퍼스 환급챌린지 47일차 : Part5. 강화학습
EveryDay.DevUp 2025. 4. 20. 11:32본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.
https://bit.ly/4hTSJNB
커리어 성장을 위한 최고의 실무교육 아카데미 | 패스트캠퍼스
성인 교육 서비스 기업, 패스트캠퍼스는 개인과 조직의 실질적인 '업(業)'의 성장을 돕고자 모든 종류의 교육 콘텐츠 서비스를 제공하는 대한민국 No. 1 교육 서비스 회사입니다.
fastcampus.co.kr
Ch01. Introduction to RL - 강화학습 입문하기
Ch01-01 지도학습과 강화학습
- 기계학습 분류
: 지도 학습 / 비지도학습 / 강화 학습
- 강화학습의 위력
: 병렬로 경험을 쌓으면서, 한 곳에 모이게 하는 힘을 가짐
: 인간을 따라하는 것이 아니기 때문에 인간을 뛰어넘을 수 있음
Ch01-02 순차적 의사 결정 문제
- 강화학습으로 풀 수 있는 문제는 순차적 의사결정 문제
- 순차적 의사결정 문제의 정의
: 쉬운 정의 => 일단 해보고 결과가 좋으면 더하고, 안좋으면 덜하는 과정을 반복함
: 정확한 정의 => 순차적의사결정에서 누적 보상을 최적화하기 위해 시행 착오를 거치면서 행동을 교정하는 과정
- 순차적 의사결정 문제의 예
: 주식 => 주식 시장은 상태가 계속 변경되기 때문에 매수/매도 의사결정이 끊임없이 발생함
: 게임 => 게임안에서 어떤 행동을 할지에 대한 의사결정이 반복됨
: 운전 => 운전을 하는 동안 엑셀 / 브레이크 / 핸들 조향등의 판단이 발생함
Ch01-03 리워드
- 리워드의 특징
: 리워드를 통해 어떻게 해야하는지를 직접적으로 알려주는 것이 아닌 얼마나 좋았는지를 알려주게됨
: 리워드는 스칼라 값으로 1차원 실수값 하나로 표현됨
: 리워드는 희소하고 지연될 수 있음
- 리워드의 정의
: 어떤 목표를 달성할 때, 예상할 수 있는 누적보상의 최대 값을 표현할 수 있는가.
Ch01-04 에이전트와 환경
- 에이전트
: 행동과 학습을 하는 주체, 현재 시점에서의 환경에 대한 정보를 받아 의사결정을 하고, 의사결정을 환경에게 전달함
- 환경
: 에이전트를 둘러싼 나머지 모든 환경
: 에이전트로부터 받은 행동을 통해 상태변화를 일으킴
: 상태변화 후에 에이전트에게 바뀐 상태를 전달함
- 강화학습 에이전트의 종류
: Value Based / Policy Based / Actor Critic
Ch01-05 Exploitation vs Exploration
- Exploitation
: 아는 것을 바탕으로 최선을 다하는 것
- Exploration
: 정보를 모으고자 모험적 행동을 하는 것
- 강화학습은 두 개념의 줄타기를 끊임없이 하게 됨
'패스트캠퍼스 > 딥러닝·인공지능Signature초격차패키지Online' 카테고리의 다른 글
패스트캠퍼스 환급챌린지 49일차 : Part5. 강화학습 (0) | 2025.04.22 |
---|---|
패스트캠퍼스 환급챌린지 48일차 : Part5. 강화학습 (0) | 2025.04.21 |
패스트캠퍼스 환급챌린지 46일차 : Part4. 인공지능의 이해 Lv3 : 인공지능을 바탕으로한 실습 (0) | 2025.04.19 |
패스트캠퍼스 환급챌린지 45일차 : Part4. 인공지능의 이해 Lv3 : 인공지능을 바탕으로한 실습 (0) | 2025.04.18 |
패스트캠퍼스 환급챌린지 44일차 : Part4. 인공지능의 이해 Lv3 : 인공지능을 바탕으로한 실습 (0) | 2025.04.17 |