패스트캠퍼스 환급챌린지 40일차 : Part3. 인공지능의 이해 Lv2 : 숲을 보는 인공지능
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.
https://bit.ly/4hTSJNB
커리어 성장을 위한 최고의 실무교육 아카데미 | 패스트캠퍼스
성인 교육 서비스 기업, 패스트캠퍼스는 개인과 조직의 실질적인 '업(業)'의 성장을 돕고자 모든 종류의 교육 콘텐츠 서비스를 제공하는 대한민국 No. 1 교육 서비스 회사입니다.
fastcampus.co.kr
Ch10-03 알고 있으면 쓸모 있는 AI 지식 - 신경망의 성능 개선 방법 (신경망 설계 관점)
1) Model의 성능 개선 방법 2가지
- model driven : 레이어나 하이퍼 파라미터를 조절하는 방법
- data driven : 학습 데이터를 보강하는 방법
2) Model Driven 개선 방법 -> 모델 구조 자체를 변형 시킴
- Weight Initialization
: 초기 값을 어떻게 설정할 것인가?.
ㄱ. Xavier Initialization => tanh, sigmoid
ㄴ. He Initialization => relu
- Drop out
: hidden layer의 무작위 노드를 숨김처리하여 과적합을 방지
- Batch Normalization
: 배치 단위로 데이터 분포의 평균이 0, 분산이 1이 되도록 정규화하여 빠른 학습이 가능하도록 함
- early stop
: 정확도가 떨어지는 순간 학습을 종료하여 over fitting을 방지
- transfer learning
: 기존의 만들어진 모델을 사용하여 새로운 모델을 만듬
- end to end (all in one) vs part
: 모델을 하나로 만들 것인지, 역할에 따라 나누어서 구성할지 결정하는 방법
- ml vs dl (머신 러닝 vs 딥러닝)
: 데이터 셋과 Task 에 따라서 성능이 달라질 수 있음
Ch10-04 알고 있지만 쓸모 있는 AI 지식 - 신경망 성능 개선 (신경망 설계 관점)
1) Data Driven
- Data Initialization
: 입출력 데이터가 정규 분포를 따르기 원하지만, 아닌 경우 로그를 취해서 정규 분포로 만드는 방법
: 정규 분포로 데이터를 조정함으로써, 정규 분포를 데이터로 사용하는 모델의 성능을 개선시킴
- Data Scale
: 피처의 분포 거리를 맞춰주는 방법으로 스탠다드 스케일러, 민맥스 스케일러가 존재
: 스탠다드 스케일러는 정규 분포의 데이터 분포를 만들어 낼 수 있음
: 민맥스 스케일러는 최소값 0, 최대값 1로 데이터를 맞춰 줄 수 있음
: 단, 학습용과 테스트용을 다른 스케일러로 사용해서는 안됨
- Domain Knowledge
: binning => 범주를 정해서 그룹핑해서 만드는 것으로, 속성 정렬 -> 동길 간격 기반 평활하/동일 빈도 기반 평활화
- Feature Engineering
: 주어진 feature를 변형하여 타겟과 더 관련 있게 만들기 위한 작업, 피처를 다시 재조정할 때 사용
- Demension reduction
: Feature section => 데이터의 특징을 잘 나타내는 주요 피처만 선택
: Fetaure extraction => 피처를 함축적으로 만들어냄
- Trans Set vs Test Set vs Real Data
: 데이터 수집 자체에 문제가 있는 경우 데이터 수집부터 다시 고려함