EveryDay.DevUp

패스트캠퍼스 환급챌린지 34일차 : Part3. 인공지능의 이해 Lv2 : 숲을 보는 인공지능 본문

패스트캠퍼스/딥러닝·인공지능Signature초격차패키지Online

패스트캠퍼스 환급챌린지 34일차 : Part3. 인공지능의 이해 Lv2 : 숲을 보는 인공지능

EveryDay.DevUp 2025. 4. 7. 23:28

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.

https://bit.ly/4hTSJNB

 

커리어 성장을 위한 최고의 실무교육 아카데미 | 패스트캠퍼스

성인 교육 서비스 기업, 패스트캠퍼스는 개인과 조직의 실질적인 '업(業)'의 성장을 돕고자 모든 종류의 교육 콘텐츠 서비스를 제공하는 대한민국 No. 1 교육 서비스 회사입니다.

fastcampus.co.kr

Ch06-01 텍스트를 숫자로 표현하기 위한 방법

1) Embedding

- 다양한 타입의 입력데이터를 숫자로 변환

1-1) 범주형 데이터의 벡터와

- One-hot vector : 전체 범주를 컬럼으로 만들어서 사용, 데이터의 차원이 많아질 수록 메모리 사용량이 증가하게 됨

1-1) Sentinental Analysis : 감정 텍스트의 임베딩

- 원본 데이터의 특징을 담을 수 있는 표현 방법으로, 특징이 있는 단어의 유사성을 바탕으로 데이터를 판단  => 텍스트의 특징을 뽑아냄

2) Word Embedding

- 단어가 가진 의미를 보존하면서 의미와 맥락을 고려하여 단어를 벡터로 표현 

: 의미의 보전은 개별 단어가 가진 속성을 보존하는 것이고, 벡터로 표현하는 것은 실수로 표현하는 것을 말함

Ch06-02 단어 빈도를 활용한 벡터 표현 방법

1) Count Based (Bag Of Words) 

- 단어들이 들어있는 가방을 분석한다는 의미로, 가방 안에 있는 단어의 빈도수를 기반으로 벡터화

1-1) CountVectorize 

- 단어의 빈도수를 기반으로 벡터화

1-2) TF-IDF

- 단어가 문서에 나타난 횟수와 단어가 포함된 문서의 수의 역수를 통해 단어의 특징을 뽑아냄

- 단어가 다른 문서에는 별로 등장하지 않고, 특정 문서에만 집중적으로 등장하는 경우 핵심 특징이라고 할 수 있음

Ch06-03 Word2Vec

1) Word2Vec

- 의미를 반영한 벡터를 만들고자 다음의 특징을 사용

: 유사한 단어는 근처에 위치함

: 단어는 여러개의 유사도를 가질 수 있음

1-1) CBOW

- 주변 단어를 통해 주어진 단어를 예측

1-2) Skip-Gram

- 한 단어를 기준으로 주변에 올 수 있는 단어를 예측

=> 단어의 의미가 부여된 벡터를 만들어 낼 수 있음

Ch06-04 Embedding Glove, Fast Text

1) Glove 

- 윈도우 내에 함께 출현한 단어들의 출현 빈도를 맞추도록 훈련

2) Fast Text

- 단어를 잘개 쪼개서 학습하여, 스펠링의 오타에 대해서도 일부 추론이 가능할 수 있도록 함

06-05 Embedding Layer

- 입력 텍스트 -> 임베딩 레이어 -> 히든 레이어 -> 출력의 프로세스를 거치는 것으로

- Ebedding Layer를 통해 임베딩하는 과정을 줄임