패스트캠퍼스 환급챌린지 28일차 : Part2. 인공지능의 이해 Lv2 : 숲을 보는 인공지능
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.
https://bit.ly/4hTSJNB
커리어 성장을 위한 최고의 실무교육 아카데미 | 패스트캠퍼스
성인 교육 서비스 기업, 패스트캠퍼스는 개인과 조직의 실질적인 '업(業)'의 성장을 돕고자 모든 종류의 교육 콘텐츠 서비스를 제공하는 대한민국 No. 1 교육 서비스 회사입니다.
fastcampus.co.kr
Ch02-01 군집 알고리즘의 개념과 활용
- 군집 분석 : 주어진 데이터에서 구조와 패턴을 확인하기 위한 과정, 데이터 간의 유사성을 확인하기 위해 데이터 간의 거리를 측정함
- 군집 분석 유형
1) 하드 클러스터링 -> 객체가 하나의 군집에만 속함
2) 소프트 클러스터링 -> 객체가 하나 이상의 군집에 속함
- 군집 분석을 사용하는 이유
: 학습 데이터의 구조적 특징을 찾거나 새로운 데이터의 분류, 비정상적 행위 탐지, 대량의 데이터 셋을 균일한 그룹으로 단순화하기 위함
Ch02-02 계층적 군집 알고리즘
- 군집 생성 기술 종류
1) 통합 계층적 군집 : 단일 객체에서 더 큰 클러스터로 병합하는 방법 (상향식)
2) 분할 계층적 군집 : 모든 객체를 포함하는 클러스터에서, 작은 클러스터로 분할하는 방법 (하향식)
- 군집간의 거리 측정
: 일반적으로 유클리드 거리 측정을 사용하지만, 데이터의 분포가 희소 벡터(벡터의 값이 대부분 0으로 표현)라면 멘하튼 거리를 사용
- 군집간의 거리 측정 방법
1) 최단 연결 => 클러스터에서 가장 가까운 순으로 뽑아 연결한 거리
2) 최장 연결 => 클러스터에서 한 점을 뽑아 연결할 수 있는 최장 거리
3) 중심 연결 => 두 클러스터의 중심간의 거리
4) 평균 연결 => 첫번째 군집의 요소와 두번째 군집의 요소의 각 거리를 평균하여 계산
5) 와드 연결 => 모든 군집 내에서의 거리 차이를 제곱하여 합을 최소화
- 덴드로그램 : 군집을 시각화해서 표현하는 것
=> 계층적 군집 알고리즘은 데이터 수가 많을 경우 적합하지 않음
Ch02-03 K-means, K-medoids
1) K-means 군집 알고리즘
- 데이터를 기준점을 중심으로 유클리드 거리가 최소가 되도록 K개의 군집으로 묶음 (K = 원하는 군집의 수)
- 가장 간단하고 효율적인 알고리즘으로, 다른 알고리즘의 벤치마크로 사용됨
2) K-means 군집 생성 과정
2-1) 임의의 중심점 K개를 선택 : 초기 K 위치가 멀수록 군집의 속도가 빨라짐
2-2) 클러스터 할당 : 각 점의 거리 (K-데이터 위치)를 계산하여 군집화시킴
2-3) 중심점 갱신 : 중심점을 해당 클러스터의 평균 값 위치로 갱신하면서, 갱신이 발생하지 않을 때까지 2-2), 2-3)의 과정을 반복함. 단, 갱신이 계속될 경우를 위해 시행횟수에 제한을 둘 수 있음
=> K 개의 값 설정이 중요
: 데이터의 량에 따라 2~5개의 작은 정수로 설정하는 것이 일반적이지만, 정답이 있는 것은 아님
: K 값을 정하기 위해서 K 값을 변경하면서 최소 목적 함수의 값을 구함 (최소 목적 함수 : 클러스터 중심에서 각 점까지의 거리를 제곱하여 나온 값들의 평균)
: 학습을 하다보면 특정 지점에서 변화량이 특정 값에 수렴하는 부분이 있는데 해당 지점을 elbow point라고 하고 해당 값을 K의 값으로 잡음
3) K-medoids
- 클러스터에 있는 요소의 중앙 값을 사용하는 것으로 다른 부분은 K-means와 동일
Ch02-04 군집 알고리즘 평가의 이해
1) 좋은 클러스터란. 군집화가 유사성이 높게 되는 것
2) 목적 변수가 있는 경우
2-1) homogeneity : 각 군집들이 범주의 데이터만 가지는 경우
2-2) Completeness : 주어진 범주의 모든 데이터가 갚은 군집 내에 있는가
2-3) V-meaure : 2-1), 2-2)의 조화 평균
3) 목적 변수가 없는 경우
- 실루엣 점수 = b-a/max(a,b) 를 군집별로 계산하여 평균을 냈을 때에 값이 1에 가까울 수록 좋다고 할 수 있음
: a -> 군집 내의 점들 간의 거리 평균
: b -> 모든 군집 간의 평균 거리
4) 군집을 구분하기 위한 대표 값
4-1) Centroids : 군집의 중간에 있는 점
4-2) Modoids : 군집의 중앙에 위치한 실제 데이터
4-3) Representative points : 군집을 대표하는 군집 주변의 값
5) 군집 분류 정리
5-1) 새로운 관점에서 데이터를 분류하고 싶을 때 사용함
5-2) 각각의 속성 간에 스케일을 데이터 전처리 과정에서 함
5-3) 데이터가 계속 쌓이는 경우 K-means모델이 더 적합함
5-4) 군집 분류는 비지도 학습



