728x90
06-1 군집 알고리즘
Unsupervised Learning
train set에 target이 없는 학습 방법
외부의 도움 없이 스스로 유용한 무엇인가를 학습하는 방법
- Clustering (군집)
비슷한 sample끼리 하나의 그룹으로 모으는 대표적인 unsupervised learning
Clusterclustering으로 모은 sample 그룹 - Dimensionality Reduction (차원 축소)
원본 data의 feature를 적은 수의 새로운 feature로 변환하는 unsupervised learning
06-2 k-평균
k-means
- 알고리즘 작동 방식
- 무작위로 k개의 cluster center(= centroid) 설정
- 각 sample에서 가장 가까운 cluster center를 찾아 해당 cluster의 sample로 지정
- cluster에 속한 sample의 평균값으로 cluster center를 변경
- cluster center에 변화가 없을 때까지 2번으로 돌아가서 반복
- elbow적절한 cluster 개수를 찾기 위한 대표적인 방법
- inertiacluster에 속한 sample과 cluster center 사이의 거리 제곱 합
06-3 주성분 분석
Principal Component Analysis (PCA, 주성분 분석)
data에 있는 분산(variance)이 큰 방향을 찾는 방법
- 주성분 = 분산이 큰 방향 벡터
- Explained Variance (설명된 분산)
주성분이 원본 data의 분산을 얼마나 잘 나타내는지 기록한 값
- Explained Variance (설명된 분산)
728x90
반응형