(머신러닝) K-Menas_2

비지도 학습에 속합니다.

유사한 위치에 있는 데이터는 그룹화되고 클러스터링됩니다.


두 개의 변수에 속한 데이터 값을 그룹화할 때

대상 레이블 없이 몇 개의 데이터 값만으로 클러스터링을 수행할 수 있습니다.

데이터를 관찰하고 유사한 유클리드 거리 값으로 데이터를 그룹화하는 과정을 거칩니다.

K-Means 알고리즘 단계


1 단계. 클러스터 수를 결정합니다.

케이

2 단계. 각 클러스터의 중심으로 임의의 k 포인트를 선택합니다.

세 번째 단계. 고정된 중심 근처에 데이터를 분산하여 k개의 클러스터를 만듭니다.

4단계. 각 클러스터에 대한 새 중심을 계산합니다.

다섯 번째 단계. 각 데이터 조각을 새 이웃의 중심에 재할당합니다.

6단계. 4단계부터 반복합니다.

최적의 k 수

ELBOW METHOD: 최적의 클러스터 수를 얻기 위한 기법


클러스터 내의 제곱합을 반환합니다.

(WCSS로 약칭되는 클러스터 제곱합 내)

WCSS는 각 데이터 좌표와 중심점 사이의 거리를 계산하고 제곱합니다.

각 클러스터에 대해 동일한 계산을 수행합니다.

계산된 모든 값을 합산하여 얻습니다.

클러스터 수가 적을수록 클러스터 내의 제곱합이 커집니다.

이는 각 데이터 좌표의 거리가 중심에서 훨씬 멀기 때문입니다.

클러스터 수가 증가함에 따라 WCSS 값은 점차 감소합니다.

각 데이터 좌표와 중심 사이의 거리가 짧아지기 때문입니다.

모든 제곱 값을 더해도 값이 증가하지 않습니다.

따라서 클러스터 수가 증가할수록 최적 K는 감소하고 이후의 변화가 미미해지는 시작점이 최적이 됩니다.