비지도 학습에 속합니다.
유사한 위치에 있는 데이터는 그룹화되고 클러스터링됩니다.
두 개의 변수에 속한 데이터 값을 그룹화할 때
대상 레이블 없이 몇 개의 데이터 값만으로 클러스터링을 수행할 수 있습니다.
데이터를 관찰하고 유사한 유클리드 거리 값으로 데이터를 그룹화하는 과정을 거칩니다.
K-Means 알고리즘 단계
1 단계. 클러스터 수를 결정합니다.
케이
2 단계. 각 클러스터의 중심으로 임의의 k 포인트를 선택합니다.
세 번째 단계. 고정된 중심 근처에 데이터를 분산하여 k개의 클러스터를 만듭니다.
4단계. 각 클러스터에 대한 새 중심을 계산합니다.
다섯 번째 단계. 각 데이터 조각을 새 이웃의 중심에 재할당합니다.
6단계. 4단계부터 반복합니다.
최적의 k 수
ELBOW METHOD: 최적의 클러스터 수를 얻기 위한 기법
클러스터 내의 제곱합을 반환합니다.
(WCSS로 약칭되는 클러스터 제곱합 내)
WCSS는 각 데이터 좌표와 중심점 사이의 거리를 계산하고 제곱합니다.
각 클러스터에 대해 동일한 계산을 수행합니다.
계산된 모든 값을 합산하여 얻습니다.
클러스터 수가 적을수록 클러스터 내의 제곱합이 커집니다.
이는 각 데이터 좌표의 거리가 중심에서 훨씬 멀기 때문입니다.
클러스터 수가 증가함에 따라 WCSS 값은 점차 감소합니다.
각 데이터 좌표와 중심 사이의 거리가 짧아지기 때문입니다.
모든 제곱 값을 더해도 값이 증가하지 않습니다.
따라서 클러스터 수가 증가할수록 최적 K는 감소하고 이후의 변화가 미미해지는 시작점이 최적이 됩니다.