8.2 k-평균 군집방법(k-Means Clustering)
8.2 k-평균 군집방법(k-Means Clustering)
-
계보적 군집방법
- 가까운 개체들을 하나씩 묶어감
-
과정
- n개의 개체 중 가장 가까운 두 개의 개체를 하나의 군집으로 묶음(n-1 개 남음)
- 위에 과정을 반복하여 최종적으로 n개의 개체들을 하나의 군집으로 만듬
-
장점
- 덴드로그램(dendrogram)으로 간단히 표현
- 군집들 간의 구조적 관계를 살펴보는데 유용
-
단점
- 일단 다른 군집에 속하면 다시는 같은 군집에 속하지 못함
- 개체 수가 커지면 거리행렬 계산에 매우 많은 자원 소모
-
최적분리 군집방법
- 관찰값들을 몇 개의 군집으로 분리시키는 방식
- 미리 규정된 판정기준을 최적화시키도록 시도
- 대부분의 경우 군집의 개수가 미리 결정되어 있어야 한다
- 초기 부적절한 병합 또는 분리를 개체의 재할당을 통해 극복
8.2.1 k-평균 군집방법의 절차
최적분리 군집 분석은 유클리드 거리에 기초하여 군집이 형성되는데, 통상 다음과 같은 단계를 거쳐 분석이 수행된다. 이러한 방법을 k-평균(means) 군집분석이라고 한다.
-
군집 초기값의 선택
- 주어진 군집의 개수(k)만큼 군집 초기값(cluster seed) 선택
-
초기값 선택 방법
- 처음 k개의 개체들을 초기값으로 선택
- 임의로 k개의 개체들을 초기값으로 선택
- k보다 많은 초기값들을 표준편차 간격으로 고르고, 오차제곱합에 기초를 둔 판정기준이 충족될 때까지 군집의 수 감소
-
초기군집의 형성
- 각 개체들에 대하여 군집 초기값(중심)들과의 거리를 계산하고, 거리가 가장 가까운 초기값에 개체들을 할당
- 각 개체가 할당될 때마다 해당 군집의 중심이 그 군집에 속하는 개체들의 평균벡터로 다시 계산
-
개체들의 재할당
- 각 개체들을 가장 가까운 군집중심(cluster center)에 재할당하고 군집의 중심(평균벡터)을 다시 계산
- 군집중심들의 변화가 일정 수준 이하가 될 때까지 이와 같은 과정 반복
- 최종군집 형성
예) k = 2
- 군집 초기값으로 유클리드 거리가 가장 먼 (1), (4) 선택.
- 각 개체들을 가장 가까운 초기값에 대응되는 군집에 할당시키고 평균벡터 다시 계산
|
개체 번호 |
가까운 군집 |
군집 1 구성원 |
군집1 군집중심 |
군집 2 구성원 |
군집 2 군집중심 |
|---|---|---|---|---|---|
| 1 | 1 | (1) | (1.0, 1.0) | ||
| 2 | 1 | (1, 2) | (1.2, 1.5) | ||
| 3 | 1 | (1, 2, 3) | (1.8, 2.3) | ||
| 4 | 2 | (1, 2, 3) | (1.8, 2.3) | (4) | (5.0, 7.0) |
| 5 | 2 | (1, 2, 3) | (1.8, 2.3) | (4, 5) | (4.2, 6.0) |
| 6 | 2 | (1, 2, 3) | (1.8, 2.3) | (4, 5, 6) | (4.3, 5.7) |
| 7 | 2 | (1, 2, 3) | (1.8, 2.3) | (4, 5, 6, 7) | (4.1, 5.4) |
| 반복 1의 결과 | (1, 2, 3) | (1.8, 2.3) | (4, 5, 6, 7) | (4.1, 5.4) |
|
개체 번호 |
가까운 군집 |
군집 1 구성원 |
군집1 군집중심 |
군집 2 구성원 |
군집 2 군집중심 |
|---|---|---|---|---|---|
| 1 | 1 | (1, 2, 3) | (1.8, 2.3) | (4, 5, 6, 7) | (4.1, 5.4) |
| 2 | 1 | (1, 2, 3) | (1.8, 2.3) | (4, 5, 6, 7) | (4.1, 5.4) |
| 3 | 2 | (1, 2) | (1.2, 1.5) | (3, 4, 5, 6, 7) | (3.9, 5.1) |
| 4 | 2 | (1, 2) | (1.2, 1.5) | (3, 4, 5, 6, 7) | (3.9, 5.1) |
| 5 | 2 | (1, 2) | (1.2, 1.5) | (3, 4, 5, 6, 7) | (3.9, 5.1) |
| 6 | 2 | (1, 2) | (1.2, 1.5) | (3, 4, 5, 6, 7) | (3.9, 5.1) |
| 7 | 2 | (1, 2) | (1.2, 1.5) | (3, 4, 5, 6, 7) | (3.9, 5.1) |
| 반복 2의 결과 | (1, 2) | (1.2, 1.5) | (3, 4, 5, 6, 7) | (3.9, 5.1) |
이와 같은 과정이 한 번 더 반복되더라도 결과가 달라지지 않으므로 최종적으로 3번째 반복에서 분석이 종료된다.
8.2.2 초기 군집수의 결정
-
초기 군집수(k)를 사전 결정은 쉽지 않다.
-
E-Miner의 Clustering 노드에서는 최적의 군집수를 탐색할 수 있도록 보완
-
자동 탐색된 군집수가 항상 옳지는 않다.
- 실제로는 군집수 k에 따른 여러 번의 군집분석을 수행
- 종합적인 판단하에 최종 군집 얻음
-
-
-
일반적인 k-평균 군집분석에서 군집수 결정 방법
-
적절한 다변량 통계분석법으로 관찰치 시각화
- 주성분 분석을 통해서 변수 수를 줄이고 2, 3차원 그래프 통해 관찰
- 계보적 군집 분석의 결과로부터 관찰
-
History
Last edited on 06/18/2008 14:52 by tadoli
Comments (0)