Header

  1. View current page

    tadoli님의 노트

Profile_img_60x60_01
3

8.2 k-평균 군집방법(k-Means Clustering)

8.2 k-평균 군집방법(k-Means Clustering)

  • 계보적 군집방법

    • 가까운 개체들을 하나씩 묶어감
    • 과정

      • n개의 개체 중 가장 가까운 두 개의 개체를 하나의 군집으로 묶음(n-1 개 남음)
      • 위에 과정을 반복하여 최종적으로 n개의 개체들을 하나의 군집으로 만듬
    • 장점

      • 덴드로그램(dendrogram)으로 간단히 표현
      • 군집들 간의 구조적 관계를 살펴보는데 유용
    • 단점

      • 일단 다른 군집에 속하면 다시는 같은 군집에 속하지 못함
      • 개체 수가 커지면 거리행렬 계산에 매우 많은 자원 소모
  • 최적분리 군집방법

    • 관찰값들을 몇 개의 군집으로 분리시키는 방식
    • 미리 규정된 판정기준을 최적화시키도록 시도
    • 대부분의 경우 군집의 개수가 미리 결정되어 있어야 한다
    • 초기 부적절한 병합 또는 분리를 개체의 재할당을 통해 극복

 

8.2.1 k-평균 군집방법의 절차

 최적분리 군집 분석은 유클리드 거리에 기초하여 군집이 형성되는데, 통상 다음과 같은 단계를 거쳐 분석이 수행된다. 이러한 방법을 k-평균(means) 군집분석이라고 한다.

 

  1. 군집 초기값의 선택

    1. 주어진 군집의 개수(k)만큼 군집 초기값(cluster seed) 선택
    2. 초기값 선택 방법

      1. 처음 k개의 개체들을 초기값으로 선택
      2. 임의로 k개의 개체들을 초기값으로 선택
      3. k보다 많은 초기값들을 표준편차 간격으로 고르고, 오차제곱합에 기초를 둔 판정기준이 충족될 때까지 군집의 수 감소
  2. 초기군집의 형성

    1. 각 개체들에 대하여 군집 초기값(중심)들과의 거리를 계산하고, 거리가 가장 가까운 초기값에 개체들을 할당
    2. 각 개체가 할당될 때마다 해당 군집의 중심이 그 군집에 속하는 개체들의 평균벡터로 다시 계산
  3. 개체들의 재할당

    1. 각 개체들을 가장 가까운 군집중심(cluster center)에 재할당하고 군집의 중심(평균벡터)을 다시 계산
    2. 군집중심들의 변화가 일정 수준 이하가 될 때까지 이와 같은 과정 반복
    3. 최종군집 형성

 

예) k = 2

chapter8_ex_1.GIF 

  1. 군집 초기값으로 유클리드 거리가 가장 먼 (1), (4) 선택.
  2. 각 개체들을 가장 가까운 초기값에 대응되는 군집에 할당시키고 평균벡터 다시 계산

 

개체

번호

가까운

군집

군집 1

구성원

군집1

군집중심

군집 2

구성원

군집 2

군집중심

1  1 (1) (1.0, 1.0)    
2  1 (1, 2) (1.2, 1.5)    
3  1 (1, 2, 3) (1.8, 2.3)    
4  2 (1, 2, 3) (1.8, 2.3) (4) (5.0, 7.0)
5  2 (1, 2, 3) (1.8, 2.3) (4, 5) (4.2, 6.0)
6  2 (1, 2, 3) (1.8, 2.3) (4, 5, 6) (4.3, 5.7)
7  2 (1, 2, 3) (1.8, 2.3) (4, 5, 6, 7) (4.1, 5.4)
 반복 1의 결과   (1, 2, 3) (1.8, 2.3) (4, 5, 6, 7) (4.1, 5.4)

 

개체

번호

가까운

군집

군집 1

구성원

군집1

군집중심

군집 2

구성원

군집 2

군집중심

1  1 (1, 2, 3) (1.8, 2.3) (4, 5, 6, 7) (4.1, 5.4)
2  1 (1, 2, 3) (1.8, 2.3) (4, 5, 6, 7) (4.1, 5.4)
3  2 (1, 2) (1.2, 1.5) (3, 4, 5, 6, 7) (3.9, 5.1)
4  2 (1, 2) (1.2, 1.5) (3, 4, 5, 6, 7) (3.9, 5.1)
5  2 (1, 2) (1.2, 1.5) (3, 4, 5, 6, 7) (3.9, 5.1)
6  2 (1, 2) (1.2, 1.5) (3, 4, 5, 6, 7) (3.9, 5.1)
7  2 (1, 2) (1.2, 1.5) (3, 4, 5, 6, 7) (3.9, 5.1)
 반복 2의 결과   (1, 2) (1.2, 1.5) (3, 4, 5, 6, 7) (3.9, 5.1)

 이와 같은 과정이 한 번 더 반복되더라도 결과가 달라지지 않으므로 최종적으로 3번째 반복에서 분석이 종료된다.

 

8.2.2 초기 군집수의 결정

  • 초기 군집수(k)를 사전 결정은 쉽지 않다.

    • E-Miner의 Clustering 노드에서는 최적의 군집수를 탐색할 수 있도록 보완

      • 자동 탐색된 군집수가 항상 옳지는 않다.

        • 실제로는 군집수 k에 따른 여러 번의 군집분석을 수행
        • 종합적인 판단하에 최종 군집 얻음
  • 일반적인 k-평균 군집분석에서 군집수 결정 방법

    • 적절한 다변량 통계분석법으로 관찰치 시각화

      • 주성분 분석을 통해서 변수 수를 줄이고 2, 3차원 그래프 통해 관찰
    • 계보적 군집 분석의 결과로부터 관찰 

 

History

Last edited on 06/18/2008 14:52 by tadoli

Comments (0)

You must log in to leave a comment. Please sign in.