Header

  1. View current page

    tadoli님의 노트

Profile_img_60x60_01
3

8.1 군집분석의 개념

8.1 군집분석의 개념

  유사한 것들을 몇몇 집단으로 그룹화하여, 각 집단의 성격을 파악함으로서 데이터 전체의 구조에 대한 이해를 돕고자 하는 탐색적 데이터 분석 방법 (특히, 대용량 데이터에 개개의 관찰치 보다 군집들을 관찰하여 전체 구조 파악)

 

 군집분석은 사전에 정의된 어떠한 특수한 목적이 없는  데이터분석 기법이다. 따라서 동일 군집의 개체들은 유사한 성격, 서로 다른 군집의 개체들은 서로 다른 성격을 갖도록 군집을 형성

 

8.1.1 거리(Distance): 비유사성의 측도

 거리(distance; 비유사성, dissimilarity)는 개체들 간의 먼 정도.

 

i번째와 j번째 개체 사이의 거리 d[i][j]는 다음과 같은 조건을 만족함을 가정한다. (즉, 최단거리가 지정된 거리 Matrix)

  • d[i][j] >= 0, d[i][i] = 0, i, j = 1, 2, ..., n,
  • d[i][j] == d[j][i], i, j = 1, 2, ..., n,
  • d[i][j] + d[j][k] >= d[i][k], i, j, k = 1, 2, ..., n

 

양적 변수인 경우

 

  • 구간형 데이터의 거리

    • 유클리드 거리(Euclidean distance)
    • 제곱 유클리드 거리(Squeared Euclidean distance)
    • 시티 블록 거리(City Block distance)
    • Lm(Minkowski distance)
    • 체비쉐프 거리(Chebychev distance)
  • 척도 불변성(scale invariance) : 측정 단위에 의존하지 않는 성질

    • 표준화된 유클리드 거리

      • chapter8_formular(8_2).JPG

 

범주형 변수의 경우 

  • 불일치 수를 이용
  • 예) 성, 학력, 출신지역

    • A = (남자, 고졸, 경기)
      B = (여자, 고졸, 전남)
      C = (남자, 대졸, 경기)
      d[A][B] = 2, d[A][C] = 1, d[B][C] = 3

 

연속형과 범주형이 혼합된 경우

  • 일반적으로 최소한 순서형 범주를 갖는 이산형 변수까지가 분석대상
  • E-Miner에서는 명목형 변수에 대해 가변수를 만든후 유클리드 거리를 계산

 

8.1.2 군집의 유형

  • 상호배반적(Disjoint) 군집 : 각 관찰치가 상호배반적. 여러 군집 중 오직 하나에만 속함

    • 예) 한국인, 중국인, 일본인
  • 계보적(Hierachical) 군집 : 한 군집이 다른 군집의 내부에 포함, 군집간 중복 없음

    • 예) 생물표본의 분류에서 '종-속-과-목'
  • 중복(Overlapping) 군집 : 두 개이상의 군집에 한 관찰치가 동시에 소속되는 것을 허용
  • 퍼지(Fuzzy) 군집 : 특정 군집이 아니라 각 군집에 속할 가능성을 표현

 

군집분석 수행 중 문제

  • 자료의 개괄적인 구조가 명백치 않은 경우
  • 대부분의 군집분석 방법들은 특이값에 굉장히 민감
  • 군집의 안정성을 위한 타당성 검토

    • 동일한 자료에 대해 다른 가정에 기초한 여러가지 군집방법의 결과가 유사?
    • 임의로 두 부분으로 나눈 후 각 부분을 독립적으로 군집
    • 몇 개의 변수를 제거하며 군집의 구조에 어떤 영향을 미치게 될 지에 대한 고찰

 

군집분석은 다음 단계 분석을 위한 탐색적인 면을 아우르므로, 세밀한 검토를 통해 다음 단계를 진행

History

Last edited on 06/18/2008 12:06 by tadoli

Comments (0)

You must log in to leave a comment. Please sign in.