4.1 선형회귀분석(Linear Regression Analysis)
4.1 선형 회귀분석(Linear Regression Analysis)
-
일차(선형) 방정식 형태
- y = α + βx
-
입력변수의 수에 따른 분류
- 단순 회귀 분석(Simple Regression) : 입력변수(설명변수) 1개
- 다중 회귀 분석(Multiple Regression) : 입력변수(설명변수) 여러 개
4.1.1 단순 회귀모형(Simple Regression)
-
y = α + βx + ε
- a, b : 회귀계수(Regression Coeffcient)
-
ε: 기대값 0과 분산 δ^2을 가지는 오차항(error term)
-
원인
-
입력변수 x가 목표변수 y에 관한 모든 정보를 충분히 가지고 있지 않은 경우
- 목표변수를 설명할 수 있는 입력변수들을 충분히 수집
-
입력변수들과 목표변수의 관계가 선형적이지 않은 경우
- 다항회귀(polynomial regression)나 비선형회귀, 의사결정나무, 신경망과 같은 비선형모형을 고려
-
측정오류(measurement error)나 입력오류 같은 것들이 포함
- E-Miner의 탐색(exploration) 노드와 변환(modifying) 노드를 이용해서 오류 탐색 및 수정
-
-
-
모수의 추정
-
최소제곱법(Least Square Method)
- 오차제곱합(Sum of Squared Error)을 최소화
-
-
회귀계수에 대한 해석과 검정
- 해석 : 회귀계수(β)에 따라 양(+)의 상관관계, 음(-)의 상관관계
-
검정 : 'H0: β = 0'라는 가설을 검정.
-
검정통계량 : t = (b - β) / s.e.(b)
- 자유도 n-1인 t-분포를 따른다.
- s.e.(b)는 b의 표준오차(Standard Error)
-
4.1.2 다중 회귀모형(Multiple Regression)
-
여러개의 설명 변수
- y = α + β1x1 + β2x2 + ... + βpxp + ε
-
분산분석표와 회귀식에 대한 검정
- TTS = SSR + SSE
- F = MSR/MSE = (SSR/p)/(SSE/(n-p-1))
-
결정계수(Coefficient of Determination; R-Square)
- 회귀식의 적합도(Goodness of Fit)
- R^2 = SSR/TSS = 1 - SSE/TSS (0 <= R^2 <= 1)
-
표준화 회귀계수(Standardized Coefficient)
- 입력변수의 단위를 바꿀 경우 표준화
-
입력변수의 선택
-
다중공선성(multicollinearity)
- 회귀계수의 추정치의 분산과 예측값의 분산이 매우 커짐.
- 따라서, Full Model 보다는 Reduced Model이 바람직한 회귀모형
-
변수선택 방법
- 전진선택법(Forward Selection)
- 후진소거법(Backward Elimination)
- 단계적 방법(Stepwise Method)
- 모든 가능한 회귀
-
History
Last edited on 08/12/2008 17:21 by tadoli
Comments (0)