상관분석&회귀분석
상관분석
두 변수 사이의 관련성여부와 관련성 정도를 살펴보는 것두 변수가 관련이 있는지, 관련이 있다면 어떤 관련이 어느정도 있는지 분석
상관계수
두 변수에 상관관계 중 직선관계에 대해 수치적으로 표현한 것
(두 변수의선형 관련성을 보는 것이며피어슨 상관계수를 가장 많이 사용)
- 표본상관계수의 값은 항상 -1과 1사이에 있다
(흩어진 정도가 강할수록 0에 가까움)
단순 산점도 - 두 개 변수에 대한 산점도를 그려준다.
행렬 산점도 - 여러 변수의 모든 쌍에 대한 산점도를 하나의 그래프에 그릴 수 있다.
단순 점도표 - 한 변수의 각 값에 대한 빈도를 나타내주는 그래프를 그릴 수 있다.
겹쳐그리기 산점도 - 여러 개의 산점도를 하나의 축에 겹쳐서 그릴 수 있다.
3차원 산점도 - 세 개의 변수를 축으로 하는 3차원 산점도를 그려준다.
회귀분석
- 하나의 양적변수(종속변수, 반응변수)와 여러 개의 양적변수(독립변수, 설명변수)들 사이의 관계식을 만들어 독립변수가 종속변수에 미치는 영향력을 설명하거나 종속변수의 값을 예측하고자 할 때 사용하는 분석 기법
변수들 사이의 관계를 함수식을 사용하여 분석하는 과정
처음 해야 하는 일은 예측하려는 변수와 그것을 설명하려는 변수를 정하는 것
단순선형회귀분석
종속변수 Y와 하나의 독립변수 X의 선형관계식을 추정하는 것(산점도에 적당한 직선을 그리는 것)
Y = B0 + B1X + ε=종속변수 = 절편(상수항) + 회귀계수(기울기) X 독립변수 + 오차적합성을 검토하기 위해서
분산분석표작성
결정계수(R제곱 = SSR/SST) - 모형의 적합성
결정계수의 범위는 0 ≤ R제곱 ≤ 1 이고 이 값이 클수록 모형의 설명력이 높다
만약, 모든 측정값들이 회귀직선상에 위치한다면 SSE = 0이고 SSR=SST이므로 R제곱 = 1
SST = 총제곱합 SSE = 잔차(오차) 제곱합 SSR = 회귀제곱합
분산분석(F = MSR/MSE) - 회귀모형의 유의성
F = 회귀평균제곱/잔차평균제곱
F값이 클수록 추정된 모형이 통계적으로 유의함
다중선형회귀분석
- 하나의 종속변수(반응변수)에 대해 여러 개의 독립변수(설명변수)가 주어져 있을 때 사용되는 모형
일반적으로 두 개 이상의 설명변수로 반응변수를 설명하려고 할 때 사용되는 모형
반응변수를 설명하는 중요한 설명변수를 찾을 때 사용하는 모형
- 분석 대상은 최소한 독립변수의 20배 이상
모집단에 대한 표본의 크기가 작아지면 표본오차가 커지기 때문에 우연적 효과가 결과에 영향을 미침
독립변수와 분석 대상의 비율이 약 1:20 정도, 최악의 경우에도 최소 1:5의 비율 유지
- 하지만 분석대상이 너무 많아지면 통계적으로 다중상관이 과대평가되기 때문에 실질적인 효과가 없는 독립변수가 의미있게 평가될 수 있음
- 극단치(반응의 극단적인 값) 제거
절편과 회귀계수에 영향을 주기 때문에 회귀모형의 예측력을 떨어뜨림
극단치를 파악하는 방법
그래픽적 방법
- 독립변수와 종속변수의 산포도, 예측치와 관찰치 간의 정상확률 plot, 잔차 plot 파악
Mahalanobis
- 독립변수의 평균으로부터 각 사례가 떨어진 거리를 표준화시킨 값
- 이 값이 크다는 것은 독립변수의 분포에서 멀리 있다는 것으로 극단치일 가능성을 의미
Cook의 거리
- 종속변수의 예측에 있어 영향을 주는 사례를 의미
- 이 값이 1보다 크면 극단치 가능성이 있는 것으로 봄
Leverage 값
얼마나 특정 사례가 회귀의 예측에 영향을 주는가를 알 수 있는 지수
표준화 잔차의 크기가 클 때 극단치로 생각할 수 있음
다중공선성
독립변수들 간의 선형관계를 나타내는 것으로 독립변수들 간에 높은 상관관계로 인하여 종속변수에 미치는 각각의 영향을 구분하기 어려운 상황을 의미
다중회귀분석을 하기 위해서는 다중공선성이 없어야 함
진단방법
상관성 - Pearson Correlation 등
다중공선성 - VIF(분산팽창계수), Tolerance(공차한계) 등
단순 상관관계를 가지고 검증할 시 두 독립변수의 단순상관관계가 0.8이상일 경우 한 변수를 없애야 함
공차한계는 0.1보다 커야 함
공차한계의 역수인 분산팽창계수는 10보다 작으면 다중공선성에 문제가 없다고 판단
표준화 회귀계수(β)
- 상대적인 영향력을 나타내며 다른 변수가 통제된 상태(다른 영향력을 제거한 상태)에서의 특정 변수의 영향력을 볼 수 있다
자기상관(계열상관)
회귀분석의 또 다른 가정의 하나는 잔차항의 독립성이나 어떤 잔차항이 다른 잔차항에 영향을 미치게 되는 경우 이를 자기상관이라 함
오차항의 독립성은 Durbin-Watson을 통해 판단
이 통계치가 유의미하면 오차가 자기상관을 갖는 것(잔차가 독립적이지 않음)
Durbin-Watson의 통계치가 2에 접근하면 오차항의 자기상관이 없다고 할 수 있다
가변수(질적변수 -> 0 또는 1 -> 양적변수)
변수값을 양적인 의미 없는 수치(0또는 1)로 대치하여 범주를 구분하도록 만든 변수
항상 (질적변수의 범주 수 -1)개 만큼 필요하게 됨
참조항목을 0으로 코딩하고, 연구자는 참조항목을 꼭 기억
질적변수를 연속형 변수와 함께 사용해야하는 경우 회귀모형에 질적 변수를 포함하기 위해 수량화해야할 때 이용