포스트

상관분석&회귀분석

상관분석

  • 두 변수 사이의 관련성 여부와 관련성 정도를 살펴보는 것

  • 두 변수가 관련이 있는지, 관련이 있다면 어떤 관련이 어느정도 있는지 분석

상관계수

두 변수에 상관관계 중 직선관계에 대해 수치적으로 표현한 것
(두 변수의 선형 관련성을 보는 것이며 피어슨 상관계수를 가장 많이 사용)

  • 표본상관계수의 값은 항상 -1과 1사이에 있다
    (흩어진 정도가 강할수록 0에 가까움)

단순 산점도 - 두 개 변수에 대한 산점도를 그려준다.
행렬 산점도 - 여러 변수의 모든 쌍에 대한 산점도를 하나의 그래프에 그릴 수 있다.
단순 점도표 - 한 변수의 각 값에 대한 빈도를 나타내주는 그래프를 그릴 수 있다.
겹쳐그리기 산점도 - 여러 개의 산점도를 하나의 축에 겹쳐서 그릴 수 있다.
3차원 산점도 - 세 개의 변수를 축으로 하는 3차원 산점도를 그려준다.

회귀분석

  • 하나의 양적변수(종속변수, 반응변수)와 여러 개의 양적변수(독립변수, 설명변수)들 사이의 관계식을 만들어 독립변수가 종속변수에 미치는 영향력을 설명하거나 종속변수의 값을 예측하고자 할 때 사용하는 분석 기법

변수들 사이의 관계를 함수식을 사용하여 분석하는 과정
처음 해야 하는 일은 예측하려는 변수와 그것을 설명하려는 변수를 정하는 것

  • 반응변수 또는 종속변수

    예측하고자 하는 변수, Y로 표현

  • 설명변수 또는 독립변수

    반응변수 Y를 설명하는 변수, X로 표현

단순선형회귀분석

  • 종속변수 Y와 하나의 독립변수 X의 선형관계식을 추정하는 것(산점도에 적당한 직선을 그리는 것)
    Y = B0 + B1X + ε = 종속변수 = 절편(상수항) + 회귀계수(기울기) X 독립변수 + 오차

  • 적합성을 검토하기 위해서 분산분석표 작성

결정계수(R제곱 = SSR/SST) - 모형의 적합성

  • 결정계수의 범위는 0 ≤ R제곱 ≤ 1 이고 이 값이 클수록 모형의 설명력이 높다

  • 만약, 모든 측정값들이 회귀직선상에 위치한다면 SSE = 0이고 SSR=SST이므로 R제곱 = 1

SST = 총제곱합             SSE = 잔차(오차) 제곱합             SSR = 회귀제곱합

분산분석(F = MSR/MSE) - 회귀모형의 유의성

  • F = 회귀평균제곱/잔차평균제곱

  • F값이 클수록 추정된 모형이 통계적으로 유의함

다중선형회귀분석

  • 하나의 종속변수(반응변수)에 대해 여러 개의 독립변수(설명변수)가 주어져 있을 때 사용되는 모형

일반적으로 두 개 이상의 설명변수로 반응변수를 설명하려고 할 때 사용되는 모형
반응변수를 설명하는 중요한 설명변수를 찾을 때 사용하는 모형

  • 분석 대상은 최소한 독립변수의 20배 이상

모집단에 대한 표본의 크기가 작아지면 표본오차가 커지기 때문에 우연적 효과가 결과에 영향을 미침
독립변수와 분석 대상의 비율이 약 1:20 정도, 최악의 경우에도 최소 1:5의 비율 유지

  • 하지만 분석대상이 너무 많아지면 통계적으로 다중상관이 과대평가되기 때문에 실질적인 효과가 없는 독립변수가 의미있게 평가될 수 있음
  • 극단치(반응의 극단적인 값) 제거

절편과 회귀계수에 영향을 주기 때문에 회귀모형의 예측력을 떨어뜨림

극단치를 파악하는 방법

그래픽적 방법

  • 독립변수와 종속변수의 산포도, 예측치와 관찰치 간의 정상확률 plot, 잔차 plot 파악

Mahalanobis

  • 독립변수의 평균으로부터 각 사례가 떨어진 거리를 표준화시킨 값
  • 이 값이 크다는 것은 독립변수의 분포에서 멀리 있다는 것으로 극단치일 가능성을 의미

Cook의 거리

  • 종속변수의 예측에 있어 영향을 주는 사례를 의미
  • 이 값이 1보다 크면 극단치 가능성이 있는 것으로 봄

Leverage 값

  • 얼마나 특정 사례가 회귀의 예측에 영향을 주는가를 알 수 있는 지수

  • 표준화 잔차의 크기가 클 때 극단치로 생각할 수 있음

다중공선성

  • 독립변수들 간의 선형관계를 나타내는 것으로 독립변수들 간에 높은 상관관계로 인하여 종속변수에 미치는 각각의 영향을 구분하기 어려운 상황을 의미

  • 다중회귀분석을 하기 위해서는 다중공선성이 없어야 함

진단방법

상관성 - Pearson Correlation 등
다중공선성 - VIF(분산팽창계수), Tolerance(공차한계) 등

  • 단순 상관관계를 가지고 검증할 시 두 독립변수의 단순상관관계가 0.8이상일 경우 한 변수를 없애야 함

  • 공차한계는 0.1보다 커야 함

  • 공차한계의 역수인 분산팽창계수는 10보다 작으면 다중공선성에 문제가 없다고 판단

표준화 회귀계수(β)

  • 상대적인 영향력을 나타내며 다른 변수가 통제된 상태(다른 영향력을 제거한 상태)에서의 특정 변수의 영향력을 볼 수 있다

자기상관(계열상관)

  • 회귀분석의 또 다른 가정의 하나는 잔차항의 독립성이나 어떤 잔차항이 다른 잔차항에 영향을 미치게 되는 경우 이를 자기상관이라 함

  • 오차항의 독립성은 Durbin-Watson을 통해 판단

  • 이 통계치가 유의미하면 오차가 자기상관을 갖는 것(잔차가 독립적이지 않음)

Durbin-Watson의 통계치가 2에 접근하면 오차항의 자기상관이 없다고 할 수 있다

가변수(질적변수 -> 0 또는 1 -> 양적변수)

  • 변수값을 양적인 의미 없는 수치(0또는 1)로 대치하여 범주를 구분하도록 만든 변수

  • 항상 (질적변수의 범주 수 -1)개 만큼 필요하게 됨

  • 참조항목을 0으로 코딩하고, 연구자는 참조항목을 꼭 기억

  • 질적변수를 연속형 변수와 함께 사용해야하는 경우 회귀모형에 질적 변수를 포함하기 위해 수량화해야할 때 이용

이 기사는 저작권자의 CC BY-NC 4.0 라이센스를 따릅니다.