포스트

자료이해&가설검정

양적 자료

  • 수치로 나타낼 수 있는 자료(숫자로 나타낼 수 있는 모든 자료가 포함)
  • 이산형 자료와 연속형 자료로 구분된다>

    이산형 자료

    관측 값들을 셀 수 있는 자료이며 값이 정수로 나누어지는 자료로 등간척도가 있다.

    등간척도

    관찰 대상의 속성을 상대적 크기로 나타내며 순위를 부여할 뿐 아니라 어느정도 큰 지 숫자간의 의미를 가진다

    • 예를 들어 교통사고 건수로 등간척도를 나누어 보자면 교통사고 건수가 오토바이 3건, 자전거 1건, 자동차 5건이라면 자동차가 교통사고 건수가 가장 크다는 결론을 내릴 수 있으며 자전거가 자동차에 비해 4건이나 더 낮은 것을 보아 사고의 위험이 더 낮다고 볼 수 있다.

    연속형 자료

    관측 값들을 셀 수 없고 연속적인 구간의 값을 갖는 자료로 구간척도와 비율척도가 있다.

    구간척도

    등간척도라고도 하며 명목척도와 서열척도의 특성을 모두 포함하며 숫자 간의 ‘간격’이 산술적 의미를 가진다(즉 크기의 정도를 말할 수 있다)

    • 주가지수로 예를 들면 300구간에서 시작한 주가지수를 200구간, 400구간, 600구간에 투자를 하였다면 200의 간격을 가지게 된다. 이 때 200구간과 400구간을 비교하면 2배의 차이를 보이지만 2배값이라고 볼 수 없다. 시작값이 300구간에서 시작하였으나 이를 절대영점으로 볼 수 없으며 시작하는 지점을 임의의 값으로 정해놓은 것이기에 비율적 의미를 부여할 수 없다 즉 가감의 연산은 가능하나 승제의 연산은 불가능하다.

    비율척도

    명목척도, 서열척도, 구간척도의 특성을 모두 포괄하며 숫자 간의 ‘비율’이 산술적 의미를 가진다.

    • 예로 신장이나 체중, 체질량지수, 소득, 예금 잔액 등이 있으며 이는 절대영점을 가지기에 승제의 연산이 가능하다 체중의 경우 45kg은 90kg의 절반이고 소득의 경우 200만원은 100만원의 2배의 차이이다

질적 자료

  • 원칙적으로 수치로 표현될 수 없고 어떤 속성(범주)을 나타낸 자료로 범주형 자료라고 함
  • 명목형자료와 순서형 자료로 구분된다.

멍목형 자료

순서에 의미가 없는 자료로 여러 카테고리에 따른 하나의 이름에 데이터를 분류할 수 있을 때 사용된다. 예를 들어 남과 여로 나뉘는 성별과 A, B, AB, O 형으로 나뉘는 혈액형 등이 있다.

순서형 자료

순서에 의미가 있는 자료로 고유한 순서를 가진다. 예를 들어 크기는 소형, 중형, 대형으로 나뉠 수 있고 만족도 또한 불만족, 보통, 만족 등으로 나눌 수 있다.

추정

  • 통계적 추정은 표본으로부터 얻은 추정량의 표본분포를 가지고 우리가 추정하고자 하는 모집단의 특성을 나타내는 값(모수)을 추정하는 과정

점추정

모수 추정방법에 있어 모수를 어떤 하나의 값으로 산출하는 것

구간추정

모수를 하나의 추정치로 나타내기 보다는 실제 모수가 존재할 가능성이 높은 구간을 제시하는 것

  • 신뢰수준 추출한 표본통계량이 모집단을 대표하는 값(모수)에 속할 확률(90%, 95%, 99%)

  • 신뢰구간 “모평균 95%의 신뢰구간”의 의미는 동일한 크기의 표본을 100차례 임의로 추출하여, 각 표본에 대한 신뢰구간을 산출할 때, 100개의 신뢰구간 중 95개가 모수를 포함하고 있음을 의미

대립가설(연구가설)

  • 연구자의 주장, 입증하고자 하는 사실, 또는 예상되는 현상에 대한 설명으로 검정하고자 하는 주장

귀무가설(영가설)

  • 기존의 사실이나 대립가설에 반하는 가설, 차이가 없거나 의미있는 차이가 없는 경우의 가설이며 이것이 맞거나 맞지 않다는 통계학적 증거를 통해 증명하려는 가설

대립가설과 귀무가설의 관계

서로 논리적으로 반대 입장을 취하고 있으므로 만약 귀무가설이 통계적으로 받아들여질 수 없게 된다면 자연스럽게 대립가설이 받아들여지게 됨

  • 예시. 성별 보수 차이 귀무가설 : 남성과 여성의 보수는 같다 대립가설 : 남성은 여성보다 보수가 많다. 대립가설에 대한 증거가 충분하다면 귀무가설을 기각하고 대립가설을 받아들이지만 대립가설의 증거가 불충분할 경우 귀무가설을 기각하지 않는다.

유의수준

  • 실제 귀무가설이 참임에도 불구하고, 귀무가설을 기각할 최대 확률
  • 통계학적 검정에서 가설의 채택과 기각의 판단 기준이 됨
  • 유의수준을 a=0.05로 설정한 경우, 5% 수준 이하의 확률값이 산출되면 귀무가설을 기각하며, 귀무가설을 기각할 확률 영역을 “기각역” 이라 함

유의확률(p값)

  • 표본으로부터 얻은 검정통계량의 값에 대하여 대립가설을 채택할 수 있는 즉 귀무가설을 기각할 수 있는 최소의 유의수준

유의확률이 유의수준보다 작은 경우에 대립가설이 채택되고 귀무가설이 기각된다

  • 예시 유의수준이 0.05, 유의확률이 0.01일 경우, 귀무가설이 참임에도 기각할 확률5%가 최소의 유의확률 1%보다 크다. 그러므로 유의수준은 최소한의 유의 확률을 충족하므로 귀무가설을 기각하고 대립가설을 채택한다 유의수준이 0.05, 유의확률이 0.10일 경우, 귀무가설이 참임에도 기각할 확률 5%가 최소의 유의확률 10%보다 작다. 그러므로 유의수준은 최소한의 유의 확률을 충족하지 못하였으므로 귀무가설을 기각하지 아니한다.

정리를 하자면 유의확률이란 귀무가설을 기각할 수 있는 최소한의 유의수준이다.

가설검정의 단계

  1. 귀무가설(H0)과 대립가설(H1)의 설정
  2. 유의수준(a)의 결정
  3. 검정방법의 결정
  4. 표본분포 및 검정통계량으로부터 유의확률(p-value)의 계산
  5. 결론(의사결정)

변수유형에 따른 통계적 검정방법 정리

독립변수종속변수목적분석방법
명목척도명목척도두 변수 간의 관계카이제곱검정
명목척도구간척도명목척도두 변수 간의 인과관계로지스틱 회귀분석
명목척도(집단의 수=2)구간척도두 그룹 간의 평균 비교독립표본/검정대응표본/검정
명목척도(집단의 수>=3)구간척도여러 그룹의 평균 비교분산분석일반선형모형
구간척도구간척도두 변수 간의 관계(선형/인과)상관분석회귀분석
이 기사는 저작권자의 CC BY-NC 4.0 라이센스를 따릅니다.