Hypothesis Testing (1)

parameter

null hypothesis

type 1 error

significance level

status quo

decision making

공개

2023년 11월 7일

수정

2023년 11월 18일

통계적 가설 검정을 그대로 풀어보면, “’통계적 가설(statistical hypothesis)’을 ’검정(test)’한다”이다.

가설 검정을 이해하려면 ’통계적 가설’이 무엇인지 정확히 아는 것이 필요하다.

0. 통계적 가설(statistical hypothesis)

통계적 가설은 그냥 가설과는 다르다.

예를 들어, 그냥 가설을 세운다면 ’스타벅스 커피가 메가커피보다 인기 있다.’라고 할 수 있다.

이를 통계적 가설로 바꿔보면 ‘스타벅스 커피의 선호도는 메가커피의 선호도보다 크다.’ 정도로 바꿀 수 있다.

두 가설의 의미는 같지만 통계적 가설은 모수(parameter)를 갖고 있다.

예시에서는 ’인기 있다’라는 질적인(qualitative) 묘사를 [선호도]라는 수치로 바꿔주었다.

이렇게 모수(parameter)의 값이 어떨 것이라는 주장(가설)을 통계적 가설(statistical hypothesis)이라고 한다.

통계적 가설이 옳은지 검정하려면 8단계를 거친다.

모수(parameter)를 정의한다.
귀무가설(H0)과 대립가설(H1)을 설정한다.
유의수준(significant level)을 설정한다.
검정통계량(test statistics)을 결정한다.
기각역(rejection region)을 결정한다.
검정 통계량 값을 계산한다.
검정 통계량 값이 기각역에 속하는지 판단한다.
p값(p-value)을 계산한다.
이 모든 단계를 절대적으로 수행해야 하는 건 아니다.

하지만 이 단계들을 전부 아는 것은 가설 검정을 이해하는데 큰 도움이 된다.

1. 모수(parameter)를 정의하자

앞서 ’스타벅스 커피의 선호도는 메가커피의 선호도보다 크다.’라는 예시에서 필자는 [선호도]를 모수라고 했다.

이렇게 모수를 정의하는 건 정확하지 않다.

[스타벅스 커피의 선호도 평균 - 메가커피의 선호도 평균] 이 더 적합한 모수라고 볼 수 있다.

[스타벅스 커피의 선호도 평균 - 메가커피의 선호도 평균] > 0 이면 ’스타벅스 커피의 선호도는 메가커피의 선호도보다 크다.’라는 가설은 옳은 가설이다.

하지만 단지 [선호도]만 보아서는 ‘스타벅스 커피의 선호도는 메가커피의 선호도보다 크다.’ 는 가설을 옳다고 주장할 수 없다.

위 예시는 두 모집단의 평균 차이를 이용한 가설 검정에 속한다.

좀 더 쉬운 예시는 모집단 평균에 대한 예시다.

예를 들어, ‘새로운 교육 프로그램은 성적에 영향을 미친다.’ 라는 그냥 가설을 검증하고 싶다.

이를 통계적 가설로 바꾸면 다음과 같다.

‘새로운 교육 프로그램을 이수한 학생들의 성적 평균은 높아진다.’

여기서의 모수(parameter)는 [학생들의 성적 평균]이다.

교육 프로그램을 이수하기 전후 [학생들의 성적 평균]을 비교하면, ’새로운 교육 프로그램을 이수한 학생들의 성적 평균은 높아진다.’는 가설을 검정(test)할 수 있다.

2. 귀무가설과 대립가설 설정

2.1 귀무가설(null hypothesis)

귀무가설에는 status quo라는 개념이 적용된다.

status quo는 ’현재 상황, 현상 유지’를 뜻하는 라틴어다.

예를 들어, 생명의 탄생과 관련된 유명한 가설 중 <진화론>과 <지적설계론> 중 어느 것이 더 옳은지 가설검정을 한다고 생각해 보자.

현재 상황, status quo는 무엇인가.

좀 더 정확히 물어보자면, 현재 지배적인 위치를 갖는 가설은 무엇인가?

당연히 <진화론>이라고 생각할 것이다.

가설검정에서는 이렇게 status quo를 적용하여 귀무가설을 설정한다.

<지적설계론>과 같은 ‘새로운 주장’ 혹은 언더독(underdog)에 해당하는 주장을 대립가설로 설정한다.

2.2 의사결정을 할 땐, 최악의 경우를 고려한다.

가설검정은 결국 의사결정을 내리기 위한 수단이다.

‘귀무가설을 기각한다.’ 혹은 ‘귀무가설을 기각하지 않는다.’

의사결정을 내릴 때 가장 중요한 것은 ’이 의사결정이 잘못되었을 때, 어떤 일이 벌어질 것인가’를 고려하는 것이다.

’지금 내 통장에 100만 원이 있는데, 2차전지주에 100만 원을 몰빵 할까? 말까?’에 대한 의사결정을 하고 있다고 생각해 보자.

이때 사실 중요하게 염두해야 할 건, 의사결정이 잘되었을 때가 아니라, 의사결정이 잘못되었을 경우다.

의사 결정이 잘못된 경우는 어떤 경우인가.

‘2차전지주에 100만 원을 몰빵 했는데, 2차전지주가 폭락했다. 땡전 한 푼 없다.’

의사결정이 잘못되어 문제가 생겼을 때, 버틸 수 있는가를 판단하는건 중요하다.

만약 땡전 한푼 없는 상황에서도 버틸 수 있다면, “2차전지주에 100만 원을 몰빵 한다.”라고 의사결정을 하더라도 큰 문제가 아닐 수 있다.

하지만, 더 이상 재기할 방법이 없다면, 2차전지주에 100만 원을 몰빵해선 안될 것이다.

최악의 경우가 돌이킬 수 없는 데미지를 주기 때문이다.

그러므로, 우리는 통계적 가설검정에 의한 의사결정이던, 평소 의사결정이던 최악의 경우를 고려해야 한다.

통계적 가설검정에선, 의사결정이 잘못된 경우에 벌어지는 두 가지 오류를 고려한다.

2.3. 제1종오류, 제2종오류

제1종오류(Type 1 Error)는 귀무가설이 참이지만, 귀무가설을 기각하는 오류를 말한다.

False Positive(FP)라고도 하며 ’Positive’는 귀무가설이 참임을 뜻하고, False는 ’틀렸다’는 의미를 가졌음을 기억하자.

제2종오류(Type 2 Error)는 False Negative(FN)이다.

귀무가설이 거짓이지만 귀무가설을 기각하지 못한 오류를 말한다.

’Negative’는 귀무가설이 거짓임을 뜻하고, False는 여기서도 ’틀렸다’는 의미를 가진다.

이 두 가지 오류 중 가설검정은 제1종오류를 중요하게 본다.

왜일까?

다시 <진화론>과 <지적설계론> 이야기로 넘어가 보자.

status quo인 <진화론>이 귀무가설에 해당하고, 새로운 가설인 <지적설계론>이 대립가설이라 말한 바 있다.

<진화론>이 옳은지, <지적설계론>이 옳은지 가설검정을 할 때도 두 가지 오류가 발생할 수 있다.

위 설명대로 제1종오류와 제2종오류를 도출해 보자.

제1종오류는 <진화론>이 참이지만, <진화론>을 기각하는 오류일 것이다.

제2종오류는 <진화론>이 거짓이지만, <진화론>을 기각하지 못하는 오류일 것이다.

어떤 오류가 일어났을 때, 사회적으로 더 큰 혼란이 벌어질 것 같은가?

제1종오류는 <진화론>을 기각하는 사건이 벌어진다.

이는 패러다임의 변화로 사회적으로 엄청나게 큰 파장이 될 것이다.

제2종오류는 <진화론>을 기각하지 못하는 사건, 즉 기존에서 정설로 받아지던 <진화론>을 그대로 유지하게 된다는 것이다.

많은 사람들이 이미 알고 있던 사실이기 때문에, 사회적 파장은 없을 것이다.

이러한 이유로 가설검정은 제1종오류를 더 중요하게(significantly) 보고, 제 1종 오류를 통제하기 위해 유의수준(significant level)을 설정한다.