데이터를 모았다고 해서 바로 결론을 내릴 수는 없습니다. 관측된 차이가 진짜 효과 때문인지, 아니면 우연한 흔들림 때문에 잠깐 나타난 것인지 구분해야 하기 때문입니다. 가설검정, 신뢰구간, 실험설계는 이 구분을 위한 세 가지 핵심 언어입니다.
이때 우리는 "차이가 없다"는 기본 가정부터 세우고, 지금 데이터가 그 가정과 얼마나 맞지 않는지를 살펴봅니다.
가설검정은 어떤 주장을 완전히 증명하는 방식이 아닙니다. 오히려 먼저 보수적인 기본 가정을 세우고, 지금 데이터가 그 가정과 너무 어긋나는지를 보는 방식입니다.
예를 들어 새 모델과 기존 모델의 성능 차이가 없다고 가정할 수 있습니다. 이것이 귀무가설입니다. 그리고 새 모델이 더 좋다는 주장을 대립가설로 둡니다.
왜 이렇게 하느냐면, 통계는 관측 데이터에 우연한 흔들림이 섞여 있다는 사실을 항상 전제로 하기 때문입니다. 조금 차이가 보였다고 해서 곧바로 "진짜 효과가 있다"고 말하면 과장된 결론을 내릴 위험이 큽니다. 그래서 먼저 "원래 차이가 없다"고 두고, 그 가정 아래에서 지금 결과가 얼마나 이상한지를 따집니다.
즉 가설검정은 대립가설을 증명하는 도구가 아니라, 귀무가설을 유지하기 어렵다고 판단하는 절차입니다.
실제 데이터는 복잡합니다. 평균 차이, 비율 차이, 분산 차이처럼 다양한 정보가 섞여 있습니다. 그래서 검정에서는 먼저 데이터를 하나의 숫자로 요약합니다. 이 값이 검정통계량입니다.
예를 들어 두 집단 평균의 차이를 볼 수도 있고, 두 비율의 차이를 볼 수도 있습니다. 중요한 것은 다음입니다.
이렇게 데이터를 숫자로 요약해 놓아야, "지금 결과가 흔한 편인가 드문 편인가"를 계산할 수 있습니다.
p-value는 가장 자주 오해되는 개념입니다. 뜻을 정확히 잡아야 합니다.
p-value는 귀무가설이 참이라고 가정했을 때, 지금처럼 극단적이거나 그보다 더 극단적인 결과가 나올 정도를 나타내는 값입니다.
예를 들어 p-value가
이라면, 귀무가설이 맞다는 가정 아래에서 지금 같은 결과가 꽤 드문 편이라는 뜻입니다.
그래서 p-value가 유의수준보다 작으면 귀무가설을 기각합니다. 예를 들어 유의수준이
라면,
일 때 "귀무가설을 그대로 유지하기 어렵다"고 판단합니다.
하지만 p-value는 다음 뜻이 아닙니다.
이 점을 분명히 해야 합니다. p-value는 어디까지나 귀무가설 아래에서 데이터가 얼마나 드문가를 말할 뿐입니다.
가설검정은 기각 여부를 말해 주지만, 그 차이가 어느 정도 크고 얼마나 불확실한지는 충분히 보여 주지 못할 수 있습니다. 그래서 신뢰구간이 중요합니다.
신뢰구간은 모수가 있을 법한 범위를 제시합니다. 예를 들어 평균 차이에 대한 95퍼센트 신뢰구간이 있다면, 같은 절차로 표본을 많이 반복해서 뽑을 때 만들어진 구간들 중 약 95퍼센트가 참모수를 포함하게 된다는 뜻입니다.
핵심은 신뢰구간이 불확실성을 함께 보여 준다는 점입니다.
따라서 점추정값 하나만 보는 것보다 훨씬 많은 정보를 줍니다. 어떤 차이가 통계적으로 의미 있어 보여도, 구간이 너무 넓다면 실제 해석은 조심해야 합니다.
여기서 가장 중요한 사실이 나옵니다. 통계 검정은 실험설계가 제대로 되어 있을 때만 믿을 수 있습니다.
예를 들어 다음 문제가 있으면 결론이 쉽게 왜곡됩니다.
이런 상황에서는 p-value를 아무리 정교하게 계산해도 비교 자체가 공정하지 않습니다. 즉 계산의 문제가 아니라 데이터 수집 방식의 문제입니다.
AI 실험에서도 똑같습니다. 학습 데이터가 다르거나, 랜덤 시드가 통제되지 않거나, 평가셋이 다르게 구성되면 모델 비교 결과는 신뢰하기 어렵습니다.
가설검정, 신뢰구간, 실험설계는 따로 떨어진 주제가 아닙니다.
좋은 결론은 이 셋이 함께 있을 때만 나옵니다. 설계가 좋지 않으면 검정도 무너지고, 검정만 보고 구간을 보지 않으면 해석이 거칠어집니다.
AI와 서비스 실험에서는 이 개념들이 매우 자주 쓰입니다.
결국 좋은 모델을 만드는 일은 단순히 점수를 높이는 것이 아니라, 그 점수 차이가 정말 믿을 만한 차이인지 확인하는 일까지 포함합니다.
해설: 귀무가설이 참일 확률이 1퍼센트라는 뜻은 아니다.
신뢰구간이 필요한 이유 설명하기
문제: 왜 평균 차이의 점추정값만 보고 결론을 내리면 위험할 수 있는가?
풀이: 점 하나만 보면 불확실성의 크기를 볼 수 없다. 신뢰구간이 넓으면 추정이 아직 불안정할 수 있다.
해설: 구간 정보가 있어야 효과 크기와 정밀도를 함께 읽을 수 있다.
실험설계의 중요성 읽기
문제: A/B 테스트에서 무작위 배정이 왜 중요한가?
풀이: 두 집단의 차이가 원래 집단 특성 차이인지, 실제 처리 효과인지 구분하려면 출발 조건을 최대한 같게 만들어야 하기 때문이다.
해설: 설계가 잘못되면 이후의 검정 계산은 정확해도 결론은 왜곡될 수 있다.