17강에서는 가능한 결과를 세고, 사건의 비율로 확률을 정의했습니다. 그런데 실제 문제에서는 사건만으로는 부족한 경우가 많습니다. 우리는 결과 하나하나보다 그 결과를 숫자로 바꾼 값을 다루고 싶습니다. 예를 들어 성공 횟수, 대기 시간, 시험 점수, 잡음 크기처럼 말입니다. 이렇게 무작위 결과를 숫자로 바꾸는 규칙이 확률변수이고, 그 숫자들이 어떻게 퍼져 있는지를 정리한 것이 분포입니다.
동전을 던지면 결과는 앞면 또는 뒷면입니다. 하지만 계산을 하려면 글자보다 숫자가 편할 때가 많습니다. 앞면이면 1, 뒷면이면 0이라고 두면 성공 횟수나 평균 같은 계산으로 자연스럽게 넘어갈 수 있습니다.
이처럼 확률변수는 무작위 결과를 숫자로 바꾸는 규칙입니다. 중요한 점은 결과 그 자체가 아니라, 결과를 어떤 숫자로 읽을 것인가를 정한다는 것입니다.
예를 들어 주사위를 던질 때 그냥 눈을 그대로 숫자로 읽을 수도 있고, 짝수면 1, 홀수면 0처럼 새로 정의할 수도 있습니다. 같은 실험이라도 확률변수를 어떻게 두느냐에 따라 우리가 보는 정보가 달라집니다.
확률변수를 정하면 이제 그 값들이 어떻게 퍼져 있는지 보고 싶어집니다. 이것이 분포입니다. 분포는 이 값이 얼마나 자주 나오는가, 값들이 어디에 몰려 있는가, 어떤 값이 더 흔한가를 정리한 것입니다.
분포는 크게 이산분포와 연속분포로 나눕니다.
이산분포는 값을 하나씩 셀 수 있습니다. 예를 들어 동전 던지기의 결과, 성공 횟수, 고장 횟수는 하나하나 셀 수 있습니다. 이런 경우에는 각 값에 직접 확률을 붙일 수 있습니다.
가장 기본적인 예가 베르누이분포입니다. 성공이면 1, 실패면 0인 확률변수
가 있고 성공확률이
라면
입니다.
즉 베르누이분포는 성공/실패처럼 두 결과만 있는 가장 단순한 확률 모델입니다.
이제 같은 실험을 여러 번 반복해 봅시다. 성공확률이 같은 실험을 독립적으로
번 반복하고 성공 횟수를
라고 두면, 이
는 이항분포를 따릅니다.
여기서 중요한 구조는 같은 성공확률, 독립 반복, 성공 횟수입니다. 즉 이항분포는 베르누이 시행을 여러 번 모아 놓은 분포라고 볼 수 있습니다.
반면 연속분포는 값을 하나씩 셀 수 없습니다. 시간, 길이, 온도처럼 연속적으로 변하는 양이 그렇습니다. 이 경우에는 한 점의 확률보다 구간의 확률이 의미를 가집니다. 그래서 확률질량함수 대신 확률밀도함수를 씁니다.
대표적인 연속분포가 정규분포입니다. 평균
를 중심으로 좌우 대칭인 종 모양을 가지며, 퍼짐의 정도는 분산
로 나타냅니다.
정규분포가 중요한 이유는 현실에서 많은 값이 이 모양에 가까워지기 쉽기 때문입니다. 여러 작은 영향이 독립적으로 더해지면 전체 결과가 평균 주변에 몰리고, 극단값은 드물어지는 경향이 있습니다. 시험 점수, 측정 오차, 센서 노이즈 같은 것이 대표적입니다.
또 드문 사건이 일정한 비율로 일어나는 상황에서는 포아송분포도 자주 나옵니다. 단위 시간당 요청 수, 사고 횟수, 도착 횟수 같은 문제입니다. 즉 분포는 단순한 공식 모음이 아니라, 현실의 무작위 상황을 수학적 모양으로 분류한 사전입니다.
결국 확률변수는 무작위 결과를 계산 가능한 숫자로 바꾸어 주고, 분포는 그 숫자들이 어떻게 퍼져 있는지를 보여 줍니다. 이후 기대값, 분산, 통계추정은 모두 이 분포 위에서 이야기됩니다.
인 동전을 한 번 던질 때, 앞면을 1, 뒷면을 0으로 두는 확률변수
의 분포를 써라.
풀이:
해설: 결과를 숫자로 바꾸면 성공/실패 문제를 바로 계산할 수 있다. 이것이 확률변수의 장점이다.
인 실험을 5번 반복할 때 성공 횟수는 어떤 분포를 따르는가?
풀이:
해설: 같은 실험을 독립적으로 반복하고 성공 횟수를 세는 구조이므로 이항분포다. 베르누이 시행이 여러 번 모인 경우라고 볼 수 있다.
풀이: 값을 하나씩 세는 것이 아니라, 구간의 확률을 밀도로 적분해서 구하기 때문이다.
해설: 연속분포에서는 특정 한 점의 확률보다 어떤 구간에 얼마나 퍼져 있는지가 중요하다.