확률분포를 배웠다면 이제 한 단계 더 나아가야 합니다. 분포 전체를 매번 그림으로 그리지 않고도, 그 분포가 어디를 중심으로 모이는지, 얼마나 퍼져 있는지, 두 변수가 함께 움직이는지를 짧게 요약해야 하기 때문입니다. 기대값, 분산, 공분산은 바로 그 요약 언어입니다.
이 세 질문에 각각 답하는 값이 기대값, 분산, 공분산입니다.
산술평균은 여러 수의 중심을 한 숫자로 요약합니다. 확률변수에서도 같은 생각을 씁니다. 다만 모든 값이 똑같이 자주 나오지 않으므로, 각 값에 그 값이 나올 확률만큼 가중치를 주어 평균을 냅니다.
이산확률변수 X의 기대값은 다음과 같습니다.
이 식은 "값 곱하기 그 값이 나올 가능성"을 모두 더한 것입니다. 따라서 기대값은 한 번의 결과가 아니라, 같은 실험을 아주 많이 반복했을 때 평균이 어디로 가까워지는지를 나타냅니다.
기대값은 가장 자주 나오는 값과 다를 수 있습니다. 예를 들어 극단적으로 큰 값이 아주 작은 확률로 섞여 있으면, 평균은 그 큰 값의 영향을 받아 오른쪽으로 끌려갑니다. 그래서 기대값은 가장 흔한 값이 아니라 확률을 고려한 중심이라고 이해해야 합니다.
기대값만으로는 분포를 충분히 설명할 수 없습니다. 평균이 같은 두 분포라도 하나는 값들이 평균 근처에 모여 있고, 다른 하나는 넓게 퍼져 있을 수 있기 때문입니다.
퍼짐을 보려면 각 값이 평균에서 얼마나 떨어져 있는지 살펴봐야 합니다. 가장 먼저 떠오르는 양은
입니다. 하지만 이것을 그대로 평균 내면, 평균보다 큰 값에서 나온 양수와 평균보다 작은 값에서 나온 음수가 서로 지워집니다. 그래서 퍼짐이 있는데도 평균 차이가 0이 되어 버립니다.
이 문제를 피하려고 차이를 제곱합니다. 그러면 음수도 양수로 바뀌고, 멀리 떨어진 값은 더 크게 반영됩니다. 이렇게 정의한 값이 분산입니다.
분산이 크면 값들이 중심에서 멀리 흩어져 있다는 뜻이고, 분산이 작으면 값들이 중심 근처에 모여 있다는 뜻입니다.
분산은 제곱 단위를 가지므로 해석이 불편할 수 있습니다. 예를 들어 점수의 분산은 "점수의 제곱" 단위를 가집니다. 그래서 보통 분산의 제곱근인 표준편차도 함께 봅니다.
표준편차는 원래 단위로 퍼짐을 말해 주므로 직관적으로 읽기 쉽습니다.
이제 시선을 한 변수에서 두 변수로 넓혀 보겠습니다. 공부시간 X와 시험점수 Y가 있다고 합시다. 우리는 이 둘이 서로 관련이 있는지 알고 싶습니다.
핵심 생각은 간단합니다. 두 변수가 각각 자기 평균보다 큰지 작은지를 함께 보면 됩니다.
둘 다 평균보다 크거나 둘 다 평균보다 작으면 두 차이의 곱은 양수입니다. 하나는 평균보다 크고 다른 하나는 평균보다 작으면 곱은 음수입니다. 이 곱을 평균 낸 값이 공분산입니다.
공분산의 부호는 다음처럼 읽습니다.
다만 공분산의 크기는 단위에 영향을 받습니다. 점수와 시간으로 계산한 공분산과, 점수와 분으로 계산한 공분산은 숫자 크기가 달라질 수 있습니다. 그래서 비교가 필요할 때는 표준화한 상관계수를 씁니다. 하지만 공분산의 본질은 먼저 이해해야 합니다. 두 변수가 같은 방향으로 흔들리는가를 숫자로 만든 것입니다.
세 값은 서로 다른 질문에 답합니다.
같은 평균을 가진 두 데이터라도 분산이 다를 수 있고, 같은 평균과 같은 분산을 가져도 두 변수의 관계는 공분산에 따라 달라질 수 있습니다. 그래서 실제 데이터 분석에서는 이 셋을 같이 봐야 분포의 모양을 더 잘 이해할 수 있습니다.
AI와 데이터 분석에서는 이 통계량들이 계속 등장합니다.
결국 기대값, 분산, 공분산은 복잡한 데이터 구름을 몇 개의 숫자로 압축해서 읽게 해 주는 가장 기본적인 도구입니다.
해설: 기대값은 한 번의 결과가 아니라, 이 실험을 많이 반복했을 때 평균 성공값이 어디로 가는지를 나타낸다.
분산에서 제곱이 필요한 이유 설명하기
문제: 평균에서의 차이를 그냥 더하지 않고 제곱해서 더하는 이유를 설명하라.
풀이: 평균보다 큰 값에서 나온 양수와 평균보다 작은 값에서 나온 음수를 그대로 더하면 서로 상쇄된다. 제곱하면 모두 양수가 되어 퍼짐의 크기를 제대로 반영할 수 있다.
해설: 분산은 중심에서 얼마나 떨어져 있는지를 재는 값이므로, 부호보다 거리의 크기가 중요하다.
공분산의 부호 해석하기
문제: 공부시간이 길수록 시험점수가 높아지는 경향이 있다면 공분산의 부호는 대체로 무엇인가?
풀이: 공부시간이 평균보다 크면 점수도 평균보다 큰 경우가 많고, 공부시간이 평균보다 작으면 점수도 평균보다 작은 경우가 많다. 따라서 두 차이의 곱이 양수인 경우가 많아진다.
해설: 공분산이 양수라는 것은 두 변수가 같은 방향으로 움직이는 경향이 있다는 뜻이다.