선형회귀는 연속값을 예측할 때는 자연스럽지만, 분류 문제에서는 곧바로 쓰기 어렵습니다. 이유는 간단합니다. 분류에서는 출력이 단순한 점수 하나가 아니라 확률처럼 해석되어야 하기 때문입니다. 로지스틱 회귀는 선형점수를 확률로 바꾸는 가장 기본적인 분류 모델이고, 지수족은 이런 모델이 왜 통계적으로 자연스러운지를 보여 주는 더 큰 틀입니다.
즉 이 강의의 핵심은 "선형점수"를 "확률적 해석"으로 바꾸는 것입니다.
선형회귀는 다음처럼 예측합니다.
이 식은 연속값을 예측할 때는 괜찮습니다. 하지만 이진 분류에서는 문제가 있습니다. 오른쪽 값은 아무 실수나 될 수 있는데, 확률은
과
사이에 있어야 하기 때문입니다.
즉 분류에서는 단순히 점수를 만드는 것만으로는 부족합니다. 그 점수를 확률처럼 읽을 수 있는 값으로 바꾸는 과정이 필요합니다.
로지스틱 회귀도 출발은 선형회귀와 비슷합니다. 먼저 입력으로부터 선형점수를 계산합니다.
이 값은 아직 확률이 아닙니다. 다만 분류의 신호로 해석할 수는 있습니다.
이제 이 선형점수를 확률 범위로 옮겨야 합니다.
시그모이드 함수는 다음과 같습니다.
이 함수는 아무 실수나 입력받아 항상 0과 1 사이 값을 출력합니다. 그래서 확률로 해석하기 좋습니다.
로지스틱 회귀에서는 양성 클래스 확률을 이렇게 둡니다.
이 식의 의미는 직관적입니다.
즉 로지스틱 회귀는 선형 경계를 유지하면서도 출력을 확률로 읽을 수 있게 만든 모델입니다.
로지스틱 회귀의 중요한 해석은 확률 자체보다 오즈를 보는 것입니다.
오즈는 다음처럼 씁니다.
여기서 p는 양성 클래스 확률입니다.
이 오즈에 로그를 취한 값이 logit입니다.
로지스틱 회귀에서는 이 값이 선형결합과 같아집니다.
이 식은 매우 중요합니다. 확률 자체는 비선형이지만, logit 공간에서는 입력의 선형함수로 표현된다는 뜻이기 때문입니다. 그래서 로지스틱 회귀는 확률모형이면서도 선형모형의 해석력을 어느 정도 유지합니다.
이진 분류의 출력은 0 아니면 1입니다. 따라서 각 데이터의 출력은 베르누이분포로 모델링할 수 있습니다.
즉 어떤 입력 x가 주어졌을 때
이고, 그 확률은
처럼 생각할 수 있습니다.
로지스틱 회귀는 바로 이 p를 입력 x의 함수로 만든 것입니다. 즉 "입력에 따라 달라지는 베르누이 성공확률"을 모델링하는 방식이라고 볼 수 있습니다.
그래서 로지스틱 회귀는 단순한 분류 알고리즘이 아니라, 확률모형과 선형모형이 만나는 아주 중요한 사례입니다.
지수족은 많은 확률분포를 하나의 공통 형태로 묶어 줍니다. 일반적인 형태는 다음과 같습니다.
겉보기에는 추상적이지만, 핵심은 이렇습니다.
베르누이분포, 포아송분포, 가우시안분포 등이 이 틀 안에서 이해됩니다. 그래서 개별 분포를 따로 외우기보다, 큰 구조를 이해하면 모델링과 추정 원리를 더 통일적으로 볼 수 있습니다.
로지스틱 회귀가 중요한 이유 중 하나는, 출력이 베르누이분포이고 베르누이분포가 지수족에 속하기 때문입니다.
즉 로지스틱 회귀는 그냥 우연히 잘 작동하는 함수 조합이 아니라, 지수족 분포와 선형예측자를 연결한 통계적으로 자연스러운 모델입니다.
그래서 이 강의는 뒤의 일반화선형모형, 확률적 분류, 신경망 출력층 해석으로 자연스럽게 이어집니다.
로지스틱 회귀는 단순한 이진분류 모델이지만, 현대 AI를 이해하는 데 여러 중요한 힌트를 줍니다.
신경망의 마지막 출력층이 시그모이드나 소프트맥스를 쓰는 이유를 이해할 때도, 로지스틱 회귀는 가장 기본적인 기준점이 됩니다.
일 때 시그모이드 값은 얼마인가?
풀이:
해설: 경계에 있는 점은 양성 클래스와 음성 클래스가 반반으로 해석된다.
선형점수와 확률 해석하기
문제: 선형점수 z가 매우 크면 양성 클래스 확률은 어떻게 되는가?
풀이: 시그모이드 값이 1에 가까워진다.
해설: 큰 양수 점수는 양성 클래스 쪽으로 강한 신호를 준다는 뜻이다.
지수족의 역할 설명하기
문제: 지수족이 왜 유용한가?
풀이: 서로 다른 분포를 하나의 공통 수학 형태로 묶어 모델링과 추정 원리를 통일적으로 설명할 수 있기 때문이다.
해설: 개별 분포를 각각 외우기보다, 공통 구조를 통해 더 큰 그림을 볼 수 있다.