이 강의는 같은 수를 반복해서 곱하는 상황을 지수로 적고, 그 반대 질문을 로그로 읽는 강의입니다. 뒤에서 만나는 확률, 정보량, 손실함수에서도 로그가 계속 나오므로, 여기서는 공식을 외우기보다 왜 이런 언어가 필요한지부터 분명히 잡아야 합니다.
같은 수가 몇 번이고 반복되면 매번 다 적는 것이 번거롭습니다. 예를 들어
를 매번 길게 적는 대신,
라고 적으면 훨씬 짧고 구조도 분명해집니다.
반대로 아래 질문도 생각할 수 있습니다.
2를 몇 번 곱해야 16이 되는가?
이 질문에 답하는 언어가 로그입니다. 즉 지수와 로그는 서로 다른 주제가 아니라, 같은 관계를 앞뒤에서 읽는 두 방식입니다.
아래 식을 보겠습니다.
이 뜻은 다음과 같습니다.
여기서 2는 밑이고, 4는 지수입니다. 밑은 반복해서 곱하는 수이고, 지수는 몇 번 곱하는지를 말합니다.
지수는 단지 짧게 쓰는 편의 장치가 아닙니다. 어떤 양이 반복해서 커지거나 줄어드는 구조를 읽게 해 주는 언어입니다. 뒤에서 확률, 신경망 깊이, 성장과 감소를 볼 때 이 감각이 중요합니다.
지수는 처음에는 실제로 반복곱으로 풀어 보는 것이 좋습니다.
예를 들어
은
이라는 뜻입니다.
또
는
입니다.
즉 지수식은 외운 기호가 아니라, 반복곱의 압축 표현입니다.
지수법칙도 원리로 읽어야 합니다. 가장 기본적인 법칙은 같은 밑을 곱하면 지수를 더한다는 것입니다.
왜냐하면 왼쪽을 실제 반복곱으로 펼치면
가 되기 때문입니다. 결국 2를 다섯 번 곱한 것과 같으므로
가 됩니다.
즉 지수법칙은 억지 규칙이 아니라, 반복곱을 모아 읽은 결과입니다.
아래 지수식을 보겠습니다.
이 식을 반대로 읽으면 다음 질문이 됩니다.
2를 몇 번 곱해야 8이 되는가?
이 질문의 답을 로그로 쓰면
입니다.
즉 아래 두 식은 서로 같은 관계를 다른 방향으로 읽은 것입니다.
앞 식은 "세 번 곱하면 8이다"라고 읽고, 뒤 식은 "8을 만들려면 세 번 곱해야 한다"라고 읽습니다.
로그는 밑이 바뀌면 완전히 다른 질문이 됩니다. 이 점을 놓치면 로그를 제대로 읽기 어렵습니다.
예를 들어
은 "2를 몇 번 곱해야 8이 되는가"를 묻습니다.
반면
은 "10을 몇 번 곱해야 8이 되는가"를 묻는 것입니다.
질문 자체가 다르기 때문에 답도 다릅니다. 따라서 로그를 볼 때는 숫자 8만 보지 말고, 밑이 무엇인지 먼저 확인해야 합니다.
로그 계산이 맞는지 확인하는 가장 좋은 방법은 지수식으로 다시 바꾸어 보는 것입니다.
예를 들어
가 맞는지 확인하려면 아래를 보면 됩니다.
또
는 아래와 같은 뜻입니다.
즉 로그는 음의 지수와도 자연스럽게 연결됩니다. 밑을 몇 번 곱해야 목표 수가 되는지를 묻기 때문에, 그 횟수가 음수가 될 수도 있습니다.
로그의 가장 중요한 장점 중 하나는 곱셈을 덧셈으로 바꾸는 것입니다.
아래를 보겠습니다.
이 식을 이해하려면 a와 b를 한 번에 외우기보다, 지수식으로 생각하는 편이 낫습니다.
만약
그리고
이라면,
입니다. 따라서 로그를 취하면
가 되고, 이것을 다시 로그 기호로 쓰면
가 됩니다.
즉 로그법칙은 외워야 하는 이상한 약속이 아니라, 지수법칙을 반대로 읽은 결과입니다.
작은 수를 여러 번 곱하는 상황을 생각해 보겠습니다.
이런 곱은 숫자가 매우 작아져 읽기도 어렵고 계산도 불편합니다. 그런데 로그를 취하면 곱이 합으로 바뀝니다.
이 성질 덕분에 긴 곱셈을 긴 덧셈으로 바꿀 수 있습니다. 덧셈은 계산도 쉽고, 어떤 항이 얼마나 기여하는지도 더 잘 보입니다.
그래서 확률과 통계, 머신러닝에서는 로그가 매우 자주 등장합니다.
확률은 0과 1 사이의 수입니다. 아주 작은 확률들을 여러 번 곱하면 값이 빠르게 작아집니다.
예를 들어 독립적인 두 사건의 확률이 각각 0.01, 0.001이라면 함께 일어날 확률은
처럼 매우 작아집니다.
이럴 때 로그를 취하면 작은 곱셈이 더하기 문제로 바뀌고, 값의 크기도 더 읽기 쉬워집니다. 그래서 로그확률, 로그우도 같은 표현이 널리 쓰입니다.
드문 사건일수록 더 놀랍다고 느끼는 것이 자연스럽습니다. 정보량을 이 감각에 맞게 적는 대표적인 표현이 아래입니다.
확률 p(x)가 작을수록 로그값은 더 작은 음수가 되고, 앞에 마이너스를 붙이면 더 큰 양수가 됩니다. 즉 드문 사건일수록 더 큰 정보량을 가진다고 읽을 수 있습니다.
이 식을 지금 단계에서 완전히 계산할 필요는 없습니다. 중요한 것은 로그가 단지 계산 기술이 아니라, "작은 확률을 읽기 좋은 크기로 바꾸는 언어"라는 점입니다.
풀이: 2를 네 번 곱한다.
해설: 지수는 반복곱을 줄여 쓰는 언어다. 밑은 무엇을 곱하는지, 지수는 몇 번 곱하는지를 말한다.
풀이: 2를 몇 번 곱해야 8이 되는지 묻는 문제다.
따라서
해설: 로그는 지수와 반대 방향의 질문이다. 답이 맞는지 확인할 때는 지수식으로 다시 바꾸어 보면 된다.
풀이: 10을 몇 번 곱해야 0.01이 되는지를 본다.
따라서
해설: 로그의 답은 음수일 수도 있다. 그것은 밑을 거꾸로, 즉 분수 방향으로 곱해야 목표 수가 된다는 뜻이다.
풀이: 곱은 합으로, 나눗셈은 차로 바뀐다.
해설: 로그법칙은 지수법칙을 반대로 읽은 결과다. 이 성질 때문에 로그는 긴 곱셈을 정리하는 데 강하다.