On this page
정보이론과 부호화
경북대학교 전자공학부 주언경 교수님 교재의 내용을 정리하였습니다.
제 2장. 정보의 정의와 척도
평균 부호어 길이(average codeword length) \[\bar{L}=\sum^{n}_{i=1}P_il_i\] 여기서 \(P_i\) 는 각 메시지의 발생확률, \(l_i\)는 각 메시지를 표현하는 비트수 = 부호어 길이
적은 비트수가 필요하다는 것은 그만큼 정보가 적다는 것으로 해석 가능
정보의 정의와 정보량과 그 확률 사이에는 깊은 관계가 있다.
예시) ‘개가 사람을 무는 사건’ / ‘사람이 개를 무는 사건’
전자는 흔히 있는 일, 별다른 정보가 없음
후자는 거의 있을 수 없는 일, 많은 정보를 제공
예시로 알 수 있듯 정보란 결국 불확실성(uncertainty)로 정의가 가능. 그 사건이 확실할수록 정보는 적어지고, 반대로 불확실할수록 많아지는 것.
예시) “내가 오늘 점심을 먹었다.” / “나는 오늘 점심을 못 먹었다.”
전자는 정보 X. 어제도 그랬고 또 내일도 항상 같을 것이기 때문
후자는 정보 제공 O. 그 이유가 궁금하고 또 내일도 굶을 것인지 의심스러우니…
예시로 알 수 있듯 정보란 불규칙성(irregularity)으로도 정의가 가능. 규칙적인 사건은 정보가 없고, 불규칙적으로 일어나는 사건은 많은 정보를 가지고 있는 것.
불확실성과 불규칙성의 정도를 나타내는 파라미터는 수학적으로 익히 알려진 확률이다. 또한 정보량은 확률에 반비례한다는 특성도 알 수 있다.
확률이 높을수록 (=사건이 확실하고 규칙적일수록) 정보량은 줄어들고
확률이 낮을수록 (=사건이 불확실하고 불규칙할수록) 정보량은 늘어난다.
이러한 추론을 바탕으로 정보량을 다음과 같이 정의한다.
정의: 어떤 사건 \(E\) 의 발생확률이 \(P_E\) 라고 가정하자. 만약 당신이 사건 \(E\)가 실제 발생했다고 들었다면 다음과 같은 단위의 정보량 \(I_E\) 를 받은 것이다.
\[I_E ≡ \text{log}\frac{1}{P_E}\]
유의점
정보량과 확률은 반비례
그 반비례의 관계가 대수(logarithm)로 연결되어 있다는 것
만약 밑수(base)가 2이면 정보량의 단위는 2진 정보단위(binary information unit), 비트(bits)로 표현. 기존의 이진 디지트(binary digits)의 수를 표현하는 비트와 같은 단위를 사용하니 혼동이 없기를 바람
밑수는 2로 사용하는 것이 보편화되어있다.
\[I_E=\text{log}_2\frac{1}{P_E}\quad[\text{bits]}\]
엔트로피
어떤 정보원이 \(n\) 개의 심벌 조합 \(X=\{x_1, x_2, \cdots,x_n\}\) 에서 일련의 심벌을 보낸다. 그리고 이 정보원이 특정 순간에 \(x_i,(1\leq i \leq n)\) 라는 심벌을 보낼 확률이 \(P_i=\text{Pr}\{X=x_i\}\) 이다. 그 확률은 독립적이라고 가정하자. 이때 만약 \(x_i\) 라는 심벌을 받았다면 그 정보량은 다음과 같다.
\[I_i=\text{log}_2\frac{1}{P_i}\quad[\text{bits]}\]
따라서 각 심벌은 서로 다른 정보량을 가질 수 있고, 그런 심벌이 모두 \(n\)개가 있다. 그러므로 하나의 심벌당 받을 수 있는 평균 정보량 \(H(X)\) 는 다음과 같다.
\[H(X)=\sum^n_{i=1}P_iI_i=\sum^n_{i=1}P_i\text{log}_2\frac{1}{P_i}\quad [\text{bits]}\]
이 평균정보량 \(H(X)\) 는 다른 말로 ’엔트로피(entropy)’라고 한다.
정리 2.1
\(n\) 개의 심벌 조합, 즉 \(X=\{x_1, x_2, \cdots, x_n\}\) 에 대해서는 항상 다음의 부등식이 성립한다.\[H(X)\leq \text{log}_2 n\]
그리고 단지 모든 \(i\) 에 대해 \(P_i=\frac{1}{n}\) 인 경우에만 등호가 성립한다.
이 정리에서 알 수 있는 사실
\(n\) 개의 심벌이 있는 경우, 심벌당 엔트로피의 최대값은 \(\text{log}_2 n\) 이다.
그 최대값은 단지 모든 심벌이 동일한 확률 값을 가지는 경우, 즉 모든 \(i\) 에 대해 \(P_i = \frac{1}{n}\) 일 때만 달성 가능하다.
모든 심벌의 확률이 동일할 경우가 그 심벌에 대해 예측하기가 가장 어렵다. 이는 그만큼 불확실성이 커진다는 이야기이며 정보의 특성상 정보량이 많아진다는 뜻. 최고의 불확실성을 가질 때 정보량이 최대가 되는 특성은 열역학 등에서 사용하는 엔트로피의 특성과 동일.