Математик высказал гениальную догадку, что информационная энтропия играет центральную роль в теории информации как мера (критерий) информации, выбора и неопределенности.
Формула Шеннона похожа на формулу Хартли, не так ли? Так и есть. Преемственность идей не вызывает никаких сомнений.
Но что означает «минус» в формуле Шеннона? В формуле Больцмана и в формуле Хартли никакого «—» нет. Откуда он взялся?
Простое математическое объяснение заключается в том, что p (вероятность) всегда меньше единицы. Значит, логарифм (в какую степень нужно возвести 2, чтобы получилось p) всегда будет отрицательным числом. Для удобства расчётов информационной энтропии на практике Шеннон ввёл «‒», чтобы полученная формально отрицательная величина превратилась в положительную. Строго говоря, по формуле Шеннона вычисляется модуль информационной энтропии.
Допустим, мы располагаем всего двумя различающимися знаками (a и b) и хотим составить сообщение длиною в десять знаков. Если мы используем в сообщении один знак (пусть это будет b), а другой (a) не используем, то вероятность встретить первый знак – 100% или 1,0, а второй знак – 0% или 0,0. Тогда сообщение, включающее знак a, не существует (количество информации и информационная энтропия для сообщения со знаком a равны нулю). Есть только ряд: bbbbbbbbbb.
Мы решили разнообразить однородную последовательность: появляется знак a. Вероятность встретить его в нашем сообщении увеличивается. Скажем, возьмём семь b и три a: вероятность встретить a составит 0,3. Одновременно увеличится количество информации: с помощью двух знаков, очевидно, можно передать больше смысла. И также увеличится энтропия сообщения: количество комбинаций из a и b будет нарастать. В какой-то момент их станет максимальное число. Когда это произойдёт? Тогда, когда мы используем пять a и пять b. Т.е. при условии, что вероятность встретить a составит 0,5.
Действительно, располагая равным количеством разных знаков и комбинируя их в любом порядке, мы можем получить наибольший набор последовательностей. Неупорядоченность текста максимальна (представьте обезьян-машинисток на пике творческого аврала).
Пойдём дальше. Начнём использовать знак a чаще, чем b. Вероятность возрастает, число a увеличивается, но энтропия уменьшается. Почему? Потому что, располагая, например, семью a и тремя b, мы можем составить меньше комбинаций – следовательно, меньше смысла, зато он становится более определенным. Информация упорядочивается.
Наконец, когда текст состоит из одних a (вероятность встретить её в сообщении равна 1,0), смысл может только один – никаких кривотолков и отклонений. «aaaaaaaaaa» и всё тут. Информационная энтропия снова равна нулю. Но количество информации для сообщения со знаком a максимально (10 из 10 в последовательности).
Клод Шеннон предложил считать информационную энтропию и собственно информацию в битах.
Может показаться, что использование бинарного кода – ненужная сложность. Напротив, это очень удобно.
Когда, например, говорят, что общий информационный объём (абсолютная энтропия) сообщения равен 10 битам, это означает, что существует 1024 возможных комбинаций символов, из которых может быть составлено сообщение. Допустим, чтобы составить какое-либо сообщение, имеющее смысл, нам достаточно информации в количестве 4 бита (фактическая энтропия). Это значит, что всего есть 16 (2>4) комбинаций, необходимых для того, чтобы собеседники понимали друг друга. Все остальные комбинации символов – бесполезная белиберда.
Как вычислить эту белиберду? Шеннон нашёл простое решение: из абсолютной энтропии надо вычесть фактическую. Это и будет