Количество информации в тексте можно оценить с помощью понятия энтропии. Энтропия характеризует среднее количество информации, приходящееся на один символ, и зависит от мощности алфавита, то есть от количества различных символов, которые могут быть использованы.
Для алфавита мощностью ( n ) символов, энтропия одного символа в этом алфавите, в случае равновероятного появления каждого символа, равна (\log_2 n) бит. Это связано с тем, что каждый символ может принимать одно из ( n ) значений, и для его идентификации требуется (\log_2 n) бит информации. Таким образом, при равномерном распределении символов:
- Для алфавита мощностью 128 символов энтропия одного символа составляет (\log_2 128 = 7) бит.
- Для алфавита мощностью 32 символа энтропия одного символа составляет (\log_2 32 = 5) бит.
Если тексты имеют одинаковое количество символов, скажем ( k ) символов, то количество информации в них можно вычислить как произведение энтропии на количество символов. Таким образом, количество информации для текстов будет:
- Для алфавита из 128 символов: ( 7k ) бит.
- Для алфавита из 32 символов: ( 5k ) бит.
Отсюда можно найти, во сколько раз отличается количество информации в текстах:
[
\frac{7k}{5k} = \frac{7}{5} = 1.4
]
Таким образом, количество информации в текстах, составленных из алфавита мощностью 128 символов, в 1.4 раза больше, чем в текстах, составленных из алфавита мощностью 32 символа, при одинаковом количестве символов в текстах.