Избыточность языка — статистическая величина, обозначающая избыточность информации, содержащейся в тексте на определённом языке.
Содержание |
Математически данная величина определяется как
где — абсолютная энтропия языка, — фактическая энтропия языка.
Если принять фактическую энтропию английского языка за 1,3 бита на букву, то его избыточность равна 3,4 бита на букву (абсолютная энтропия — 4,7 бита на букву).
Величина избыточности разных языков мира колеблется в пределах 70-80%[1]. Во всех языках на всех уровнях присутствуют избыточные элементы. Избыточность в языке неслучайна: её функция — облегчить коммуникацию при неблагоприятных условиях передачи информации. Избыточность представляет собой систему предупреждения возможных ошибок[2].
С точки зрения теории информации большая избыточность позволяет хорошо сжимать тексты с помощью энтропийного кодирования.
Избыточность языка.