4.3.1. Юникод. UTF-8
<<Назад
|
Содержание
| Далее>>
Теоретически давно существует решение
проблем связанных с кодировкой. Оно
называется Unicode (Юникод). Unicode – это кодировочная
таблица, в которой для кодирования каждого символа используется
2 байта, т.е. 16 бит. На основании такой таблицы может быть
закодировано N=216=65 536
символов.
Юникод включает практически все
современные письменности, в том числе: арабскую, армянскую,
бенгальскую, бирманскую, греческую, грузинскую, деванагари,
иврит, кириллицу, коптскую, кхмерскую, латинскую, тамильскую,
хангыль, хань (Китай, Япония, Корея), чероки, эфиопскую,
японскую (катакана, хирагана, кандзи) и другие.
С академической целью добавлены многие
исторические письменности, в том числе: древнегреческая,
египетские иероглифы, клинопись, письменность майя, этрусский
алфавит.
В Юникоде представлен широкий набор
математических и музыкальных символов, а также пиктограмм.
Для символов кириллицы в Юникоде выделено
два диапазона кодов:
Cyrillic (#0400 —
#04FF)
Cyrillic Supplement
(#0500 — #052F).
Но внедрение таблицы Unicode в
чистом виде сдерживается по той причине, что если код одного
символа будет занимать не один байт, а два байта, что для
хранения текста понадобится вдвое больше дискового пространства,
а для его передачи по каналам связи – вдвое больше времени.
Поэтому сейчас на практике больше
распространено представление Юникода UTF-8 (Unicode
Transformation Format). UTF-8 обеспечивает наилучшую
совместимость с системами, использующими 8-битные символы.
Текст, состоящий только из символов с номером меньше 128, при
записи в UTF-8 превращается в обычный текст ASCII. Остальные
символы Юникода изображаются последовательностями длиной от 2 до
4 байтов. В целом, так как самые распространенные в мире символы
– символы латинского алфавита - в UTF-8 по-прежнему занимают 1
байт, такое кодирование экономичнее, чем чистый Юникод.
<<Назад
|
Содержание
| Далее>>
|