ВЕБ ДИЗАЙН

О WEB КОДИРОВКАХ 

 


Какие преимущества UTF-8 перед старыми кодировками?


Николай Федосеев UT2UZ
200106

UTF позволяет размещать на странице одновременно английские, русские,греческие, армянские и японские буквы.

Формат UTF-8

Стандарт Unicode является основой для хранения и текста во многих
современных компьютерных системах. Однако, он не совместим с
большинством Интернет-протоколов, поскольку его коды могут содержать
любые байтовые значения, а протоколы обычно используют байты 00 - 1F и
FE - FF в качестве служебных. Для достижения совместимости были
разработаны несколько форматов преобразования Unicode (UTFs, Unicode
Transformation Formats), из которых на сегодня наиболее
распространенным является UTF-8. Этот формат определяет следующие
правила преобразования каждого кода Unicode в набор байтов (от одного
до трех), пригодных для транспортировки Интернет-протоколами.

Диапазон Unicode Двоичный код символа Байты UTF-8 (двоичные)
0000 - 007F 00000000 0zzzzzzz 0zzzzzzzz
0080 - 07FF 00000yyy yyzzzzzz 110yyyyy 10zzzzzz
0800 - FFFF xxxxyyyy yyzzzzzz 1110xxxx 10yyyyyy 10zzzzzz

Здесь x,y,z обозначают биты исходного кода, которые должны
извлекаться, начиная с младшего, и заноситься в байты результата
справа налево, пока не будут заполнены все указанные позиции.

Подробное описание формата UTF-8 содержится в RFC 2279 .

Диапазон Описание Коды UTF-8
00 — 7F Basic Latin Базовая латиница 00 — 7F
80 — FF Latin-1 Supplement Латиница-1 дополнительная C2 80 — C3 BF
100 — 17F Latin Extended-A Расширенная латиница-A C4 80 — C5 BF
180 — 24F Latin Extended-B Расширенная латиница-B C6 80 — C9 8F
250 — 2AF IPA Extensions Фонетические знаки C9 90 — CA AF
2B0 — 2FF Spacing Modifier Letters Символы изменения пробела CA B0 — CB BF 
300 — 36F Combining Diacritical Marks Диакритические знаки CC 80 — CD AF
370 — 3FF Greek Греческое и коптское письмо CD B0 — CF BF
400 — 4FF Cyrillic Кириллица D0 80 — D3 BF
500 — 52F резерв D4 80 — D4 AF
530 — 58F Armenian Армянское письмо D4 B0 — D6 8F
590 — 5FF Hebrew Ивритское письмо D6 90 — D7 BF
600 — 6FF Arabic Арабское письмо D8 80 — DB BF
700 — 74F Syriac Сирийское письмо DC 80 — DD 8F


Игорь  UR3LCM
200106

 

Какие преимущества UTF-8 перед старыми кодировками?
Кодові таблиці Windows-1251, KOI-8R, KOI-8U кодують один символ одним байтом(1 байт = 8 біт) і дозволяють використовувати у системі не більше 256 символів (частина із них є спеціальними символами керування і не може бути відтворена на екрані).
Кодування UTF-8 є різновидом UNICODE кодування. 
У ньому символ може кодуватися одним або двома, трьома, .. і аж до шести байт. 
Часто уживані символи(кодова таблиця ASCII -- латинські літери, цифри, розділові знаки) передаються одним байтом і їх кодування співпадає в усіх (ASCII, Windows-1251, KOI-8R, KOI-8U, UTF-8) кодових таблицях. 
Менш уживані символи кодуються довшими послідовностями байтів.
Перевага кодування UTF-8 у порівнянні з Windows-1251, KOI-8R, KOI-8U -- воно дозволяє одночасно використовувати у системі усі відомі графічні символи людства, ще й запасом для інших цивілізацій.
У порівнянні з UNICODE -- у ньому співпадає із попередніми системами ASCII частина кодових таблиць, що значно спрощує перехід зі старих систем.PS Щось подібне використовується у FSK/PSK.