HTML Unicode (UTF-8) Справочник
Консорциум Unicode
Консорциум Unicode разрабатывает стандарт Unicode. Их цель - заменить существующие наборы символов стандартным форматом преобразования Unicode (UTF).
Стандарт Unicode стал успешным и реализован в HTML, XML, Java, JavaScript, электронной почте, ASP, PHP и т.д. Стандарт Unicode также поддерживается во многих операционных системах и во всех современных браузерах.
Консорциум Unicode сотрудничает с ведущими организациями по разработке стандартов, такими как ISO, W3C и ECMA.
Наборы символов Unicode
Unicode (Юникод) может быть реализован различными наборами символов. Наиболее часто используемые кодировки - UTF-8 и UTF-16:
Набор символов | Описание |
---|---|
UTF-8 | Символ в UTF-8 может иметь длину от 1 до 4 байтов. UTF-8 может представлять любой символ в стандарте Unicode. UTF-8 обратно совместим с ASCII. UTF-8 является самой предпочтительной кодировкой для электронной почты и веб-страниц |
UTF-16 | 16-битный формат преобразования Unicode - это кодировка символов переменной длины для Unicode, способная кодировать весь набор Unicode. UTF-16 используется в основных операционных системах и средах, таких как Microsoft Windows, Java и .NET. |
Совет:Первые 128 символов Unicode (которые соответствуют один к одному с ASCII) кодируются с использованием одного октета с тем же двоичным значением, что и ASCII, что делает действительный текст ASCII допустимым также в кодировке UTF-8 Unicode.
HTML 4 поддерживает UTF-8. HTML 5 поддерживает как UTF-8, так и UTF-16!
HTML5 Стандарт: Unicode UTF-8
Поскольку наборы символов в ISO-8859 были ограничены по размеру и несовместимы в многоязычных средах, Консорциум Unicode разработал стандарт Unicode.
Стандарт Unicode охватывает (почти) все символы, знаки препинания и символы в мире.
Unicode позволяет обрабатывать, хранить и транспортировать текст независимо от платформы и языка.
Кодировка символов по умолчанию в HTML-5 - UTF-8.
Если веб-страница HTML5 использует набор символов, отличный от UTF-8, это должно быть указано в теге
<meta>
:
Пример
<meta charset="ISO-8859-1">
Разница между Unicode и UTF-8
Unicode - это набор символов. UTF-8 - это кодировка.
Unicode - это список символов с уникальными десятичными числами (кодовые точки). A = 65, B = 66, C = 67, ....
Этот список десятичных чисел представляет строку "hello": 104 101 108 108 111
Кодировка - это то, как эти числа переводятся в двоичные числа для хранения на компьютере:
Кодировка UTF-8 сохранит "hello", например, как (бинарный код): 01101000 01100101 01101100 01101100 01101111
Кодировка переводит числа в двоичные числа. Набор символов переводит символы в числа.
Коды HTML5 символов UTF-8
Ниже приведен список некоторых кодов символов UTF-8, поддерживаемых HTML5:
Коды символов | Десятичный | Шестнадцатеричный |
---|---|---|
C0 Controls and Basic Latin | 0-127 | 0000-007F |
C1 Controls and Latin-1 Supplement | 128-255 | 0080-00FF |
Latin Extended-A | 256-383 | 0100-017F |
Latin Extended-B | 384-591 | 0180-024F |
Spacing Modifiers | 688-767 | 02B0-02FF |
Diacritical Marks | 768-879 | 0300-036F |
Greek and Coptic | 880-1023 | 0370-03FF |
Cyrillic Basic | 1024-1279 | 0400-04FF |
Cyrillic Supplement | 1280-1327 | 0500-052F |
General Punctuation | 8192-8303 | 2000-206F |
Currency Symbols | 8352-8399 | 20A0-20CF |
Letterlike Symbols | 8448-8527 | 2100-214F |
Arrows | 8592-8703 | 2190-21FF |
Mathematical Operators | 8704-8959 | 2200-22FF |
Box Drawings | 9472-9599 | 2500-257F |
Block Elements | 9600-9631 | 2580-259F |
Geometric Shapes | 9632-9727 | 25A0-25FF |
Miscellaneous Symbols | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |