Иллюстрированный самоучитель по Microsoft Windows 2000

Кодировка символов

Кодировка символов (часто называемая также кодовой страницей) – это набор числовых значений, которые ставятся в соответствие группе алфавитно-цифровых символов, знаков пунктуации и специальных символов.

Однобайтные кодировки используют 8 бит и позволяют закодировать до 256 различных символов. В Windows первые 128 символов всех кодовых страниц состоят из стандартного набора символов ASCII. Символы с номерами от 128 до 255 представляют дополнительные символы и варьируются в зависимости от набора скриптов, представленных кодировкой символов (полный набор таблиц кодировки можно найти в книге "Developing International Software for Windows 95 and Windows NT", опубликованной Microsoft Press).

Двухбайтные кодировки, применяющиеся в Windows для азиатских языков, используют для кодирования каждого символа от 8 до 16 бит. Компьютеры обмениваются информацией в виде закодированных символов. На экране эта информация визуализируется с использованием шрифтов.

Windows 2000 поддерживает кодовые страницы OEM (изначально разработанные для MS-DOS), кодовые страницы ANSI (появившиеся с выходом Windows 3.1) и Unicode. Unicode представляет собой 16-битную кодировку символов, которая позволяет охватить все широко используемые на сегодняшний день скрипты (более подробную информацию о стандарте Unicode можно найти по адресу http://www.unicode.org).

Windows 2000 использует Unicode в качестве основной кодировки символов. Это означает, что все строки, обрабатываемые в системе, включая строки в файлах ресурсов Windows (RES-файлы), кодируются в Unicode. Windows 2000 также поддерживает кодировки символов ANSI. Каждый API, принимающий строки в качестве параметров, имеет две точки входа – 'А' или ANSI и 'W' (wide-character) – для Unicode.

Windows 2000 поддерживает дополнительные кодовые страницы для трансляции данных в Unicode и обратно, в том числе – для кодировок Macintosh, EBCDIC и ISO. Кроме того, Windows 2000 содержит таблицы трансляции для стандартов UTF-7 и UTF-8, которые широко используются для передачи данных Unicode через сети, в частности, через Интернет.

Если Вы заметили ошибку, выделите, пожалуйста, необходимый текст и нажмите CTRL + Enter, чтобы сообщить об этом редактору.