четверг, 26 марта 2009 г.

Некоторые файлы как-то странно показываются в Блокноте

Это перевод Some files come up strange in Notepad. Автор: Реймонд Чен.

David Cumps обнаружил, что Блокнот не хочет открывать некоторые текстовые файлы.

Причина в том, что Блокнот может редактировать файлы в нескольких кодировках. И иногда ему приходится подбирать её наугад.

Вот как выглядит "Hello" в файле в различных кодировках (encoding):

48 65 6C 6C 6F

Это обычная ANSI-кодировка.


48 00 65 00 6C 00 6C 00 6F 00

Это кодировка Unicode (little-endian) без BOM.


FF FE 48 00 65 00 6C 00 6C 00 6F 00

Это кодировка (little-endian) с BOM. Метка BOM (FF FE) нужна для двух целей: во-первых, она указывает кодировку документа (Unicode), а во-вторых, она указывает порядок байт - little-endian.


00 48 00 65 00 6C 00 6C 00 6F

Это кодировка Unicode (big-endian) без BOM. Блокнот не поддерживает эту кодировку.


FE FF 00 48 00 65 00 6C 00 6C 00 6F

Это кодировка Unicode (big-endian) с BOM. Заметьте, что эта BOM получается перестановкой байт в little-endian BOM.


EF BB BF 48 65 6C 6C 6F

Это кодировка UTF-8 с BOM.


2B 2F 76 38 2D 48 65 6C 6C 6F

Это кодировка UTF-7 с BOM. Блокнот не поддерживает эту кодировку.


Заметьте, что BOM для кодировки UTF-7 - это просто строка "+/v8-", поэтому файл не в UTF-7 ошибочно может быть принят за таковой, если он будет начинаться с этих пяти символов (как бы странно это ни было).

Кодировки, которые не имеют специальных приставок, и которые все же поддерживаются Блокнотом, - это традиционная ANSI кодировка (т.е., "plain ASCII") и Unicode (little-endian) кодировка без BOM. Когда Блокнот встречает файл, в котором не хватает специального префикса BOM, он вынужден догадываться, какую из этих двух кодировок использует этот файл. Есть функция, которая делает такую работу, - это IsTextUnicode. Она изучает байты файла и делает статистический анализ файла, чтобы высказать догадку.

И, как отмечено в документации, "абсолютной определенности не гарантируется". Кодировка коротких строк, скорее всего, будет определена неверно.

Комментариев нет:

Отправить комментарий

Можно использовать некоторые HTML-теги, например:

<b>Жирный</b>
<i>Курсив</i>
<a href="http://www.example.com/">Ссылка</a>

Вам необязательно регистрироваться для комментирования - для этого просто выберите из списка "Анонимный" (для анонимного комментария) или "Имя/URL" (для указания вашего имени и ссылки на сайт). Все прочие варианты потребуют от вас входа в вашу учётку (поддерживается OpenID).

Пожалуйста, по возможности используйте "Имя/URL" вместо "Анонимный". URL можно просто не указывать.

Ваше сообщение может быть помечено как спам спам-фильтром - не волнуйтесь, оно появится после проверки администратором.