Это перевод Consistent garbage text can be incorrect encoding identification (or detection). Автор: Майкл Каплан.

Mushy спросил в Suggestion Box:

Майкл,

Быть может у тебя есть старый пост, который объясняет следующую ситуацию. Если да - то ткни меня в него. Вот в чём проблема. Если ты посмотришь на мой блог, то увидишь как некоторые символы кавычек показываются как â€™ вместо ". Когда я сначала публикую материал, их там нет. Как от них избавиться? Вызвано ли это использованием форматов Word, .doc, .txt, .rtf? Что лучше подходит?

P.S. Мне понравился твой блог и я занёс его в закладки.

Thanks,
Mushy

(Для тех, кто заинтересовался, блог Mushy - это Cross+Hairs)

Некоторые люди могут быть знакомы с байтовыми последовательностями; если вы с ними знакомы, то вы - гик :-)

Но чтобы увидеть, что происходит, давайте сначала рассмотрим поведение автоопределения кодировки Блокнота Microsoft:

Если у вас есть BOM UTF-16 LE, то это UTF-16 LE.
Если у вас есть BOM UTF-16 BE, то это UTF-16 BE.
Если у вас есть BOM UTF-8, то это UTF-8.
Если текст согласуется со старым определением RFC2279, то предполагается, что это UTF-8.
В противном случае текст полагается в кодовой странице системы по умолчанию (CP_ACP).

Итак, вооружённые этим знанием, давайте попробуем следующее:

Создадим в Блокноте новый текстовый файл
Добавим в него такую строку: â€™
Сохраним файл и закроем
Откроем файл

Вы обнаружите, что вы сохранили последовательность байтов $E2 $80 $99, что выглядит следующим образом в кодовой странице 1252 (и в оригинальном файле):

â€™

и это было проинтерпретировано Блокнотом после открытия как:

’

в UTF-8 - потому что последовательность $E2 $80 $99 - это то, как выглядит U+2019 (RIGHT SINGLE QUOTATION MARK) в потоке данных UTF-8.

Если web-страница показывает такие последовательности, то обычно это вызвано неверным мета-тэгом charset на странице, неверным информационным заголовком от сервера, неверным определением кодовой странице на клиенте или какой-то комбинацией этих проблем...

Если проблема возникает с другими кодовыми страницами, то точное представление будет иным:

874 - โ€™
932 - 窶
936 - 鈥
949 - ?
950 - ?
1250 - â€™
1251 - вЂ™
1252 - â€™
1253 - β€™
1254 - â€™
1255 - ג€™
1256 - â€™
1257 - ā€™
1258 - â€™

Между некоторыми из них есть лишь незначительные отличия, но это помогает увидеть, почему странные мусорные последовательности символов часто являются ошибочно распознанным UTF-8...

This post brought to you by ’ (U+2019, a.k.a. RIGHT SINGLE QUOTATION MARK)

Комментариев нет:

Отправить комментарий

Можно использовать некоторые HTML-теги, например:

<b>Жирный</b>
<i>Курсив</i>
<a href="http://www.example.com/">Ссылка</a>

Вам необязательно регистрироваться для комментирования - для этого просто выберите из списка "Анонимный" (для анонимного комментария) или "Имя/URL" (для указания вашего имени и ссылки на сайт). Все прочие варианты потребуют от вас входа в вашу учётку.

Пожалуйста, по возможности используйте "Имя/URL" вместо "Анонимный". URL можно просто не указывать.

Ваше сообщение может быть помечено как спам спам-фильтром - не волнуйтесь, оно появится после проверки администратором.

Примечание. Отправлять комментарии могут только участники этого блога.

Блог GunSmoker-а (переводы)

четверг, 9 декабря 2010 г.

Регулярный мусор в тексте может быть неверной кодовой страницей

â€™

’

Комментариев нет:

Отправить комментарий

Поиск по блогу

Подписка

Архив

Тэги

четверг, 9 декабря 2010 г.

Регулярный мусор в тексте может быть неверной кодовой страницей

â€™

’

Комментариев нет:

Отправить комментарий

Поиск по блогу

Подписка

Архив

Тэги

четверг, 9 декабря 2010 г.