пятница, 17 декабря 2010 г.

А я могу поместить свои символы в Unicode?

Это перевод Can I get my characters into Unicode? Автор: Майкл Каплан.

Когда-то Иван Петров указал:
...быть может НАИБОЛЬШАЯ проблема в отсутствии многих кирилических гласных букв с тупыми ударениями в Unicode и, соответственно, в кодовой странице ANSI 1251. В Unicode определены только 2+2=4 (CAPITAL и SMALL буквы с ударениями – #CYRILLIC CAPITAL LETTER IE WITH GRAVE, #CYRILLIC CAPITAL LETTER I WITH GRAVE, #CYRILLIC SMALL LETTER IE WITH GRAVE and #CYRILLIC SMALL LETTER I WITH GRAVE).

Полный список гласных в кирилице должен быть:

#CYRILLIC CAPITAL LETTER A WITH GRAVE
#CYRILLIC CAPITAL LETTER IE WITH GRAVE
#CYRILLIC CAPITAL LETTER I WITH GRAVE
#CYRILLIC CAPITAL LETTER O WITH GRAVE
#CYRILLIC CAPITAL LETTER U WITH GRAVE
#CYRILLIC CAPITAL LETTER HARD SIGN WITH GRAVE
#CYRILLIC CAPITAL LETTER YERU WITH GRAVE (только для русского языка)
#CYRILLIC CAPITAL LETTER E WITH GRAVE (только для русского языка)
#CYRILLIC CAPITAL LETTER YU WITH GRAVE
#CYRILLIC CAPITAL LETTER YA WITH GRAVE
#CYRILLIC SMALL LETTER A WITH GRAVE
#CYRILLIC SMALL LETTER IE WITH GRAVE
#CYRILLIC SMALL LETTER I WITH GRAVE
#CYRILLIC SMALL LETTER O WITH GRAVE
#CYRILLIC SMALL LETTER U WITH GRAVE
#CYRILLIC SMALL LETTER HARD SIGN WITH GRAVE
#CYRILLIC SMALL LETTER YERU WITH GRAVE (только для русского языка)
#CYRILLIC SMALL LETTER E WITH GRAVE (только для русского языка)
#CYRILLIC SMALL LETTER YU WITH GRAVE
#CYRILLIC SMALL LETTER YA WITH GRAVE

Так что мой третий вопрос:

“Что можно сделать с этой проблемой?”

См. для дальнейшей информации:
http://titus.uni-frankfurt.de/unicode/unicsel/unicself.htm#Cyrillic

Ну, когда я смотрю на этот список, мне в голову приходит только одна вещь (вернее, поток вещей!):
А̀ Ѐ Ѝ О̀ У̀
Ъ̀ Ы̀ Э̀ Ю̀ Я̀
а̀ ѐ ѝ о̀ у̀
ъ̀ ы̀ э̀ ю̀ я̀
или, в кодовых точках Unicode...
0410 0300 0415 0300 0418 0300 041e 0300 0423 0300
042a 0300 042b 0300 042d 0300 042e 0300 042f 0300
0430 0300 0435 0300 0438 0300 043e 0300 0443 0300
044a 0300 044b 0300 044d 0300 044e 0300 044f 0300
Эти символы уже существуют в Unicode в композитной (декомпозитной) форме. Заметьте, что они выглядят лучше с одними шрифтами, чем с другими - в основном это зависит от производителей шрифтов: знают ли они, что им нужно делать свои шрифты такими, чтобы эти символы выглядели бы хорошо.

Если вы хотите попробовать добавить их в Unicode в прекомпозитной форме, то процесс предложения новых символов достаточно прямолинеен. Однако, при этом чётко говорится:
Часто предлагаемый символ может быть выражен как последовательность одного или более существующих символов Unicode. Поэтому кодирование (encoding) предлагаемого символа будет дублированным представлением, и, поэтому, не подходящим для кодирования (при любом раскладе предлагаемый символ исчезнет при нормализации). К примеру, символ g-umlaut не подходит для кодирования, потому что он может выражен как последовательность <g, combining diaeresis>. Для дальнейшей информации по таким последовательностям см. Where is my Character и страницу FAQ Characters and Combining Marks, вопрос 12 и вопрос 14.
Так что, похоже, эти символы наврядли будут кодироваться отдельно.

Насчёт вопроса о добавлении кодовых точек в кодовую страницу 1251 - я разберусь с этим вопросом в отдельном посте.

This post brought to you by "Ѡ" (U+0460, CYRILLIC CAPITAL LETTER OMEGA)

Комментариев нет:

Отправить комментарий

Можно использовать некоторые HTML-теги, например:

<b>Жирный</b>
<i>Курсив</i>
<a href="http://www.example.com/">Ссылка</a>

Вам необязательно регистрироваться для комментирования - для этого просто выберите из списка "Анонимный" (для анонимного комментария) или "Имя/URL" (для указания вашего имени и ссылки на сайт). Все прочие варианты потребуют от вас входа в вашу учётку (поддерживается OpenID).

Пожалуйста, по возможности используйте "Имя/URL" вместо "Анонимный". URL можно просто не указывать.

Ваше сообщение может быть помечено как спам спам-фильтром - не волнуйтесь, оно появится после проверки администратором.