четверг, 25 ноября 2010 г.

У каждого символа есть история, часть 8: U+03c2 (GREEK SMALL LETTER FINAL SIGMA)

Это перевод Every character has a story #8: U+03c2 (GREEK SMALL LETTER FINAL SIGMA). Автор: Майкл Каплан.

GREEK SMALL LETTER FINAL SIGMA - это такой тип символа, за которым всегда остаётся последнее слово.

Этот символ (ς) используется только когда он находится в конце слова; в противном случае вы должны использовать U+03c3 (σ, a.k.a. GREEK SMALL LETTER SIGMA).

Часть его истории в стандарте Unicode описывается на этом сайте:
Final sigma - это позиционный вариант sigma (U+03C3 Greek Small Letter Sigma, σ), что также случается в иврите и арабском. Законный вопрос - нужны ли в Unicode две кодовые точки для обоих случаев; и, к примеру, ранний вариант стандарта содержал лишь одну кодовую точку, без выделения этой разницы. Однако, использование двух кодовых точек в теперь уже устаревшей кодовой странице Latin-7 решило дело в пользу двух отдельных кодовых позиций.
Этот же сайт также немного говорит об истории этой буквы в языке.

U+03c2 имеет некоторые очевидные упоминания в частях FAQ по Unicode, касаемо свойств символов, регистра и имён:
Q: Является ли регистровое проецирование в Unicode полностью обратитмым?
A: Нет, существуют символы, которые после преобразования становятся одним символом (два разных символа приводят к одному результату). К примеру, верхний регистр sigma и final sigma - это символ capital sigma.
и
Q: В конце SpecialCasing.txt есть две строки, которые выглядят для меня странно. Можете их объяснить?
# 03C3; 03C2; 03A3; 03A3; FINAL; # GREEK SMALL LETTER SIGMA
# 03C2; 03C3; 03A3; 03A3; NON_FINAL; # GREEK SMALL LETTER FINAL SIGMA
A: Обе эти строки с условиями (колонка 5); т.е., обычный текст с U+03C3 (просто sigma, не final) должен быть записан как U+03C2 (final sigma), если он стоит в конце слова, а U+03C2 (final sigma) должен быть записан как U+03C3 (просто sigma), если он не стоит в конце слова. Именно это и означали бы эти две строки, будь они раскомментированы. Однако они закомментированны именно по этой причине: файл SpecialCasing не предназначен для нормализации формы сигмы.
В 2001-м году также была такая интересная дискуссия в Unicode List:
Carl W. Brown:
Является ли этот символ финальным, если за ним следует дефис или он объединяется с диакритическим знаком? Может у нас быть final sigma в середине слова?

Patrick T. Rourke:
Не уверен, что говорят правила Unicode, но правильный ответ - нет. Форма символа final sigma не используется, если символ стоит в середине слова, но в конце строки (т.е. когда за ним стоит дефис переноса слова на следующую строку). Кроме того, нет никакой причины, чтобы согласная (кроме rho) сопровождалась бы диакритическим знаков, за исключением, скажем, underdot для использования в папирологических или эпиграфических текстах.

Верхний регистр sigma всегда одинаков, вне зависимости от положения в слове; нет никакой разницы между final sigma в верхнем регистре и initial/medial sigma в верхнем регистре.

Если шрифт использует lunate sigma для начальной и медиальной формы, то он должен использовать его и для финальной формы. И наоборот.

Nick Nicholas:
Насчёт последнего: да, в каких-то традициях 19-го века, когда final sigma использовалась для указания отличий префикса pros- от pro-; т.е. вы увидите, как Lambros писал в своём журнале _Neos Hellenomnemon_, скажем, PRO*S*ABBATON = pro-sabbaton, но: PRO*@*AGW = pros-agw (извините за не Unicode; я сейчас на Mac-е). Эта традиция уже не соблюдается, и я не думаю, что она когда-то была распространена в западной Европе. Я думаю, что я видел такую же вещь и для других префиксов вроде eis-.

Диакритический знак за final sigma может быть только в диалектологии современного греческого - к примеру, гачек использовался для указания, что sigma произносится как "sh" (я думаю, что так же поступают и эпиграфисты и папирологисты, хотя они обычно предпочитают использование lunate sigma). В этом случае, да, final sigma всё ещё остаётся финальной. Перед дефисом, с другой стороны, сигма всегда будет строго медиальной, если только вы не делаете этот трюк с префиксом pros- из 19-го века.
Carl W. Brown ответил Nick-у:
Ник,

Если у тебя есть сигма в нижнем регистре, за которой следует диакритический знак, то она будет финальной; сигма, гачек или какая-то другая буква.

Тогда Carl W. Brown попробовал переформулировать вопрос:
Быть может, будет проще спросить, бывают ли случаи, когда вам нужно использовать финальную форму сигмы, если она не стоит в конце слова. Только в современном греческом.

Lucas Pietsch ответил Patrick-у:
Только одна поправка: ты получаешь final sigma перед явным (жёстким) дефисом, т.е. U+2020 и дригими типами чёрточек, в отличие от (мягких) дефисов для разделения строк (U+00AD).

Я думаю, что первое навряд ли встречается в древнегреческом, но это точно происходит в современном: при соединении существительных вроде κράτος-μέλος. Насколько я вижу, Unicode правила обрабатывают эту ситуацию верно.

Michael Everson доказал, что он - ас в категории алфавиты :-) :
Sigma с гачеком используется, по крайней мере, в словарях цаконского диалекта.

Nick Nicholas не согласился с высказыванием Carl W. Brown-а:
> Если у тебя есть сигма в нижнем регистре, за которой следует диакритический знак, то она будет финальной; сигма, гачек или какая-то другая буква.

Нет, сэр. И медиальная сигма с диакритикой встречается намного более часто, чем сигма с диакритикой в конце слова.

Nick Nicholas также ответил на переформулированный вопрос Carl W. Brown-а:
То, что я описал в первом абзаце - лишь один момент, с которым я знаком (тексты 19-го века, которые я имел ввиду, были редакциями византийских текстов, но я думаю, что редактор просто обобщал это, и он не был единственным, кто так поступал). Это никогда не было общепринятой практикой. Вы увидите множество стигм вроде sigma-tau до девятнадцатого столетия, которые записывались как final sigma-ы; но они, тем не менее, - stigma-ы, а не sigma-ы.

Ах, да - только что вспомнил: фонетический греческий алфавит, используемый в Советском Союзе в 30-х годах использовал final sigma везде (и удваивал её для "sh"). И снова: это не общепринятая практика, и такие тексты приходилось перепечатывать, чтобы подогнать под обычные стандарты (я не знаю, делают ли они ещё так сегодня).

Carl W. Brown ответил к этому более полному ответу от Nick Nicholas:
Похоже, что специальные правила по регистровым операциям Unicode TR 21 не совсем верны для греческой final sigma.

Final sigma в современном греческом должна использоваться только в конце слова, включая случаи, когда два отдельных слова соединены жёстким дефисом. Если же за сигмой следует символ вроде мягкого дефиса, то вам нужно посмотреть ещё на один символ вперёд. Если там будет буква, то сигма - не финальная.

Более простой тест будет заключаться в проверке, кто будет найден первым: буква, пробельный символ или жёсткий дефис. Если это буква, то у нас не финальная сигма.

Nick Nicholas тут же ответил на это предложение:
Именно это мы и делаем у себя в коде с текущей бэтой (где S сразу и медиальная и финальная); на самом деле, бэта объединяет жёсткий дефис и тире.

Если правила Unicode неверны - ну, я надеюсь, что те, кто их может исправить, нас читают :-)

Тут встрял Mark Davis, чтобы ответить на баг:
Да, это было занесено как отчёт о баге. Это будет исправлено в следующий раз, когда мы будем обновлять регистровые маппинги. Сейчас же мы находимся в процессе выпуска Unicode 3.1, так что это исправление будет сделан попозже.
Я поговорю об этом символе в Windows в другой раз...

This post brought to you by "ς" and "σ" (U+03c2 and U+03c3, a.k.a. GREEK SMALL LETTER FINAL SIGMA и GREEK SMALL LETTER SIGMA)
И обе они жаждут услышать новости об изменении их статуса в Windows!

Комментариев нет:

Отправить комментарий

Можно использовать некоторые HTML-теги, например:

<b>Жирный</b>
<i>Курсив</i>
<a href="http://www.example.com/">Ссылка</a>

Вам необязательно регистрироваться для комментирования - для этого просто выберите из списка "Анонимный" (для анонимного комментария) или "Имя/URL" (для указания вашего имени и ссылки на сайт). Все прочие варианты потребуют от вас входа в вашу учётку (поддерживается OpenID).

Пожалуйста, по возможности используйте "Имя/URL" вместо "Анонимный". URL можно просто не указывать.

Ваше сообщение может быть помечено как спам спам-фильтром - не волнуйтесь, оно появится после проверки администратором.