пятница, 27 марта 2009 г.

Почему очень большой словарь является не очень хорошей идеей

Это перевод Why a really large dictionary is not a good thing. Автор: Реймонд Чен.

Иногда вы можете увидеть, как кто-то хвастается тем, как много слов в их словаре проверки орфографии. На самом деле, слишком много слов в словаре - это ещё хуже, чем когда их слишком мало.

Предположим, что у вас есть орфографический словарь, в котором есть каждое слово из Оксфордского словаря Английского языка. Тогда вы захотите проверить такое предложение:

Therf werre eyght bokes.

Это предложение пройдёт проверки на ура, потому что все слова в предложении выше, являются действительными английскими словами - хотя большинству людей будет довольно трудно сказать, что же они значат.

Английский язык имеет так много слов, что если вы включите их все в свой словарь, то тогда опечатки будут слишком часто (случайно) совпадать с корректными английскими словами и, следовательно, не будут обнаружены орфографической проверкой. А это идёт вразрез со смыслом существования такой проверки: поиском орфографических ошибок.

Поэтому радуйтесь, что ваш проверяльщик орфографии не имеет крупнейший словарь в мире. Если бы он у него был, его работа значительно бы ухудшилась.

После того, как я написал эту статью, я нашел хорошее обсуждение вопроса об оптимальном размере словаря на сайте программного обеспечения Wintertree.

Комментариев нет:

Отправить комментарий

Можно использовать некоторые HTML-теги, например:

<b>Жирный</b>
<i>Курсив</i>
<a href="http://www.example.com/">Ссылка</a>

Вам необязательно регистрироваться для комментирования - для этого просто выберите из списка "Анонимный" (для анонимного комментария) или "Имя/URL" (для указания вашего имени и ссылки на сайт). Все прочие варианты потребуют от вас входа в вашу учётку (поддерживается OpenID).

Пожалуйста, по возможности используйте "Имя/URL" вместо "Анонимный". URL можно просто не указывать.

Ваше сообщение может быть помечено как спам спам-фильтром - не волнуйтесь, оно появится после проверки администратором.