stemka - быстрый универсальный стеммер для поисковых систем
В большинстве случаев глубокий морфологический анализ для построения
поисковых ключей оказывается избыточным: действительно, при поиске по малым массивам текстов, таким, как, например, сайт
среднего размера, база интернет-магазина, торгующего музыкальными инструментами, или коллекция статей о ловле тритонов
в паводковых разливах нет особой необходимости бороться за точность поиска. Обычно есть всего несколько документов,
содержащих искомые слова, и шум в таком случае будет минимальным.
Для решения таких задач и был построен доступный бесплатно стеммер - библиотека выделения неизменяемой основы слова, stemka. Несмотря на небольшой объем, он дает вполне качественные результаты.
В составе пакета - готовые словари для работы с русским и украинским языком и программа, позволяющая преобразовывать словари ISpell в формат, удобоваримый для работы библиотеки.
Набор тестовых примеров позволяет быстро освоить использование библиотеки и получить первые результаты буквально через десять минут, если, конечно, вы не сидите на dial-up соединении :-).
Статья целиком | Скачать stemka.tar.gz | Версия на sourceforge |