Стеммер stemka

stemka - быстрый универсальный стеммер для поисковых систем


В большинстве случаев глубокий морфологический анализ для построения поисковых ключей оказывается избыточным: действительно, при поиске по малым массивам текстов, таким, как, например, сайт среднего размера, база интернет-магазина, торгующего музыкальными инструментами, или коллекция статей о ловле тритонов в паводковых разливах нет особой необходимости бороться за точность поиска. Обычно есть всего несколько документов, содержащих искомые слова, и шум в таком случае будет минимальным.

Для решения таких задач и был построен доступный бесплатно стеммер - библиотека выделения неизменяемой основы слова, stemka. Несмотря на небольшой объем, он дает вполне качественные результаты.

В составе пакета - готовые словари для работы с русским и украинским языком и программа, позволяющая преобразовывать словари ISpell в формат, удобоваримый для работы библиотеки.

Набор тестовых примеров позволяет быстро освоить использование библиотеки и получить первые результаты буквально через десять минут, если, конечно, вы не сидите на dial-up соединении :-).


Статья целиком Скачать stemka.tar.gz Версия на sourceforge