Бессловарные морфологические анализаторы
Понятно, что поговорка «нельзя объять необъятное»
относится к любым словарным лингвистическим технологиям в полной мере: как ни пополняй словник, лежащий в основе грамматического
анализатора, естественный язык всё равно окажется богаче, и новые лексемы будут постоянно появляться – и как неологизмы,
заимствования, и как узкоспециальные термины, и как жаргонные слова и выражения. Однако качественный информационный поиск подразумевает,
что обнаруживаться во всех формах будут не только те слова, которые разработчики удосужились внести в словники, но и все
остальные – тоже.
Однако, по счастию, новые слова, появляющиеся в языке, используют наиболее простые из возможных модели словоизменения, и не следует ожидать появления таких сложных парадигм, как, например, у глагола «идти» (прошедшее время - «шёл»). Какое-нибудь слово «выдропускание» будет изменяться в точности так, как наиболее типичное слово с той же правой частью - например, «кровопускание».
Именно это соображение и положено в основу обоих бессловарных анализаторов:
- вероятностного грамматического анализатора;
- стеммера для русского и украинского языка.