Цей проект генерує артефакти для репозитрію Maven (група ua.net.nlp).
morfologik-ukrainian-lt-{версія}.jar - словники у форматі Morfologik для модуля української в LanguageTool
Поширюється за умов LGPL 2.1 або вище
build.gradle генерує всі словники для LanguageTool і створює артефакт morfologik-ukrainian-lt
Щоб геренувати словники у форматі morfologik потрібно встановити модуль languagetool-tools з https://github.com/languagetool-org/languagetool
git clone https://github.com/languagetool-org/languagetool
cd languagetool
./build.sh languagetool-tools install
Щоб встановити словник(и) в LanguageTool потрібно додати змінну ltDir, що вказує на кореневий каталог сирців LanguageTool (через gradle.properties або командний рядок: -PltDir=../../../langaugetool
)
Цей проект також геренує допоміжні словники для LanguageTool (ці словники є частиною сирців українсього модуля LanguageTool):
- Словник замін для покручів (replace.txt)
- Словник пропозицій замін для небажаних слів (replace_soft.txt)
- Словник керування відмінками (case_government.txt)
morfologik-ukrainian-search-{версія}.jar - словник тегів у форматі Morfologik для повнотекстового пошуку (зокрема Apache Lucene)
Поширюється за умов Apache License 2.0.
build.nlp.gradle створює артефакт morfologik-ukrainian-search лише зі словником POS tag для повнотекстового пошуку
ЗАУВАГИ:
- словоформи надані у нижньому регістрі
- більшість додаткових тегів (coll, rare, slang тощо) перед генеруванням вилучаються
- наразі словоформи, що мають лему власної назви, отримуть лему з великої летери, наприклад: європи - Європа (це створює омонімічні позиції, прибл. 2 тис.)
- наразі словоформи, що мають декілька лем створюють декілька позицій, що в свою чергу дає їм більший пошуковий рейтинг,
наприклад:
абазинці
має позицію з лемамиабазинка
іабазинець
(це наразі близько 80 тис. позицій)