Створити відкритий, збалансований за жанрами та в майбутньому проанотований корпус сучасної української мови (БрУК) обсягом 1 млн слововживань. Корпус побудований на засадах, що були покладені в основу відомого корпусу англійської мови Brown.
- misc - допоміжні файли
- data - фрагменти текстів, зібрані для корпусу
- good - перевірені фрагменти, написані літературною українською мовою
- so-so - перевірені фрагменти, що містять помилки
- bad - перевірені фрагменти, що зовсім не відповідають вимогам (наприклад, усне мовлення)
- unprocessed - фрагменти, що чекають на перевірку
- doc - документація: вимоги до фрагментів та рішення щодо мовних питань
- scripts - допоміжні скрипти: обчислення статистики та список доданих творів
- Василь Старко
- Андрій Рисін
- Ольга Гавура
- Наталія Чейлитко
- Мар’яна Романишин
- Настасія Осідач
- Катерина Альошкіна
- Катерина Бобровник
- Христина Кулак
- Оксана Кунікевич
- Тетяна Матвєєва
- Ірина Возна
- Ян Бутельський
Дані корпусу доступні для використання згідно з умовами ліцензії "Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License" (http://creativecommons.org/licenses/by-nc-sa/4.0/)
- ВЕСУМ - Великий електронний словник української мови
- LanguageTool - вільний програмний засіб для перевірки граматики та стилю для української мови
- lang-uk - проект, метою якого є покращення комп'ютерної обробки україномовних текстів