Skip to content

Браунський корпус української мови

Notifications You must be signed in to change notification settings

brown-uk/corpus

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Браунський корпус української мови

Завдання

Створити відкритий, збалансований за жанрами та в майбутньому проанотований корпус сучасної української мови (БрУК) обсягом 1 млн слововживань. Корпус побудований на засадах, що були покладені в основу відомого корпусу англійської мови Brown.

Структура репозиторію

  • misc - допоміжні файли
  • data - фрагменти текстів, зібрані для корпусу
    • good - перевірені фрагменти, написані літературною українською мовою
    • so-so - перевірені фрагменти, що містять помилки
    • bad - перевірені фрагменти, що зовсім не відповідають вимогам (наприклад, усне мовлення)
    • unprocessed - фрагменти, що чекають на перевірку
  • doc - документація: вимоги до фрагментів та рішення щодо мовних питань
  • scripts - допоміжні скрипти: обчислення статистики та список доданих творів

Команда

  • Василь Старко
  • Андрій Рисін
  • Ольга Гавура
  • Наталія Чейлитко
  • Мар’яна Романишин
  • Настасія Осідач
  • Катерина Альошкіна
  • Катерина Бобровник
  • Христина Кулак
  • Оксана Кунікевич
  • Тетяна Матвєєва
  • Ірина Возна
  • Ян Бутельський

Ліцензія

Дані корпусу доступні для використання згідно з умовами ліцензії "Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License" (http://creativecommons.org/licenses/by-nc-sa/4.0/)

Інші проекти

  • ВЕСУМ - Великий електронний словник української мови
  • LanguageTool - вільний програмний засіб для перевірки граматики та стилю для української мови
  • lang-uk - проект, метою якого є покращення комп'ютерної обробки україномовних текстів

About

Браунський корпус української мови

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages