Классификатор текста

Поднятие окружения

Установка системных зависимостей

sudo apt-get install python virtualenv

Далее нужно создать виртуальное окружение

virtualenv text_analytics

Теперь активируем виртуальное окружение

source /path/to/newly/created/virtual/text_analytics/bin/activate

Склонируйте git репозиторий в желаемую папку
Пройдите в папку, где расположен репозиторий
При активированном виртуальном окружении выполните

 python

Номер версии python в консоли должен быть 2.7

Использование классификатора текста

Есть два класса, которые нам помогут в определении категории текста. MachineTrainer и CategoryPredictor.

MachineTrainer - класс, который скачивает данные для обучения из сайта http://qwone.com/~jason/20Newsgroups. После скачивание происходит преобразование текста в векторные числа, усредняется частота встречаемых слов и используя SGDClassifier класс из библиотеки scikit, обучает машину.

CategoryPredictor - класс, который умеет определять категорию нового текста основываясь на уже существующих данных.

Внимание! Так как данные для обучения были на английском языке, ожидается, что новые входные данные будут тоже на английском языке. Используйте английский язык для определения категории.

Категории, выбирает CategoryPredictor класс.

comp.graphics
comp.os.ms-windows.misc
comp.sys.ibm.pc.hardware
comp.sys.mac.hardware
comp.windows.x rec.autos
rec.motorcycles
rec.sport.baseball
rec.sport.hockey sci.crypt
sci.electronics
sci.med
sci.space
misc.forsale talk.politics.misc
talk.politics.guns
talk.politics.mideast talk.religion.misc
alt.atheism
soc.religion.christian

from predictor.machine_trainer import MachineTrainer
from predictor.category_predictor import CategoryPredictor
mt = MachineTrainer()  # создание экземпляра класса для обучения
mt.train()    # обучение
cp = CategoryPredictor(mt)    #   создание экземпляра
cp.predict("god probably lives somewere in the heaven")    # определение категории предложения

# >>> god probably lives somewere in the heaven => soc.religion.christian

Name		Name	Last commit message	Last commit date
Latest commit History 26 Commits
predictor		predictor
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Классификатор текста

Поднятие окружения

Использование классификатора текста

About

Releases

Packages

Languages

adiletmaratov/text-category-prediction

Folders and files

Latest commit

History

Repository files navigation

Классификатор текста

Поднятие окружения

Использование классификатора текста

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages