Классификация тональности текста комментариев пользователей
-
Pandas, NLTK, Sklearn
-
Google Drive
Требуется обучить логистическую регрессию для определения тональности текста.
Исходные данные представлены двумя датасетами (обучающим и тестовым), включающими тексты комментариев пользователей в исходном и лемматизированном виде. Целевой бинарный признак 'positive' содержится в обучающем датасете.
Предсказания необходимо сохранить в столбце positive и преобразовать в отдельный csv-файл, загружаемый в облачную систему со скрытыми правильными ответами 'positive' тестовой выборки.
Целевое ограничение: значение метрики accuracy должно быть > 0.62.