Оптимизация гиперпараметров моделей различными способами: GridSeachCV, RandomizedSearchCV, Hyperopt, Optuna.
Практика основана на датасете соревнования Kaggle Predicting a Biological Response (Прогнозирование биологического ответа).
Необходимо предсказать биологический ответ молекул (столбец 'Activity') по их химическому составу (столбцы D1-D1776).
Предварительная обработка не требуется, данные уже закодированы и нормализованы. В качестве метрики используется F1-score. Необходимо обучить две модели: логистическую регрессию и случайный лес. Далее нужно сделать подбор гиперпараметров с помощью базовых и продвинутых методов оптимизации. Важно использовать все четыре метода (GridSeachCV, RandomizedSearchCV, Hyperopt, Optuna) хотя бы по разу, максимальное количество итераций не должно превышать 50.
Подготовленный датасет
Данные представлены в формате CSV. Каждая строка представляет молекулу.
Первый столбец Activity содержит экспериментальные данные, описывающие фактический биологический ответ [0, 1] Остальные столбцы D1-D1776 представляют собой молекулярные дескрипторы — это вычисляемые свойства, которые могут фиксировать некоторые характеристики молекулы, например размер, форму или состав элементов
Последовательно реализован подбор гиперпараметров для моделей логистической регрессии и случайного леса четырьмя способами:
GridGridSeachCV RandomizedSearchCV Hyperopt Optuna
Реализована оптимизация гиперпараметров 4-мя способами для двух моделей. Блоки кода можно использовать в качестве готовых шаблонов при построении ML-моделей.