Машинное обучение: классификация и ансамбли на Python
Выигрываем соревнование Kaggle с kNN, SVM, логистической регрессией, случайным лесом, XGBoost, CatBoost и LightGBM
Description
Мы разберем фундаментальные и прикладные подходы к классификации данных с помощью машинного обучения для страхового скоринга Prudential в соревновании на Kaggle вплоть до формирования конечного результата с помощью ансамбля стекинга.
Курс разбит на 2 части. В первой части мы последовательно пройдем все этапы работы с данными: от видов задач и их постановки до работы с моделями машинного обучения для минимизации предсказательной ошибки. Дополнительно рассмотрим фундаментальные основы построения моделей машинного обучения, базовые метрики и наиболее простые модели - линейную и логистическую регрессии. А также метрики, модели и ансамбли классификации.
Во второй части на практике разберем:
Проведение исследовательского анализа данных для поиска зависимостей: EDA.
Метрики классификации: точность, полнота, F1, квадратичная каппа и матрица неточностей.
Очистка данных и оптимизация потребления памяти.
Кластеризация данных и метод ближайших соседей.
Простая и иерархическая логистическая регрессия.
Метод ближайших соседей и поиск оптимальной модели.
Метод опорных векторов: SVM.
Дерево принятия решения и случайный лес (бэггинг).
XGBosot и градиентный бустинг.
LightGBM и CatBoost
Ансамбль стекинга для голосования и выбора лучшего результата.
Выгрузка результата для соревнования на Kaggle.
What You Will Learn!
- EDA: исследовательский анализ данных
- Точность, полнота, F1 и каппа метрики
- Простая классификация данных
- Логистическая регрессия: простая и многоуровневая
- Метод ближайших соседей: kNN
- Наивный Байес
- Метод опорных векторов: SVM
- Решающие деревья м случайный лес
- XGBoost и градиентный бустинг
- CatBoost и LightGBM
- Ансамбль голосования и стекинга
Who Should Attend!
- Аналитики Python, изучающие машинное обучение
- Программисты больших данных
- Исследователи больших данных