Машинное обучение: из грязи в Kaggle-князи
Регрессия, классификация, ансамбли и глубокие нейросети
Description
Внимание: для доступа к курсам ITtensive на Udemy напишите, пожалуйста, на support@ittensive.com с названием курса или группы курсов, которые хотите пройти.
Большой практический курс по всем аспектам машинного обучения на Python в решении задач соревнования Kaggle. Курс состоит из 4 больших частей:
Введение в машинное обучение
Последовательно пройдем все этапы работы с данными: от видов задач и их постановки до работы с моделями машинного обучения для минимизации предсказательной ошибки. Дополнительно рассмотрим фундаментальные основы построения моделей машинного обучения, базовые метрики и наиболее простые модели - линейную и логистическую регрессии.
Регрессия и предсказание данных
Рассмотрим базовые линейные модели и все практические аспекты применения линейной регрессии для предсказания числовых показателей энергопотребления ASHRAE.
Особенности процесса анализа данных (ETL): загрузка, очистка, объединение наборов данных с pandas.
Проведение исследовательского анализа данных для поиска зависимостей: EDA.
Использование sklearn для линейной регрессии.
Интерполяция и экстраполяция данных.
Расчет метрики качества RMSLE для моделей линейной регрессии.
Оптимизация линейной регрессии: выбор наилучших параметров и гиперпараметров.
Оптимизация потребления памяти при работе с большими данными.
Запасные модели линейной регрессии.
Ансамбли линейной регрессии для уточнения предсказания.
Экспорт и импорт данных, включая промежуточные.
Классификация и ансамбли
Разберем метрики и модели классификации, а затем отработаем прикладные подходы к классификации данных с помощью моделей и ансамблей машинного обучения для страхового скоринга Prudential.
Метрики классификации: точность, полнота, F1, квадратичная каппа и матрица неточностей.
Очистка данных и оптимизация потребления памяти.
Кластеризация данных и метод ближайших соседей.
Простая и иерархическая логистическая регрессия.
Метод ближайших соседей и поиск оптимальной модели.
Метод опорных векторов: SVM.
Дерево принятия решения и случайный лес (бэггинг).
XGBoost и градиентный бустинг.
LightGBM и CatBoost
Ансамбль стекинга для голосования и выбора лучшего результата.
Нейросети и глубокое обучение
Разберем сегментацию и классификацию изображений облаков с помощью сверточных, пирамидальных, остаточных и полносвязных нейронных сетей.
Метрики точности: оценка F1 и коэффициент Дайса.
Очистка данных и обработка изображений.
Загрузка и сохранение моделей и данных в HDF5.
Двухслойный и многослойный перцептрон.
Нейросети со сверточными слоями и слоями подвыборки.
Функции активации, инициализация и оптимизаторы нейросетей.
Преобразование и дополнение (аугментация) бинарных данных.
LeNet, AlexNet, GoogLeNet.
VGG, Inception, ResNet, DenseNet.
Сегментация изображений с MobileNet, Unet, PSPNet и FPN.
Ансамбль нейросетей.
What You Will Learn!
- Процесс и модели машинного обучения
- Ансамбли бэггинга, бустинга, стекинга
- Обучение с учителем: 3 больших задачи Kaggle-соревнований
- Линейная и нелинейная регрессия
- Кластеризация и классификация
- Регрессия и предсказание данных
- Распознавание и сегментация изображений
Who Should Attend!
- Аналитики Python, изучающие машинное обучение
- Программисты больших данных
- Исследователи больших данных