Машинное обучение без учителя на Python: полный курс

Name: Машинное обучение без учителя на Python: полный курс
Brand: Udemy
SKU: 3987964
Rating: 4.5135 (13 reviews)

Выигрываем хакатоны по выделению факторов (PCA, ICA, NMF, MDS, t-SNE) и кластеризации (К-средних, DBSCAN, OPTICS, SOM)

Ratings: 4.51 / 5.00

Description

Внимание: для доступа к курсам ITtensive на Udemy напишите, пожалуйста, на support@ittensive.com с названием курса или группы курсов, которые хотите пройти.

Мы разберем 2 задачи с хакатонов 2020 года:

1. По выделению факторов, в наибольшей степени влияющих на продолжительность жизни в России, с точки зрения фундаментальных и прикладных подходов к понижению размерности данных. В заключении построим ансамбль моделей для предсказания продолжительности жизни, базируясь на выделенных факторах.

2. По прогнозу срока экспозиции объявлений с хакатона Яндекс.Недвижимости - решим ее с помощью методов кластеризации и поиска аномалий.

Курс разбит на 7 частей. В первой части мы последовательно пройдем все этапы работы с данными: от видов задач и их постановки до работы с моделями машинного обучения для минимизации предсказательной ошибки. Дополнительно рассмотрим фундаментальные основы построения моделей машинного обучения, базовые метрики и наиболее простые модели - линейную регрессии, решающие деревья и случайный лес. А также ансамбли машинного обучения.

Во второй части на практике разберем:

Очистку и предобработку данных - ETL
Линейную регрессию для экстраполяции данных
Линейную регрессию с регуляризацией для выделения факторов
Информационные критерии понижения размерности

В заключении создадим ансамбль стекинга из простых моделей понижения размерности.

Третья часть посвящена матричным методам:

Метод главных компонент (PCA)
Сингулярное разложение (SVD)
Анализ независимых компонент (ICA)
Положительно-определенные матрицы (NMF)

Уточним решение задачи обучения без учителя через матричные методы.

В четвертой части рассмотрим нелинейные подходы:

Многомерное шкалирование (MDS).
t-SNE
UMAP
LargeVis

Стабилизируем ансамбль понижения размерности и используем его для предсказания продолжительности жизни в России, основываясь на наиболее важных макроэкономических показателях.

Пятая часть посвящена базовым моделям кластеризации:

Изучите внешние и внутренние метрики кластеризации.
Разберете модели К-средних и FOREL и потренируетесь в их применении.
Рассмотрите принципы работы агломеративной кластеризации и используете ее на практике.
Узнаете про расстояние Махаланобиса и работу GMM.

В качестве задания соберем простую модель кластеризации исходных данных.

В шестой части перейдем к продвинутой кластеризации:

Погрузитесь в различия моделей DBSCAN, HDBSCAN и OPTICS.
Разберете особенности модели распространения близости.
Посмотрите на расширяющийся нейронный газ.
Запустите и обучите самоорганизующиеся карты Кохонена (SOM).
Столкнетесь с матрицей Кирхгофа и спектральной кластеризацией.

И соберем ансамбль из несколько моделей кластеризации.

В завершении:

Изучите поиск аномалий и метрику pAUC.
Используете тест Смирнова-Граббса на практике.
Потренируетесь в эллипсоидальной аппроксимации.
Разберете разницу между LOF и ABOD.
Обучите и используете модель COPOD.
Вырастите как iForest, как и расширенный лес изоляции.

В финале соберем свое решение задачи Хакатона 2020 года.

What You Will Learn!

Процесс и модель машинного обучения
Заполнение пропусков в данных
Линейная регрессия и L1/L2 регуляризация
Решающие деревья и ансамбли стекинга
Корреляция и взаимная информация
Метод главных компонент (PCA) и Сингулярное разложение (SVD)
Анализ независимых компонент (ICA)
Многомерное шкалирование (MDS)
t-SNE, UMAP, LargeVis
K-средних, расстояние Махаланобиса и GMM
Агломеративная кластеризация
DBSCAN, HDBSCAN и OPTICS
Самоорганизующиеся карты Кохонена
Расширяющийся нейронный газ
Спектральная кластеризация
pAUC и поиск аномалий
Тест Смирнова-Граббса
Эллипсоидальная аппроксимация
LOF, ABOD и COPOD
iForest
Классификация через кластеризацию

Who Should Attend!

Аналитики Python, изучающие машинное обучение
Программисты больших данных
Исследователи больших данных