Машинное обучение: кластеризация и аномалии на Python

Прокачаться в машинном обучении без учителя и научиться выделять кластеры в данных и искать аномалии

Ratings: 5.00 / 5.00




Description

Внимание: для доступа к курсам ITtensive на Udemy напишите, пожалуйста, на support@ittensive.com с названием курса или группы курсов, которые хотите пройти.


Это второй курс из серии Машинное обучение без учителя. На нем вы освоите работу с кластеризацией данных и поиском аномалий на примере задача хакатона Яндекс.Недвижимости по прогнозу срока экспозиции объявлений.

Курс разбит на 4 части. В первой части мы последовательно пройдем все этапы работы с данными: от видов задач и их постановки до работы с моделями машинного обучения для минимизации предсказательной ошибки. Дополнительно рассмотрим фундаментальные основы построения моделей машинного обучения, базовые метрики и наиболее простые модели - линейную регрессию, а также ансамбли машинного обучения.

Вторая часть посвящена базовым моделям кластеризации:

  • Изучите внешние и внутренние метрики кластеризации.

  • Разберете модели К-средних и FOREL и потренируетесь в их применении.

  • Рассмотрите принципы работы агломеративной кластеризации и используете ее на практике.

  • Узнаете про расстояние Махаланобиса и работу GMM.

В качестве задания соберем простую модель кластеризации исходных данных.

В третьей части перейдем к продвинутой кластеризации:

  • Погрузитесь в различия моделей DBSCAN, HDBSCAN и OPTICS.

  • Разберете особенности модели распространения близости.

  • Посмотрите на расширяющийся нейронный газ.

  • Запустите и обучите самоорганизующиеся карты Кохонена (SOM).

  • Столкнетесь с матрицей Кирхгофа и спектральной кластеризацией.

И соберем ансамбль из несколько моделей кластеризации.

В завершении:

  • Изучите поиск аномалий и метрику pAUC.

  • Используете тест Смирнова-Граббса на практике.

  • Потренируетесь в эллипсоидальной аппроксимации.

  • Разберете разницу между LOF и ABOD.

  • Обучите и используете модель COPOD.

  • Вырастите как iForest, как и расширенный лес изоляции.

В финале соберем свое решение задачи Хакатона 2020 года.

What You Will Learn!

  • Процесс и модель машинного обучения
  • Заполнение пропусков в данных
  • Разведочный анализ данных
  • K-средних
  • Расстояние Махаланобиса и GMM
  • Агломеративная кластеризация
  • DBSCAN и HDBSCAN
  • OPTICS
  • Самоорганизующиеся карты Кохонена
  • Расширяющийся нейронный газ
  • Спектральная кластеризация
  • pAUC и поиск аномалий
  • Тест Смирнова-Граббса
  • Эллипсоидальная аппроксимация
  • LOF и ABOD
  • COPOD
  • iForest
  • Классификация через кластеризацию

Who Should Attend!

  • Аналитики Python, изучающие машинное обучение
  • Программисты больших данных
  • Исследователи больших данных