Машинное обучение с подкреплением на Python

Изучим взаимодействие среды и агенты, Q-обучение, Монте-Карло и Deep Q-Network

Ratings: 4.18 / 5.00




Description

Внимание: для доступа к курсам ITtensive на Udemy напишите, пожалуйста, на support@ittensive.com с названием курса или группы курсов, которые хотите пройти.


Это завершающий курс программы Машинное обучение от ITtensive., В этом курсе мы разберем 3 задачи обучения с подкреплением:

1. Игра в крестики-нолики на доске 3x3. Запрограммируем среду, условия выигрыша и обучим простых и не очень агентов (игроков) сводить игру к ничье. На примере базовых стратегий рассмотрим работу уравнения Беллмана, Q-обучения и обучения с преследованием.

Используя различные стратегии, включая эпсилон жадные и оптимизированные эпсилон жадные, сравним их эффективность при игре друг с другом.

Проект: разработка собственного выигрышного агента для игры в крестики-нолики.

2. Задача балансировка тележки в физическом окружении. Используем CartPole AI Gym и научимся балансировать тележку в зависимости от данных сенсоров. Изучим принципы построения нейросети обучения с подкреплением (DQN = Deep Q-Network) и используем ее для ускорения и стабилизации процесса обучения.

Сравним обучение агента на случайных процессах, на изучении распределения состояний среды (априорные и постериорные вероятности), на эмуляции кратковременной и долговременной памяти агента, разберем проблемы обучения и оптимизации полносвязной нейросети.

Проект: разработка оптимизированной DQN для балансировки тележки.

3. Игра в блекджек (21 очко). Используем окружение AI Gym для расчета оптимальных ходов при игре в Блекджек. Используем методы Монте-Карло, включая одиночные и множественные касания, единую и разделенную политики, а также оптимизацию исследовательских стартов.

Визуализируем оптимальную политику поведения агента через изоповерхности в пространстве состояний среды.

Проект: расчет оптимальной стратегии игры в блекджек.

Теория по курсу включает:

  • Задачи машинного обучения и обучения с подкреплением

  • Метрики обучения с подкреплением

  • Проблема баланса эксплуатации и разведки

  • Цепь случайных процессов Маркова

  • Принцип и уравнение Беллмана

  • Методы Монте-Карло

  • Q-таблица и Q-обучение

  • Эпсилон-жадная стратегии

  • Эпсилон-жадная стратегия с убыванием

  • UCB-стратегия

  • Стратегия Томпсона

  • Создание и обучение Deep Q-Network

  • Кратковременная и долговременная память

  • Единая и разделенная политики

What You Will Learn!

  • Машинное обучение с подкреплением
  • Среда, агент, действия и вознаграждения
  • Случайная стратегия и методы Монте-Карло
  • Уравнение Беллмана
  • Q-таблица и Q-обучение
  • Эпсилон-жадные стратегии
  • UCB и стратегия Томпсона
  • Deep Q-Network

Who Should Attend!

  • Аналитики Python, изучающие машинное обучение
  • Программисты больших данных
  • Исследователи больших данных
  • Разработчики автономных систем