Машинное обучение с подкреплением на Python

Name: Машинное обучение с подкреплением на Python
Brand: Udemy
SKU: 4447568
Rating: 4.1781 (8 reviews)

Изучим взаимодействие среды и агенты, Q-обучение, Монте-Карло и Deep Q-Network

Ratings: 4.18 / 5.00

Description

Внимание: для доступа к курсам ITtensive на Udemy напишите, пожалуйста, на support@ittensive.com с названием курса или группы курсов, которые хотите пройти.

Это завершающий курс программы Машинное обучение от ITtensive., В этом курсе мы разберем 3 задачи обучения с подкреплением:

1. Игра в крестики-нолики на доске 3x3. Запрограммируем среду, условия выигрыша и обучим простых и не очень агентов (игроков) сводить игру к ничье. На примере базовых стратегий рассмотрим работу уравнения Беллмана, Q-обучения и обучения с преследованием.

Используя различные стратегии, включая эпсилон жадные и оптимизированные эпсилон жадные, сравним их эффективность при игре друг с другом.

Проект: разработка собственного выигрышного агента для игры в крестики-нолики.

2. Задача балансировка тележки в физическом окружении. Используем CartPole AI Gym и научимся балансировать тележку в зависимости от данных сенсоров. Изучим принципы построения нейросети обучения с подкреплением (DQN = Deep Q-Network) и используем ее для ускорения и стабилизации процесса обучения.

Сравним обучение агента на случайных процессах, на изучении распределения состояний среды (априорные и постериорные вероятности), на эмуляции кратковременной и долговременной памяти агента, разберем проблемы обучения и оптимизации полносвязной нейросети.

Проект: разработка оптимизированной DQN для балансировки тележки.

3. Игра в блекджек (21 очко). Используем окружение AI Gym для расчета оптимальных ходов при игре в Блекджек. Используем методы Монте-Карло, включая одиночные и множественные касания, единую и разделенную политики, а также оптимизацию исследовательских стартов.

Визуализируем оптимальную политику поведения агента через изоповерхности в пространстве состояний среды.

Проект: расчет оптимальной стратегии игры в блекджек.

Теория по курсу включает:

Задачи машинного обучения и обучения с подкреплением
Метрики обучения с подкреплением
Проблема баланса эксплуатации и разведки
Цепь случайных процессов Маркова
Принцип и уравнение Беллмана
Методы Монте-Карло
Q-таблица и Q-обучение
Эпсилон-жадная стратегии
Эпсилон-жадная стратегия с убыванием
UCB-стратегия
Стратегия Томпсона
Создание и обучение Deep Q-Network
Кратковременная и долговременная память
Единая и разделенная политики

What You Will Learn!

Машинное обучение с подкреплением
Среда, агент, действия и вознаграждения
Случайная стратегия и методы Монте-Карло
Уравнение Беллмана
Q-таблица и Q-обучение
Эпсилон-жадные стратегии
UCB и стратегия Томпсона
Deep Q-Network

Who Should Attend!

Аналитики Python, изучающие машинное обучение
Программисты больших данных
Исследователи больших данных
Разработчики автономных систем