Машинное обучение с подкреплением на Python
Изучим взаимодействие среды и агенты, Q-обучение, Монте-Карло и Deep Q-Network
Description
Внимание: для доступа к курсам ITtensive на Udemy напишите, пожалуйста, на support@ittensive.com с названием курса или группы курсов, которые хотите пройти.
Это завершающий курс программы Машинное обучение от ITtensive., В этом курсе мы разберем 3 задачи обучения с подкреплением:
1. Игра в крестики-нолики на доске 3x3. Запрограммируем среду, условия выигрыша и обучим простых и не очень агентов (игроков) сводить игру к ничье. На примере базовых стратегий рассмотрим работу уравнения Беллмана, Q-обучения и обучения с преследованием.
Используя различные стратегии, включая эпсилон жадные и оптимизированные эпсилон жадные, сравним их эффективность при игре друг с другом.
Проект: разработка собственного выигрышного агента для игры в крестики-нолики.
2. Задача балансировка тележки в физическом окружении. Используем CartPole AI Gym и научимся балансировать тележку в зависимости от данных сенсоров. Изучим принципы построения нейросети обучения с подкреплением (DQN = Deep Q-Network) и используем ее для ускорения и стабилизации процесса обучения.
Сравним обучение агента на случайных процессах, на изучении распределения состояний среды (априорные и постериорные вероятности), на эмуляции кратковременной и долговременной памяти агента, разберем проблемы обучения и оптимизации полносвязной нейросети.
Проект: разработка оптимизированной DQN для балансировки тележки.
3. Игра в блекджек (21 очко). Используем окружение AI Gym для расчета оптимальных ходов при игре в Блекджек. Используем методы Монте-Карло, включая одиночные и множественные касания, единую и разделенную политики, а также оптимизацию исследовательских стартов.
Визуализируем оптимальную политику поведения агента через изоповерхности в пространстве состояний среды.
Проект: расчет оптимальной стратегии игры в блекджек.
Теория по курсу включает:
Задачи машинного обучения и обучения с подкреплением
Метрики обучения с подкреплением
Проблема баланса эксплуатации и разведки
Цепь случайных процессов Маркова
Принцип и уравнение Беллмана
Методы Монте-Карло
Q-таблица и Q-обучение
Эпсилон-жадная стратегии
Эпсилон-жадная стратегия с убыванием
UCB-стратегия
Стратегия Томпсона
Создание и обучение Deep Q-Network
Кратковременная и долговременная память
Единая и разделенная политики
What You Will Learn!
- Машинное обучение с подкреплением
- Среда, агент, действия и вознаграждения
- Случайная стратегия и методы Монте-Карло
- Уравнение Беллмана
- Q-таблица и Q-обучение
- Эпсилон-жадные стратегии
- UCB и стратегия Томпсона
- Deep Q-Network
Who Should Attend!
- Аналитики Python, изучающие машинное обучение
- Программисты больших данных
- Исследователи больших данных
- Разработчики автономных систем