AIでブロック崩しを学習させよう。Advantage Actor-Critic(A2C)で学ぶ強化学習の応用編
A3C(Asynchronous Advantage Actor-Critic)の発展型モデル A2C を使って強化学習を体験してみよう。
Description
強化学習アルゴリズム Advantage Actor-Critic(A2C)を使って、ブロック崩しゲームを経験ゼロの状態から自動で学習させていく方法を紹介します。Advantage Actor-Critic のネットワークモデルは、AlphaGo Zero でも使われているもので方策と価値と同時に学習できます。更に「同期処理」という方法からGPUを効率的に利用でき、数日かかっていた学習うが数時間でできるようになっています。ネットワークモデルの部分は、続編のAlphaGo Zeroのコースの基礎となりますので受講しておくようにしましょう。
また漫画Spot's storyで、A2Cの学習の流れを分かりやすく解説しています。わからなくなったときは数式やプログラムと一緒に見比べてみましょう。
モデルの学習時間:30分~数時間
保存データの読み込みから再生まで1分程度と、時間がかかりません。
Google Colab 上で実行しますので、様々なツールの用意は不要です。またお使いのパソコンの環境に依存しません。
PythonコードとPyTorchフレームワークの教材で実行できます。データサイエンス・AI学習中の方にもお薦めです。
What You Will Learn!
- Actor-Critic によるデュアルネットワークの仕組み(AlphaZeroネットワーク)
- 同期分散処理アルゴリズム
- A2Cによるブロック崩しの学習のさせ方
- 強化学習の応用
- 方策勾配法等
Who Should Attend!
- 強化学習に興味のある方
- ブロック崩しAIに挑戦したが動作できなかった方
- DQN(Deep-Q-Network)の次を目指したい方
- 強化学習でGPUを有効活用したい方