7ステップで作るPython x Flask x Pytorch 人工知能Webアプリ開発入門

ViT(Vision Transformer)で画像認識アプリを実装してみよう。

Ratings: 3.41 / 5.00




Description

この講座は実際に手を動かしながら人工知能による画像認識Webアプリケーションを作っていくハンズオンチュートリアルです。


環境構築(Miniconda/VSCode)から始めてWebアプリ(Python/Flask/JINJIA2/HTML/CSS/JQuery/JS/BootStrap)や画像認識用人工知能を作っていく(JupyterNotebook/pytorch/ViT/torchvision/pillow)経験を通して、お手元に最先端の人工知能Webアプリケーションが実際に手に入るようにコース設計されています。このWebアプリを作れるスキルをベースに日本発の人工知能サービスをローンチ、というのも夢ではないくらい実践的な高性能人工知能アプリのプロトタイプを作れるようになります。

人工知能(Artificial Intelligence)の中でも特に深層学習(Deep Learning)による画像認識は日進月歩の発展を遂げてきています。2012年にILSVRCという画像認識の国際コンペティションで2位以下を圧倒的に引き離して優勝したCNN(畳み込みニューラルネットワーク)の名声は高く、2020年までは、CNNを100層以上も積み重ねて訓練を行うモデルが最適とされてきました。


しかし2021年現在、ICLR2021という国際会議に投稿された論文「AN IMAGE IS WORTH 16 x 16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE」では、自然言語処理界隈を震撼させた高精度の事前学習モデルBERTの元となったtransformerのみでCNNの画像認識精度を超えるSOTA(State Of The Art)を達成したことが報告されています。


今後、デファクトスタンダードになっていくであろうViT(Vision Transformer)を使った人工知能Webアプリを実装するには、よほど凄腕のプログラマーでないと難しいのでは?と思う人も多いと思いますが、実は意外と簡単です。


昨今のPythonやJQueryを始めとしたオープソースのライブラリを用いることで、なんと2.0hで、ViT画像認識Webアプリを実装することが可能です。それも、環境構築も含めて。


現役バリバリの機械学習系Webエンジニアがナビゲートしますので、疑問点はどんどん質問してください。


ようこそ、Web開発の世界へ、そしてようこそ、ViTの世界へ。

---

Step.1 開発環境構築(Miniconda/VSCode)


Step.2 Flask(jinja2)基礎知識


Step.3 JQuery/HTML画像アップローダー


Step.4 Jupyter Notebookで学ぶtorchvision/pillow画像前処理/ViT(VisionTransformer)


Step.5 Flask/Jinjia2から呼び出すViT(VisionTransformer)


Step.6 BootStrap/CSSによるUI改善


Step.7 FileAPIで仕上げ

---

What You Will Learn!

  • Vision Transformerを使ったWebアプリケーションの開発方法
  • FlaskによるWebアプリの作り方
  • Pythonによる機械学習アプリの作り方
  • Jupyter NotebookをVSCodeで使う方法
  • VisionTransformerによる画像認識の実装方法
  • HTML/CSS/JQuery/Bootstrapによるフロントエンドの実装方法
  • Miniconda環境の構築方法

Who Should Attend!

  • Python/Flask/BERT/Transformer/Pytorch/Huggingface/HTML/CSS/JS/Jupyter を統合的に手を動かしながら学習したい方
  • 環境構築も含めて全部面倒見て欲しい方
  • Pythonの基礎文法は習得したので次に進みたい方
  • フロント実装(Bootstrap/Jquery)に興味のある方
  • 人工知能・深層学習に興味のある方
  • Webアプリケーション開発に興味のある方
  • 画像認識アプリを作ってみたい方