豊富な演習問題とKaggle実践で身に付ける!『Python データ分析 & 機械学習 ~パーフェクトスターターコース』
Numpy, Pandas, Matplotlib, Seaborn, scikit-learn & Kaggle ... データ前処理、分析、視覚化、さらに予想モデルの構築・評価まで。初めて出会うデータセットへ即応できる力を付けましょう!
Description
ようこそ、pythonで始める機械学習スターターコースへ。
「データ分析」、「機械学習」を学びたいとお考えの方々、漠然とした部分的理解を体系的に整理したいという方々、自信を持って本コースをおすすめいたします。
長時間のコースとなりますが、セクションを適切に分割しているため、途中で道に迷うことなく最後までワンステップずつ受講を進めていただけます。
ディープラーニング、人工知能の分野に関心がある方々にとっても、本コースは最適なファーストステップとなるはずです。
本コースの最終目標は、皆さんが新規のデータセットを自ら分析・整理し、機械学習モデルを構築し、評価できるようになることです。18時間以上にも及ぶ学習コースの中で、その目標達成に必要となる事柄を広く深く、丁寧に解説しています。データ分析・機械学習のベースとして、このコースはパーフェクトな内容に仕上がっていると自負しております。
豊富な演習問題(240題以上、合計で400問以上のExercise)を通して各セクションで学んだ内容を着実に身に付けていくことができます。学習効率を考慮して、演習問題のビデオには音声解説は付けず、短時間で繰り返し確認してもらえるようにまとめています(倍速などで無駄なくスピーディーに復習できます)。
最後のKaggle(世界最大の機械学習コンペのプラットフォーム)のセクションに至る頃には、テンポよく、楽しみながらデータの分析やモデルの構築などを進められるようになっているはずです。「次はどんなデータセットに挑戦してみようか?」と自ら動き出せる段階まで、皆さんを導いていきます。
機械学習のモデルにはscikit-learnに含まれる代表的なアルゴリズムを使用します。本コースは元々、Pandasのデータフレームの操作とMatplotlib/Seabornでのデータの視覚化までを計画していました。ですが、皆さんの目標である実践までを含んだ内容を提供すべきだと考え直し、別に予定していたコースを合併し1本に集約しています。
長時間のコースとは言え、当然すべてを網羅できるわけではなく、ニューラルネットワーク、ディープラーニングの分野へは到底踏み込むことはできません。本コースでは教師あり学習の代表的なアルゴリズムに絞って回帰や分類の課題に集中的に取り組み、基礎を築いていきます。この強固な基礎の上であれば他者のコード(Kaggleの公開コードが非常に参考になります)を参照して新しい知識をどんどん積み上げていけるものと思います。
データ分析の大半はデータの前処理であるとよく言われます。「データ前処理」(Data Preprocessing)とは、具体的には欠損値や重複値の処理、意味のあるデータへの変換、外れ値の取り扱い、機械学習のアルゴリズムに乗せるために求められるスケーリングやダミー変数化(ワンホットエンコーディング)などが挙げられます。この分野に関しては特に検討を重ね、段階的に適切に理解が進むように設計しています。データ前処理とモデルの評価までの一連の流れを学んだ後には、アルゴリズムをさらに詳細に学んだり、ドキュメントを参考に教師なし学習を学んだり、さらにはディープラーニングに挑戦するなどの次の課題がはっきりと見えてくると思います。
実践課題としては、前述のKaggleを利用して、データ分析+機械学習の実践を進めていきます。Kaggle notebook(Kaggleサイト上で使えるJupyter notebookと考えてよい)の使用方法、その他サイトに関わる事柄についても解説を行います。コンペへの参加は非常に高い壁ですが、ここから「データの世界」が一気に広がっていくことを実感していただけるはずです。
ぜひ、本コースへチャレンジしてみてください。
力作です。是非ご期待ください。
What You Will Learn!
- 新規データの読み込みから機械学習モデルの評価までの一連の流れ
- 機械学習に向けたデータの前処理 【Pandas, Scikit-learn】
- 探索的データ分析
- データの視覚化(グラフの作成)【Matplotlib, Seaborn】
- DataFrameの操作方法(Pandasが提供する主要な操作)
- Numpyの多次元配列の理解と扱い方
- 機械学習モデル 【scikit-learn】
- scikit-learnの幅広いモジュールの使い方
- 機械学習モデルの構築とそのモデルの評価
- Kaggleの利用方法(アカウント作成から notebook でのモデル作成まで)
- Jupyter notebook もしくは Google Colaboratory の使用方法
Who Should Attend!
- Pythonを用いたデータ分析に関心のある方(適切な手法を選択し、円滑に分析を進められるようになります)
- 機械学習を学びたい方(スターターコースとして非常に優れた内容となっています)
- データ処理の手法を身に付けたい方(数値のスケーリング、分類ラベルの変換の手法と意味を理解できます)
- 機械学習に至るまでの流れを学びたい方(探索的データ分析からscikit learnでのモデル作成、予測値の評価方法まで繰り返し実践して身に付けます)
- とりあえずPandasを学びたいとお考えの方(各種プロット、さらには機械学習まで進めましょう)
- PandasやMatplotlib、Seabornが今ひとつわからないという方(迷わなくて済むよう手法を統一しましょう)
- Scikit Learnの代表的なモジュールを学びたい方(機械学習モデル作成の流れの中で使うモジュールを厳選してご紹介します)
- Kaggleに挑戦したい方(難度の高いものは扱いませんが、いくつものデータセットを元に実践を繰り返します)
- 世の中に溢れるオープンデータセットを分析して遊びたい方(データ分析で新しい解釈や傾向を導き出しましょう。データに強くなりましょう)
- Pythonで何をしようかと迷っている方(データ分析・機械学習はPythonが代表的に活躍している分野です)