データサイエンスのための前処理入門PythonとSparkで学ぶビッグデータエンジニアリング(PySpark) 速習講座
【データサイエンス/データエンジニアリングシリーズ】最強のビッグデータ処理エンジンApache Spark~ABC人材のためのPythonで行う分散処理と前処理~
Description
現役のデータエンジニアがレクチャーします!
AIや機械学習を行う際に最も時間のかかる作業は、データの準備とそれらの管理です。これらの作業のことをデータエンジニアリングと呼びます。実に80%以上の時間をデータエンジニアリング(データサイエンスのための前処理など)に割いてるのが現状です。
本コースではApache Sparkを使ったデータエンジニアリングについて学びます。
ポイント:
本コースでは分散処理のデファクトとなりつつあるSparkについて学びます。
Apache Sparkはビッグデータ処理で多く使われている分散処理エンジンです。
今回はPythonと組み合わせたPySparkを、馴染みのあるCSVフォーマットを通して学びます。
特徴:
データエンジニアリングよりの講座です。
難しいいサイエンスや数学は出てきませんが、データの3職種のうちの一つである「データエンジニア」のためのコースです。
普段Pythonを使っている方やこれからAIやビッグデータの分野にエンジニアとして参画してデータを自在に操りたいという方にはぴったりです
ソースコードや解説は以下のGitHubリポジトリにあります。
動画内ではGitHubの資料に加え補足をしながら解説を進めています。
What You Will Learn!
- データサイエンスのための前処理について学習することができます
- PySparkを使ったデータ基盤におけるデータエンジニアリング
- ケーススタディで実務を例に取ったデータエンジニアリングの流れで紹介
- PySparkを使う上でハマりやすいチューニングポイントを知ることができます
- 分散処理の基本を学ぶことができます
Who Should Attend!
- データエンジニアリングもしくはデータ基盤構築に興味のあるエンジニア
- Python開発者でこれからPythonの適用範囲を更に広げたい方
- データサイエンスのための前処理について興味のある方