データサイエンスのためのストリーミング前処理入門 PythonとSparkで始めるビッグデータストリーミング処理入門
【データサイエンス/データエンジニアリングシリーズ】PythonとSparkでストリーミング処理を行ってみよう
Description
現役のデータエンジニアがレクチャーします!
AIや機械学習を行う際に最も時間のかかる作業は、データの準備とそれらの管理です。これらの作業のことをデータエンジニアリングと呼びます。実に80%以上の時間をデータエンジニアリング(データサイエンスのための前処理や仕組み構築)に割いてるのが現状です。
本コースではApache Sparkを使ったストリーミングのデータエンジニアリングについて学びます。
ポイント:
本コースでは分散処理のデファクトとなりつつあるSparkについて学びます。
Apache Sparkはビッグデータ処理で多く使われている分散処理エンジンです。
今回はPythonと組み合わせたPySparkを使ったストリーミング処理の講座です。
ストリーミング処理の基本から、Avroフォーマット、Webアプリケーションにおけるユーザのトラッキングとストリーミングの一連の流れをこのコース一つで学ぶことが可能です。
特徴:
データエンジニアリングよりの講座です。
難しいいサイエンスや数学は出てきませんが、データの3職種のうちの一つである「データエンジニア」のためのコースです。
普段Pythonを使っている方やこれからAIやビッグデータの分野にエンジニアとして参画してデータを自在に操りたいという方にはぴったりです
ストリーミング処理を勉強してみたい方(メッセージキュー、ストリーミングについて学びたい方)
ソースコードや解説は以下のGitHubリポジトリにあります。
動画内ではGitHubの資料に加え補足をしながら解説を進めています。
What You Will Learn!
- PySparkを使ったビッグデータストリーミング処理を学びます
- メッセージキュー(今回はApache Kafkaを使います)とストリーミング処理エンジン(Pyspark)の組み合わせを学びたい方
- Avroフォーマットなどストリーミングの開発に頻繁に使われるフォーマットについて学びます
- ケーススタディで実務を例に取ったデータエンジニアリングの流れで紹介
- データサイエンスのためのストリーミングにおける前処理について学習することができます
Who Should Attend!
- IoT開発やWebサイトのユーザーの行動履歴のトラッキングなどストリーミング処理を学びたい方
- データサイエンスで頻繁に行われる、ストリーミングにおける前処理を知りたい方