Pythonによるビジネスに役立つWebスクレイピング(BeautifulSoup・Selenium・Requests)
Python3のスクレイピング用ライブラリ BeautifulSoup・Selenium を用いて、世界中のWebサイトからデータを取得します。効率的にデータを収集・活用することで、業務の効率化・生産性向上に貢献する技術を身に付けましょう!
Description
現役のデータサイエンティストが提供するWebスクレイピングに関する講座で、データサイエンスの実務における経験を基に、デザインされた講座になります。
近年、ビジネスでのデータ活用においては、世界中のWebサイトから様々なデータを取得することが求められています。 また変化も激しい環境において、それぞれのWebサイトの構造や内容も頻繁に更新され、日々変わっていきます。
スクレイピングが難しい理由として、次のようなポイントが挙げられます。
Webサイトにより構造が異なる
Webサイトの構造が複雑・頻繁に変わる
JavaScriptでユーザーの操作によって新たなページが読み込まれるなど、特殊な技術が使われている
しかし、ビジネスでスクレイピングを用いるには、これらのポイントに適切に対処していくことが求められます。
【このコースで扱うトピック】
これら難しいポイントに適切に対処し、ビジネスでスクレイピングを活用できるよう、このコースはデザインされています。
このコースで扱うトピックは、これらのものになります。
様々なニーズや場面に応じて使い分けできるよう、Pythonのスクレイピングライブラリの中でも幅広いライブラリをカバーします。
Beautiful Soup、Selenium、Requests、newspaper3k、Pandasのread_html
ビジネスで活用するにおいて必要となる、スクレイピングにおける一連のプロセスをカバーします。
データ取得・抽出から、整形、グラフ化、保存まで
特殊な技術が使われているWebサイトも考慮し、幅広いスキルを身につけれるよう、レクチャーを提供します。
JavaScriptを用いた動的なサイトへの対処方法
ログイン画面への対処方法
リンクをたどり、複数のWebページを巡回する方法
テキスト情報・画像ファイルの取得方法
など多数
これらを通じてこのコースの受講後は、世界中のWebサイトから効率的に情報を取得することができるようになります。
またレクチャーで学んだ知識が定着するよう、豊富で実践的な演習を用意しております。
なお、Classなどオブジェクト指向の記述は、初心者向きでは無いので本コースの対象外としております。本コースでは、これらの記述を使わずに解説しておりますので、ご注意ください。
What You Will Learn!
- Python3のスクレイピング用ライブラリBeautifulSoup、Selenium、Requests、Newspaper3k、Pandas(read_html)が扱えるようになります。
- Beautiful Soupを用いて、複数のWebページを巡回し、目的の情報を取得する方法を理解することができます。
- Seleniumを利用した、ログイン画面への対処、JavaScriptを用いた動的なサイトへの対処、画像を取得・ダウンロードする方法を理解することができます。
- newspaper3kを用いて、ニュースサイトやブログのトップページに表示されている複数の記事を順に巡回し、記事や要約、キーワードをダウンロード・保存する方法を理解することができます。
- Pandasのread_htmlを用いて、Webサイト上のテーブルに格納されているデータを取得する方法を理解することができます。
- スクレイピングにおけるXPath、CSSセレクタ、正規表現の利用方法を学ぶことができます。
- スクレイピングでデータを取得・抽出し、取得したデータを整形・グラフ化、保存する一連の流れを習得することができます。
- 実践的な演習問題を通じてスクレイピングの理解を深めることができます。
Who Should Attend!
- Webスクレイピングをビジネスに活用されたい方
- Webスクレイピングを趣味に活用されたい方
- Webスクレイピングに興味があるが、始め方がわからない方
- Webサイトから効率的にデータを取得する方法を学習されたい方