データサイエンス実戦講座[第3回]仮説検定の徹底理解とp値によるリスク対策(後編)
統計学の中で最もよく使われる仮説検定の原理を理解して、現実の問題解決のための3つのスキル(①アクションプランとリスク対策の立案、➁パラメトリック検定とノンパラメトリック検定の併用、③統計解析ソフトの活用)を手に入れよう。
Description
データサイエンス実戦講座の第3回のテーマは、前回に続いて仮説検定です。統計学の中でも実務で最もよく使われる手法のひとつで、例えば製品の改良開発が成功か失敗かの二者択一の仮説を立てて、統計学の視点から判定を下します。検定の原理を理解して現実世界の問題解決に活かすためのポイントは次の3つです。
①アクションプランとリスク対策の立案・・・検定とは仮説の発生頻度の推定であり、仮説の「真偽」と判定の「正誤」は分かりません。問題解決には「真と偽」×「正と誤」=4つのケースに対するアクションプランとリスク対策が必要で、これらを立案する方法が習得できます。
➁パラメトリック検定とノンパラメトリック検定の併用・・・現実に起こる社会現象や自然現象のデータは正規分布しているとは限りません。このため、母集団に正規分布などを仮定するパラメトリック検定だけでなく、歪んだ分布や外れ値のある分布に適用できるノンパラメトリック検定も必要で、これらを併用する2段構えの分析力が得られます。
③統計解析ソフトの活用・・・多くの手法を知っていても使えなければ意味がありません。アムステルダム大学が開発したフリーの統計解析ソフトJASPを駆使して、実戦的な演習問題を通して応用力が身に付きます。
今回のコース(後編)では2サンプルの問題、2サンプル以上の問題、分割表の問題について、パラメトリックとノンパラメトリックを併せて8種類の検定手法を扱います。
データサイエンスといえば機械学習やディープラーニングのさまざまな手法や、注目の生成AIを実現する大規模言語モデルが思い浮かぶでしょう。しかし、その礎となっているのはデータ分析の技術です。それは百年以上も前から自然・社会・人文科学の進歩を支えてきた古典的(頻度論的)統計学であり、かつては異端扱いされながらもビッグデータ時代の訪れとともに蘇ったベイズ統計学です。最新のデータサイエンスを学ぶためには、まず統計学の基礎をしっかり押さえておきましょう。
What You Will Learn!
- 自然現象や社会現象のメカニズムを分析するデータサイエンスの様々な手法について、複数のコースに分けて1つずつ習得していきます。古典的な頻度論の統計学から最新のディープラーニングまで、原理の理解と実務への応用を目指します。
- 第3回目のコースは前回に引き続いて仮説検定です。統計学のなかでも実務において最もよく使われる手法です。今回のコースではパラメトリックとノンパラメトリックを合わせて8種類の仮説検定手法について、ロジックを解きほぐして分かりやすく説明します。
- 仮説検定は相反する仮説を立てて頻度の高い方を推定するという手法です。しかし、仮説の真偽については不明であり、頻度の低い事も起こり得ます。仮説の真偽と頻度の高低を掛けた2×2=4通りのケースについて、検定結果をもとに実戦的なリスク対策を踏まえた意思決定と行動選択の方法を学びます。
- 仮説検定には、母集団に正規分布などを仮定するパラメトリック検定と、何も仮定しないノンパラメトリック検定があります。統計学の基礎レベルでは前者しか扱わないのが普通ですが、現実には正規分布に従わない現象や、母集団の分布が分からない場合も多々あります。本コースでは問題に応じて両方の手法が使えるように学習します。
- JASPというフリーの統計解析ソフトを演習問題で使用します。アムステルダム大学が開発したソフトで、メニューは日本語化されています。仮説検定ではパラメトリックとノンパラメトリックの手法が利用できます。豊富な機能を持ち、ベイズ統計の手法も使えますので、日々の勉学や実務にも役立つスキルを身に着けることができるでしょう。
- 前回と今回は仮説検定の特集です。パラメトリック検定とノンパラメトリック検定の両方を合わせると手法がとても多くなるため、前編と後編に分けました。今回の後編では2サンプルの検定、分散分析、分割表の検定を対象として、実戦的な演習問題を解きながら、検定結果を実務レベルのアクションプランとリスク対策を立案する能力が養えます。
Who Should Attend!
- 学業や業務でデータ分析を必要としている方、将来データアナリストを目指す方、データサイエンスに興味のある方であればどなたでも。 データ分析の初心者から学び直しの中級者。