読書|統計検定 3 級対応「データの分析」
『統計検定 3 級対応「データの分析」』の読書メモです。
感想
- 4 級のテキストと比べるとだいぶ難易度が上がる。高校数学の知識が必要。
- 最後の「実践問題」は凡ミスを多くしてしまった。三級を受けるつもりはないんだけど、別の問題集を解いて少しは練習しないと。問題を解く上で文章の読解力が重要だと感じました。
読書ログ
第 1 章から第 6 章くらいまでは 4 級のテキストとオーバーラップしている部分が多い。
- 第 1 章「調査項目の種類と集計方法」
- 質的変数と量的変数の集計とグラフ化、クロス集計、など。
- 第 2 章「さまざまなグラフ表現」
- 棒・円・帯グラフ、幹葉図、レーダーチャート、複数のグラフを重ねたグラフ、誤解を招かないグラフ表現、など。
- 第 3 章「時系列データ」
- 時系列データの折れ線グラフによる表現、指数 (指標) による表現、対数の利用、など。
- 第 4 章「度数分布とヒストグラム」
- 度数分布表とそれに関する各用語 (度数や階級値など) の解説、ヒストグラム、分布の特徴の見つけ方、など。
- 第 5 章「分布の位置を表す代表値」
- 平均・中央値・最頻値、代表値を使った平均の計算、など。
- 第 6 章「5 数要約と箱ひげ図」
- 四分位数、5 数要約 (最小値・第 1 四分位数・中央値・第 3 四分位数・最大値)、データの散らばり (範囲・四分位範囲 (IQR: Inter Quartile Range))、箱ひげ図による分布の比較、探索的データ解析 (EDA)、など。
第 7 章から第 12 章は標準偏差や条件付き確率といった一歩踏み込んだ理論的な話で、前章までと比べてぐっと難易度が上がる。
- 第 7 章「分散と標準偏差」
- 観測値の散らばりの程度を数学的に表す方法について。偏差、平均偏差、分散、標準偏差、変動係数、平均・分散・標準偏差の単位変換、など。
- 第 8 章「観測値の標準化とはずれ値」
- 観測データを統一した基準で比較できるように標準化する。標準化された値 (z 値) の求め方、偏差値の例、観測値のはずれ値の検出と箱ひげ図におけるはずれ値の定義、など。
- 第 9 章「相関と散布図」
- 2 つの変数の関係をどう表現するか解説した章。クロス集計表による質的変数の相関関係の表現、散布図による量的変数の相関関係の表現、正/負の相関関係、強い/弱い相関関係、同時分布と周辺分布、層別散布図、など。
- 第 10 章「相関係数」
- 前章では相関関係をグラフ化する方法が解説されていたが、本章では相関関係を数値で表現する方法を解説。
- 共分散による 2 変数の関係の正負・強さの表現、変数の単位依存を排除した相関係数による表現、など。
- 第 11 章「確率の基本的な性質」
- 確率の意味、同様に確からしい・無作為、基本事象 (根元事象)、ベン図による事象の表現、集合論の基礎、など。
- 第 12 章「反復試行と条件付き確率」
- 事象の独立性、反復試行、条件付き確率、組み合わせと順列、二項係数、などの計算について。
- この辺は苦手過ぎて問題解くのがつらい。
第 13 章から第 17 章は調査や実験、データ解釈を行うための手法に関する話。
- 第 13 章「標本調査」
- 全数調査 (悉皆調査) と標本調査、母集団と標本、標本の偏り、標本の無作為抽出の方法、など。
- 第 14 章「問題解決のプロセス」
- 統計的に問題を解決するにはデータの分析手法だけでなく、問題の明確化やそのためのデータ収集計画・整理方法について理解する必要がある。本章ではそのフレームワークとして PPDAC (Problem, Plan, Data, Analysis, Conclusion) サイクルを紹介。
- 第 15 章「実験・調査の計画」
- PPDAC サイクルにおける Problem/Plan についてさらに詳しく述べた章。実験研究と観察研究の区別、実験・調査の計画時に考えるべきこと、など。
- 第 16 章「データを解釈する」
- 図表化されたデータをどのように読み解き、次のアクションに繋げていくか、実例を用いて解説した章。
- 第 17 章「新聞記事や報告書を読む」
- 新聞記事や報告書などに載っている統計データを読むときのポイントの解説。
最後に過去の試験問題がついてる。
- 「実践問題」