『統計学入門』を読んだ
『統計学入門』の読書メモです。本書は東京大学出版会が刊行している基礎統計学シリーズの第一巻で、「入門」と銘打たれていますが数式を多用した本格的な教科書です。ところどころに統計学の実例や歴史的な話がコラムとして紹介されていて、それを読むだけでも楽しめます。
読んだ動機と感想
- 統計検定の勉強と並行して、大学レベルの教科書を読んで理論的な知識を深めたかった。
- 大学の教科書と聞くと無味乾燥なものを想像しますが、この本はコラムが充実していてとても面白かったです。もちろん肝心の内容もなるべく平易に分かりやすく書こうとしていることが伝わってきます。今後統計学の基礎の復習をするとしたらこの本をもう一回読むと思います。
- これを読めば統計学の理論は分かりますが、それを実践できるレベルに持っていくにはさらに演習を積む必要があると感じました。基礎統計学シリーズの第二巻・第三巻がその辺をカバーしてくれるのかな?
読書メモ
第 1 章「統計学の基礎」
- 統計学のあらましや基本用語の解説など。
- 近代統計学の方法論としての特色は「部分 (標本)」が正しく選ばれていれば、それから「全体 (母集団)」を知ることが理論上可能ということ。両者のギャップを埋めているのが確率論。
- 統計学の歴史話や統計の実例が豊富に盛り込まれていて面白い。
第 2 章「1 次元のデータ」
- ヒストグラム、データ分布の代表値 (平均・中間値・最頻値)、散らばりの尺度 (分散・標準偏差・相関係数)、など。
- 統計検定 3 級でやる感じの内容。算術・幾何・調和平均の使い分けをしっかり理解したい。
第 3 章「2 次元のデータ」
- 散布図、相関と回帰、相関関係と因果関係、見かけ上の相関と偏相関係数、順位や時系列の相関係数、回帰の図形的解釈、最小二乗法による単回帰、相関係数と決定係数、重回帰、多項式回帰、など。
“2 次元のデータでは,このように幾何学的な理解が決定的となる.「回帰直線」「回帰平面」という考え方が,そこから導かれる.” (p.42)
第 4 章「確率」
- 確率の意味、順列と組み合わせ、集合論、確率の各種定義 (ラプラスの定義・頻度による定義・公理主義的定義)、確率の主観性と客観性、加法定理、条件付き確率、独立性、原因の確率 (ベイズの定理)、など。
- 確率の各定義の話がとても良かった。何度も読み直したい。
第 5 章「確率変数」
- 確率変数と確率分布、累積分布関数、確率変数の期待値・分散・標準偏差、標準化、モーメント母関数、歪度と尖度、チェビシェフの不等式、確率変数の変換、など。
- チェビシェフの不等式:確率分布が分かっていない状態で、平均と分散から確率の見当をつけるために用いる。
- すべての次数のモーメントを求めれば確率分布が決定され、それゆえにモーメント母関数 (moment generating function) が重要。
- “用語「モーメント」は,力学のモーメント (積率、能率) と数学的に似ていることによる” とあるんだけど、どう似てるのかがまだ分かっていない。
- よく「○○という事象は✕✕という確率分布によく従っていることが知られている」みたいなことが書かれてるけど、それはどうやって決めてるんだろう?自分がそれを判定するにはどうしたら良いの?観測値から近い分布を探すための指標がある?近似できそうな可能性のある確率分布を全部適用してみて、誤差が一番少ないものを選ぶって感じ?
- 第 6 章のワイブル分布のところに “正規分布に似ているが厳密には正規分布でない場合の,精密なあてはめにももちいられる” と書いてあるので「誤差が一番少なそうなものを選ぶ」って認識で合ってそう。
第 6 章「確率分布」
- 前章が確率変数や確率分布に当てはまる一般的なルールについて解説した章だったのに対し、本章は確率分布の各論だった。離散型の確率分布 (超幾何分布、二項分布、ポアソン分布など) と連続型の確率分布 (正規分布、指数分布、ガンマ分布など) の紹介など。
- 主な離散型の確率分布
- 超幾何分布:取り出したものを戻さずに確率を計算 (非復元)。戻す場合は超幾何分布ではなく二項分布になる (復元)。
- 二項分布:二種類の可能な結果を生じる実験や観測を独立に n 回繰り返した場合の確率分布。n=1 だとベルヌーイ分布。
- ポアソン分布:二項分布において、n が大 (大量の観察) で p が小 (希少現象) である場合に、それほど大きくないがある程度 x が観察されるような確率分布。ポアソンの小数の法則。
- 幾何分布:最初の成功が出現するまでの確率分布。
- 負の二項分布 (パスカル分布):幾何分布の一般化。k 回目の成功までの確率分布。
- 主な連続型の確率分布
- 正規分布:”ありふれた” 確率分布。ランダムな系列の和や平均としても生じる。正規分布じゃない確率分布でも n が大きくなるとひとりでに正規分布が出現する (中心極限定理)。
- 指数分布:連続的な待ち時間分布の性質を持つ。
- ガンマ分布:指数分布の一般化。
- あまり細かいことは気にせずに、どの確率分布がどんな時に使われていて、それぞれの確率分布どうしがどんな関係にあるのかを掴むことを意識して読んだ。ここで紹介されている離散型の確率分布は大体二項分布の特殊ケースという理解をした。
- 中心極限定理、独立な確率変数を足し合わせると正規分布っぽいものが出てくるというのはなんとなく直感的に分かる気がするけど不思議。
第 7 章「多次元の確率分布」
- 同時確率分布と周辺確率分布、共分散と相関係数、条件付き期待値と分散、無相関と独立、独立な確率変数の諸性質(分散の加法性など)、確率分布の再生性、など。
“独立とは関連がないことであるが,同じ「関連がない」といっても,無相関よりはずっと強い.なぜならば,無相関は平均的な性質であって確率分布から (7.12) により決まる量 ρ によるが,独立性は表 7.5 のような基礎の確率分布そのものに関する仮定だからである.” (p. 144)
第 8 章「大数の法則と中心極限定理」
- 大数の法則と中心極限定理の意味と応用、コンピュータによるシミュレーション、一様乱数から各確率分布に従う乱数を生成する方法、など。
- 特定の確率分布に従う乱数 x を (コンピュータで生成した) 一様乱数 u から生成する話が面白かった。例えば指数分布の場合、求める確率変数の累積分布関数 F(x) の逆関数を逆変換法によって求め、それに一様乱数を適用するらしい。ただどんな分布にも使える方法ではない。
- 正規分布の場合は累積分布関数が単純な式じゃないため逆変換法が使えない。そこで中心極限定理を利用する。中心極限定理により、一様乱数を n 個 (n は十分に大きい数) 集めた標本平均は正規変数に近似できる。
- 大数の法則:標本数 n の値を大きくしていくと真の値に集中していく。
“大数の法則は,一般的には,大標本では,観察された標本平均を母集団の真の値の平均 (母平均) とみなしてよいという常識を,数学的に厳密に証明したものに他ならない.” (p. 160)
- 中心極限定理:どんな確率分布であっても、n の値を大きくしたり、様々な確率分布を重ね合わせていくと正規分布に近づいていく。
“ごく大まかにいえば,母集団分布が何であっても,和 X1+…+Xn の確率分布の形は,n が大なるときには,大略正規分布と考えてよいということである.” (p. 162)
第 9 章「標本分布」
- 記述統計学と統計的推測、母集団分布とその母数、パラメトリックとノンパラメトリック、母平均・母分散と標本平均・標本分散 (不偏分散)、母集団分布と標本分布の関係性 (再生性)、漸近性、有限母集団における修正、など。
- パラメトリック:事前に母集団分布が XX 分布という形で与えられており、いくつかの定数 (パラメータ、母数) さえわかれば、母集団分布についてすべて知ることができる場合。
- ノンパラメトリック:いくつかのパラメータで母集団分布を決定することができない場合。
- 母分散は標本分散 (不偏分散) の期待値に一致する。
- 直感的にはある母集団から適当にサンプリングしたら母集団分布と同じ傾向を持つ分布になるのが当たり前な気がするけど、そんな自明なことじゃないんだな。
- とりあえず中心極限定理を使って正規母集団を仮定するのが常套手段みたい。
- 不偏分散の “自由度とは「自由に動ける変数の数」という意味である。実際 (X1-X)+(X2-X)+…+(Xn-X)≡0 であるから、最後の変数 Xn-X は自由に動けない” という文章 (p.184) の意味が最初分からなかったけど、最終項以外を動かすと帳尻合わせのために最終項の値は固定する、という話だと気づいた。しかし依然として標本分散 (不偏分散) の計算時は n ではなく n-1 で割る理由がよく分からない。
- 統計 WEB の「標本分散の一致性と不偏性」という記事の計算式を追ってたら分かった。母分散に対して標本分散の期待値は n-1 / n 小さく出ることが、標本分散の期待値の式変形から導ける。
第 10 章「正規分布からの標本」
- 正規標本論、測定誤差の形式化、正規分布の性質、母分散が既知・未知のときの標本平均・標本分散の標本分布、χ^2 分布、t 分布、二標本問題、F 分布、標本相関係数の標本分布、など。
- 正規標本論:正規母集団からの標本に基づく統計量の標本分布を計算すること。
- χ^2 分布:標本分散の標本分布を表すのに使う。
- t 分布:母集団の分散が分からない時、標本分布の表現に母分散ではなく不偏分散を用いたもの。
- F 分布:χ^2 分布に従う確率変数の比の確率分布。
- 「ある母集団分布の標本分布の標本分散の標本分布」のようにメタな構造になっていて何をやってるのか迷子になりやすい。
第 11 章「推定」
- 推定の意味、点推定と区間推定、モーメント法と最尤法、最尤原理、点推定の基準と推定量の性質 (不偏推定量、一致推定量、漸近正規推定量、有効推定量)、信頼区間、正規・二項・ポアソン母集団における信頼区間の計算、など。
- 点推定:ある一つの推定値を求めること。誤差を含む。
- 区間推定:真の母数の値が入る確率がある値以上と保証される区間を求めるもの。最初からある程度の誤差があることを認めた推定法。
- 不偏性:推定量の期待値をとった場合、真の母数の値になること。
- 一致性:標本の大きさ n が大きくなるに従い、推定量が真の母数に近づく性質。
“「推定」は,標本をもとに,その標本が抽出されたもとの母集団分布の母数,具体的には母平均,母分散などの値を定めることである.” (p. 213)
“統計学と確率論は密接に関係しているが,大きな違いの一つは,母集団の確率分布 (母集団分布) を決めている定数,すなわち母数を推定するかしないかである.” (p. 213)
- 最尤法の話を読んでいて、機械学習の損失関数の話を思い出した。
第 12 章「仮説検定」
- 仮説検定 (統計的仮説の有意性検定)、有意水準、帰無仮説と対立仮説、第一種の誤りと第二種の誤り、帰無仮説の採択の意味、両側検定と片側検定、t 検定、χ^2 検定、F 検定、いろいろな χ^2 検定 (適合度の検定、独立性の検定 etc)、検出力、など。
- 検出力:第二種の誤りを起こさない確率。検定方法の良さの評価基準。
- 有意性検定は仮説を棄却することに重点があり、仮説が採択されたからといってそれが積極的に支持されるわけではない。
第 13 章「回帰分析」
- 回帰分析の各用語解説、最小二乗法による回帰係数の推定、決定係数による当てはまりの良さの確認、母集団の回帰係数の仮説検定、重回帰分析、など。
- 単回帰分析:被説明変数一つに対し、説明変数が一つ。
- 重回帰分析:被説明変数一つに対し、説明変数が複数。