第 1 回はじパタ読書会 ― はじめに
見聞きした内容をひたすらメモしたものです。間違い等あったらコメント欄にお願いします。
この読書会について: http://atnd.org/events/40245
第一章発表 (Prunus1350 さん)
発表資料 (Prunus1350さん) (資料を見てもらった方が正確です)
勉強会発足の経緯 -> オライリー本の勉強会
- オープンソースで学ぶ社会ネットワーク分析――ソーシャルWebの「つながり」を見つけ出す
- 集合知プログラミング
1.1 パターン認識とは
“対象の特徴量から対象が属するカテゴリを推測する方法” パターン認識 (Rで学ぶデータサイエンス 5) より
硬貨の例
- 識別対象
- 特徴抽出
- 特徴量: サイズ、重さ、透磁率、・・・
- 特徴ベクトル: 特徴量をベクトルにしたもの
- 識別規則 (10yen, 50yen, 100yen, …, 識別不能)
識別対象は多岐に渡る
特徴ベクトルの形になれば、同じ識別規則が様々な識別対象に使える
1.2 特徴の型
観測された特徴
- 定性的特徴 (非数値データ)
- 名義尺度 (分類のための単なる名前)
- 順序尺度 (順序関係を表す)
- 定量的特徴 (数値データ)
- 比例尺度 (原点が定まっており、比率が意味を持つ)
- 間隔尺度 (一定の単位で量られた量、量間の比が意味を持たない)
例題 1.1
符号化: 定性的な特徴を計算機上で扱うために符号化を行う
- 2 クラス: 0,1
- 多クラス: (0,1,0,0,0)^T
1.3 特徴ベクトル空間と次元の呪い
特徴数が d 個あれば、特徴ベクトルは d 次元線形空間を張る
(例) 手書き文字認識 (kaggle)
28x28 = 784 個の画素値。各画素が256階調のグレースケール。784 次元のベクトル空間の各軸が 256 段階を持つ…
次元の呪い
例題 1.2
超立方体
解説がよく分からん -> 次元を落として考えてみよう!
章末 1.1
指紋の種類: 渦状紋、蹄状紋、弓状紋 (http://ja.wikipedia.org/wiki/%E6%8C%87%E7%B4%8B)
枝分かれなども特徴として使える
章末 1.2
次元を落として考えてみる
パターン認識 (Rで学ぶデータサイエンス 5) 第1章「判別能力の評価」 (kenchan0130_aki さん)
判別能力の評価
判別問題: 入力された特徴量 x からラベル y を予測する問題
ラベル y を返す判別器 F(x) の予測精度を評価したい
指標
- 誤り率
- 訓練誤差: 学習データに対する誤り率
- 予測誤差: 未知のテストデータに対する誤り率
- 損失行列による評価
- 交差検証法による予測精度の推定
- 学習データを2つに分けて、一方で判別器を推定
- 他方でその精度を評価し、予測誤差を推定
- k-交差検証法: これを k 分割繰り返す方法
- 陽性率、偽陽性率、ROC曲線、AUC
- 陽性率 -> 第一種の過誤
- 偽陽性率 -> 第二種の過誤 (こっちはヤバイやつ)
- 偽陽性率をある一定の値以下に抑えた時の陽性率を最大化する判別器を採択
- AUC: ROC曲線下の面積。分類器の性能の良さを表す
- 適合率、再現率、F値
- 適合率: 検索結果内に実際に目的の情報を含んでいるページの割合
- 再現率: 目的の情報を含んでいるページ全体の中での正しい検索結果の割合
- F値: 検索結果の過不足の無さ