『評価指標入門 ― データサイエンスとビジネスをつなぐ架け橋』を読んだ
データサイエンスの問題として「良い」モデルを設計・評価する方法は広く普及している。しかし、データサイエンスをビジネスに活かす方法はまだ十分に確立されていない。本書は、データサイエンスとビジネスを結びつけるための考え方と、モデルがビジネスに与える影響を評価する指標の設計について紹介している。
理解したこと
- データサイエンスの問題とビジネスの問題は独立している。データサイエンスを使ってビジネスの問題を解くには、ビジネスの問題をデータサイエンスの問題へと写像する必要がある。この写像を得るには、ドメイン知識を駆使してビジネスの数理構造を見つける必要があり、これがデータサイエンティストに求められる役割である。
- モデルは評価指標で評価し、ビジネス上の成果は KPI で測る。ビジネス要件によって重視すべきモデルの特性は変わるため、まずは KPI を定め、それに連動する評価指標を求める。評価指標が改善したら KPI も改善するように設計する。
- 典型的なビジネスの施策は、データサイエンスにおける回帰問題、二値分類問題、多クラス分類問題などに写像することができる。本書は、それぞれの問題における代表的な評価指標を紹介し、ビジネス要件に応じてどの評価指標を選ぶべきかを解説している。
感想
- データサイエンティストに求められる役割に対する理解が深まった。自分はソフトウェアエンジニアで、所与の評価指標を改善するための機能開発を行うことが多いが、評価指標を自分で設計しなくてはいけない場面もそれなりにある。ソフトウェアエンジニアも今後一層データサイエンティスト的な素養が求められていくのではないかと思っており、本書の内容をもとに継続して学んでいきたい。
- 評価指標の数理的な部分は正直あまり理解しきれていないが、どういったときにどういった評価指標が使えるか脳内に索引ができたのでだいぶ見通しが良くなった。