2019 年は統計学と機械学習を頑張る
30 代は「興味はあるけど今まで勉強できなかったこと」に時間を割いていこうと決めている。2017 年と 2018 年は天文宇宙検定に向けて宇宙関係の勉強に割く時間を多くした。そのおかげで最新の話題にもだいぶついて行けるようになり、満足度が高かった。2019 年は違う分野で同じことをやりたいと思い、統計学と機械学習を重点的に勉強していこうと決めた。
統計学
大学生当時、機械学習や人工知能といった分野に疎かった私は、確率論や統計学はいわゆるビッグデータを分析するデータサイエンティストが使うもので、ソフトウェアエンジニアはそれを効率的に読み書きするシステムを設計実装するのが仕事、みたいな思い込みがあった1。私はソフトウェアエンジニアになりたかったので、ビッグデータを処理する並列分散システムについては熱心に勉強した。一方、確率論や統計学はキャリアを積む上で重要性も興味も見いだせず、真面目に授業を受けていなかった2。
しかしディープラーニングの躍進による第三次 AI ブームによって機械学習があらゆる分野で応用されるようになり、確率論や統計学をしっかり学んでこなかったことに引け目を感じるようになってきた。このモヤモヤを振り払うため、今年は確率論や統計学を基礎から学び直すことにした。
独学する場合は検定試験を活用してまずざっくり全体を学んでいくのが自分にとってやりやすい。調べたところ統計検定という試験があることがわかったので、その 4 級から勉強を始めた。既に 4 級と 3 級の教本を読み終えており、今は 3 級の問題集を解いている。最低でも 2 級の内容までは勉強して検定試験を受けようと思っている。
『統計検定 3 級 • 4 級 公式問題集 (2015-2017 年)』を解き始めた https://t.co/bb2pBGm4AD #nhbk pic.twitter.com/2xurE6PNGc
— nhiroki (@nhiroki_) 2019年1月19日
それと並行して知識を深化させるためにいくつか大学レベルの教科書を読んでみようと思っている。まずは評価の高かった東京大学出版会の『統計学入門』を買ってみた。
今の仕事では本格的にデータ分析をする機会はない。しかし、性能評価やクラッシュレポートといったちょっとしたデータを可視化し、傾向や対策を検討するぐらいの機会はある。そのような時に自信を持ってデータを読み解けるようになれると嬉しい。
機械学習
機械学習の理論やアプリケーションへの応用方法にも興味はあるが、それ以上に機械学習を支えるフレームワークや計算環境に強い興味がある。ニューラルネットによるワークロードにはどのような特徴があり、どのようなシステムが求められているのか、それを理解できるだけの理論的知識が身に着けられたら嬉しい。前述の通り元々並列分散システムに関心があり、最近はハードウェアにも興味があることから、昨今の「自社システム用に機械学習基盤を作るぞ!」という流れはとても楽しく眺めている。それにあれこれ感想を言えるようになりたい3。
機械学習の分野は近年の急激な技術革新にも関わらず、教科書や学習環境の整備がしっかり進められていて感心する。オンライン学習コースや機械学習プロフェッショナルシリーズなど、タイトルを眺めているだけで知的好奇心が湧いてくる。いくつか書籍を眺めたところ『これならわかる深層学習入門』という本が良さそうだったので、しばらくはこの本を理解することに注力しつつ、各種フレームワークのチュートリアルをこなしてみようと考えている。
『これならわかる深層学習入門』を読み始めた。紙質が良くて思ってたよりも分厚い https://t.co/VQ6Jst1IyD #nhbk pic.twitter.com/FK8MOtSPe6
— nhiroki (@nhiroki_) 2019年1月27日
まだ一歩目を踏み出したばかりで手探り状態だが、2019 年が終わる頃には SNS で流れてくる最新研究の話題をそれなりに理解して楽しめるくらいの知識があると嬉しい。
まとめ
2019 年は統計学と機械学習の勉強を頑張る。その結果として機械学習を支えるフレームワークや計算環境に対する造詣が深められると嬉しい。
-
機械学習エンジニアという職種は 2012 年当時メジャーではなかったはず。 ↩
-
同様に微積分や線形代数も当時はやる気が出なかった。 ↩
-
私のお気に入りのポッドキャスト「Misreading Chat」では機械学習の話題が出ることが多いのですが、その内容をちゃんと理解できるようになりたいという欲求もある。 ↩