『実践的データ基盤への処方箋』を読んだ
『実践的データ基盤への処方箋』を読みました。データ分析のシステムは自分がよく分かってない分野だったので、知らないことがいっぱいあってとても勉強になりました。
具体的には、次のようなことを学びました。
- データ基盤は「データレイク」「データウェアハウス」「データマート」という3つの構造に分けて設計し、それらをワークフローエンジンで管理するという方法論が確立している。
- データは加工せずにデータレイクに入れる。ただしプライバシー情報はフィルタリングしておく。
- データレイクはデータのコンテンツタイプに応じてストレージ(データベース、ファイルシステム、オブジェクトストレージなど)を使い分ける。
- データウェアハウスでは必要に応じてデータのクレンジングを行うが、理想的にはデータ基盤内でのクレンジングではなく、データソースで品質を管理する。
- データ基盤の各層で広く使われているソフトウェアと選定基準。
- データ基盤に関わる職務(データスチュワード、データエンジニア、データアナリストなど)とデータ基盤を活用する組織づくり。
本書で学んだことを踏まえて、実際にパイプラインを作って試してみたいところです。特にデータソースとデータレイクの間、データレイクとデータウェアハウスの間で様々なタイプのデータやストレージを処理する部分はソフトウェア的にも面白そうです。練習に使うのに良い感じのデータソースがあればいいんですが。
本書の知識は自分の普段の業務(メトリクスの設計・運用やデータの解析)にも役立ちそうなので、積極的に活用していきたいです。