『実践的データ基盤への処方箋』を読みました。データ分析のシステムは自分がよく分かってない分野だったので、知らないことがいっぱいあってとても勉強になりました。

表紙

具体的には、次のようなことを学びました。

  • データ基盤は「データレイク」「データウェアハウス」「データマート」という3つの構造に分けて設計し、それらをワークフローエンジンで管理するという方法論が確立している。
  • データは加工せずにデータレイクに入れる。ただしプライバシー情報はフィルタリングしておく。
  • データレイクはデータのコンテンツタイプに応じてストレージ(データベース、ファイルシステム、オブジェクトストレージなど)を使い分ける。
  • データウェアハウスでは必要に応じてデータのクレンジングを行うが、理想的にはデータ基盤内でのクレンジングではなく、データソースで品質を管理する。
  • データ基盤の各層で広く使われているソフトウェアと選定基準。
  • データ基盤に関わる職務(データスチュワード、データエンジニア、データアナリストなど)とデータ基盤を活用する組織づくり。

本書で学んだことを踏まえて、実際にパイプラインを作って試してみたいところです。特にデータソースとデータレイクの間、データレイクとデータウェアハウスの間で様々なタイプのデータやストレージを処理する部分はソフトウェア的にも面白そうです。練習に使うのに良い感じのデータソースがあればいいんですが。

本書の知識は自分の普段の業務(メトリクスの設計・運用やデータの解析)にも役立ちそうなので、積極的に活用していきたいです。