メタデータ管理の実践
データガバナンスのトレンド
昨今日本においても、「データは資産であり活用すべきもの」という理解や課題認識が、急速に浸透しつつあります。
『活用』の中には、ETLやデータクレンジングのように物理的なデータ連携や加工といった「活用手法」もありますが、包括的視点に立ち企業としてどのようなデータをどのように活用するのか、できるのか、活用のための管理・統制とはどういう事か?という「活用戦略」が重要になってきます。
こういったデータ活用戦略およびその為の管理・統制を総称してデータガバナンスと呼ぶことが自然だと言えます。つまり、管理・統制だけが目的ではなく、その先の活用へつなげるための前向きな取り組みだと捉えて頂きたいのです。
メタデータ管理
データガバナンスを考える際、「データの中身」「データの器」という2つのテーマがありますが、今回はデータの器である「メタデータ」に着目して、実践的な活用シーンを考えてみたいと思います。
メタデータ管理のシーンと目的
- 要件定義や設計の支援
- 既存のデータベース/データウェアハウスに含まれる、テーブル・カラム・ビュー等のシステム定義情報を一元的に集約し可視化する事で、システム辞書として活用できます。同じ構造のデータマートを作らない、利用できるテーブルを探し出す、項目の属性定義を他のテーブルと揃える、といった目的に使います。陳腐化しがちな設計書に頼らず、現在あるがままのシステム情報を参照する事で、設計の精度を向上させることが可能となります。
- ETLでデータ連携処理を開発する際に、既存のビューやストアドプロシージャに含まれる処理の概要やデータ項目を特定する事で、既存仕様を参考にする際の間違いが起きません。ETL化する事のメリットは、開発生産性、再利用性、運用保守性の向上など多岐にわたりますが、大きな利点のひとつがメタデータの管理と可視化の促進です。
- 影響分析/来歴分析
- テーブル定義などのメタデータを1つ1つ確認する事も効果がありますが、様々なオブジェクト同士の関連性を可視化しデータの流れまで見ることができれば、活用範囲はより広がります。このデータの流れをデータリネージュやデータ系列などと呼びます。
- ETLツールによる連携処理単体のデータリネージュは、どちらかと言えばIT部門による開発・運用で実現可能な範囲です。一方で、データベースとBIツールの関係性のように、IT部門が管理しきれないエンドユーザーコンピューティングの範囲まで可視化できれば、その効果は想像を絶するものになるはずです。たとえば、基幹業務システム⇒ステージングDB⇒DWH⇒BIといった、複数システム横断でデータの流れを把握することで、システム改修時の影響分析や、業務ユーザー目線での来歴分析(データ源泉の調査)を、正確かつ素早く行うことができれば、業務ユーザーもIT部門も皆ハッピーになるはずです!

まとめ
冒頭に申し上げたように、メタデータの管理は手段であり目的ではありません。データガバナンス(データ活用戦略)を念頭におき、まずはできるところから少しずつ取り組んでいくことをお勧め致します。最初から範囲を広げようとせず、普段困っている領域や直近のプロジェクトを題材にする事で、その効果を肌で実感でき、関係者の共通理解も得やすくなるからです。
コメント