データレイクに求められるメタデータ管理

昨今、データレイクの構築とともに徐々に脚光を浴びつつあるメタデータ管理。その基本的な概念とアプローチのポイントをMetafindコンサルティングがご紹介します。

弊社は、独自開発したフレームワークMETALIB®を用いて、データマネジメントとガバナンスの教育や導入支援を専門に行っているコンサルティング会社です。データレイク構築の際には、アーキテクチャの検討、標準コードおよび標準データ構造の設計、データカタログの導入や運用設計などのデータマネジメント全般に関するコンサルティングを実施しています。

メタデータとは図書目録のようなもの

データマネジメントの教科書と言われているDMBOK2※では、メタデータを次のように説明しています。

「どんな資産を管理するにも、その資産自体に関するデータが必要である。データを管理し利用するためのデータをメタデータと呼ぶ。(中略)大きな図書館を想像してみよう。そこにある図書目録を見れば、数十万の書籍と雑誌のなかから、自分が欲しい書籍の保管場所が分かる。またそればかりでなく、利用者の様々な着眼点(対象分野、著者、タイトルなど)から資料を見つけ出すこともできる。逆に図書目録がなければ、読者は特定の本やトピックスの検索を開始する方法さえも分からないかもしれない。データ資産の有効活用においてメタデータを持たない組織は、図書目録のない図書館のようなものだ。(第1章「データマネジメント」抜粋要約)」

※DMBOK2:Data Management Body Of Knowledge2 データマネジメント知識体系ガイド(日経BP社)

弊社サイトにて同書の紹介ブログが掲載されています(https://metafind.jp/dmbok/

何を頼りにデータレイクから欲しいデータを探すのか?

データレイクは、それこそ膨大な量の本が貯蔵されている図書館とよく似ています。データレイクから欲しいデータを探すために、図書目録のようなものが欲しくなります。では、データアナリストやサイエンティストなどのデータ利用者は、何を手掛かりに欲しいデータを探していくのでしょうか?ここで、彼らがデータを検索するシーンを思い浮かべてみます。

「大量のデータのなかから候補を絞り込みたい」 - 組織や業務、システム、エンティティなど -

大規模なデータレイクには、大量のデータが蓄積されています。数百から数千のファイルやテーブルから自分が欲しいものを探し出すのは至難の業です。欲しいデータが明らかであればキーワード検索でも良いのですが、そうでない場合は当りを付けるためにもあらかじめ一覧化されたカテゴリー(例えば、データ発生元の組織や業務、システムの一覧、もしくはエンティティの一覧など)の中から候補のデータを絞り込んでいきます。

「同じ種類のデータから欲しいデータを特定したい」 - データ粒度、データスコープなど -

しかし、本当に欲しいデータにたどり着くためには、まだ長い道のりが待っています。なぜなら、同じ種類のデータでも、実は似て非なるものが何十と存在することがあるからです。例えば、同じ受注データの中でも、最も細かいトランザクションデータなのか?それとも月次で集計されたデータなのか?(データ粒度の違い。キー項目などに表れる)。もしくは国内分のみなのか?北米やアジアなどのグローバル全体の受注実績を含んだものなのか?(データスコープの違い。例えば取得経路が異なるために生じる)。このように、データレイクには似て非なる受注データがたくさん存在しています。

「写真や動画を探したい」 - 撮影日、撮影者、撮影地点、被写体など -

  動画や写真などの、いわゆるビッグデータと呼ばれる非構造データを探すときにも、何らかの手掛かりを頼りにします。例えば、誰がいつどこで撮影したのかなどの情報や、画像解析をする場合には画像のどの位置に何が写っているのかのアノテーションの情報などです。

「データ項目の定義を細かく調べたい」 - 意味、単位、区分値、計算ルールなど -

また、データ項目1つ1つの定義やビジネスルールなどを細かく知りたい利用者もいます。特に金額や数量項目は、定義が異なるものを集計してしまうと想定外の値になるため、単位(米ドルなのか?日本円なのか?現地通貨なのか?数量項目であればバラ単位なのか?ケース単位なのか?など)や計算ルール(計上タイミング、税金計算など)の意味に注意を払う利用者が多いです。

取得できるメタデータではなく、使いたいメタデータを管理する

このように、データの利用者がデータを探していく道のりを思い浮かべながら、その中で必要とされている情報が何かを考えて、管理すべきメタデータを定義していきます。メタデータ管理は、ツールで自動取得できるメタデータの範囲で考えるのではなく、本当に使いたいメタデータは何かから考えるという発想が重要です。

メタデータ管理というと、特殊な知識が必要なように見えるかもしれませんが、BI構築などの要件定義と共通しています。見たいものは何か?そしてそれらをどうやって集めてくればよいのか?などの要件から考えることが実は重要なのです。これらは通常のシステムを開発するアプローチに通じるものがあります。

品質の高いメタデータを収集する運用スキームを考える

ツールで収集できるメタデータがあれば、まずはそれらを管理します。ただし、全ての情報が収集できるわけではありません。データの粒度やスコープ、金額項目や数量項目の単位や計算ルールなどは、発生源のシステムで管理されているドキュメントにしか書かれていないことが多いです。あるいは、ドキュメント自体が管理されていない、最新の状態に更新されていないということも良くあります。そのため、そのような情報をいかにうまく集めデータの利用者に届けるのか、ということを運用スキームとして考えることが重要になります。最初から集めることが難しいメタデータについては、発生源システムの関係者に協力を仰ぎながら後から入力してもらうことも考えなければなりません。ここまで来ると、非常に大掛かりな取り組みになるため、目的を意識しながら何に注力するのか濃淡をつけ、成果を出しながら理解を得るようにしていく必要があります。

集めたメタデータは積極的に使ってもらう

メタデータは多くの関係者に協力してもらうことにより、常に新しくなり、内容が充実し品質の高いものが管理されるようになります。そのためにも、メタデータの存在を多くの人に理解してもらわないといけません。データ利活用の現場に参加して、メタデータをどのように活用してもらうと良いのかなど、有効な情報提供を積極的に行います。「メタデータは企業全体がデータ利活用により活性化するための土台である」ことを知ってもらうための宣伝活動は、メタデータ管理のスキームを維持するためにも大切なことなのです。

最後になりますが、メタデータ管理に関しては、弊社で下記のようなサービスを準備しておりますので、お声がけいただけると幸いです。

<メタデータ管理サービス>

・オンサイト教育(2~4時間/回)

DMBOK解説、メタデータの管理事例、進め方と成果物解説など座学教育を行います。

・ワークショップ(週1回/1~2か月)

お客様のサンプル素材を基に、メタデータモデルやデータカタログビュー設計から、運用設計までを小規模に実施する、フィージビリティスタディを行います。

・企画立案/要件定義(3カ月~)

お客様の方針や要件を基に、弊社フレームワークMETALIB®に沿って、企画書などの各成果物を定義します。


<お問合せ先>

Metafindコンサルティング株式会社

東京都千代田区神田錦町3-6錦町スクウェアビル2階

E-mail:info@metafind.jp 

Tel:03-4578-5961

URL:www.metafind.jp