データレイクが沼地化して足を取られる理由~メタデータ管理の重要性とは~

今年5月に開催されたInformatica World 2018の会場では、非常に多くのお客様と直接会話することができました。その中でIT部門や業務部門のリーダーから伺った話でほぼ共通していたことは、クラウドベースのデータレイクを適正な方法で構築するのに非常に苦労されているということでした。「どうすれば、データレイクがデータの沼にならないようにできるか?」という課題です。

 

信頼できるデータレイクを構築する方法

多くのIT部門は、数年間という長い時間をかけてビッグデータ活用の準備と、クラウド上でデータレイクを構築するという構想を描いてきました。本来クラウドデータレイクは、データの使い道を今すぐ考えなくても、あらゆるビジネスデータを吸い上げて蓄積し、無限に拡張可能できる便利なものなのです。

従来のデータウェアハウスでは、データを抽出する前に、どのような目的で利用するデータなのか、完全に統制(ガバナンス)された信頼できるデータなのかを確実にしておく必要がありました。それに比べてデータレイクは、冷蔵庫の引き出しのように、まだ使い道が決まっていなくても、とりあえず何でも入れておけるという点ではるかに使いやすい選択肢なのです。しかしこの便利さが、データレイクを沼地化させる落とし穴であり、データサイエンティストたちが嘆く点でもあります。

彼らは、いくつもの博士号を持つような数学のエキスパートであり、データをビジネスに役立つ洞察へと変える能力もあるので、あらゆる業界で引っ張りだこです。

しかし現実は、その能力を発揮する前に、彼らの貴重な時間の70%が無秩序に入れられたデータを整理整頓にすることに浪費されています。

 

今やるか、それとも後回しにするのか

「クラウドデータレイクさえあればデータガバナンスの泥沼にはまることはない」、という考え大きな勘違いです。

前述のデータサイエンティスト達のように、いつかはデータを管理して統制しなければならないのです。要するに、「今やるのか、それとも後回しにするのか」なのです。

データ抽出時に最低限のデータガバナンスを行うことで、その後の作業効率は高まり、時間短縮にもつながります。もちろん、まだ見ぬユーザーのためにデータを完璧に用意することはできませんが、データレイクに入れる前に、初歩レベルのガバナンスを自動的に適用するようにしておけば、何らかのイニシアチブのためにデータを引き出す時に、より信頼できるデータを使えるようになります。

テクノロジーを理解しているITリーダーと、データを理解している業務ユーザーが協力して必要最低限のデータ品質とデータガバナンスを決める必要があるのは、このためなのです。まずは、その出発点として、メタデータに取り組むことをお勧めします。

データが氾濫する現在のデータ管理において、メタデータは、もう個別の取り組みテーマとしてではなく、データ管理プラットフォームの基本的な機能として注目されてきています。なぜなら、メタデータを管理することで、次のようなメリットを実現できるからです。

 

  • 連携可視化:ソースからターゲットまでのリネージュ(来歴)管理
  • 監査対応:誰がいつ、どのようにデータを変更したかの履歴管理
  • コンテキスト:ビジネスユーザーによるビジネス用語の追加や管理を可能とし、ユーザーの利用度の向上
  • ガバナンス管理:ルールやポリシー 許可されたユーザーのみの利用、セキュリティポリシー、データ品質などの管理

(参考:ブログ「データ統合とメタデータ管理による新たな世界」)

 

利用者に関係なく、データソースの所在地やデータの定義、データ所有者の有無を特定することができます。データガバナンスは、情報のセキュリティやアイデンティティにも通じています。例えば、人事に関連するデータや顧客のクレジットカード情報など、アプリケーション内に閲覧権限のないデータがあるとすれば、そのユーザーはデータレイク内でもこうしたデータにはアクセスできないようにするといったことです。メタデータ管理があれば、そのデータがどこからきて、どのようなセキュリティやガバナンスルールが適用されるか?といったデータリネージを理解し、統制することができます。

データの注入作業が行き詰まらないように、あまり多くのデータガバナンスの手間はかけずにデータレイクに入れたい一方で、すぐに使えるデータにしたいというのが本音でしょう。また、アナリストやデータサイエンティストたちが、自らデータを用意して、データ資産を簡単に見つけ出し、データのドメインやユーザー、利用方法、関連するデータ資産など、データリネージやデータの関係を完全に把握できるようでありたいものです。

そこで、共通のメタデータ基盤があれば、データの活用にコンテキストが要求される機械学習や人工知能を利用する革新的なユーザー向けにデータレイクを用意することができます。メタデータは、データレイクが沼地化するかどうかを左右するデータ戦略における重要な要素です。つまり、メタデータリポジトリ(別名、データカタログ)は、組織が保持してゆく情報の中で、最も価値のある情報セットなのです。

 

折り重なる真実

従来のデータウェアハウスは、唯一無二の真実となるべく堅苦しいまでに構造化されてきました。また、完全に信頼できるデータベースを作るためには、データを取り込む前に、データ品質を高める作業を施すことが必要でした。同様の作業をデータレイクで行う必要はありませんが、メタデータさえ確実に管理しておくことで、信頼性が高く、より素早くアクションにつながるデータを手に入れることができるでしょう。

データレイクの沼地化を解決するには、データ品質をさまざまなレベルで模索するのがベストアプローチといえるでしょう。データを整理しないままデータレイクに入れるのは、データをあらゆる角度から試して調査するという観点では、「自己責任」において有り得るかもしれません。しかし結局は、より統制されたデータで繰り返し実験してみるまでは、データをアクションにつながる信頼できる洞察として利用することはできないのです。完全に構造化されたデータウェアハウスが持つ「唯一無二の真実」に近い、より統制されたデータを手に入れるには、メタデータ管理が非常に重要なのです。

 

クラウドデータレイクの作り方について、さらに詳しくは、ホワイトペーパー「CDO向けインテリジェントデータレイク管理ガイド」をご覧ください。


※本ページの内容の一部は2018年8月21日更新のUS Blogの抄訳です。

How to Build a Cloud Data Lake You Can Trust

著者:Vice President, Professional Services, Kevin Fleet

コメント