双子の呪文を解くのは、機械インテリジェンスと人のコラボレーション

「エンタープライズデータカタログ」の魔法

ハリーポッターのファンなら、「ハリーポッターと死の秘宝」に出てくるワンシーンを覚えていることでしょう。ハリー達が、レストレンジ家の金庫破りをした際に、「双子の呪文(触ったものの偽物が量産される)」のかかった宝物が、次々とコピーを作り出して増殖し、あっという間に部屋一杯になって、ヒーローたちを押しつぶしそうになったシーンです。

データ管理者がこのシーンを見れば、身につまされる思いをするのではないでしょうか。データ消費者の数が増えれば、それだけ重複するデータ資産の数も増えます。かつて、データベースの世界では、データのコピーやビューが複数存在することが問題となりましたが、データレイクの世界では、ユーザーが勝手にデータセットをコピーして作成することが、大きな問題となっています。

このような状況では、単にデータ資産を自動的にカタログ化するだけでは、不十分です。なぜなら似たような名前の重複するオブジェクトが大量に残ってしまい、レストレンジ家の金庫のような状態になるからです。データアナリストやデータサイエンティスト、業務ユーザーなどのデータ消費者が、似たようなデータでいっぱいのデータソースの中から、正式なものを区別して見つけ出すことはできないでしょう。

コラボレーション・マジック

データの増殖を解決するひとつの方法は、データ消費者が重複するデータ資産を作れないよう厳しく取り締まり、呪いを元から断つことです。しかし、データ消費者の想像力を奪うような厳格な規制は、現実の世界でうまくいくことは滅多にありません。そこで、機械のインテリジェンスと人同士のコラボレーションを組み合わせることで、データの増殖をうまくコントロールする方法が必要になります。

これぞまさに、インフォマティカのソリューションであるEnterprise Data Catalog (以下、EDC)の新機能が力を発揮するところです。データセットの信頼性と有用性に関する知識は、組織内の奥深くにサイロ化していますが、この知識を、人同士のコラボレーションを使って顕在化させることができるという機能です。正しいデータセットを見つけ使えるようになるまでに、何週間あるいは何か月もかかるようなことはなくなります。

では、この「コラボレーション・マジック」のからくりを説明しましょう。

データセットを認定する

EDCのバージョン10.2.2では、主題に精通した専門家やデータスチュワート、データの所有者たちが、データの用途や制約などのコンテキストに関する情報を付与して、データセットを認定することができます。EDCは、機械学習ベースのシマンテック検索を使って、似たような名前のデータセットの中から、認定されたデータセットを積極的に使うように、ユーザーを誘導します。このプロセスは、Google AdWordsと同じです。データセットを認定する際には、主題の専門家たちが、そのデータセットの検索キーワードを提供します。すると、EDCは、これらのキーワードが検索に使われた時に、認定データセットが検索上位にくるようにしてくれるわけです。

ユーザーによるレビューと評価

アマゾンで商品を購入した消費者が、商品のレビューを書くのと同じように、データ消費者が、データセットのレビューを書いて評価することができます。すると、EDCは、高い評価を受けたデータセットが検索上位にくるようにプッシュします。つまり、データ消費者がデータ資産を見つける前に、データキュレーターやデータスチュワートがデータ資産を認定する手間がなくなるわけです。レビューと評価システムが、彼らの代わりになって、最もよく使われているデータセットを検索上位に表示してくれます。また、レビューを書くことは、データの品質、適用可能性、信頼性といった観点から、そのデータセットに期待できることを、他のユーザーに知らせる絶好の機会になります。

よくある質問集

さらに、新しい質疑応答プラットフォーム上では、データ消費者からよく聞かれる質問を、主題の専門家が答えることができます。これまでは、データ資産に関する質疑応答は、電子メールや電話でやり取りされてきましたが、こうした情報のほとんどは失われることが多く、主題の専門家たちは、同じ質問に何度も答えなければなりませんでした。しかし、EDCが質疑応答を中央管理することで、これらの情報は失われることなく、すべてのデータ消費者が利用できるようになります。

このように新しいコラボレーション機能が加わったインフォマティカのEnterprise Data Catalogなら、たとえデータの偽物がデータレイクやデータソースに蔓延していたとしても、データ消費者は正しいデータを見つけられるようになります。

これで、双子の呪文を解くことができました!


※本ページの内容の一部は2019年4月15日更新のUS Blogの抄訳です。

Collaborative Data Discovery with Enterprise Data Catalog

著者: Gaurav Pathak, Director, Product Management