一枚の写真隠された歴史を紐解くのは「メタデータ」

ニューヨークタイムズの日曜版を週末に読むのが楽しい今日この頃ですが、数か月前のある特集で、ニューヨークタイムズでは滅多にお目にかからないような「メタデータ」という言葉を見つけ興味を惹かれました。その内容は、50年以上も経った写真を、デジタル化することで蘇らせようというものでした。

写真の裏には、当時に関するメモや情報が手書きで記されていましたが、それが「メタデータ」いうわけです。ニューヨークタイムズは、Google Cloudと協力して写真とメタデータのデジタル化に取り組みました。メタデータのデジタル化は、今日の読者たちにとって貴重なコンテキストを蘇らせます。(デジタル化プロジェクトの詳細についてはこちら、またデジタル化された写真の物語についてはニューヨークタイムズの「Past Tense」サイトをご覧ください。)

 

インテリジェント データカタログ

「1枚の絵は1千語に匹敵する」と言いますが、メタデータが加わるとそれ以上の価値が生まれます。

ニューヨーク市のありふれた通り沿いに立つ、1本のクリスマスツリーというシンプルな写真。この写真自体は多くを語りませんが、裏に書かれたメモとスタンプからある物語が見えてきました。そこには、キャプションに添えられて、いつ、どこで撮影された写真なのかが記されており、ハリー・トルーマン米国大統領がなくなった2日後に、悲しみに暮れる中で撮られた時であることがわかりました。写真の裏に書かれたメタデータをデジタル化して、ニューヨークタイムズの関連記事や他のオンラインコンテンツを紐づけることで、このように今日の読者たちにとって貴重な歴史的かつ社会的なコンテキストを提供することができたのです。

では、ニューヨークタイムズにアーカイブされている何千枚もの写真を、このようにデジタル化することで、すべてのアーカイブを簡単に検索できるようになったらどうでしょうか?

ニューヨークタイムズは、この作業をGoogle Cloudと共同で取り組んでいます。まず、写真をデジタル化してメタデータと関連付けたら、次は自動画像・テキスト認識を使って、重要なコンテキストを掘り起こします(例えば、写真の撮影日時、場所など)。さらに人がキュレーションすることで、より多くの歴史的・社会的なコンテキストを紐づけることができます。機械と人間のインテリジェンスを組み合わせ、写真をキュレートして関連性の高い歴史的コンテキストを持たせることで、1枚のシンプルな写真が「ミニ博物館」へと変身するのです。

データを情報とインテリジェンスに変える

コンテキストを説明するいくつかの言葉を足すことで、「1千語に匹敵する」と言われる「1枚の絵」が、こんなにも効果的にエンリッチ化できるとしたら、これを今日の複雑なデータランドスケープに当てはめてみるとどうなるでしょうか。

毎日、何千ものデータセットが続々と生まれる中、すばやくデータを理解して利用したいというビジネスニーズが、さまざまなタイプのユーザーから求められています。

結局、データセットは単なる数字とテキストの集合に過ぎません。せいぜい意味のある記述やカラムヘッダをつけて分かりやすくするか、あるいは最悪なら不可解なカラム名が並ぶだけでしょう。では、データを所有あるいはその主題に精通した関係者だけが知り得る「閉鎖的な輪」から抜け出して、データの可視性と理解を高めるには、どうすればよいのでしょうか?

最初のステップは、組織全体にわたってすべてのデータ資産をインデックス化し、カタログを作成して簡単な操作と業務用語で検索できるようにすることです。ニューヨークタイムズが、写真と関連するメタデータをデジタル化して、写真のアーカイブを検索可能にしたのと同じことです。

しかし、検索結果の良し悪しは、データセットに関連付けられたメタデータの質と同等になります。技術的なメタデータ(例えば、データベーステーブルのスキーマの定義など)は、多くの場合、ソースデータのシステムから入手できますが、業務ユーザーが関連性の高いデータを見つけられるようにするためには、技術的なデータセットを業務の内容に合ったコンテキストでエンリッチ化することが不可欠です。構造化・非構造化された何十万ものデータセットが組織のあちこちにあるならば、「言うが易し行うは難し」です。AIと機械学習による自動化は、この作業を大規模に実行するうえで重要な役割を果たします。

例えば、ドメインとエンティティ(日付、場所、顧客、商品など)を自動認識させて、これらの情報からデータセットをタグ付けできます。一般的に、ビジネスグロッサリで定義される用務用語とその定義は、技術的なデータ資産に自動的に関連付けることができます。こうして、簡単な業務用語を使ったデータ検索が可能になります。

 

AI + 人の専門知識

AI主導の機能はこのうえなくパワフルなのですが、それだけでなく、組織のあらゆる所から共有化したデータ知識や人の専門知識でAIを補完することが重要です。業務関係者は、業務内容に応じた記述やカスタムのタグ、注釈をつけることで、データをエンリッチ化し、データの消費者は、データセットをレビュー、評価することで、実際の使用コンテキストを使って、データをさらにエンリッチ化することができます。このような好循環に入ることで、人がインプットするすべてが、プラットフォームをよりインテリジェントにし、より多くの作業を自動化し、より豊富なコンテキストに応じた情報を使うことで、より関連性の高い検索結果を提供し、最終的には、データへの理解を深めるようになるのです。データセットは、もはや単なる数字とテキストの集合ではありません。データキュレーションとエンリッチメントを通して、価値のある情報の宝庫に変わるのです。インフォマティカのインテリジェントなデータカタログが、エンタープライズ規模でどのように実現できるのか、詳しくはこちらをご覧ください。


※本ページの内容の一部は2019年2月11日更新のUS Blogの抄訳です。

Data Curation with an Intelligent Data Catalog

著者:Dharma Kuthanur

コメント