データが足りない!というユーザーの不満を解決する特効薬

「より多くの人々が、より多くのデータを使えるようにするためには、どうすればよいのか。」データプロフェッショナルたちが、この問題に頭を抱えています。

私は最近、大手製薬会社に勤める友人のショーンに会いました。彼の会社は、非常に洗練された方法でアナリティクスを行っており、非常に高度な研究組織でAIや機械学習を活用しています。

それにも関わらず、彼の会社もやはり、より多くの人が、より多くのデータを求めているという問題を抱えているのです。「毎日、誰かがデータを求めて僕の所に来るんだ」とショーンは言っていました。「なぜこのデータを収集していないのか?どうすればあのデータにアクセスできるのか?他部門が作ったこのデータをいつでも利用できるようにできないのか?」と尋ねてくるそうです。

ショーンは、プレッシャーを感じながらも、常に対応が後手に回ってしまっていることに気づいています。「十分なデータなんて、本当にあるかどうかわからないよ」と彼はこぼしていました。

データの収集を優先させることで組織を強化する

私はショーンに、データインジェスチョン( データの収集 )を優先させる方法を提案しました。つまり、アプリケーションやデータセット、その他データ資産を所有する組織内のすべての人が、自分の所有するデータをデータレイクに取り込めるようにするのです。そして、これらのデータを自動的にカタログ化して、基本的なデータガバナンスを適用し、即座にデータを見つけて利用できるようにします。

これらを実現できれば、物事を非常に有利に進めることができます。例えば、彼の会社が他社を買収する、新しいプロジェクトを始める、あるいは大規模な変更を実施する時など、データの必要性が急増するような多数の出来事は、かなりの頻度で発生しますが、どのような場合であっても、ユーザーに適切なツールと適切なプロセスを提供することで、ユーザーがデータを収集できるようにすればよいのです。

(データで人々を強くする方法について詳しくは、私が以前に書いたブログ記事「Give the Power of Data to the People : Focus on Integration Strategy and Enablement」を参考にしてください。)

データの収集に欠かせない2つのステップ

適切なアプローチで導入できれば、データインジェスチョンは、問題を解決する特効薬となり得ます。必要なのは、物事を前に進めるための適切なツールと適切なプロセスだけなのです。データインジェスチョンの後にデータがどのように使用されるのかを深く知る必要はなく、また高度なデータ操作を施して、次のステップのために準備するも必要ありません。

しかし、これは非常に重要なポイントなのですが、データインジェスチョンの後に次の重要なステップを実行することが成功のポイントとなるのです。

ステップ1:データを探索

大量のデータがあるのですから、収集したデータをすべてカタログ化してタグ付けしなければなりません。この作業は自動化するのが良いでしょう。そして、どのようなデータがあり、データリネージはどうなっているのかを理解する必要があります。

ステップ2:基本的なガバナンスを起動

データのカタログを作成したら、データを有効化するプロセスを起動し、主な利用者がデータをやり取りできるようにします。ユーザーが、データについてのコメントを追加する、あるいはさらに処理が必要なデータはどれかを明示できるようにします。より高度なデータガバナンスが必要なデータであれば、そのプロセスを起動できるようにします。

この2つを実行するだけで、すでに先手を取って成功しているも同然です。なぜならば、誰かに新しいデータセットを要求されたとしても、すぐに使えるデータがすでに存在しているからです。

インジェスチョン・ファーストはどのように機能する?

では、実際にインジェスチョン・ファーストがどのように働くのかを、ある製薬会社を例にして説明してみます。

同社は、新薬の臨床試験を行っており、そのために新しいデータベースを作成し、臨床試験を支援する第三者企業から新たにファイルを受け取っています。

インジェスチョン・ファーストのアプローチでは、 (リアルタイムあるいはバッチで)データベースやフラットファイルから臨床試験データを収集してデータレイクに取り込む作業を、シンプルなウィザード機能を使って実現します。そして、カタログ機能を使って、データレイクのスキャン、新しいデータの自動認識、データ分類からデータが属するドメインの特定、データのタグ付け、さらにはデータの来歴であるデータリネージを理解できるようにします。

次に、データガバナンスを自動化するプロセスによって、データの適切な所有者となる業務担当者と、その適切なデータプロビジョニングのプロセスを、データとつなぎ合わせます。臨床試験データの例で説明すると、カタログ機能によって、これは臨床データであるということを認識し、臨床データに責任を持つ人とデータを関連付けて、そのデータを利用できるようにするために必要なプロセスに関連付けることになります。データレイクにある臨床試験データを利用できるようにするためには、さらにデータ品質の改善処理と基本的なマスキング処理を行う必要があります。従って、これらのプロセスが次に自動的に起動されます。

インジェスチョン・ファーストの始め方

ではどのように、データインジェスチョンを始めればよいのでしょうか。最も簡単な方法は、パイロットプロジェクトから取り組み始めることです。パイロットプロジェクトでは、複数の異なるドメインと収集パターン (ファイル、データベース、あるいはストリーミングの収集) にフォーカスします。臨床試験の例では、3つの収集パターンのすべてが必要になります。クラウドデータレイクに取り込む場合は、クラウドストレージで動作するように最適化されたツールを利用するように注意しましょう。

パイロットプロジェクトには、人、プロセス、そしてそれを支える製品が関わってきます。インフォマティカは、データインジェスチョンを誰でも実行できる簡潔なツールとプロセスを製品として用意しています。

Data for AI and Analytics VIP Summitでは、クラウドデータウェアハウスとクラウドデータレイクの利点を活用して、俊敏性とスピード、拡張性を手に入れるクラウドファーストのアプローチについてご紹介します。ぜひご参加ください。


本ブログは3月5日の Ronen Schwartz によるNeed More Data? Take an Ingestion-First Approach.の翻訳です。