セルフサービスのデータ活用を阻害するデータ準備~AI搭載のデータプレパレーションができること~


エンタープライズ規模のデータ準備への需要が高まる背景

データドリブンな意思決定が競争優位につながると考える昨今の組織は、データの持つ潜在的な価値に大きな期待を寄せています。一方で、多様なデータが急激に増加する中、データの価値を最大限に引き出すことは、さらに困難になっています。また、ユーザーからは、戦略的な意思決定や作業効率の向上、機械学習モデルの開発、業務連携のために、信頼できるデータを求める需要が高まっています。そして多くの企業が、自社のデータの問題を解決できると信じて、すべてのデータをクラウドデータウェアハウスやデータレイクに統合するために多くの時間と資金を費やし、目標を達成しようとしてきました。しかし、これまでの努力も虚しく、クラウド内のデータには秩序がなく、データを探してアクセスし、次世代アナリティクスのユースケースのために利用するのは困難であることに間もなく気づきます。

こうした背景から、セルフサービスによる分析やデータサイエンスの実践を推進したいと考える組織にとって、データ準備は非常に重要な要素になっています。

データ準備とは?その課題は?

分析や機械学習に使えるデータを準備するためには、データの抽出、クレンジング、正規化、ローディング、ETLワークフローの大規模なオーケストレーションが必要で、それには多くの時間を要します。たとえ無事にデータをクラウドデータレイクやデータウェアハウスにデータに移行できたとしても、データのコンテキスト(内容)を理解するには、データアナリストやデータサイエンティストたちが、基盤となるデータをクレンジングして正規化しなければなりません。現在、このようなデータ準備作業は、ExcelやJupyter Notebooksの小規模なバッチで行われており、大規模なデータセットを取り込むことができません。また、運用化も困難で、信頼できるメタデータをエンタープライズ規模のフローに提供することができません。こうした方法では、データセットを準備するのに数週間~数カ月かかります。データの利用者は、作業時間の80%を費やしてデータを準備しなければならず、データを分析してデータの価値を引き出すことができない現状に直面してしまいます。

80:20の法則を逆転させる

多くの企業が、いまだに非効率な方法でデータを準備しています。ータアナリストやデータサイエンティストたちは、データを探して準備するために80%の時間と労力を費やし、分析に20%の時間しか割くことが出来ていないのです。それに加えて、非構造データが急増していることによって、Data Opsチームは、データの誤りや不整合、異常を洗い出して、データを削除、クレンジング、整理するためにさらに多くの時間を費やしています。

同時に、データドリブンな意思決定が重視されるようになり、高品質で信頼性の高いデータが必要であることから、データ準備の標準化と効率化の重要性が高まっています。さらに、ビジネスユーザーは、IT部門がデータを提供するまで待つ余裕がなく、意思決定を迅速化できるようなセルフサービスのデータ準備機能を要求しています。

データ準備を迅速化するための1つの方法は、俊敏かつ反復的でコラボレーティブなセルフサービス方式を採用することです。近代的なセルフサービス方式のデータ準備アプローチを採用すれば、80:20の法則を逆転させて、有利な方向に変えることができます。IT部門は、データ資産のセルフサービス機能を提供できるようになり、アナリストたちは、以前よりもかなり少ない時間で適切なデータ資産を探して準備し、データ品質ルールを適用して関係者と連携し、ビジネス価値をもたらすことができます。

近代的なエンタープライズ・データプレパレーションのユースケース

エンタープライズ規模のデータプレパレーションソリューションには、主に2つのユースケースがあります。

  • 分析とデータサイエンス構築を改善するためのデータ準備

エンタープライズ・データカタログ機能を搭載したAI駆動のエンタープライズ・データプレパレーション・ソリューションがあれば、データサイエンティストの生産性と効率性を高めることができます。オープンソースのツールを使って手作業でデータを検索して準備しているデータサイエンティストたちは、ほとんどの時間をデータの探索と準備に取られてしまい、それがプロジェクトが遅れる原因となっています。エンタープライズ・データプレパレーションとデータカタログ機能が統合されていれば、クラウドデータレイクにある大量の構造化および非構造化データセットを処理することができます。これによって、モデル開発を迅速化し、データの中に隠れた金塊を見つけて、予測的かつ処方的な分析に役立てることができるのです。

  • クラウドデータレイク上でのセルフサービス分析のためのデータ準備

クラウドデータレイクは、高度な分析ワークロードにデータを利用できるようにするためのデファクト・プラットフォームになりつつあります。しかし、データの意味を理解して、データの価値を引き出せるような適切なテクノロジーがなければ、データレイクは「データの沼」になる危険性があります。エンタープライズ・データプレパレーション・ソリューションは、データレイクに取り込んだデータのコンテンツを精査し、データをキュレートすることで、データ利用者が、信頼できるデータをセルフサービス分析で利用できるように支援します。

インフォマティカにできること

インフォマティカのエンタープライズ・データプレパレーション・ソリューションであるInformatica Enterprise Data Preparation(以下EDP)」は、データサイエンティストやデータアナリスト、シチズン・データインテグレータが、コーディングなしにクラウドデータレイクのデータ準備を俊敏に実行し、セルフサービス分析やAI/MLのユースケースを推進することを可能にします。ここでは、インフォマティカのEDPがデータニーズを満たすために役立つ8つの方法を紹介します。

1. データ品質を改善して信頼性を向上:インフォマティカのEDPは、インテリジェンスと自動化を適用することで、データ品質を改善し、人的作業を軽減します。全社にわたってデータ品質の標準化を徹底できるだけでなく、顧客データをチェックして、電子メールアドレスや住所、電話番号など情報で顧客データをエンリッチ化することができます。

2. エンタープライズ・データカタログの構築:EDPを使うことで、データアナリストやデータサイエンティストたちは、どのようなデータを所有し、どのようにデータが定義されていて、データがどこにあるのか、またその発生源と利用のリネージ情報、他のデータとどのように関連しているかを把握することができます。インフォマティカのEnterprise Data Catalogは、CLAIRE AIエンジンのAI/MLと自動化機能を使って、利用可能なデータセットの中から関連性の高いコンテキストのデータセットを特定し、パイプライン構築のためにデータをキュレートできるように支援します。これによって、データ利用者は、信頼性と関連性の高い、利用可能なデータを見つけて、そのデータを理解するまでの時間を短縮することができます。

3. ユーザーの俊敏性と効率性の向上:EDPにより、IT部門は、データ資産のセルフサービス機能を提供できるようになり、アナリストたちは、非常に少ない時間で、適切なデータ資産を探して準備し、データ品質ルールを適用して、関係者と連携して、ビジネス価値を提供できるようになります。

4. 分析とデータサイエンスの強化:また、インテリジェントなデータ準備の自動化機能を提供し、データサイエンティストやデータアナリストたちの生産性を向上し、彼らが分析やAI/MLの活用、ビジネス成果の達成に注力できるよう支援します。手作業コーディングのスキルへの依存を減らし、データサイエンティストを雇わなければならないというプレッシャーを軽減します。

5. クラウドデータレイクの価値向上:さらに、EDPによってクラウドデータレイクの価値を短期間で実現することができます。クラウドデータレイクにデータが投入されれば、EDPが生データを変換、クレンジング、準備、エンリッチ化して、高度なアナリティクスやAI/MLのユースケースに使えるよう準備します。また、Informatica Enterprise Data Catalogが、データリネージを表す情報をタグ付けします。大規模なデータをカタログ化すれば、すべてのデータの整合性を高めることができます。これは、サイロ化したセルフサービスツールでは実現不可能なことです。

6. DataOpsで運用化を促進:インフォマティカのスケーラブルでAI駆動のデータプレパレーションがあれば、次のようなDataOpsの目標を達成することができます:

  • 継続的に統合、連携して、関連性の高いデータを迅速に発見
  • マッピングが容易で、統制された信頼できるデータセットを継続的に提供し、ビジネス用語を定義して、データパイプライン[y2] の速度と品質を向上
  • パイプラインのためのデータセットを継続的にデプロイ
  • 総体的に把握してデータ準備を合理化:インフォマティカのEDPがあれば、ワークロードをエンドツーエンドに総体的に捉えて、繰り返し発生するよくある問題を特定し、不要な人的作業をAIと自動化で置き換えることがきます。
  • データガバナンスの向上:インフォマティカのEDP、データカタログ、データ品質Axonデータガバナンスソリューション使えば、クラウドデータレイクにデータを取り込んだデータにもガバナンスを適用することができます。インフォマティカは、業界初のメタデータ駆動のAIエンジンであるCLAIREをデータカタログに組み込んでおり、クラウドデータレイクやデータウェアハウスにわたってデータを統制するための拡張性と正確性を高めることができます。

Informatica Enterprise Data Preparationは、Constellation Shortlistのセルフサービスのデープレパレーション分野で2回連続選ばれています。

Informatica Enterprise Data Preparationは、最新のConstellation ShortListレポートで、セルフサービスのデーダプレパレーションソリューション分野における主要製品の1つとして評価されています。Constellation ShortList は、クライアントからの問い合わせ、パートナーとの会話、顧客リファレンス、ベンダー選定プロジェクト、市場シェア、および内部調査に基づいて決定されます。詳しくは、アナリストレポートをダウンロードしてご確認ください。


本ブログは2021年3月1日のPreetam KumarによるHow to Put Data to Work for Self-Service Analytics and Data Science With AI-Powered Enterprise Data Preparationの翻訳です。