データプレパレーションがセルフサービスビジネスユーザーのデータニーズを満たすのに役立つ8つの方法

データプレパレーションの現在の状況について

データプレパレーションと電話の歴史との間の関係についてお話したいと思います。電話が1億人のユーザーに届くまで75年かかりました(出典)。では、Facebook、Instagram、Candy Crushが1億人のユーザーに届くのにどれだけの時間がかかったと思いますか? 答えはそれぞれFacebook は4年、Instagramは 2年、Candy Crush は1年未満です。インターネットの導入以来、テクノロジーは大きく変化し、その速度は加速しています。
同時に、データは企業におけるビジネスの中心になりました。 2019年の時価総額上位5社のうち4社はテクノロジー企業でした。これらのデータ中心の企業は、組織内の資産としてデータを活用しています。しかし、データプレパレーションに関して、一部の企業はまだ、テクノロジーにおける「電話」の段階にいるように行動しています。


出典:ボストンコンサルティンググループ

データプレパレーションとは?その重要性について

改めてデータプレパレーションとは何なのかを説明したいと思います。データプレパレーション(Data Preparation)とは、直訳するならば「データの準備」を意味します。つまり、データに基づいた分析、予測をする上で、データを活用するための加工、準備のことを指します。データは単体では意味を持ちません。データはいつくかの集まりや相関関係によりはじめて意味を持ち活用できるデータになります。このようにデータに意味を持たせるためには、データの収集はもちろんのこと、表記ゆれがない等のデータクレンジングをするなど、「整備された見やすいデータ」が必要になります。

データの準備と聞くとETLを何が違うのだろうと思う方もいるかもしれません。活用できるデータの準備という広い意味では同じかもしれませんが、ETLはシステム開発者を対象にしている一方、データプレパレーションはビジネスアナリスト、データアナリストなどが対象となり、一般のビジネスユーザーが扱うことを想定しており、GUIやコーディングの必要がないことが特徴となります。

また、IDCによるとデータは2025年までに175ゼタバイトに増加し、データプレパレーションを行うユーザーは無数に存在するようになると予想されています。事業部からアナリストまで、誰もがセルフサービスアナリティクスを行っています。アナリティクスから運用レポートまでのユースケースで、データを常に分析および準備する人が増えています。そして、データプレパレーションプロセスには、さまざまなソースから収集された生のデータを、貴重なデータ資産と洞察に変えるステップが含まれています。
生のデータが複数のソースから取り込まれた後、クレンジング、結合、マスキング、データ品質ルールの適用、および分析用のクラウドデータレイクのキュレートされたゾーンでの公開によってデータを調整します。しかし、さまざまなツール、ユーザー、およびユースケースにより、企業がデータプレパレーションに適切なツールを選択することが困難になる場合があります。

データプレパレーションはビジネス価値の触媒

ビジネスユーザー、アプリケーション、およびAIプログラムは、データプレパレーションプロセスに依存しています。 TDWIの調査によると、調査対象の74%の組織は、データをアナリティクス用に準備するために費やす時間とリソースを削減することが不可欠であると述べています。データプレパレーションに時間を費やす代わりに、ユーザーは重要な活動により多くの時間を費やすことができます。 Informatica Enterprise Data Preparationソリューションでは、セルフサービスビジネスユーザーを支援する8つの方法を以下に示します。


Informatica Enterprise Data Preparationは、俊敏性、反復性、および協調性のあるプロセスです

データプレパレーションがデータのニーズを満たすのに役立つ8つの方法

1.データ品質の向上による信頼の向上:データ品質の欠如は、データガバナンスと規制に懸念を生みます。また、データ品質が低いと、データの変換、分析、視覚化に悪影響を及ぼし、意思決定に悪影響を及ぼす可能性があります。データ品質の問題に早期に到達することが不可欠です。Informatica Enterprise Data Preparationにより、データ品質の問題がダウンストリームに広がることを防ぐことが出来ます。

また、業界初のメタデータ駆動型AIエンジンであるCLAIREを搭載しているため、AIと自動化を活用してデータ品質を向上させ、手作業を減らすことができます。これにより、企業全体のデータ品質の標準化が強化され、データの価値を最大化することが可能となります。

2.Enterprise Data Catalogの確立:Enterprise Data Preparationの重要な部分は、データのカタログ化です。Enterprise Data Catalogは、すべてのエンタープライズデータを検出し、理解するのに役立ちます。データは非構造化、半構造化、画像、動画、JSONファイル、従来のソースなど、さまざまなソースから取得され、AWS、Azure、Google Cloudなどのマルチクラウドに保存されるため、この機能は特に重要となります。

Informatica Enterprise Data Catalogを使用すると、組織は、保有しているデータ、データの定義方法、場所、発生元と使用に関するリネージ情報、およびデータが他のデータとどのように関係しているかを理解できます。 Informatica Enterprise Data Catalogは、AI / MLとCLAIREエンジンの自動化機能を使用して、利用可能なデータセットを公開することにより、組織がパイプラインのデータをキュレートできるようにします。これにより、ユーザーが信頼でき、関連性があり、利用可能なデータを見つけるのに通常かかる時間を短縮ることができるようになります。

3.ユーザーの俊敏性と効率の向上:TDWIの調査によると、調査対象の89%以上がセルフサービスによりITへの依存度が低下すると報告しています。ただし、セルフサービスにはマイナス面もあります。ほとんどのユーザーは、データプレパレーションための適切なツールを持っていません。彼らは依然としてExcel、デスクトップデータベースや原始的なオープンソースツールを使用しており、一貫性と品質において問題を引き起こしています。
データサイエンティストとデータアナリストは、時間の60%以上をデータの分析ではなく準備に費やしており、ユーザーの生産性と満足度を低下させる可能性があります。

Informatica Enterprise Data Preparationは、IT部門がデータ資産にセルフサービス機能を提供できるだけでなく、データアナリストが適切なデータ資産を検出し、準備、データ品質ルールの適用、他者との協力といった一連の流れを、大幅に少ない時間でビジネス価値を提供できるようにします。

4.アナリティクスとデータサイエンスの向上:データサイエンティストとデータアナリストは、アナリティクスとAI / ML開発ではなく、ほとんどの時間をデータの検出とプレパレーションに費やしています。モデルを開発し、パターン、相関、およびデータ関係を発見するには、高度にインタラクティブで詳細な多変量データ分析をサポートできるテクノロジーが必要です。

Informatica Enterprise Data Preparationは、データサイエンティストとデータアナリストが生産性を向上させ、アナリティクスやAI / MLに集中し、ビジネス成果を達成するのに役立つインテリジェントで自動化されたデータプレパレーションを提供します。手作業のコーディングスキルへの依存度を減らし、組織がデータサイエンティストを雇用しなければならないプレッシャーを減らすのに役立ちます。

5.クラウドデータレイクの価値を高める:高度なアナリティクスとAI / MLワークロードがデータを利用できるようにするために、組織はクラウド内のオンプレミスデータレイクを最新化するか、新しいクラウドデータレイクを確立しています。ただし、クラウドデータレイクがデータスワンプ(データの沼地)にならないようにするには、データ品質データ統合メタデータ管理が依然として必要です。
Informatica Enterprise Data Preparationは、クラウドデータレイクが価値を生み出す時間を短縮します。生のデータがクラウドデータレイクに到達すると、変換、クレンジング、準備、およびエンリッチ化に役立ち、高度なアナリティクスやAI / MLのユースケースに対応できるようになります。 Informatica Enterprise Data Catalogは、データリネージを説明する情報にタグを付けます。データを大規模にカタログ化すると、すべてのデータの一貫性が向上します。これは、サイロ化されたセルフサービスツールでは不可能です。

6.DataOpsによる運用の強化:企業はアジャイルエクスペリエンスを拡張するためにDataOpsメソッドを実装して、より速い成果物を取得し、リアルタイムで反復し、チームのコラボレーションを改善しています。 DataOpsは、アジャイル手法とDevOps手法の側面をブレンドして、高品質のデータパイプラインを大規模に構築する際のレイテンシを短縮するコラボレーションのフレームワークを組織に提供します。 DataOpsは、データのクレンジング、プロファイリング、エンリッチ化、変換のプロセスを運用可能にし、加速するのに役立ちます。

インフォマティカの拡張性の高いAIを搭載したデータプレパレーションは、DataOpsの次の目標を達成するのに役立ちます:

  • 関連するデータをすばやく見つけるための継続的な統合およびコラボレーション
  • データパイプラインの速度と品質を向上させるためにビジネス用語を定義するための継続的な配信と、容易なマッピング・ガバナンスされた、信頼できるデータセットへ変換
  • パイプラインのデータセットの継続的な実装

7.データプレパレーションを合理化するための全体的なビューを得る:多くの組織におけるデータプレパレーションは、調整されていないツールとプロセスの寄せ集めです。TDWIの調査によると、部門別のセルフサービスデータプレパレーションソリューションでは、変換などのプロセスが相互にどのように依存しているかを把握できていないことがわかっています。これは、中断、ボトルネック、パフォーマンスの問題、および冗長性につながる可能性があります。
Informatica Enterprise Data Preparationを使用すれば、組織はワークロードのエンドツーエンドの全体的なビューを取得して、繰り返し発生する一般的な問題を確認し、AIと自動化を使用して不要な手動作業を置き換えることができます。

8.データガバナンスの向上:組織は、機密データの保護、データプライバシー規制の遵守、およびデータの信頼性の向上という大きなプレッシャーに直面しています。ガバナンスのルール、ポリシー、および制約は、サイロ化されたセルフサービスのデータプレパレーションツールには適用することができません。これらのツールは、適切にガバナンスされていないデータレイクを含め、「シャドウIT」サイロを作成します。

データプレパレーションのツールの選び方

Informatica Enterprise Data PreparationとEnterprise Data Catalogを使用すると、データをデータクラウドデータレイクに取り込みながら、ガバナンスを確立することができます。また、データカタログ内の業界初のメタデータ駆動型AIエンジンであるCLAIREを導入により、拡張性と精度が向上し、クラウドデータレイクとデータウェアハウス全体でデータを保護できます。

エンドツーエンドの最新のエンタープライズデータプレパレーションソリューションは、データの価値実現までの時間を短縮するために不可欠です。Informatica Enterprise Data Preparationは、上記のデータプレパレーション要件をすべてサポートします。データレイクまたは企業のどこかにあるすべてのデータを検出し、データを準備、データ品質ルールの適用、プライバシーのためのデータをマスキング、そしてデータプレパレーションパイプラインを運用することで、AIとアナリティクスを推進できるようになります。

もっと詳しく知る


本ブログは7月27日のPreetam Kumarによる8 Ways Data Preparation Helps to Meet the Data Needs of Self-Service Business Usersの翻訳です。