DX推進にエンタープライズクラスのデータカタログが必要な理由

企業が保有するデータの量やデータ利用者の数、デバイスの種類は、テクノロジーの進化とともに多様化し、かつてないペースで増え続けています。

調査によると、グローバル規模のデータセンターが1年間に処理するトラフィック量は、20.6ZB(ゼタバイト)、業務データを利用するユーザー数は5億人、2022年までに推定されるコネクテッドデバイス数は285億台、さらにデータセンターのトラフィックの95%がクラウドであることがわかっています。

このように複雑かつ膨大なデータ環境で、デジタル化への取り組みを進めるために、最初にやるべきことは、貴社が持っているすべてのデータを把握することです。

業務に関連性の高い、信頼できるデータを短時間で効率的に探し出して、分析に活かすためには、オンプレミスやクラウドといった多種多様なデータソースやアプリケーションのデータをすべて洗い出して、データの目録を作成する「データカタログ」の利用が不可欠です。

しかし、一口にデータカタログといっても、多くの既存のデータカタログには、次のような制約があります。

  • 特定のシステム内のデータしか探索できない
  • 特定のユースケースにしか対応していない
  • システム間、オンプレミスからクラウドに移行したデータのリネージを追跡できない
  • 特定のタイプのメタデータしかスキャンできない
  • スキャンできるオブジェクトの数に制限がある

このように制約のあるデータカタログを使用するのは、目隠しをした状態でビジネスを進めるようなものです。保有するデータの一部しか見ることができないため、そのデータを活用する能力も自ずと制限されることになります。

こうした制約をすべて解消し、組織が所有するあらゆるデータをカタログ化して、異種環境でエンドツーエンドにデータリネージを追跡し、DX推進の基盤を構築してくれるのが、エンタープライズクラスのデータカタログです。

例えば、エンタープライズクラスのインテリジェントなデータカタログは、次のようにあらゆるデータソースやアプリケーションにあるすべてのデータから、メタデータを取り込むことができます。

  • オンプレミスのDBとデータウェアハウス
  • クラウドにあるデータウェアハウスとデータレイク
  • Tableau、Microsoft Power BI、IBM CognosなどのBIツール
  • ETL(抽出、変換、ロード)ツール
  • Salesforce、Workday、SAPなどのアプリケーション
  • Microsoft Azure、AWS、Google Cloud Platformなどのエコシステム

エンタープライズクラスのデータカタログが持つ6つの機能

エンタープライズクラスのインテリジェントなデータカタログには、次の6つの重要な機能が備わっています。

  1. 広範なデータソースからメタデータを抽出できる接続性
    企業が保有するすべてのデータを把握するためには、あらゆるデータソースやアプリケーションから、データを取り込む必要があります。

    インテリジェントなデータカタログは、オンプレミスやマルチクラウドにあるデータベース、データウェアハウス、データストア、ELTツール、BIツール、Hadoop、NoSQL、SaaSアプリケーションなど、あらゆるデータソースに広範に接続して、構造化/非構造化データを抽出し、すべてのデータをカタログ化することができます。

  2. AI搭載のカタログ機能と機械学習ベースの探索エンジン
    企業が保有する膨大な量のデータを手作業で探索してタグ付けするのは不可能です。特に、大規模企業の場合は、データリネージを手作業で文書化するのに、数か月かかる場合があります。

    インテリジェントなデータカタログは、AI搭載のデータカタログ機能と機械学習ベースの探索エンジンを使って、データの探索、キュレーション、タグ付け、構造化/非構造化データの分類、類似データの検出、業務用語と物理データセットの関連付けなどの処理を自動化することができます。
  3. AI搭載のデータリネージ機能                    特定のシステムやツールにのみ対応したデータカタログでは、システム間のデータリネージを追跡できません。また、オンプレミスからクラウドに移行したデータのリネージも追跡できません。データの信頼性を確保するためには、データをどこから入手し、データがどのように移動して、どのように変化してきたのかをエンドツーエンドに把握して、その変更の影響を評価できなければなりません。

    インテリジェントなデータカタログは、AI搭載のデータリネージ機能を使って、あらゆるデータソースをスキャンして、データを詳細に探索することができます。例えば、リネージを自動的に導き出して、ストアドプロシージャ内のコードまで把握することができます。また、データソースに対するアクセス権の有無を問わずに、基盤となるメタデータを表示し、データセット間の類似点を自動的に検出して依存関係を把握し、リネージを自動的に抽出、推論することができます。

  4. データの価値を高めるコラボレーション機能             インテリジェントなデータカタログには、データを取り扱う関係者が持つ知識を集めて共有化し、データに反映できるコラボレーション機能が備わっています。さまざまな業務分野のデータ利用者が、データにカスタム属性やコメント、評価、レビュー、注釈を追加することで、データの価値を高めることができます。
  • 多様なユースケースへの対応
    インテリジェントなデータカタログには、セルフサービスで使えるセマンティクス検索機能やデータリネージ機能、業務用語とデータの関連付け、データを分類して関係を特定する機能などが備わっています。
    こうした機能を活用することで、データウェアハウスのクラウド移行、データレイクの最新化、新しいプライバシー要件への対応、データガバナンスの確立、顧客体験の改善など、あらゆるユースケースに対応することができます。

  • 大量のデータソース、データセットに対応できる拡張性
    データソースは多様化し、データ量は増加の一途を辿っています。インテリジェントなデータカタログは、オンプレミス、マルチクラウド、ハイブリッド、さらにはアプリケーション/データベース/データウェアハウス内のビッグデータなど、数百ものデータソースと何千万ものデータセットにわたって、データを探索し、カタログ化ことが可能な拡張性があります。

まとめ

Aberdeen Group社の調査によると、データカタログを使用している企業は、使用していない企業のほぼ2倍のペースで売上を拡大できることがわかっています。

しかし、特定のデータソースにしか対応していないようなデータカタログでは1つのソースのデータしか可視化できない上に、増え続けるデータソースを横断して、データリネージを追跡することはできません。

こうした従来のデータカタログの制約から解放されるための唯一の手段は、AIを搭載したエンタープライズクラスのインテリジェントなデータカタログを中央ハブとして導入することです。

データがどこにあるかに関わらず、またデータ量に関わらずに、すべての企業データを自動的に探索してカタログ化し、エンドツーエンドにリネージを把握し、データのキュレーションとエンリッチ化のコラボレーションを実現するエンタープライズクラスのインテリジェントなデータカタログは、データ主導のデジタルトランスフォーメーションへの極めて重要な足掛かりとなります。

本記事は、電子ブック「DX推進にエンタープライズクラスのデータカタログが必要な理由」の要約です。全文は、こちらから電子ブックをダウンロードしてご覧ください。