AIの力でマスターデータマネジメントを改善する10の方法

先月、インフォマティカはInformatica Intelligent Data Management Cloudを発表しました。 業界初となる製品の主要な特徴の1つは、大規模なレベルにおいてAIテクノロジーにネイティブであることです。 CLAIREは、Intelligent Data Management Cloudの裏でAIの原動力になるものです。 エンタープライズで統合されたメタデータ基盤上に構築されており、AIによるデータマネジメント作業の自動化を提供します。 このブログ記事では、AIによってマスターデータマネジメント(MDM)を改善する10の方法について説明します。

話を始める前に、AIとマスターデータマネジメントを簡単に定義して、共通の理解を持たせてください。AIは、機械学習を使用して、通常人間の知能を必要とするタスクを自動化するコンピュータサイエンスの一分野です。マスターデータは、効果的かつ効率的な事業運営のために管理が必要な、顧客、製品、サプライヤー、従業員、設備、所在地、コストセンターなどのビジネスにおける重要なエンティティをデータで表現したものです。そのため、このブログでは、マスターデータマネジメントに関連する多くの作業がAIによって自動化されるための方法について説明します。

1.マスターデータマネジメントの探索のためのAI

マスターデータの量とソースの数が加速度的に増加するにつれて、マスターデータを見つけ、そのドメインタイプを特定することはますます困難になります。 IDCによると、2020年には64.2ZBのデータが作成または複製され、データ量は2020年から2025年の予測期間において23%の年平均成長率(CAGR)になると予測されています[1]。Oktaによる「Businesses at Work Study」 [2]によると、大企業には平均175のアプリケーションがあり、中小企業には平均73のアプリケーションがあります。また、データレイクの成長は30%のCAGRと推定されています[3]。

数千のデータソースにある数千万から数億もある列に格納されているデータを調査したり、評価することを手動で行っていては、決してその作業が追いつくことはありません。クラスタリング、データの類似性、セマンティックのタグ付けなどの機械学習技術により、マスターデータの探索とドメインの識別を自動化できます。これにより、探索プロセスが簡素化され、スケーラビリティが向上し、生産性も向上します。

CLAIRE AIエンジンは、データの列にセマンティックラベルを適用することにより、データフィールドを分類します。タグ付けを使用して、データフィールドの探索とラベル付けのプロセスを劇的に簡素化します。まだ分類されていない列の場合、ユーザーは列の内容を示す単純なタグ(「email」など)を提供するだけで済みます。システムは関連付けによって学習し、このタグをすべての同様の列に自動的に反映します。マスターデータのこのAI識別技術は、たとえばFacebookにおいて、ある人を他の多くの写真でタグを付けするということと、実際の効果は同等のものです。

列のドメインが識別されると、CLAIREはこれらの個々のフィールドを上位レベルのマスターデータエンティティに集約することができます。以下の例は、名前、住所、および連絡先のデータフィールドが顧客マスターデータのレコードに結合されることを示しています。エンティティ探索などのAI手法は、ユーザーがマスターデータの処理プロセスにおいて異質なデータフィールドをどのように集約したかということから学習し、この学習を適用して、エンタープライズにおけるデータのランドスケープ全体でマスターデータエンティティを導き出します。

Graphic of How AI Discovers A Customer Master Data Record

AI技術を活用した顧客マスターデータレコードの集約

2.マスターデータマネジメントリネージのためのAI

CLAIRE AIエンジンは、マスターデータのソースとそのドメインタイプをカタログ化するだけでなく、マスターデータが企業全体のソースとアプリケーション間でどのように移動するかをマッピングします。技術的なメタデータをスキャンし、機械学習ベースの関係探索を適用することで、リネージマッピングを自動化できます。このリネージマップは、リンク属性やビジネスプロセスなどの情報で上書きできます。

Visualization of master data flow across systems in a Financial Services customer onboarding process.

金融サービスの顧客登録時におけるシステム間のマスターデータフロー

このタイプのビジネス指向のリネージは、金融サービスにおけるKnow Your Customer(KYC)や、ライフサイエンスにおける製品追跡やトレースなどの活動にとって重要です。米国食品医薬品局(FDA)は、原材料、サプライヤー、製造業者、流通業者を含むエンドツーエンドの医薬品サプライチェーンにわたり、ロットにおける問題を迅速に追跡し、目的地をトレースし、被害を防ぐためにリコールします。こちらのウェビナーで、FDAの医薬品評価研究センターが医薬品のライフサイクル全体をどのように可視化するかをご覧ください。

3.マスターデータマネジメント

モデリングのためのAI

マスターデータモデリングは、アプリケーションのモダナイゼーション、クラウドデータウェアハウジングとデータレイク、デジタルコマースなどの多くのデジタルトランスフォーメーションイニシアチブにとって重要です。アプリケーションと分析データストアが信頼できる唯一のソースとして使用する一元化されたマスターデータマネジメントハブを作成すると、運用および分析で使用するためにMDMを簡素化し拡張できます。これには、ハブが、ソース間で一貫性があり均一であるべき属性と階層構造のコアセットを使用して、マスターデータモデルを管理する必要があります。

AIは、意味に関して関連するマスターデータモデル内の属性または属性のグループ間のマッピングを見つける作業であるスキーママッチングの自動化に役立ちます。ベイズ確率などの手法を、スキーマ間のすべての属性をマッチングするために、探索プロセスでカタログ化されたマスターデータモデルに適用できます。次に、アルゴリズムは、スキーマのマッチングに基づいて、データモデルで使用するコア属性と階層構造をレコメンドできます。

4.マスターデータマネジメントの取得と分類のためのAI

CLAIRE AIエンジンは、ファイル内のマスターデータの取り込みと登録を自動化できます。遺伝的アルゴリズムに加えて、固有表現認識(NER)および自然言語理解(NLU)メカニズムを使用して、フィールドとフィールドタイプを識別し、それらをマスターデータモデルにマッピングします。この構造探索はAPIエンドポイントでも機能し、アプリケーション統合プロセスフローでも使用できるため、顧客やパートナーのアプリケーションとマスターデータを交換するビジネスプロセスの効率が向上します。

マスターデータのインポート用のフィールドマッピングの自動化

マスターデータ登録のもう1つの側面は、マスターデータをデータモデル内の適切な階層レベルにマッピングすることです。製品の分類は、eコマースにおける重要なマスターデータ階層マッピングの作業です。これにより、検索とナビゲーションが改善され、協調的でコンテンツベースのフィルタリングアルゴリズムから得られるレコメンド商品の質を向上します。小売業者は絶えず製品在庫を変更しており、1回の更新で数千の製品を変更することもあります。製品名や説明文を手動で確認し、カテゴリを割り当ててゆくと、時間がかかり、エラーが発生しやすくなります。そして、カテゴリを網羅的にカバーするルールを作成しようとすることは、スケーラブルではないのです。

機械学習アプローチでは、製品の分類に多項分布モデルサポートベクターマシン(SVM)などのテキスト分類手法を使用します。CLAIRE AIエンジンは、製品名や説明文などの単語のブロックが製品のカテゴリに属する確率を計算します。確率スコアに基づいて、製品はカテゴリ階層の適切なレベルに割り当てられます。

この製品デモでは、インフォマティカが製品情報マネジメント(PIM)での製品分類とカテゴライズにAIをどのように使用するかについて説明します。

Informatica’s Product 360 solution demo video on how AI is used to automate product categorization for Product Information Management (PIM)

5.マスターデータマネジメント品質のためのAI

AIは、マスターデータの正確性、完全性、一貫性に関する疑問に答えるのに役立ちます。自然言語処理(NLP)と混合機械学習テクノロジー(決定論的、ヒューリスティック、確率論など)により、マスターデータのプロファイリング、クレンジング、標準化を自動化できるため、品質プロセスが簡素化されます。また、スケーラビリティと生産性の向上にも役立ちます。

CLAIRE AIエンジンは、データ品質ルールをリコメンドし、マスターデータフィールドに自動的に関連付けることができます。これらのルールに基づいて品質の評価を自動化し、結果を視覚的なダッシュボードに表示し、企業内のすべてのソースにわたってマスターデータのクレンジングと標準化を実行できます。

データモデルレベルでは、一般的なタイプのマスターデータフィールド(住所、電話番号、メールアドレスなど)用の「スマートフィールド」も作成しました。これらのコンテキストアウェアなフィールドを使用することは、システムがデータを標準化および検証する方法を自動的に認識していることを意味します。単にチェックボックスをクリックするだけで、情報は国による郵便データベースなどの信頼できるソースに対して自動的に検証されます。

Informatica’s Customer 360 product UI displaying rule execution options for handling invalid phone numbers.

無効な電話番号に対する処理に関するルール実行のオプション

6.マスターデータマネジメントのマッチングとマージのためのAI

もう1つの一般的なマスターデータマネジメント作業は、アプリケーション内およびアプリケーション間でのレコードの重複排除です。CLAIRE AIエンジンは、重複するマスターデータレコードを自動的に識別し、それらをゴールデンレコードに統合する方法をレコメンドできます。

インフォマティカは、宣言型ルールとAIルールの組み合わせを使用して、データマッチングの精度を向上させます。宣言型ルールは、30年以上のトレーニングとチューニングを要約して、複数のフィールドでインデックス作成とブロック化を提供し、明らかに一致しないペアをできるだけ早くフィルタリングします。機械学習ルールは、技術者ではないユーザーがランダムフォレスト分類器をトレーニングおよび再トレーニングするために設計されたアクティブラーニングを採用しています。分類器は決定木から学習します。これにより、モデルがレコードと一致した理由と一致しなかった理由を理解します。

Informatica’s Customer 360 product UI showing match model outcome analysis.

マッチングモデルの結果分析

7.マスターデータマネジメント関係の探索のためのAI

デジタルトランスフォーメーションの取り組みの一環として、組織はカスタマーエクスペリエンスとジャーニーマッピング、ビジネスエコシステムモデリング、バリューストリームマッピングテクノロジーを使用して、エンドツーエンドのプロセスを最適化しようとしています。これらの手法のポイントは、部門のサイロを可視化することです。そのため、管理する企業の全体的なビジネスの成果を犠牲にして、ビジネスにおける1つの機能領域だけを最適化することはありません。これには、ビジネスプロセスで使用されている顧客、製品、サプライヤーなどのマスターデータのさまざまなドメイン間の関係のコンテキストが必要です。

CLAIRE AIエンジンは、マスターデータ間の関係を推測することにより、ドメイン横断、部門横断のナレッジグラフの作成を自動化します。列メタデータの列署名分析、一意性、nullカウントなどの手法を使用して、プライマリキーとユニークキーを識別し、マスターデータセット全体の結合を推測できます。 さらに、マスターデータと、トランザクションやインタラクションなどの他のタイプのデータとの関係を推測して、コンテキストの理解を深めることができます。NLPは、ドキュメント、Twitterフィード、ウェブチャットのログファイルなどの非構造化テキストから情報を抽出します。次に、ベイズ推定アルゴリズムと遺伝的アルゴリズムを使用して、情報をマスターデータレコードにリンクできます。

Customer profile graph showing demographics, interactions, transactions, and relationships.

人口統計、相互作用、トランザクション、および関係を示す顧客プロファイルのグラフ

8.マスターデータマネジメントのガバナンスのためのAI

CLAIRE AIエンジンは、ドメイン探索、データの類似性、およびNLPテクノロジーを使用して、ビジネス用語集の定義、ポリシー、およびデータ所有者をマスターデータにマッピングできます。 この自動化により、関連付けの生産性と精度が向上するだけでなく、マスターデータガバナンスに関する部門横断的なコラボレーションが容易になります。たとえば、データに関する活動、アプリケーションの所有者、ビジネスにおける課題の専門家などの関係者をマスターデータを含むシステムにマッピングすると、マスターデータマネジメントの活動に参加する必要がある人を可視化できます。

Visualization of people accountable for different systems containing master data in a business process flow.

利害関係者は、ビジネスプロセスフローのマスターデータを使用してシステムにマッピングされます。

9.マスターデータマネジメントのプライバシーと保護のためのAI

マスターデータ探索プロセスの一部として、CLAIRE AIエンジンは、機密データと個人データを識別および分類し、プライバシーポリシーを関連付け、適用のためのルールをマッピングできます。たとえば、プライバシーポリシーとユーザー認証に基づいて、マスターデータをクエリ時に動的に非表示にできます。CLAIREは、ビジネスプロセスでのAPIベースのマスターデータ交換において、リアルタイムの保護も可能にします。APIでクレジットカード番号、メールアドレス、電話番号、マイナンバーなどの情報を特定することで、プライバシー保護のルールを実行できます。

Informatica’s API management UI displaying how to enforce master data privacy policies in APIs

APIにおけるマスターデータのプライバシーポリシーの実装

10.マスターデータマネジメントの共有と使用のためのAI

AIは、分析用のデータを準備するデータキュレーター、データサイエンティストおよびビジネスアナリストの生産性を向上させます。CLAIRE AIエンジンは、コンテンツベースのフィルタリングと、データリネージ、ユーザーランキング、データの類似性などのデータ特性を使用して、使用するマスターデータに関するレコメンドを作成します。

また、CLAIREはアクセスされるマスターデータのタイプに基づいてデータの使用条件を動的に適用するため、データの消費者は、機密データとプライベートデータを、ルールを遵守して使用する方法について一貫したガイドラインを得ることができます。使用ポリシーが受け入れられると、CLAIREはマスターデータセットのクラウドデータレイクまたはその他のソースへのプロビジョニングを自動化します。

この製品デモでは、データの消費者がマスターデータを購入してチェックアウトする方法について説明します。

Informatica’s data marketplace product demo video explains how data consumers can shop for and checkout master data.

AIを使用してマスターデータマネジメントプロセスの自動化を開始

これらのAIベースの機能により、企業のマスターデータマネジメントを改善することができ、また今日の複雑なマルチクラウド、マルチハイブリッド環境でMDMをスケールするための鍵となります。マスターデータソース、ユーザー、ユースケースの数が増えるにつれ、AIを使用した自動化がそれらに追いつく唯一の方法になるのです。

インフォマティカのCLAIRE AIエンジンの機械学習ベースのイノベーションがデータマネジメントの自動化をどのように推進しているかについて、詳しくはホワイトペーパー「データ駆動型インテリジェントエンタープライズ向けのAI」をご覧ください。

[1] IDC 2021 Global DataSphere.
[2] https://www.okta.com/businesses-at-work/2021
[3] https://www.mordorintelligence.com/industry-reports/data-lakes-market


本ブログは2021年5月31日のDan Everettによる10 Ways AI Improves Master Data Managementの翻訳です。