デジタルトランスフォーメーションの成功を支えるデータ品質

「デジタルトランスフォーメーションを推進するための新組織を設立」、「チーフ・デジタル・オフィサーを任命」等、 デジタルトランスフォーメーションというキーワードを日本でもニュースでよく見かけるようになりました。
データを利活用してビジネスモデルを変革させよう、というムーブメントですが、そこで大事になってくるのが「データの品質」です。せっかくのAI/機械学習のテクノロジーも汚いデータを使っていたら正しく機能せず、結果、間違った判断をしてしまう可能性があります。

データ品質の1つのポイントとして、「名寄せ」があります。Wikipedia によると「同一金融機関内に、同一顧客が、複数の口座を保有することになった場合、同一顧客の複数口座として『一元管理 』 する手続きのこと」が元の言葉の意味だそうですが、データマネジメントの世界だと「重複しているデータを一つにまとめる」ということを意味します。

具体的に、どういうことか?私たちのお客様が実際に取り組まれている例をいくつか紹介します。

  • ポイントカードのシステムで一人の顧客が複数のポイントカードを持っている場合、全てを合算して一人の顧客の購買履歴を見ないと、優良顧客を見逃してしまう可能性がある。そこで顧客管理システムの中の重複した顧客をチェックし、名寄せした。
  • 複数のサービスを行っている会社で、それぞれのサービスごとに顧客マスタをバラバラに管理していて、あるお客様がどのサービスを使っているのか把握できない。その結果、既存のお客様に他のサービスをクロスセルするような施策が取れない。そこで、各システムで管理している顧客情報から同一の顧客を見つけ出し、共通の顧客IDを採番して名寄せした。

この名寄せ、実際にやってみるとなかなかうまくいかないことが分かります。それはデータのフォーマットがバラバラで同じ電話番号、住所などを同じと認識できないからです。これらのフォーマットを合わせること(電話番号であれば、全て半角数字のみにする等)が精度の高い名寄せを実現するためのポイントになります。

電話番号のフォーマットの違い
住所のフォーマットの違い

そこで、インフォマティカは下記のステップを提唱しています。

  1. プロファイリング
    現在のデータ品質を分析し、フォーマットの違い等を把握します。
    ※ ご参考 : 転ばぬ先のプロファイリング
  2. クレンジング
    プロファイリングで把握したフォーマットの違いを様々なクレンジング部品を使い、標準化します。
  3. マッチング
    標準化したデータをもとに重複したデータを検出し、名寄せします。
  4. スコアリング
    定期的にデータの品質をチェックし、問題があった際は、またプロファイリングからの流れを繰り返します。

プロファイリングしてデータの品質を把握し、クレンジングしてデータを綺麗にして、はじめて名寄せできるデータができます。

インフォマティカのData Qualityはこの4つのステップをトータルでサポートするための製品です。

デジタルトランスフォーメーションを検討されてる方はぜひデータの品質にも注目していただければ幸いです。