データ分析に必要なデータクレンジングの方法

データを分析し、適切な意思決定やサービスの向上に活かす上で重要となるのは、分析対象となるデータの品質です。しかし、データの品質は一様ではなく、そのまま分析に利用できるものはほんの一握りです。またその品質は常に低下していく傾向にあり、継続的な改善による維持が求められます。そのためのデータクレンジングの方法をご紹介します。

データクレンジングとは?

データクレンジングは、データの欠損や重複、ノイズ、表記の揺れ、粒度の違いなどを特定し、分析や業務に適したデータに加工する工程です。例えば、会社名が登録されたデータがあるとします。「株式会社」と「(株)」が混在していた場合、同じ会社であっても、表記が一致していないために別の会社と判断される場合があります。こうしたデータの一貫性を保つ作業をデータクレンジングといい、データの品質を向上させます。

データクレンジングを含む、データ品質の管理サイクルは次の4つステップで構成されます。

◆データ品質の管理サイクル◆

(1) データの品質を分析・評価する(プロファイリング)

(2) データクレンジングをする

(3) データを名寄せ、統合する

(4) データ品質をモニタリング、品質を維持する

 

ステップごとにその手順をみていきましょう。


(1) データの品質を把握する(プロファイリング)

データクレンジングの前に不可欠なのは、保有しているデータ資産の健康診断です。どのデータがどう汚れているのか?を把握できなければ、どのようにデータクレンジングすればいいかという処方箋を出すこともできません。まずは、網羅的にデータの品質を分析・評価することが重要です。以下のような基準にもとづき、現状の品質を把握します。

  • 完全性:データに欠損はないか?
  • 適合性:データに表記の揺れはないか?
  • 一貫性:データに不整合はないか?
  • 精 度:データに誤りやノイズはないか?
  • 重複度:データに重複はないか?

 

(2) データクレンジングをする

プロファイリングで特定した症状を改善します。ひとくちにデータクレンジングといっても、その処方はさまざまで、欠損の補完や表記の揺れの標準化、ノイズの排除など、各症状に適した改善ルールを定義し、適用する必要があります。


(3) データを名寄せ、統合する

データに重複がある場合は、重複の排除や関連付けを行います。名寄せ(マッチング)によって重複候補のデータを特定し、統合(マージ)します。名寄せの精度を高めるためには、前工程のデータクレンジングによって、データの精度を揃えておくことが重要です。


(4) データ品質をモニタリング、品質を維持する

データクレンジング、名寄せは一度行えばそれで終わりというわけではありません。データを入力するユーザーの運用を改善したり、システム上で統制を効かせるなど、データの発生源で品質を改善できない限り、時間の経過にともなって徐々に品質は低下していきます。そのため、定常的にデータの汚れ具合を監視し、必要に応じて再度クレンジングするといった、継続的な品質の維持が求められます。
データクレンジングの工程で、あるべき姿を定義できれば、データの品質を定量化(スコアリング)して定常的に監視することができるようになります。


さて、データ品質の管理サイクルとその手順はご理解いただけたと思いますが、最大の課題は、ビッグデータ時代の現代において、膨大なデータ資産に対してこれらの工程を手作業で行い続けることは現実的に不可能であるということです。

インフォマティカでは、一連のデータ品質管理サイクルを強力にサポートするデータ品質管理ソリューション「Informatica Data Quality」を提供しています。

データの分析活用においてよく使われる表現に、「Garbage in, Garbage out」(ゴミを投入してもゴミしか生まれない)というものがありますが、インフォマティカが提唱、実現するのは、データ品質の把握、改善、維持を自動化・効率化することによる、「Garbage in, Treasure out」(ゴミから宝物を創出する)の世界です。
ぜひインフォマティカのデータ品質管理ソリューションを活用して、膨大なデータ資産からビジネス価値を創出してください。