ビッグデータをアクションに変える4つのステップ

AIを活用してデータ品質基準をクリアすることの重要性

世界中の企業が、戦略的な理由でビッグデータプロジェクトを導入し、次のような効果を得ています。

– 適切な提案や値引きをリアルタイムに提供することで顧客エクスペリエンスを高める

– 営業がとるべき「次の最適なステップ」を予測して効果的な活動を支援する

– リアルタイムに価格を最適化し、売上を増やす

– AIによる予防保全で、ダウンタイムを回避してコスト削減する

– 不正行為を迅速に検知してセキュリティリスクを回避する

 

しかし、最近のForbes Insightsのレポートによると、CEOの84%が戦略的意思決定を下す際に利用するデータの品質に懸念を持っています(注1)。

また、最近のデータブローカーに関する調査でも、顧客データの71%が不正確であることがわかっています(注3)。

「データは、もはやギガバイトやテラバイトではなく、ペタバイト(1PB = 210TB)、エクサバイト(1EB = 210PB)、ゼタバイト(1ZB= 210EB)単位で語る時代」なのです(注2)。

貴社が、膨大かつ信頼性の低いデータを利用している姿を想像してみてください。どれほどの意思決定が不確定要素を含んでいるのでしょうか。

もし間違った決断を下したら、それはビジネス全体を大きく揺るがすことになるでしょう。

 

データレイクがすべてを解決してくれるという誤解

多くの企業が、ビッグレイクの解決策としてデータレイクに注目しています。しかし、データレイクにデータを入れるだけで、データのクレンジングや構造化、分類あ解決されるわけではありません。データレイクに流入してくるビッグデータは、データウェアハウス、サードパーティーのフィード、IoT、コンシューマーデバイス、社内アプリケーションなど多岐にわたり、多くの場合は自動フィードを介してデータレイクに取り込まれます。つまり、ある時点でクレンジングと構造化を行わなければ、データレイクが「沼地化」してしまうのです。

 

もしレコード数が10億なら、エラー率がわずか1%でも1000万の誤りが含まれることになります。方向性を探るトレンドデータの場合は許容範囲内ですが、完璧さが求められる金融やコンプライアンスのデータの場合は非常に大きな問題です。クレンジングを行う価値のあるデータとそうでないデータを分けて判断することが重要なのです。例えば、センチメント分析を行っている場合、SNSデータの命名規則を標準化する必要はないかもしれませんが、不正行為の検出なら、氏名とアドレスの確認が必要です。

 

データレイクに入れる前にすべきこと

データレイクに取り込む前にすべきことは、まず業務部門とIT部門の関係者が協力してデータ品質に関する共通の基準を設けることです。結局のところ、データを使用して、データに依存するのは業務部門であり、品質の高いデータとはどのようなものかを真に理解しているのは現場のチームです。このコラボレーションがなければ、データ品質を判断する効果がなくなってしまいます。そのうえで、データ品質基準をクリアしたデータのみを取り込むステップへと進みます。

 

ビッグデータの質を高める4つの原則

(1)業務担当者でもデータ品質の操作ができるように

データ管理者やデータアナリストを、ビッグデータと同じペースで増やすことはできません。つまり、業務担当者がデータのプロファイリングや問題の発見だけでなく、変更まで行えるようになることが必要です。そのためには人工知能やあらかじめ組み込まれたデータ品質ルールを使って、自動化することが求められます。

 

(2)再利用可能な改善措置を共有化する

複数のチームが複数のデータセットで同じ問題を発見した時、都度ゼロから改善措置を繰り返すのは時間と労力のムダです。オンプレミス、クラウド、ハイブリッド環境関係なく、顧客データなどの「分野ごと」に統一ルールを用意し、さまざまな事業部門が足並みを揃え、実績のあるプロセスを繰り返し適用できるようにすることが大切です。

(3)常に新しいテクノロジーとデータセットを活用する

ビッグデータテクノロジー、ビジネスモデル、データタイプは、常に変化しています。例えば、MapReduceからSparkへの移行によって、ビジネススピードは桁違いに速くなりました。このような変化のメリットを活かせるように、新しいテクノロジーを既存のデータ品質ルール、ロジック、メタデータに簡単に適用できることが重要です。

 

(4)ビッグデータ品質のプロファイリングと追跡を容易にする

開発者やアナリストは、データの状態を把握するために、データのプロファイリングを実行し、どのようなデータを扱っているのかを把握しておく必要があります。それを助けてくれるのが、データ品質に関するインサイトを提供するダッシュボードです。

 

データ品質を固守するためにAIを活用する

ビッグデータに貴社のデータ品質基準を適用する作業は、膨大な時間とリソースを消費します。ただし、手作業でするなら・・です。

そこで活躍するのが、貴社のデータ品質基準と照らし合わせて、データクレンジングを自動化し、粗悪で整合性のないデータを検出・修正してくれる人工知能(AI)を搭載したデータレイク管理ソリューションです。

これがあれば、セルフサービスアナリティクスに必要な信頼性の高いデータを、データレイクに集めることが可能になります。

 

本電子ブックでは、粗悪なデータの原因について、ビッグデータ品質の4つの面について詳しく説明しています。ぜひご一読ください。

Differentiator: How Improving Data Quality Improves Business」、2017年5月

注2: Data Science Journal、「The Challenges of Data Quality and Data Quality Assessment in the Big Data Era」、2015年

注3:Deloitte、「Predictably inaccurate: The prevalence and perils of bad big data」、2017年7月

 

コメント