データレイクを沼地化させない ~データガバナンスに求められる5つの要件~

多くの企業が次々とクラウドへ移行の移行を決める中、これまで基幹業務システムが処理してきたトランザクションデータ(リレーショナルデータ)だけでなく、ウェブサイトやモバイルアプリ、IoT機器、SNSから流れ込んでくる「構造化されていない」非リレーショナルデータに至るまで、あらゆる大量のデータを取り込めるデータレイクをいかに活用できるかが、ますます重要になっています。

データレイクをうまく活用できれば、これまでにない新しい情報源を保存して、それを機械学習や多様なクエリ機能を使って短時間で分析し、新たなインサイトを手に入れることができます。

また、CRMや顧客の購買行動に関する情報と組み合わすことで、顧客を全方向から理解し、顧客によりパーソナライズした商品やサービスを提供、新たな顧客の獲得、そして既存顧客のロイヤリティ向上が可能になります。

さらに、IoT機器からのデータを使って、事業運営に欠かせない多種多様な機器の不具合を事前に検知・予知保全を行うことで、コストを削減して業務の中断を回避します。

情報のサイロ化をなくし、グローバル化が進むサプライチェーン上の取引先とタイムリーに情報をシェアすることで、サプライチェーン上の潜在的な問題を瞬時に特定することができます。また、下流へ影響が及ばないように迅速に意思決定し、サプライヤが持つ貴重なデータを使って、新たなビジネスチャンスを発掘することもできるようになります。

このように、データレイクを活用することで得られる、ビジネス成長のチャンスや行動を起こす「力」の大きさは計り知れません。

しかし、肝心のデータレイクが適切に管理されていなければ、せっかくのメリットが台無しになってしまいます。

データレイクの問題点は、あらゆる非構造化データを事前に設計・定義せず、内容も確認しないまま、生の状態で保存できてしまうことです。

あらゆるビッグデータを保存・活用して、簡単に分析してビジネスに活かせる「データレイク(湖)」になるはずが、「データスワンプ(沼)」になってしまい、いったい何がどこにあるのか分からなくなるリスクがあるということです。

そこで、データレイクが沼地化しないために欠かせないのが、「データガバナンス」です。

データガバナンスとは、オンプレミスやクラウドにあるデータ資産の可視性、アクセス性、安全性、信頼性、品質、可用性、利便性、整合性、機密性を確保するためのプラクティスとプロセスを管理するための手段です。

では、どのようなデータガバナスを導入すればよいのでしょうか?以下に、その5つの要件について解説します。

第1の攻略法

使う人(ペルソナ)に応じた制御が可能であること

データモデルを設計するデータサイエンティストから、データを使って分析し、報告書を作成する業務ユーザー、データセットを作成あるいは付加価値をつける専門家など、幅広いペルソナ(データを利用する人)のニーズを満たすには、データレイクが適切にガバナンスされ、用途に応じたコンテキストが一貫性を維持し、ペルソナの役割に応じたアクセスを制御できることが重要です。

技術的なメタデータとビジネス用語のマッピングを自動化すれば、将来的にデータが爆発的に増加しても対応することができます。また、ペルソナに応じて、マッピングをカスタマイズできるようにすることで、ユーザー間のシームレスかつ流動的なコラボレーション促進し、各自の役割に応じたエクスペリエンスをすべてのユーザーに提供できるようになります。

第2の攻略法

統合性、モジュール性、拡張性があること

データレイクが沼地化していると、誰がどのようなデータにアクセスし、何の目的で利用するのかが制御不能になってしまいます。

例えば、マスキングされていない情報(給与や生年月日など)に、人事部以外の人間が、人事部と同じようにアクセスできてしまうのは問題です。一方で、欲しいデータにアクセスできないのも問題です。そこで、ペルソナごとの異なるニーズに合ったデータを提供できる仕組みが必要になります。

統合性、モジュール性、拡張性を備えた適切なデータガバナンスソリューションがあれば、社内外の関係者間のコラボレーションを促進し、新たなプライバシーポリシーや法規制へのコンプライアンスを確保することができます。

第3の攻略法

データソースを明瞭化、用途に応じたデータを柔軟かつタイムリーに提供できること

データの中には高度なガバナンスが必要なものがあります。例えば、HIPAA(米国医療保険の相互運用性と責任に関する法律)や一般データ保護規則(GDPR)、カリフォ ルニア州消費者プライバシー法(CCPA)の対象となるデータです。

このように機密性の高いデータや厳密に保護されるべきデータは、正確性を確保するだけでは不十分です。アクセス、保持、削除に関する厳格なルールを定義しなければなりません。

その一方で、もっと気軽に利用できるデータや、ほぼ正確であれば問題のないデータもあります。こうしたデータは、上記のようなデータと同様のガイドラインや同等の正確性を満たすことが必要ないかもしれません。

例えば、財務データには、高い精度とデータソースの信頼性が求められます。また、社内の特定の役割を持つ人だけがアクセスできるように制限しなければなりません。しかし、業務によっては、必要十分なデータがあれば意思決定を行える場合や、具体的なデータソースが分からなくても信頼できるソースから取得したという事実さえあれば、必要十分な場合もあります。

このように、利用する人やその目的に応じて、柔軟かつタイムリーにデータを提供するためには、データソースの明瞭性と可視性が重要です。

第4の攻略法

ユーザーを満足させるアクセシビリティを実現できること

データの有益性の鍵となるのは、アクセス性です。データへのアクセス方法とプロセスが あまりにも複雑だと、エンドユーザーにとっての有益性は大きく損なわれます。

データの信頼性を最大限に高めるには、あらゆる場所(オンプレミス、ハイブリッド、クラウド)のデータに対応できるガバナンスプログラムが必要になります。また、あらゆるデータベースやアプリとの接続性、さらにはIoT機器から取得したデータとの接続性も必要です。また、エンドユーザーのニーズに応じて、データを更新しなければなりません。例えば、データサイエンティストは、加工されていない生のデータを希望し、業務アナリストは正規化されたデータセットを希望するでしょう。

このように、利用する人の具体的なニーズに合わせて、柔軟にカスタマイズできるだけでなく、データソースが明瞭で、信頼できるデータを確保するためには、データをカタログ化して、堅牢な接続性を確保し、データリネージや影響分析を可視化しておくことが重要です。

第5の攻略法

AIで自動化できること

AIでデータレイク管理を自動化できれば、アルゴリズムを使って、ガバナンスルールを適用し、現在だけでなく将来にわたって、変化し続ける大量のデータ管理や、新しいテクノロジーの出現に効果的に対応することができます。

データガバナンスをモジュール形式で導入し、簡単なパイロット版からスタートして、徐々に範囲と機能を追加していくことで、事実上、無制限のデータ量に対応することも可能です。

まとめ

エンドユーザーからデータサイエンティストに至るまで、すべての関係者のニーズを満たすデータレイクにするには、適切なデータガバナンスプログラムを実装することが必須です。

最適なデータガバナンスプログラムを実装して、データレイクを活用できれば、データレイクの沼地化を回避し、非効率性や脆弱性、潜在的な問題をなくすことができます。そして、信頼できるデータをもとに、全社規模でデータ活用能力を高め、さまざまな関係者が同じ言葉でコミュニケーションを図れるようになり、ビジネストランスフォーメーションを加速して、新たな機会を創出することが可能になります。

データレイクを沼地化させない効果的なデータガバナンスプログラムは、必ず4つの要素を持っています。こちらについての詳細は、「データレイクを沼地化させない5つの攻略法」をご一読ください。