データレイクの価値を最大化するデータ分析

最終公開日 : May 17, 2022 |
インフォマティカ編集部
インフォマティカ編集部

顧客の個人情報からビジネスパートナーとの取引内容まで、企業のビジネス活動には膨大なデータが伴います。これらの多くはオンプレミスのシステムやクラウドの中に集積されますが、集めたデータがその後のビジネスに有効活用されるかどうかはそれぞれの企業次第です。 

今回はデータの価値を最大化する「データ分析」の重要性と、データ分析によって企業が得られる最終目標について説明していきます。 

 

データ分析が企業活動に与える影響 

データ分析とは、蓄積されたデータを整理・分類したり、抽出(取捨選択)することです。単独では一見無意味なデータや限られた利用法しかないデータも、成形して他のデータと組み合わせることで「宝の山」に化けることも少なくありません。 

たとえばある商品の売上データは、それだけでは単に販売利益を計算したり、在庫や出庫を調整する根拠になる程度です。しかし購買者の属性や販売地域、当日の天候、一緒に売れた他の商品といったさまざまなデータを組み合わせることで、顧客についてより深いインサイトを獲得し、まったく新しいマーケティング戦略を策定するための貴重な資料となります。 

とはいえサーバーに集まるデータのほとんどは、データ構造も粒度もバラバラです。これを揃えてグループ化したり、互いにリンクさせたりして利用価値を持たせるには、明確な基準に基づいてデータを加工しなくてはなりません。これがデータ分析のための第一歩です。データ分析するためには通常、生のデータを蓄積するデータレイクと、分析に使えるように整理したデータを蓄積するデータウェアハウスが必要になります。 

このようにデータ分析は、企業の意思決定や新しいインサイトの獲得に大きな影響を与え、ビジネスを加速させます。急速なデジタル化が進む現代において、データ分析はすべての企業にとって必須のスキルといえるでしょう。 

 

データ分析でデータレイクの泥沼化を防ぐ 

データを格納する場所として、多くの人が思い浮かべるのがデータウェアハウス(データ倉庫)です。データウェアハウスのデータは必要に応じてすぐに取り出し、活用することが可能ですが、そのためには実際の倉庫と同様、あらかじめデータを種類や目的ごとに整理してから格納する必要があります。 

とはいえほとんどのデータは発生当時の状態でシステムに流れ込み、そのままサーバー上に蓄積されていきます。この中には顧客の個人情報のように一定の構造を持つデータもあれば、音声や動画、SNSのログといった非構造化データもあり、その状態はさながら、あらゆるデータが広がる「湖」のようです。 

データレイク(データの湖)と呼ばれるこの状態は、いわば可能性の塊です。今は使い道がわからないデータも無限に吸い上げて、いずれ新たな活用方法が判明する時まで、そのままの形で蓄積しておくことができます。 

このように非常に便利なデータレイクですが、一方で深刻な落とし穴もあります。「とりあえず何でも入れておける」ということは、適切に運用されないとデータスワンプ(データの泥沼)になる可能性もあるということです。このような状態に陥ったデータはサーバー上のリソースを無駄に消費するか、少なくとも(使えそうなデータを発掘・整理するために)貴重な人的リソースを浪費させるだけのお荷物になりかねません。 

これを防ぐのがデータガバナンスに基づくデータ分析です。データガバナンスはデータの可視性、アクセス性、安全性、信頼性、品質、可用性、利便性、整合性、機密性を確保することを目的としており、そのためのプロセスやプラクティスを管理します。 

データガバナンスに基づくデータ分析を実施すると広大なデータレイクは可視化されて、どこにどのようなデータがあるか一目瞭然になります。そうなれば膨大なデータ資産の目録を作成して、組織全体に共有することも容易です。この目録はデータカタログと呼ばれ、信頼できるデータを社内外で活用するうえで欠かせないものです。 

 

データ分析に期待される最終目標 

データレイクのデータは、データ分析によってさまざまな価値を持つようになります。どのような価値を引き出し、それをどのように利用するかはビジネスの目的次第です。ここではデータ分析に期待される、主な「最終目標」を列挙します。 

  • データアナリストや業務アナリストによるアドホックレポートの実行、もしくはエンジニアと共同でレポートや分析結果を業務に活用する 
  • 絶え間なくデータレイクに流れ込む大量のデータをリアルタイムに収集し、ストリーミング分析を実行する 
  • あらかじめ確立した運用指針に基づき、データレイクからデータウェアハウスに保存したデータを使用してレポートやビジネスインテリジェンスをリアルタイムに実行する 
  • AI(人工知能)の中心的役割を担う機械学習モデルのために、データレイク内のデータを準備しエンリッチ化する 
  • 高度なビジネス・アナリティクスのために、データレイク内のデータを準備しエンリッチ化する 

これらはいずれも、企業のアジリティ(俊敏性)を高め、新しいビジネスモデルを導入するための原動力となるものです。 

 

データ分析でビジネスをスピードアップする 

適切なデータガバナンスに基づくデータ分析は、データレイクの価値を最大化します。データ分析によって膨大なデータが可視化されることで、経営者にとっては意思決定の迅速化に、社内のエンドユーザーにとってはコミュニケーションの円滑化とワークフローの効率化につながるのです。結果として企業全体のビジネスがスピードアップされることでしょう。 

ビジネスの急速なデジタル化が進む現代では、(自覚しているかどうかにかかわらず)ほぼすべての企業がデータレイクを所有しています。これが宝の海になるか、それともデータスワンプになるかはデータ分析次第です。 

First Published: Jun 28, 2021