今注目のデータウェアハウス(DWH)とは?

データウェアハウスを直訳するとデータの倉庫です。つまり、企業や組織内に存在する膨大なデータを格納するシステムのことを指し、英語のData Warehouseから「DWH」と表記されることもあります。今回は関連する用語と対比させながらデータウェアハウスについて整理します。

データベースとデータウェアハウス

データを格納するシステムとしてまず思い浮かべるのはデータベースでしょう。データベースは一般的には各業務システムなどのアプリケーションに合わせてその構造が設計され、最適化されています。各業務アプリケーションの要件に応じて最適化されているデータベースは物理的にも論理的にも散在しています。そのため、企業活動を横断的に可視化するために各データベースのデータを集約する必要が出てきます。この集約したデータを格納するのがデータウェアハウスです。

データウェアハウスの目的

データウェアハウスを構築する目的は主に2つあります。一つは、企業活動を業務システム横断的に把握し、分析や意思決定に活かすことです。意味のある分析を行うためには、個別のデータベースの参照だけでは足りず、業務プロセスをつなげて俯瞰することが重要です。そのためにデータウェアハウスにデータを集約し、ビジネスマネージャーや経営者がBI(ビジネスインテリジェンス)ツールなどを使って分析するための情報を提供します。

もう一つは、機械学習のためのデータの提供です。機械学習を活用してより精度の高い予測やオペレーションを行うニーズが高まっていますが、それを実現するためには大量の学習データが必要です。企業活動では大量のデータが発生しますが、それを集約して活用するための基礎データとしてもデータウェアハウスは期待されています。

データウェアハウスの特徴

各データベースのデータを集約したデータウェアハウスは、次のような特徴をもちます。

・データが時系列

データベースでは、データが無限に増えることを避けるために、たとえば年度が変わったタイミングで過去のデータをアーカイブするなど、現在のトランザクションに最適な運用がされます。これに対し、データウェアハウスは過去のデータもすべて時系列に保存し、活用できる状態で格納します。

・データを消さない

すべての企業や組織の活動の履歴が価値あるデータであるため、過去のデータも貴重なデータとなります。そのため、データウェアハウスではデータは追加されてゆきますが、原則的には削除されることはありません。

・データの統合

データウェアハウスに各データベースのデータをそのまま集めても、意味のあるデータにならないことがあります。たとえば、同じ製品を指すコードがシステムごとに異なっていたら、それを集めても意味のあるデータの集合にはなりません。そのため、データウェアハウスに統合するときには、データの整合性を持つ形で格納することが必要です。

データウェアハウスとデータマート

データ分析のためにデータウェアハウスには膨大なデータが格納されています。しかし、そのデータを直接参照すると、ある軸で集計などをするたびに膨大な計算が発生し、パフォーマンスに大きな影響が出ます。また分析をする人にとっても、データの構造をすべて把握しなければうまく活用できません。それを解決するために作成されるのがデータマートです。データマートはデータウェアハウスをもとに、目的ごとにあらかじめ複数の軸や粒度でデータを集計し、分析する人はその軸に沿って利用することで効率的に分析ができるようになるのです。

データウェアハウスとデータレイク

データウェアハウスに近い概念として最近注目されているのがデータレイクです。レイクは湖のことで、データが湖につながっている河川から流れ込むイメージで作られた言葉です。膨大なデータを格納するという意味では同じですが、データウェアハウスでは業務システムのリレーショナルデータが集約されているのに対し、データレイクではIoTやWeb情報、SNSなどの非構造化データも対象となり、より広範囲なデータを対象とする点が異なります。発生源も信頼できるものばかりではないため、ビジネス分析よりも機械学習によるトレンド分析や予測などに利用されます。

データウェアハウスのメリット

企業や組織にデータウェアハウスを構築するメリットは、社内に構築されている信頼できる業務データを構造化して格納するため、精度の高い分析を行うことができます。また、トランザクションを扱うデータベースと、分析処理を行うデータマートの中間に位置付けることで、それぞれのシステムのパフォーマンスに影響せず、最適な環境を高品質に提供できます。

データウェアハウスのポイント

ビジネス上不可欠ともいえるデータウェアハウスですが、それを実現するためにはデータウェアハウスを構築するために、膨大なデータ処理のパフォーマンスを担保するハードウェアやソフトウェアの選定が必要です。さらに、各データベースからデータを集約するために、データを連携するシステムの選定も同様に重要になります。多様なデータソースにアクセスできることに加え、意味のあるデータとして格納するために適切な加工を行えるツールとセットで検討します。従来は、ETL(Extract、Transform、Load)ツールが利用されてきましたが、現在はデータベースがクラウドに構成されることも増えているため、クラウドのツールであるiPaaS(integration Platform-as-a-Service)が注目されています。

まとめ

以上のように、データに基づいた戦略の策定、計画や改善、経営者の意思決定に不可欠であるデータウェアハウスについて、その位置づけを見直し、適切な活用を行うことで変化の激しい経営環境の中での成長を目指していただきたいと思います。