データレイクとデータウェアハウスの違いとは

データレイクとデータウェアハウス、これらは企業内に分散して存在するデータや、日々増え続けるデータを統合し、一元管理するために役立つ重要なシステムです。企業では事業部門ごとに業務最適化のためのシステム化が進められることが多く、当然システムが取り扱うデータも各事業部門ごとに独立する事となり、サイロ化と言われるような横のつながりのない、企業全体としての最適化が図りづらい状況が発生しています。データのサイロ化の解決方法として知っておきたいデータレイクとデータウェアハウスという2つのデータ処理システムについて解説します。

 

 

1.サイロ化されてしまったデータの統合方法

データ統合を実現させるために知っておきたいのが、データレイクとデータウェアハウスという2つの異なるシステムです。それぞれの概要から説明していきましょう。

データレイクが扱うのは、テキストや画像、動画、音声などさまざまな形式のファイルです。それらを未加工のまま、ストレージなどの記憶媒体に蓄積していきます。
このような特定の構造を持たないデータは非構造化データと呼ばれます。データレイク内の非構造化データは活用するときにその都度、構造を定義します。その上でデータを参照し、分析結果を得るわけです。このデータレイクの手法はビッグデータの分析処理でよく利用されています。

一方のデータウェアハウスは通常、基幹系システムから独立したデータベースとして構築されます。そして企業内で営業や経営(経理)など部署ごとに分かれた複数の業務システムやデータベースからデータを集約します。そうして集められたデータはサブジェクト(主題)ごとに、時系列に従って分解・整理して蓄積していきます。

企業内においてサイロ化され、バラバラに存在しているデータを統合して一元管理するには、このデータレイクとデータウェアハウスという2つを活用することが有効です。どちらかを単独で使う方法もありますが、それぞれ異なる役割を与えて両システムを連携させることができれば、より柔軟性のあるデータ統合が可能となります。

2.データレイクとデータウェアハウスの役割の違い

データ統合において、データレイクとデータウェアハウスはそれぞれどのような役割を担うのでしょうか。ここからは両者の違いをみていきます。

先にデータウェアハウスについて説明しましょう。データウェアハウスは、社内の各種アプリケーションやデータベースに保管された構造化データを収集し、目的別に定義された形に統合・格納して、分析業務で利用するためのデータストアです。

 

データウェアハウスを整備することで、社内に散在するデータ同士を関連付けて、事業横断の販売分析や、チャネル横断の顧客分析など、さまざまな用途でレポートを生成したりアドホックな分析をすることができるようになります。
そのため、データの分析要件にもとづきデータモデルを設計、事前定義し、それに併せて必要なデータを収集、加工、統合して格納しておくというプロセスが必要となります。

 

一方、データレイクが得意とするのはセンサーのログやGPSデータ、SNSのテキストなどビジネスに関連して時々刻々と生み出されるようないわば生のデータを統合して取り扱うソリューションです。通常、これらの多種多様なデータはネットワークを経由して集められます。

また、大規模データを効率的に分散処理するために、オープンソースのミドルウェアである「Hadoop」で処理されるのが一般的です。生のデータを全て保管しておくことにより、たとえばマーケティングに活用できるような情報を必要になってから、取得することができます。これがデータレイクの役割です。

両者の違いについてさらに述べるなら、データレイクはとにかくまず種々雑多なデータを溜めていき、それらを眺めたり整理したり関連付けたり抽出したりすることで、何らかの分析結果を得るというイメージです。いわば帰納的なアプローチです。一方、データウェアハウスは先に確立された分析理論があり、そのためにデータを収集し、分析するイメージです。こちらはいわば演繹的なアプローチと言えます。


3.データレイクのメリット

データレイクはデータを元の形式のまま取り込んでいくため、データの蓄積自体が非常に容易です。また、すべてのデータを集約してプールしておくので、必要なデータは必ずその中から探し出すことができます。これは完全に統合された環境下でデータを一元管理できるということです。

また、多種多様なデータが常に蓄積されていることにより、状況によって突然、「こんな分析がしたい」というニーズが出てきたとしても対応できる可能性が高いといえます。

データレイクにはこのようなメリットがありますが、かわりに非構造化データは大抵、ファイルサイズが大きく、量も膨大になります。多様で大量なデータから必要データのみを抽出し目的に合わせて整理する、といった活用のための作業には、特殊な技術やツールが必要となります。

 


4.データウェアハウスのメリット

データウェアハウスではデータが最初から構造化されているため、抽出・分析といった作業はスピーディかつ効率的に行うことができます。また、同じ理由でCPUやメモリなどハードウェア面でのリソースの消費も最小限に抑えることが可能です。特にデータウェアハウス専用のハードウェアを使用すれば、大量のデータを高速処理できるようになります。

データ統合という面では、社内のさまざまな部門のデータが集約されるので、必要なデータを探すために各部門からデータを取り寄せるといった手間を省くことができます。
加えて、データウェアハウスでは通常のデータベースと違って、更新される前の情報や一定期間が過ぎた情報もすべて履歴や古い情報として残すことを特徴としています。そのため長期間にわたる時間軸に沿ったデータの変化なども読み取ることができるのです。

反面、データウェアハウスのデメリットは、あらかじめ決められたデータしか扱わず、定型的な分析しかできないことです。また、インデックスを作るため記憶媒体内でインデックスデータが肥大化していき、その結果、データベース自体も肥大化してスピードが落ち、メンテナンスコストなどが上昇することもあります。

企業内のデータのサイロ化に抗ってデータの統合と管理の一元化を図るには、データレイクとデータウェアハウスの違いを理解し、両システムの特徴を活かした利用の仕方を考えることがカギとなります。2つのシステムを組み合わせた環境を構築して、収集し蓄積したデータ資産を多元的に活用していきましょう。

 

データレイクに関する情報はこちらからもご覧いただけます。

コメント