データレイクとデータウェアハウスの違いとは

データレイクとデータウェアハウスは、企業内に分散して存在するデータや日々増え続けるデータを統合し、一元管理するために役立つ重要なシステムです。企業では事業部門ごとに業務最適化のためのシステム化が進められることが多く、当然システムが取り扱うデータも事業部門毎に独立する事となり、サイロ化と言われるような横のつながりのない、企業全体としての最適化が図りづらい状況が発生しています。データのサイロ化の解決方法として知っておきたいデータレイクとデータウェアハウスという2つのデータ処理システムについて解説します。

 

 


1.サイロ化されてしまったデータの統合方法


データ統合を実現させるために知っておきたいのが、データレイクとデータウェアハウスという2つの異なるシステムです。それぞれの概要から説明していきましょう。

データレイクは、収集した生のデータをファイルとして格納し、データ資産として保管する役割を担います。データレイクに格納されるデータは、テキスト、画像、動画、音声といった規則性を持たないデータです。これらを非構造化データと呼びます。データレイク内の非構造化データは活用するときにその都度、構造を定義します。その上でデータを参照し、分析結果を得るわけです。このデータレイクの手法はビッグデータの分析処理でよく利用されています。

一方のデータウェアハウスは通常、基幹系システムから独立したデータベースとして構築されます。そして企業内で営業や経営(経理)など部署ごとに分かれた複数の業務システムやデータベースからデータを集約します。そうして集められたデータはサブジェクト(主題)ごとに、時系列に従って分解・整理して蓄積していきます。

企業内においてサイロ化され、バラバラに存在しているデータを統合して一元管理するには、このデータレイクとデータウェアハウスという2つを活用することが有効です。どちらかを単独で使う方法もありますが、それぞれ異なる役割を与えて両システムを連携させることができれば、より柔軟性のあるデータ統合が可能となります。




2.データレイクとデータウェアハウスの役割の違い


データ統合において、データレイクとデータウェアハウスはそれぞれどのような役割を担うのでしょうか。ここからは両者の違いをみていきます。

先にデータウェアハウスについて説明しましょう。データウェアハウスは、社内の各種アプリケーションやデータベースに保管された規則性を持った構造化データを収集し、目的別に定義された形に統合・格納して、分析業務で利用するためのデータストアです。

データウェアハウスを整備することで、社内に散在するデータ同士を関連付けて、事業横断の販売分析や、チャネル横断の顧客分析など、さまざまな用途でレポートを生成するなどアドホックな分析をすることができるようになります。
そのため、データの分析要件にもとづきデータモデルを設計、事前定義し、それに併せて必要なデータを収集、加工、統合して格納しておくというプロセスが必要となります。

一方、データレイクが得意とするのはセンサーのログやGPSデータ、SNSのテキストなどビジネスに関連して時々刻々と生み出されるようないわば生のデータを統合して取り扱うソリューションです。通常、これらの多種多様なデータはネットワークを経由して集められます。

また、データレイクは大規模データを効率的に分散処理するために、オープンソースのミドルウェアである「Hadoop」が有名です。生のデータを全て保管しておくことにより、必要なときに必要なデータをそのまま取り出すことができ自由に加工することができます。

両者の違いについて端的に言うと、加工していない生データを蓄積するデータレイクに対し、分析や解析するのに整理したデータを蓄積するのがデータウェアハウスになります。

datalake_DWH


3.データレイクのメリット


データレイクはデータを元の形式のまま取り込んでいくため、データの蓄積自体が非常に容易です。また、すべてのデータを集約してプールしておくので、必要なデータは必ずその中から探し出すことができます。これは完全に統合された環境下でデータを一元管理できるということです。

また、多種多様なデータが常に蓄積されていることにより、状況によって突然、「こんな分析がしたい」というニーズが出てきたとしても対応できる可能性が高いといえます。

データレイクにはこのようなメリットがありますが、かわりに非構造化データは大抵、ファイルサイズが大きく、量も膨大になります。多様で大量なデータから必要データのみを抽出し目的に合わせて整理する、といった活用のための作業には、特殊な技術やツールが必要となります。

 


4.データウェアハウスのメリット


データウェアハウスではデータが最初から構造化されているため、抽出・分析といった作業はスピーディかつ効率的に行うことができます。また、同じ理由でCPUやメモリなどハードウェア面でのリソースの消費も最小限に抑えることが可能です。特にデータウェアハウス専用のハードウェアを使用すれば、大量のデータを高速処理できるようになります。

データ統合という面では、社内のさまざまな部門のデータが集約されるので、必要なデータを探すために各部門からデータを取り寄せるといった手間を省くことができます。
加えて、データウェアハウスでは通常のデータベースと違って、更新される前の情報や一定期間が過ぎた情報もすべて履歴や古い情報として残すことを特徴としています。そのため長期間にわたる時間軸に沿ったデータの変化なども読み取ることができるのです。

反面、データウェアハウスのデメリットは、あらかじめ決められたデータしか扱わず、定型的な分析しかできないことです。また、インデックスを作るため記憶媒体内でインデックスデータが肥大化していき、その結果、データベース自体も肥大化してスピードが落ち、メンテナンスコストなどが上昇することもあります。

企業内のデータのサイロ化に抗ってデータの統合と管理の一元化を図るには、データレイクとデータウェアハウスの違いを理解し、両システムの特徴を活かした利用の仕方を考えることがカギとなります。2つのシステムを組み合わせた環境を構築して、収集し蓄積したデータ資産を多元的に活用していきましょう。

データレイクに関する情報はこちらからもご覧いただけます。