Hadoopが注目されるようになった理由

最終公開日 : May 17, 2022 |

Yasuto Honda

いままで企業の重要なデータは、トランザクションを担保でき、可用性が高く、SQLでの容易なアクセスができるリレーショナルDBでしっかりと守っていくことが主流でした。

一方で、リレーショナルDBは上記のようなリッチな機能を実装しているため高価なソリューションとなり、またデータの一貫性を担保するからこそ、スケールアウトさせることが難しいという課題がありました。

10年程前よりビックデータ(IoT/SNS/センサー等)が注目されはじめ、各企業が実際にデータを収集しビジネスに生かそうと奮闘する中で、価値が出るかわからない大量のデータを、大きなコストがかかるリレーショナルDBできっちり管理していくことは現実的ではありません。また構造化データだけではなく、リレーショナルDBが苦手とする非構造化データも取り扱う必要がありました。そこで低コストでデータを格納でき、大量データ/様々な種類のデータに対する大規模分散処理が得意なHadoopの技術が注目されるようになったのです。

Hadoopの時代は終わった！？

ビッグデータといえば「Hadoop」が定着してきている中で、最近では「Hadoopの時代は終わった」という記事をよく見ます。こちらを正しく理解するために、Hadoopを取り巻く環境の変化を解説していきたいと思います。

結論からお伝えするとHadoop全体に対して活用の限界が見えてきたわけではありません。

Hadoopは主に２つのコンポーネントに分かれます。１つがストレージレイヤー、2つ目が分散処理レイヤーです。

ストレージレイヤーについては、大規模分散ストレージとしHadoop Distributed File System(HDFS)が依然としてメインで使われています。

一方分散処理レイヤーでは、デファクトスタンダードとして利用されていたMap/Reduceは影を潜め、現在はSparkエンジンでの処理が主流となってきています。

理由としては3つあります。1つ目がHWの進化(特にメモリの高速化/安価になったこと)から、メモリーを効率よく使い高速に処理ができること。2つ目が記述しやすいフレームワークであること。3つ目がバッチ処理だけではなく、リアルタイムストリーミング処理や機械学習にも対応できることです。

上記まとめさせて頂いたように、Hadoop全体というよりかは、分散処理フレームワークとしてのMap/Reduceは今後使われなくなるだろうという意味合いが強く、Hadoop全体の活用は今後もますます増えて行くことが予想されます。

ビッグデータをHadoopで利用する際の課題

ビッグデータとは従来の構造化データだけでなく、半構造化データ(JSON等のカラム定義、テーブル定義等の明確な構造定義を持たないデータ)や非構造化データ(センサーログ等の構造定義そのもの自体を持たない・持てないデータ)も含まれます。
こちらを利用する上で重要なことは、非構造化データを解析し、人間が分析・理解が可能のように変換する事、いわゆる「パース(Parse)」「パーサー(Parser)」と呼ばれるデータの分解・変換が必要となります。

また、それら大量のデータをHadoopで処理するためには、いままでリレーショナルDBで使用してきたSQLとは異なりHadoop側で用意されている大規模分散処理フレームワークを用いて処理内容をコーディングする必要がでてきます。

これら①データの分析・理解と②Hadoop処理のコーディングがHadoopでビッグデータを利用していく際の大きな課題となってきます。