クラウドデータ統合に役立つ3ステップの増分ファイルロードの発表

データレイクでファイルを迅速かつ効率的に処理

本ブログは、シニア・製品マネージャーのヴィネイ・バチャパナヴァー(Vinay Bachappanavar)との共同執筆です。

インフォマティカはこの度、増分ファイルロードという新たなクラウドデータ統合機能を発表しました。

この機能を使うことで、Amazon S3、Microsoft Azure Data Lake Storage (ADLS)、Google Cloudなどのクラウドストレージから新しいデータが到着した際に、最適な方法で継続的かつ効率的にファイルを処理することが可能になります。

多くのお客様は、データをソースシステムからクラウドデータウェアハウスとデータレイク(DWDL)に移動するために、クラウドデータウェアハウスとデータレイクのアーキテクチャパターンを実装しています。

クラウドDW/DLを構築している方は、データレイクとしてAmazon S3、ADLS、Google Cloudなどのオブジェクトストアを、分析用のクラウドデータウェアハウスとしてSnowflake、Amazon Redshift、Azure Synapseを使用しています。

今回の記事では、データレイク内でファイルを簡単かつ効率的に処理することに焦点を当ててご説明します。

図1.インフォマティカにおけるデータウェアハウスとデータレイクのアーキテクチャ


データレイクをクラウドストレージに活用する


ほとんどの企業は、モノのインターネット(IoT)やエッジデバイス、メッセージングソース、リレーショナルデータベース、メインフレーム、そしてSalesforce、Marketo、Workdayといった最新のクラウドアプリなど、さまざまなデータソースを保有しています。

そして、実行可能かつ意味のある洞察を生み出し、これらの多様なデータソースから価値を引き出すことを目標としています。

多くの企業がデータウェアハウスにデータを集中させていますが、最新のDW/DLアーキテクチャも導入しています。つまり、Python/Rライブラリの機械学習(ML)フレームワークがレイク内のデータに簡単にアクセスできるように、クラウドストレージをデータレイクとして使用しているのです。

ソースシステムからのデータはさまざまなシステムや形式に分散されていますが、リレーショナルデータベースからのデータは構造化された形式です。

例をご紹介しましょう。例えば、APIからのデータは通常XMLやJSON形式で、エッジデバイスからのデータは半構造化された形式です。

そのため、レイク内部のデータは、Apacheのようなオープンなフォーマットでエンリッチ化・標準化し、様々なユースケースにアクセスできるようにする必要があります。


増分ファイルロードのメリット


増分ファイルロードは、クラウドストレージから新しいデータが到着した際に、ファイルを迅速に処理するための機能を強化した方法です。この新機能により、以下のことが可能になります。


・あらかじめ組み込まれたメタデータ主導のフレームワークを使用して、到着したファイルの識別を容易にする

・あらかじめ組み込まれた弾力性を利用し、大規模なデータセットを独自のクラウドネットワークでコスト効率よく確実に拡張・処理する

・サブフォルダー内やクラウドストレージ上のパーティション化されたディレクトリにある新しいファイルを自動的に識別する

・シンプルなチェックボックスでファイルの増分読み込みを有効・無効にする

・部分的に書き込まれたファイルを認識し、データ損失やデータの重複がないことを保証する


図2.シンプルなチェックボックスを使用して、増分ファイルロードの有効化、無効化を容易にする

実際に増分ファイルロードがどのように機能するのか、3つの簡単なステップに分けて見ていきましょう。


ステップ1:データ取り込みプロセスの設定


インフォマティカでは、業界初のクラウドネイティブな統合大量取り込みソリューションとして、さまざまなソースからデータを取り込むことができるInformatica Intelligent Cloud Services(IICS)のCloud Mass Ingestionを提供しています。

これをシンプルかつウィザード主導の統一されたエクスペリエンスで利用することで、ファイル、アプリケーション、リレーショナルデータベースなどのバッチソースや、CDC、IoTシステム、その他のストリーミングソースなどのリアルタイムソースからデータを取り込むためのフローを構築する作業がスムーズになります。

さらに、ジョブのリアルタイム監視とライフサイクル管理のエクスペリエンスを一貫して提供するため、単一のコンソールからジョブを管理することが可能となります。

増分ファイルロード機能を使用するためには、はじめにデータ取り込みプロセスの構成が必要です。

例えば、データベーススキーマ全体のデータを生の形式のままクラウドデータレイクに取り込みたい場合の作業は以下の通りです。


・まず、ソース(データベーススキーマ)接続を設定します。このとき、取り込みのためにテーブルをフィルタリングするルールをオプションで設定したり、列からスペースをトリミングするなどのアクションを指定したりすることができます。

・次に、ターゲット(この場合はクラウドデータレイク)を設定します。

・次に、出力ファイル形式(Avro、Parquetなど)を選択します。

・ここから、対象となるソースのスキーマ変更を自動的に検出して処理する「スキーマドリフト」を設定します。

・最後に、スケジュールやロードタイプ(初期、増分、または両方)などの実行時プロパティを設定します。

・大量取り込みジョブを実装します。


ステップ2:データレイクでデータを処理する


生データがデータレイクに取り込まれると、新しいデータはクラウドストレージで段階的に処理され、MLやアナリティクスで使える状態になります。これは、データエンジニアリングのワークロードにおける典型的なワークフローです。現段階では、ファイルがローゾーンに到着してもすぐに処理することは非常に困難です。

例:あるお客様は、新しいファイルを識別し、それらを処理ディレクトリに移動し、ETLマッピングを起動し、最後に処理ファイルを別のディレクトリに移動するために、複雑なフレームワークを構築する必要がありました。これらのフレームワークはエラーが発生しやすいことが多く、障害が発生した場合のリカバリが困難になります。このような場合に求められるのは、ディレクトリを一覧表示し、すでに処理された新しいファイルの追跡を行い、新しいファイルを識別する高度なファイル処理技術です。

インフォマティカの増分ファイルロードは、上記の制限に対処する最適化されたファイルソースであり、データレイクに到達したデータを効率的かつシームレスに処理することができます。


ステップ3:データウェアハウスをアナリティクスに活用する


続いて、クラウドデータウェアハウスやレイクハウスをアナリティクスに利用します。最新のDWDLは、従来のオンプレミス型データウェアハウスに比べて多くの利点があります。たとえば、総所有コストを削減し、パフォーマンスやセキュリティを犠牲にすることなく、セルフサービス機能を強化することができます。

インフォマティカは、Advanced Pushdown Optimization(APDO)を使用して、データをクラウドストレージからデータウェアハウスに移動することを推奨しています。

APDOは、マッピングロジックをデータウェアハウスのネイティブ関数にプッシュすることでパフォーマンスの最適化を行いますが、データ品質変換、パイソン変換、アドレス検証などが使用されるマッピングでは、CDI-Elasticを使用することで多大な利益を得ることができます。こういったシナリオでも、増分ファイルロードを利用して、クラウドデータレイクからクラウドデータウェアハウスにデータを段階的にロードすることができるのです。

これで、増分ファイルロードを使用してデータレイク内のファイルをすばやく処理する方法をマスターしました。


もっと詳しく知りたい方へ


30日間無料のCloud Data Integrationトライアルをご登録ください。あらかじめ組み込まれた高度な変換やゼロコードが統合ワークロードの構築にどのように役立つのか、ご確認ください。



本ブログは2021年12月15日のABHILASH MULAによるAnnouncing Our 3-Step Incremental File Load for Cloud Data Integrationの翻訳です。