ETLとELTの違いとは?インフォマティカでSnowflakeのパワーを引き出す


ELTの重要性

多くの組織が、データウェアハウスをモダナイズ(近代化)するための第一歩として、データウェアハウスをクラウドに移行しています。その理由の一つとして、従来のデータウェアハウジングでは、急速に増大するデータ量、処理負荷、データ分析のユースケースに追随することが困難なためです。クラウド移行は、効率性と俊敏性を高めてデジタル時代のニーズに応えられるように世界中の組織を支援しています。

大規模なオンプレミスのアプライアンスや特定の用途向けの中小規模のデータウェアハウスベンダーのほとんどは、既にクラウドへと移行しています。トップクラスのクラウドサービス・プラットフォーム・プロバイダーは、独自のデータウェアハウスやデータレイクソリューションを提供しています。また、Snowflakeのように、すぐに使えるソリューションを提供する新しいプロバイダーも登場しています。多くの組織は、データプラットフォームを近代化する最初のステップとして、データプラットフォームをクラウドに移行するだけでなく、データレイクのステージを含めたデータのロードプロセスを再構築しています。データ量が増加しても、データを未加工のままデータレイクにロードすることができるので、拡張性が高く、アクセスが容易で、ストレージコストの低減と運用効率の改善につながります。

もし貴社が、さまざまなソースから大量のデータを所有していて、それらをSnowflakeデータウェアハウスに取り込み、アドホック分析やリアルタイムなレポート作成、データのマネタイズ(収益化)のために活用したいとお考えなら、Snowflakeデータウェアハウスに、信頼できる高品質なデータをロードしたいと思われるでしょう。また、できるだけ速く、大規模なデータを処理して、アナリティクスに活用したいと思うのではないでしょうか。

高性能で使いやすいクラウドネイティブなソリューションをSnowflakeと組み合わせれば、信頼性の高いデータを統合して、タイムリーにSnowflakeにロードすることができます。そうすることで、Snowflakeのモダンなデータウェアハウスの価値を最大限に引き出すことができます。

ETLとELTの違いを理解する

ETL(抽出、変換、ロード):ETLは、単一または複数のソースからの外部データを処理および変換して、Snowflake Data Cloudなどのデータウェアハウスに取り込むアプローチです。インフォマティカは何十年にもわたって、ETL業界をリードしてきました。インフォマティカは、データやアプリケーションがどこにあるかに関係なく、迅速に統合し、貴社のクラウドデータストアにロードすることができるクラス最高のデータ統合製品を提供しています。

ELT(抽出、ロード、変換)/プッシュダウン・オプティマイゼーション:データをデータストアに格納した後は、ELTのアプローチを採ることを強くお勧めします。ETLのアプローチでSnowflake Data CloudやSnowflakeのデータウェアハウスからデータを出し入れするのは、効率が悪く、多くのリソースを消費します。なぜなら処理速度が落ちるだけでなく、データウェアハウスプロバイダーのデータ出力料金が高くなり、ソリューションコストが増大するからです。

インフォマティカは、Snowflakeのデータクラウド上でETLとELTの両方をサポートし、ユースケースとニーズに応じてユーザーが選択できるオプションを用意しています。

インフォマティカのSnowflake Data Cloudconnectorは、あらゆるオンプレミスやクラウドソースからSnowflakeのデータウェアハウスへのデータ統合マッピングを開発できる、AIを搭載したクラス最高のパワフルなソリューションです。開発コストを大幅に削減し、数分以内に作業を開始することができます。

また、インフォマティカのAdvanced Pushdown Optimizationは、データをSnowflake内で直接処理し、SQLレイヤーを使ってフィルター、結合、集約、並べ替えなどの操作を行うことでプロセスを最適化します。これによって、データ処理が速くなり、不必要なデータ移動を回避することが可能です。

また、Informatica Cloud Data Integrationは、データベースに固有のデータ処理コマンドを使わなくても、Snowflakeにデータをロードすることを可能にします。ドラッグ&ドロップで簡単に使える画面からフローを作成し、プッシュダウン・オプティマイゼーションモードをオンにして、設計したデータパイプラインを実行するだけで操作が可能です。

インフォマティカのAdvanced Pushdown Optimization(ELT)は、クラウドデータレイクやデータウェアハウスの世界における、以下のような近代的なユースケースパターンに対応できるように設計されています。

  • Slowly Changing Dimensions(SCD)などのクラウドで一般的なデータウェアハウスのロードパターン
  • データを変換しながらデータレイクからデータウェアハウスへロード

Advanced Pushdownモードにすると、エンジンがデータパイプラインを最適化されたSQL文またはネイティブのSnowflakeコマンドに変換し、ビジネス変換ロジックをネイティブのSnowflakeデータウェアハウスにプッシュします。そこでは、基盤となるデータベースまたはアプリケーションがリソースの割り当てとスケジューリングを処理します。

Advanced Pushdown Optimization(ELT)の、3つの利点をご紹介します。

シンプル:1つのコネクタだけで、すべてのプッシュダウン・オプティマイゼーションや高度な機能を利用することができます。ドロップダウンメニューから選択するだけの簡単操作で、データベース固有のコマンドを覚える必要はありません。

生産性:プッシュダウン・オプティマイゼーションで処理速度が何倍も速くなり、運用コストを大幅に削減することができます。Snowflakeのデータクラウド上にソースとターゲットのシステムがあれば、データ出力料金は一切かかりません。

拡張性:インフォマティカの最も広範なコネクタを利用すれば、データ、エンジン、ユーザーの拡張性を高めることができます。

インフォマティカとSnowflakeを組み合わせて利用すれば、幅広いデータソースからのデータを統合、同期、複製、結合できるだけでなく、データの品質と一貫性を確保し、マルチクラウドやサーバレスの世界でユニバーサルにアナリティクスを活用するための俊敏性と拡張性を手に入れることができます。

さらに詳しくは下記をご覧ください


本ブログは2021年3月3日Avadhoot PatwardhanによるWhy You Should Use Informatica’s ELT or Advanced Pushdown Optimization for Snowflakeの翻訳です。