BIやリアルタイムストリーミング分析のためにデータをクラウドデータレイクに取り込むためのガイド

データは組織内の戦略的意思決定を推進しています。データは非常に重要な資産であるため、取引先のエコシステムやサードパーティのデータなど、企業全体のさまざまなソースからデータをキャプチャすることが不可欠です。多くの組織は、さまざまなソースからデータを取り込み、それをデータレイクまたはKafkaなどのメッセージングシステムに移動して、重要なビジネス上の意思決定を促進するためにデータを統合・分析できるようにする取り組みを始めています。

ビジネスユースケース

クラウドデータプラットフォームは通常、以下のようなさまざまなビジネスユースケースで使用されます:

組織では通常、データをクラウドデータレイクに取り込み、その後、データをクラウドデータウェアハウスに移動して、BIおよびアナリティクスで使用できるようにします。課題は、さまざまなソースから大量のデータを効率的かつ正確に取り込む必要があることです。そこで、取り込みソリューションが力を発揮します。 

データはバッチまたはリアルタイムのソースから取得される場合があり、4つの主要なデータソースがあります:

  • ローカル静的ファイル、ファイルリスナー、FTPサーバー内のファイルなどのファイル
  • リレーショナルデータベースの変更データキャプチャ(CDC)データ
  • IoTデータ、ログ、クリックストリーム、ソーシャルメディアなどのストリーミングソース
  • Apache Kafka、Amazon Kinesis、JMSなどのメッセージングシステム

典型的なデータレイクアーキテクチャでは、上記のソースからのデータをクラウドデータレイクまたはメッセージングシステム(Apache Kafkaなど)に取り込みます。データレイクでデータが利用可能になると、エンリッチ化、変換、集計などのさまざまなデータ統合手法をデータに適用して、上記で説明したビジネスユースケースに備えることができます。

図1:Cloud Mass Ingestionのユースケース

大量ファイル取り込みソリューションに対する顧客の要件

組織は、さまざまな技術的および運用上の理由から大量ファイル取り込みソリューション導入に苦労しており、ビジネス上および技術的なニーズを満たすソリューションを求めています。

  1. 取り込みのためのシンプルで統合されたエクスペリエンス:異種システムを使用してさまざまなソースからデータを取り込むことは難しく、顧客は一つに統合されたソリューションを使用してさまざまなソースからデータを取り込む必要があります。また、エクスペリエンスはシンプルで使いやすいものである必要があります。これにより、取り込みの度にITに依存するのではなく、ビジネスアナリストによる取り込みができます。
  2. 多様な接続:取り込みソリューションは、ファイル、データベース、メインフレーム、IoT、その他のストリーミングソースなどのさまざまなソースへの接続を提供する必要があります。また、さまざまなクラウドデータレイク、ウェアハウス、メッセージングシステムにデータを取り込む必要があります。
  3. エッジ変換:データがリモートシステムから取り込まれている場合、取り込みソリューションは、データレイクにデータを取り込む前に、エッジで単純な変換(たとえば、不良レコードのフィルタリング)を適用できることが重要です。
  4. スキーマドリフトへの対応:ソースデータの構造の変更(一般的にスキーマドリフトと呼ばれる)は、顧客にとって重要な問題です。顧客は、取り込みソリューションがスキーマドリフトを自動的に処理し、ターゲットシステムへ伝播することを期待しています。
  5. リアルタイムの監視とライフサイクル管理:取り込みジョブは長時間実行され、潜在的に終わらないため、取り込みソリューションは、ジョブに対してシステムで何が起こっているかを示すリアルタイムの監視機能を提供することが重要です。また、ジョブを一時停止や再開することにより、ジョブをスケジュールおよび管理できるようにすることも重要です。

インフォマティカがどのように貢献するか?

インフォマティカは、さまざまなソースからデータを取り込むためのInformatica Intelligent Cloud Services(IICS)Cloud Mass Ingestionによって業界初のクラウドネイティブ統合大量ファイル取り込みソリューションをご提供しています。

Informatica Cloud Mass Ingestionは、主に3つのユースケースに対応しています:

  1. クラウドデータレイクまたはクラウドデータウェアハウスへの取り込み:ファイル、データベーステーブル、ストリーミングおよびIoTなどのソースから、バッチアナリティクスの使用のため、Amazon S3やAzure ADLS Gen2などのクラウドデータレイクへの取り込み。
  2. Kafka(クラウドメッセージングサービス)の高速化:ログ、クリックストリーム、IoT、変更データ(CDC)をリレーショナルソースからリアルタイムアナリティクスおよび配信するためのKafkaへの取り込み。
  3. データベースまたはデータウェアハウスの最新化と移行:オンプレミスデータベースおよびメインフレームシステムから、Snowflake、Azure SQL DWなどのクラウドデータウェアハウスへの初期・増分CDCデータの取り込み。

Cloud Mass Ingestionは、ファイルやリレーショナルデータベースなどのバッチソースや、CDC、IoTシステム、その他のストリーミングソースなどのリアルタイムソースからデータを取り込むためのフローを構築するためのシンプルなウィザード主導のエクスペリエンスを提供します。ジョブを一貫してリアルタイムで監視し、ライフサイクル管理エクスペリエンスを提供するため、ジョブの効果的な管理が可能です。

図2:さまざまなデータソースからの統合取り込みソリューション

図3:設計およびリアルタイム監視ができるシンプルで直感的なエクスペリエンス

さまざまなソースからのデータの取り込みは、クラウドデータレイクへの移行における重要な最初のステップです。一貫した設計、導入、監視、ライフサイクル管理のエクスペリエンスを使用して、さまざまなソースからデータを取り込む統合されたソリューションを持つことが重要です。 インフォマティカは、IICS内に統合されたクラウドネイティブ統合大量ファイル取り込みソリューションをご提供して、顧客の取り込みのユースケースに取り組みます。

詳細について

詳細については、Cloud Mass Ingestionの製品ページをご覧ください。

Cloud Mass Ingestionを30日間お試しください。


本ブログは1月13日の Vichwanath Belurによる Guide to Ingesting Data Into Your Cloud Data Lake for BI and Real-Time Streaming Analyticsの翻訳です。