AmazonS3向けのGoverned Data Lake Management Solutionでビジネスインサイトを推進させる

パンデミックの影響により、多くの企業が既存のビジネスのやり方を変化させました。リスクを管理し、コンプライアンス要件を順守しながら、内部の利用者に迅速かつ適切なタイミングでデータを提供するようCDO(最高デジタル責任者)への要求はこれまで以上に高まっています。また、顧客との関わり方も変化し、顧客エンゲージメントモデルは、企業が迅速に対応することが期待され、デジタル化に大きくシフトしています。需要の変化に伴い、ビジネスモデルも変化し、迅速で正確な意思決定を行うためにデータへの依存度が高まっています。

現在、企業のリーダーはデータから価値を引き出すことを強く求められています。重要なインサイトはデータそのものからもたらされ、これらのインサイトはデジタルトランスフォーメーションを加速し、カスタマーエクスペリエンスの改善や問題解決のための重要な推進力となっています。

また、管理されたデータレイクは、データセルフサービス機能の提供により、この課題解決をサポートすることができます。データレイクの考え方は、デジタルトランスフォーメーションの取り組みをサポートするために大量のデータを保存することです。ただし、それには利用者とデータ所有者の信頼の保証に反することなく、データを安全かつ適切に使用できるようにすることが不可欠です。適切なガバナンスがなければ、データレイクイニシアチブは、デジタルトランスフォーメーションプログラムの前進において主要な阻害要因になることが多々あります。管理されたデータレイクソリューションにおいて主に考慮すべき事項には、アドホッククエリ機能、パフォーマンス、およびサーバーレスコンピューティングがあります。

新しいInformatica Governed Data Lake Management Solutionはどのように役立つか?

Amazon S3は、99.999999999%の耐久性とペタバイトの拡張性を考慮した、最適なデータレイク基盤を提供しています。 インフォマティカが最近発表したAmazon Web Services(AWS)向けのGoverned Data Lake Management Solutionの使用により、共通の顧客はAmazon S3のデータレイクの管理、保護、拡張が可能になります。新機能には、インテリジェントなデータカタログ、データポリシーの管理と実施、データ保護とプライバシー制御、クラウドネイティブのデータ統合が含まれ、顧客は信頼性の高いデータを使用したクラウドベースのアナリティクスとデジタルトランスフォーメーションの拡張が可能になります。

新しいGoverned Data Lake Management Solutionにより、以下のことが可能になります。

  • 企業全体のデータ資産を発見・整理し、ビジネスコンテキストに沿ったメタデータを自動的にキュレーションして補強します。また、インテリジェントデータカタログで、データリレーションとデータリネージの追跡を行うことができます。
  • 手作業のコーディングを必要とせず、データパイプラインを迅速かつ効率的に構築し、クラウドネイティブなデータ統合によってオンプレミスのデータワークロードをAmazon S3のデータレイクに迅速に移行することができます。
  • データ管理ポリシーとデータプライバシーポリシーを定義し、自動的に実行することで、CCPAやGDPRなどのコンプライアンスを順守しながら、信頼性の高いデータを全社に配信できます。
  • データ品質の問題を自動的に特定して修正し、データレイクの利用者が信頼性の高いクリーンなデータにアクセスできるようになります。

データレイクを管理するための万能のアプローチが常に機能するとは限りません。データレイクにアクセスするさまざまなユーザーとグループ(データサイエンティスト、ビジネスアナリストなど)があり、それぞれに異なるニーズと要件があります。いくつかのユースケースを見ていきましょう。


ユースケース1:管理されたセルフサービスデータレイクをサポートし、保証された信頼性の高い真実の情報源を提供する

データエンジニアリングチームがこれに当てはまります。彼らはAmazon S3のParquet、JSON、およびAvroデータの行レベルでデータ品質の確認を行い、他のアプリケーション(SalesforceやMarketoなど)からのデータを結合して、四半期ごとの機会とパイプラインを示すレポートを正確に作成してデータをプロファイリングする必要があります。

このユースケースを解決するために、新機能のInformatica® Intelligent Cloud Services™(IICS)Amazon Athenaコネクタを使用します。 インフォマティカの顧客は、他のデータベースと同じようにAmazon S3のデータセットを操作できるようになり、Amazon Athenaを通じてすべてのAmazonS3データのコード不要なデータ管理を迅速に開発できるようになりました。 IICSウィザードベースのタスクを使用して、顧客はAWS Glueデータカタログで定義された外部テーブルに接続し、データプロファイリングルールを作成しながらアプリケーションからデータを結合させ、データ品質チェックを実行し、そのまま利用できる変換を使用して、レポート作成のために信頼性の高いデータの提供をすることができます。他のインフォマティカコネクタと同様に、IICS Amazon Athenaコネクタは、サーバー側またはクライアント側の暗号化のためにIAM、AWS Key Management Service(KMS)をサポートしています。

ユースケース2:Amazon Redshiftプッシュダウン最適化でパフォーマンスを向上する

データ分析チームがこれに当てはまります。彼らは、ダッシュボードを作成してリアルタイム分析を実行することにより、ビジネスインテリジェンスサービスを実装する必要があります。これには、Amazon S3へのロード、Salesforce、およびその他のエンタープライズシステムからのAmazon Redshiftへのデータのロードが含まれます。このユースケースでは、Amazon Redshiftにロードする前にPIIデータをマスキングすることで、最高のデータ品質と信頼性を確保するためのデータ品質とデータマスキングルールの実装も求められます。

このユースケース解決策として、高性能のInformatica Intelligent Cloud Services Amazon Redshiftコネクタを使用します。顧客は IICSウィザードベースのタスクによって、Amazon S3からデータの読み取り、データプロファイリングルールの作成、データ品質チェックができます。

また、プッシュダウンパフォーマンスが強化されているため、マッピング内の集計関数などの重い変換も、Amazon Redshift Connectionを使用してAmazon Redshiftエンドポイントにプッシュダウンできます。 Amazon Redshiftへのプッシュダウンは、Amazon Redshiftクラスターの演算能力を使用することでパフォーマンスを向上させます。他のインフォマティカコネクタと同様に、IICS Amazon Redshiftコネクタは、サーバー側またはクライアント側の暗号化のためにIAM、AWS Key Management Service(KMS)をサポートしています。

ユースケース3:Informatica Advanced Serverlessを使用したTCO(総保有コスト)とOpEx(運営費)を削減する

多くの企業は、TCOと運営費を削減するために、サーバーレスコンピューティング実行モデルを採用しており、プロバイダーがすべてのインフラストラクチャの管理と、必要なインフラストラクチャリソースを動的に割り当てる責任を持つことを望んでいます。これにより、企業はアプリケーション開発者が優れたアプリケーションを構築できるよう生産性のみに集中させることが可能となります。

このユースケース解決のためには、AWS上に構築されたIICS Advanced Serverlessを使用します。 Advanced Serverlessを使用すると、顧客はサーバーレスコンピューティングを活用してデータ統合パイプラインを処理でき、ユーザーは、サーバーレスモードでデータ統合ジョブ(Sparkベースかどうかに関係なく)を実行できます。これにより、ハードウェアまたはソフトウェアを管理する必要がなくなり、DevOpsとDataOpsが簡素化されるため、開発者はビジネスロジックに集中し、新しいデータパイプラインの迅速な展開が可能になります。

インフォマティカの新しいGoverned Data Lake Management Solutionは、AWSデータレイクイニシアチブを成功させるための機能をあらゆるペルソナ(データエンジニア、データサイエンティスト、データオペレーション、データアナリストなど)に提供いたします。

詳細はこちら

Governed Data Lake Management Solutionの詳細については、 visit Informatica at our AWS re:Invent virtual booth(AWS re:Invent仮想ブースのインフォマティカにアクセス)してください。その際、re:Inventに登録が求められます。

AWS向けインフォマティカソリューションの詳細については、www.Informatica.com/AWSをぜひご覧ください。



本ブログは12月4日のDeepak RamによるDrive Business Insights with Governed Data Lake Management for Amazon S3の翻訳です。