クラウドネイティブなデータ管理でデータウェアハウスとデータレイクを最新化する5つのステップ

クラウドでのデータウェアハウスやデータレイクの導入が普及するにつれて、シンプルかつ高性能で、ペタバイト規模で機能するソリューションが求められます。インフォマティカの顧客調査によると、全体の78%が、簡単で信頼性が高く使いやすいデータ運用、分析のソリューションを必要としているという回答が得られました。実は、データウェアハウスとデータレイクの最新化はそれほど難しいことではありません。この記事では、理想的なデータウェアハウスとデータレイクの最新化を実現する基本的なベストプラクティスと5つのステップをご紹介します。

データウェアハウス、データレイク最新化における課題

多くの人は、クラウド分析や機械学習を進める上でさまざまな課題に直面します。マッキンゼーの調査によると、クラウドでデジタルビジネスを展開する場合、想定以上の時間やコストがかかっている組織は約70%にも上ると報告されています。その他の業界調査でも、多くのCIOがIT部門への投資を行うものの、複数のツールに存在するデータをうまくまとめられていないという結果が出ています。

コストや作業の複雑さが増す基本的な要因としては、以下のような例が挙げられます。

・増加し続けるデータ量

・ポイントソリューション間が統合されていないこと

・データ品質、データガバナンスが適用されていないこと

・エンドツーエンドのデータパイプラインをメンテナンスしていないこと

・急速に変化するテクノロジーを把握できていないこと

・リソース不足

また、企業内でクラウド分析をする際、ステップごとに異なるポイントソリューションを使用している場合なども作業を困難にする原因となります。クラウド分析や機械学習イニシアチブを適切に活用するためには、以下のような例を実践することをおすすめします。

・大規模なデータ取り込み

・データの変換、クレンジング、共有

・データの管理と保護

・インサイト抽出

しかし、ステップごとに異なるソリューションを使用した場合、(特にマルチクラウドにおいては)システムが断片化され、互換性を欠き拡張できなくなるなどの問題から、システム維持に更なるコストがかかります。

最新のデータウェアハウス、データレイク戦略を設定

それでは、一体どうすれば良いのでしょうか?答えは、理想的な戦略とアプローチによる自動化と拡張です。これにより、手作業を減らすことができ、生産性や効率の向上につながります。そのために必要なのが、データ統合、データ品質、メタデータ管理を含むエンドツーエンドのデータ管理機能を備えた、包括的でマルチプラットフォーム、マルチクラウドなデータ環境です。この環境を実現させることで、すべてのユーザーがデータを使用できるようになるとともに、迅速なROIを実現し、分析イニシアチブの価値をスムーズに活用できるようになります。

ここからは、段階的ごとに分けてやるべきことを具体的に確認しましょう。 (概要については、こちらの動画もぜひご覧ください。)

データウェアハウス、データレイク最新化につながる5つのステップ

データウェアハウスを迅速に最新化し、ビジネスインテリジェンス、データサイエンス、分析を改善する際に考慮すべきポイントをご説明します。

以下の図は、クラウドデータウェアハウス、データレイクに関するアーキテクチャを示しています。図の中で番号がついている部分に、これからご紹介する5つのステップを当てはめてください(ただし今回は、リアルタイム分析のストリーム処理については言及していません)。

まず、データライフサイクル全体の自動化を大前提として考える必要があります。インテリジェンスと自動化は、スピード、拡張性、俊敏性、そしてビジネスを市場に投入するまでの時間を短縮するために欠かせない存在です。メタデータ主導のAI機能を用いたうえで以下のステップを踏むことで、スピードや拡張性を大幅に向上させるだけでなく、クラウドプラットフォームや処理エンジン全体で同じ作業をすることができるようになります。

統合メタデータインテリジェンスを提供するAIを搭載したエンジンであるCLAIREは、インフォマティカのIntelligent Data Platform全体における生産性を向上させます。機械学習やその他のAI技術を駆使することで、CLAIREは業界をリードするアクティブなメタデータ機能を活用し、コアデータ管理やガバナンスプロセスの加速、自動化を行います。

ステップ1:データを見つけ、理解する

最初のステップは、データの出所、属性、関係性、リネージなど、データの全体像を理解して、より適切に管理することです。インフォマティカのデータカタログとガバナンスソリューションを使用することで、開発者やユーザーは移行するデータをすばやく特定できます。

また、Informatica Enterprise Data CatalogではAI / MLとCLAIREのAIエンジンの自動化機能によって関連するコンテキストにより利用可能なデータセットを公開し、パイプラインのデータキュレーションをサポートします。これにより、信頼性が高く利用可能な関連データを見つけ、理解するのに要する時間を短縮することができます。

ステップ2:データを取り込む

適切なデータを特定したあとは、そのデータをクラウドデータレイクに取り込む必要があります。これには通常、オンプレミスのデータウェアハウスからの初期ロードと、データベースからの「変更データキャプチャ」をキャプチャする増分ロードが含まれます。

インフォマティカのCloud Mass Ingestionでは、ファイル、データベース、変更データキャプチャレコードのロードを自動化することができます。また、クラウドネイティブなソリューションを活用し、シンプルかつコードレスなウィザード主導のエクスペリエンスによってどんなデータでも任意のレイテンシですばやく取り込めます。

ステップ3:データの信頼性を確認する

続いて、取り込んだデータがクリーンで信頼性が高く、すぐに利用できる状態かどうかを確認する必要があります。インフォマティカの提供するクラウドネイティブなソリューションによって、非常に分かりやすいビジュアルインターフェイス内でドラッグアンドドロップ機能を使用するだけでデータパイプラインを迅速に構築、テスト、展開することが可能になります。

Cloud Data Qualityは、データのプロファイリング、クレンジング、重複排除、検証、監視など、あらゆるデータ品質機能でビジネスを成功に導きます。また、Cloud Data Integrationでは、コードレスなインターフェイスによって高性能のエンドツーエンドデータパイプラインを迅速に構築します。ソースシステムとターゲットシステムを抽象化することにより、接続を変更するだけで、Amazon Redshift、Azure Synapse Analytics、Snowflake、Google BigQueryなど最新のクラウドデータウェアハウスと、クラウドやオンプレミスシステムの使用を簡単に切り替えてデータワークロードを移動することができます。

ステップ4:分析用に高性能なデータ処理パイプラインを作成する

クラウドデータウェアハウスにデータを入れた後、データセットをさらに細かく分析することもできます。インフォマティカの製品はマルチプラットフォームエンジンを使用して実行の最適化を処理するため、その間に同一のビジュアルデザイナーを使用してロジックを構築し続けることが可能です。

高度なプッシュダウン最適化(またはELT)によって、マッピングをネイティブ命令とSQLクエリに変換し、数百万のレコードをわずか数秒で処理するとともに、ビジネスを強化するデータを瞬時に提供します。

データサイエンスや機械学習プロジェクトでは、膨大な量のデータ処理が求められる場合もあると思います。インフォマティカが提供している柔軟性の高いSparkベースのエンジンは、ビッグデータや機械学習のワークロードを処理することができます。また、同一のビジュアルデザイナーを使用して、ドラッグアンドドロップを行うだけのセルフサービス方式でマッピングを開発することもできます。

さらに、データパイプラインの導入モデルを選択することも可能です。インフラストラクチャを自分で管理することもできますが管理が必要ない高度なサーバーレス展開オプションを選択することによって、コストの削減、運用の簡素化、ITリソースの効率の向上などが見込めます。

ステップ5:DevOpsプラクティスを使用してデータをプロビジョニングする

昨今、短期間で実装とテストを繰り返すアジャイル開発を取り入れる企業が増えています。質の高いDevOpsプロセスによって、開発者は開発に集中することができると同時に、操作や監視を自動化することで継続的インテグレーションと継続的デリバリー(CI / CD)を保証し、バグのないコードが出荷されます。インフォマティカのクラウドネイティブなデータプラットフォームでは、DevOpsプラクティスを展開し、開発コストを削減しながら俊敏性、生産性、効率性を高めます。また、リリースをより頻繁に、速く、エラーの少ない状態で行うことで、即座にフィードバックを得ることができます。インフォマティカのクラウドネイティブソリューションは、すぐに利用可能なCI / CD機能を提供し、開発、運用、セキュリティ全体のサイロを解消します。これにより、開発ライフサイクル全体で一貫したエクスペリエンスを得ることが可能になります。

データウェアハウスとデータレイクの最新化に向けた次のステップ

インフォマティカは、業界をリードするクラウドネイティブなデータ管理ソリューションを提供し、クラウド分析、機械学習などがよりスムーズに行えるよう、お客様をサポートします。概要については、動画「How to put your data to work with a Unified, Intelligent Cloud-native Data Platform(統合された、インテリジェントなクラウドネイティブデータプラットフォームでデータを有効活用する方法)」をぜひご覧ください。また、その他の動画やブログでも、特定の製品や機能についてより詳しくご説明しています。30日間無料のクラウドデータウェアハウスソリューション体験版もご用意していますので、この機会にぜひお試しください。


本ブログは2021年3月25日Sampa Choudhuriによる5 Steps to Modernize Your Data Warehouse and Lake with Cloud-Native Data Managementの翻訳です。