iPhone革命が教えてくれたこと~クラウドデータ管理における統合と自動化の重要性

「iPod、電話、ネット通信機器… 。iPod、電話…。お分かりですよね?これらは3つの別々のデバイスではなく、ひとつなのです…そして、その名は『iPhone』です。」

これは、2007年1月9日、スティーブ・ジョブズが誇らしげにアップルのiPhoneを紹介した時のスピーチです。

その当時、ひとつのデバイスだけで、音楽を聴いて、電話をかけ、インターネットを閲覧できるiPhoneは革命的でした。充電アダプターの形状やインターフェイスがベンダーによって異なる3つの製品を使わなくてもよくなったのです。iPhoneが登場する前は、音楽を聴いている最中に電話がかかってくると、音楽プレーヤーを手に取って音楽を止めてから電話機を手に取って応答しなければなりませんでした。けれどもiPhoneなら、すべてが自動化されています。電話が鳴れば、音楽が自動的にフェードアウトして、電話に出ることができます。電話が終われば、自動的に音楽の続きに戻れるのです。

さて、iPhoneの話は、クラウドデータ管理とどのように繋がるのでしょうか?今日の多くの組織は、いまだに目的によって異なるデバイスを使っています。企業は、敏捷性と自動化を進めるために、急速にクラウドへ移行しています。また、新型コロナウィルス感染症(COVID-19)の影響を受けている今こそ、さらなるコスト削減と運用効率を改善しようと考えています。そして多くの場合、重要なデータ管理要件に対応するために、複数の製品を使おうとしています。これではまるで音楽プレーヤーで音楽を聴き、電話機を使って電話をかけ、わざわざ別の端末からブラウザでインターネットを利用しているのと同じことです。

現在のアプローチの欠点

クラウドに移行する過程で、最初に取り組むのは、データストレージ要件を満たすことです。データウェアハウスまたはデータレイクを新たに構築するか、あるいはその両方を 「レイクハウス」 と呼ばれる単一のデータプラットフォームに統合します。次に、多くの企業は、手作業でコーディングするか、あるいはデータ統合、データ品質とガバナンス、メタデータ管理のそれぞれに異なるツールを購入することで、多様なデータ管理要件に対応しようとします。しかし、どちらのアプローチにも重大な欠点があります。

まず、手作業でコーディングするデータ管理プロジェクトの場合、通常はクラウドプロバイダーのPaaS(サービスとしてのプラットフォーム)あるいはIaaS (サービスとしてのインフラストラクチャ)にバンドルされているツールを使います。手作業コーディングは、プロトタイプの作成やトレーニングには適しているかもしれませんが、保守が難しく、熟練した開発者が必要であり、再利用できないため、全体としてコストとリスクが高くなります。

また、複数のデータ管理ツールを購入すれば、複数の異なる製品リリースの互換性を確認しながら、これらすべてのツールを統合し続けなければならず、IT部門への負担が大きくなり、リスクとコストが高くなります。そして、自動化やイノベーションが制限され、開発期間が長くなってしまいます。

インフォマティカのアプローチ:クラウドネイティブな独立型の「ベスト・オブ・ブリード」


クラウドデータウェアハウス/データレイクのイニシアチブを迅速に進めたいのであれば、手作業コーディングやポイント製品ではく、「ベスト・オブ・ブリード」の独立型のクラウドデータ管理ソリューションを利用することをお勧めします。インフォマティカのクラウドレイクハウスデータ管理ソリューション(Cloud Lakehouse Data Management)は、業界をリードするクラウドデータ統合サービスであるInformatica Intelligent Cloud Services (以下、IICS)だけでなく、構築されたクラウドネイティブなソリューションです。IICSは、モジュール形式、マルチクラウド対応、マイクロサービスベース、API駆動、AI搭載の最新iPaaS(サービスとしての統合プラットフォーム)です。IICSは、すべての主要なクラウドプラットフォーム(Amazon、Microsoft、Snowflake、Databricks、Google)をサポートし、メタデータ管理、データ統合、データ品質の最適な製品を組み合わせた「ベスト・オブ・ブリード」なソリューションなのです。

それでは3つの主要な製品について詳しくご紹介しましょう。

メタデータ管理

データ管理で最初に行うことは、所有するすべてのデータを探索してカタログ化することです。貴社のデータ資産とデータ間の関係について、この処理を行ってくれるのが、インフォマティカのエンタープライズデータカタログです。まずは、すべてのエンタープライズシステムからメタデータを自動的にスキャンして収集します。それから、ビジネスコンテキストを使ってメタデータをキュレートして増補し、データ間の関係とリネージを推測します。メタデータは、データ管理の共通基盤を作る基礎となりますが、インフォマティカのソリューションは、AIと機械学習を使って、データ統合、データ品質、ガバナンスに関するレコメンドを自動的に提案することで、このメタデータを有効にします。インフォマティカのエンタープライズデータカタログを使えば、さまざまなメタデータを収集して分析することで、貴社が所有するすべてのデータ資産をビジネスの視点から完全に把握できるようになります。

  • 技術データ:データベーススキーマ、マッピングとコード、変換、品質チェック
  • 業務データ:用語集、ガバナンスプロセス、アプリケーション、ビジネスコンテキスト
  • 運用・インフラストラクチャデータ:ランタイム統計、タイムスタンプ、ボリューム測定基準、ログ情報、システム情報、ロケーションデータ
  • 使用状況データ:ユーザーによる評価やコメント、アクセスパターン

IICSは、メタデータ駆動型のアプローチでデータパイプラインを構築できる視覚的な開発環境を提供します。すべての主要なクラウドプラットフォーム(Amazon Web Services、Microsoft Azure、Google Cloud Platform)と最新の処理エンジン(Spark)上で動作し、既存のデータパイプラインを再コーディングする必要はありません。IICSであれば、データを自動的に探索してタグ付けし、関連付けて、プロビジョニングし、クラウドのデータウェアハウス/データレイクに移行することができます。

クラウドデータ統合


IICSのクラウドデータ統合(Cloud Data Integration)は、クラウドネイティブな接続をあらかじめ定義して組み込んでいるため、マルチクラウドあるいはオンプレミスに関係なく、実質的に任意のタイプのデータに接続して、迅速なデータの取り込み、統合が可能となります。データアナリストやデータエンジニアは、すぐに使える定義済みの統合機能やインテリジェントなデータディスカバリ機能、複雑なファイルの自動解析機能、AIを使ったメタデータ駆動の変換レコメンデーションを搭載した視覚的なウィザードを使って、データパイプラインを簡単に構築することができます。また、クラウドデータウェアハウスやデータレイクに取り込むデータを簡単に探索し、データパイプラインを他のプロジェクトで再利用できるようになります。

Cloud Data Integrationは、拡張性とパフォーマンスに特化しており、データを効率的に処理してリソースを最適化するためのプッシュダウン最適化機能を備えています。また、Cloud Data Integration Elasticは、拡張性と処理能力をオンデマンドで向上させることが可能なサーバーレスのSpark処理を実現しています。

IICS Cloud Mass Ingestionを使えば、ファイル、データベース、変更データキャプチャ、リアルタイムデータのストリーミングなど、さまざまなソースから大規模なデータを取り込めるようになります。

クラウドデータ品質

IICS のクラウドデータ品質(Cloud Data Quality)ソリューションは、クラウドデータウェアハウスが信頼できるデータを保持し、データレイクが沼地化しないように、総体的なアプローチでデータ品質を管理できるクラウドネイティブのさまざまな機能を提供します。データを迅速にプロファイリングすることで、クラウドデータウェアハウスやデータレイクにデータを移動する前に、データ品質の問題を特定して、修正、監視できるようになります。また、データ変換機能が用意されており、すべてのデータをクレンジング、標準化、エンリッチ化することができます。さらに、広範なデータ品質ルールセットを搭載しており、コーディングを追加しなくても、分析のために使える信頼できるデータを確保することができるようになります。

Cloud Data Qualityは、データの標準化、マッチング、世界中の住所形式でクレンジングするためのビジネスルールを提供し、あらゆるプロジェクトで使えるデータ品質管理機能を提供します。また、CLAREE ®エンジンのメタデータ駆動の人工知能は、これまでに類似データがどのように管理されてきたのかを基準として、データ品質のルールをインテリジェントに提案してくれます。

ベスト・オブ・ブリードの独立型クラウドデータ管理のメリット

iPhoneは、音楽、電話、ブラウザの最も優れた部分を組み合わせて統合することによって成功しました。Appleは、これを基盤に多眼カメラや非接触型決済、ヘルスモニターを追加し、革新し続けています。もちろん、これらすべては自動的に統合されています。ポイント製品に甘んじるのではなく、クラウドデータ管理プロバイダーにより多くの事を求めるべきです。クラウドネイティブなデータ統合、データ品質、メタデータ管理のすべてが、ひとつに統合され、自動化されたインテリジェントなソリューションが必要です。こうしたソリューションであれば、急速に変化し続けるクラウドプラットフォームへの投資を将来にわたって保証し、開発期間を短縮して、統合イニシアチブのリスクを軽減し、生産性を向上させることができます。 

関連情報

ソリューション概要:データウェアハウスとデータレイクをクラウドで最新化

ブログ記事 :「Building Your Cloud Lakehouse–Do You Have a Solid Data Management Foundation?」


本ブログは5月12日の Sam Tawfikによる3 Key Essentials for Cloud Lakehouse Data Managementの翻訳です。