手作業コーディングの大きな代償:クラウドデータ管理ソリューションを選択すべき理由


今日のあらゆる組織が、クラウドやクラウドアナリティクスに投資しています。貴社でもすでにAWSやAzure、Google Cloud Platform、Snowflake、Databricksなどの環境にクラウドデータウェアハウスやデータレイクを構築しようと考えている、あるいはすでに着手しているのではないでしょうか。

クラウドへデータを移行するにあたって、最初に考えることは、ETL/ELTデータパイプラインをどのように構築すべきかです。Python、R、C++、Cで開発するのか、あるいはツールとして提供されているソリューションを使うべきなのか?しかし、すでにオンプレミスでデータウェアハウスを構築して苦労した経験がある人なら、すぐにこう答えるでしょう。「手作業でコーディングするのは大変ですよ。コストはかかるし、保守は悪夢のようです。データパイプラインをツールとして提供できるソリューションには敵いません。」

その通りです。統合ツールを備えたソリューションならば、データの品質やガバナンス、リネージ、プライバシー、DataOpsなど、その他の多くのデータ管理機能を搭載しているので、ゼロから開発する必要がありません。

しかし一部の企業は、手作業でコーディングすることに固執しています。手作業でコーディングする方が、データ統合ツールを覚えるよりも簡単で、自社の要件に合わせて開発できるから融通が利くと勘違いしているからです。また、統合ツールでは創造力が制限されると開発者は感じているのかもしれません。

手作業で開発することの落とし穴

手作業コーディングは、プロトタイプの作成やトレーニングには適しているかもしれませんが、保守が難しく、熟練した開発者が必要であり、再利用できないため、全体としてコストとリスクが高くなります。また、連携が必要なデータソースやターゲットの数は増え続け、より多くの高度なデータ変換が必要になります。

新たなテクノロジーが次々と出現し、基盤となるエンジンが変わるたびに、開発者は再設計や再コーディングすることを余儀なくされます。つい最近まではHadoopが使用されていましたが、現在はSparkが主流となっています。将来はSparkの別のバージョンか、さらに優れたテクノロジーが出現するでしょう。手作業コーディングによるデータ統合が軌道に乗る頃には、すでに時代遅れになっているのです。

また、新しい統合を実装するたびに調整や最適化が必要になります。そもそも連携を前提として設計されていない異種ポイントソリューションを苦労して手作業でつなぎ合わせても、柔軟に変更することができず、1つのポイントソリューションを変更すれば、すべてのシステム統合をやり直して、再テストしなければなりません。

手作業でコーディングするための人件費は非常に高額なだけでなく、スキルの高いリソースは限られています。人件費は激増し、経済性が変わっていることに気付く頃には、もう手遅れです。すでに投入した莫大なコストと労力を捨てて、データ統合ソリューションに乗り換えたいなどとは今さら言えないでしょう。

手作業でカスタムソリューションを構築することの大きなリスクについて、さらに詳しくはホワイトペーパー「手作業コーディングの大きな代償~インテリジェントで自動化された最新のクラウドデータ管理がこれまで以上に重要な理由」をご覧ください。インテリジェントな自動データ管理ソリューションを導入した場合と手作業でコーディングした場合の違いを比較して詳しく解説しています。

インテリジェントな自動クラウドデータ管理ソリューション

上記のように、クラウドデータ管理への移行を手作業でコーディングするのは、大きなリスクを伴います。では、どのようなデータ統合ツールを選べばよいのでしょうか。

データウェアハウスやデータレイクをクラウドへ移行して最新化することのメリットを手に入れるためには、データ統合の問題だけに焦点を当てるのではなく、データ管理のライフサイクル全体にわたってエンタープライズ規模のニーズに対応できる幅広いソリューションが必要です。

Informatica® Cloud Lakehouse Data Managementは、クラウドネイティブなデータ統合、データ品質、メタデータ管理のすべてがひとつに統合され、自動化されたインテリジェントなクラウドレイクハウスデータ管理ソリューションです。クラウドへデータを移行する際に、多くの企業が直面する複雑なデータ管理の問題を解決し、クラウドデータ管理を自動化して、ソフトウェア開発ライフサイクル(構築、実装、管理、運用)全体の効率を高めることでTCOを削減します。

クラウドデータ管理のための使いやすいウィザードやテンプレート、構成済みのマッピング、データ変換(パーティショニング、ルックアップ キャッシュ、プッシュダウンオプティマイゼーションなど)をあらかじめ用意しており、視覚的なツールを使ってクラウドとオンプレミスにまたがる複数のエンドポイントを作成・接続し、分散されているソース全体を通じて増加するデータをデータウェアハウスへシームレスに統合することができます。

例えば、次のようなベストオブブリードの機能を提供します:

• データ統合:インテリジェントな自動データ統合機能で、迅速かつ効率的にデータパイプラインを構築し、クラウドデータウェアハウス/データレイクにデータを供給します。

• データ品質およびデータガバナンス:インテリジェントな自動データ品質/データガバナンスで、データをクレンジング・標準化し、信頼性とセキュリティを確保します。

• メタデータ管理:全社レベルの共通メタデータ基盤で、環境全体にわたるインテリジェントで自動化された、エンドツーエンドの可視性とリネージを実現します。

こうしたソリューションであれば、急速に変化し続けるクラウドプラットフォームへの投資を将来にわたって保証し、開発期間を短縮して、統合イニシアチブのリスクを軽減し、生産性を向上させることができます。

インフォマティカのクラウドレイクハウスデータ管理ソリューションについて、詳しくは、ソリューション概要「ベスト・オブ・ブリードのクラウドレイクハウスデータ管理が重要な理由~クラウドデータウェアハウスやデータレイクの真価を手に入れるために必要なソリューション」をご覧ください。


本ブログは2020/8/25 Why you need a Cloud Data Management Maturity Model の翻訳です。