医療機関のクラウドデータレイク構築までの4ステップ

「正しく実装されていないデータレイクは沼地化するリスクがある」という訓戒は、誰もが耳にしたことがあるでしょう。データレイクにあるのは、信頼できない膨大な量のデータだけで、データの価値や洞察は限られているかあるいは全くない、というのは神話でありません。

医療機関や医療プロバイダー、保険会社のほとんどは、前線で働く医療従事者のためにリアルタイムなセルフサービスの臨床体験や患者体験、業務インサイトを提供できるように取り組んできましたが、そのすべてが成功したわけではありません。私たちが大小さまざまな医療機関からよく聞くのは、ペタバイト規模のデータをかろうじてデータレイクに取り込むことはできても、信頼できる関連性の高いデータを見つけるのは困難で、理解しがたく、データリネージにも問題があり、実際にビジネスに適用するのに悪戦苦闘しているという話です。


データガバナンスでデータの沼地化を食い止める

データの沼地化を防ぐ治療法は、データレイクを統制するデータガバナンスです。医療業界でコンサルティングサービスを提供するインフォマティカのパートナーであるCTI社は、データからビジネスや臨床に関する洞察を反復的かつ継続的に導き出すことで、高度なアナリティクスを実現することに注力しています。信頼できるデータがアナリティクスの前提条件であることは周知の事実ですが、CTI社は、包括的な視点からデータレイクを統制する方法を開発し、医療機関の価値提供を支援しています。 


CTI社のアプローチの根幹となるのは、データが4つの異なる環境 (リージョン)を通過しながら、徐々に統制された信頼できるデータへと進化し、最終的にはデータとしての利用を「認定」されるようになるまでの過程です。リージョンという概念は以前からありますが、CTI社はさらに個々のリージョンとその目的を明確に定義し、最も重要な点として、次のリージョンへ進むために必要なデータのガバナンス基準とマイルストーンを明確に定義しています。

医療業界へのデータレイク導入、さらにデータレイクよりも新しい概念であるデータレイクハウス導入(クラウドデータレイクとクラウドデータウェアハウスの両方の利点を組み合わせた分析アプローチ)でキーとなるのは、いかに社内のユーザーに受け入れてもらえるかです。私たちが目指すのは、あらゆる利用目的の幅広いデータ消費者が、個人のデスクトップやサーバベースのツールを使うのではなく、データレイクを使うようになることです。データレイクを使えば、データ消費者は、最新のクラウドデータプラットフォームが提供するデータカタログやデータリネージ、データガバナンス、データ品質だけでなく、業界に特化したツールや機能のメリットを享受することができます。

アナリストやデータサイエンティストは、エンタープライズクラスのツールを利用する必要がありますが、彼らが扱うデータは、統制されない個人的なワークスペースから始まって、最終的にはキュレート、認証、統制されたデータになるまで管理が必要です。そうすることで初めて、データは組織にとって資産となり、患者にとって最高の健康をもたらし、ビジネスにとって最も望ましい成果を実現することができるのです。

統制されない個人用ワークスペースの意義

データレイクのプラットフォームを社内に適用する上で重要なのは、ほぼ統制されない個人用のワークスペースをユーザーに提供することです。抵抗なく使い始められる上に、エンタープライズクラスのツールを使うことに大きな価値があり、またデータを社内の他のユーザーと共有できるレベルにするまでは、データガバナンスに伴う「負担」を背負う必要がありません。この個人用ワークスペースは、データで何ができるのか、どのような情報や洞察が足りないのかをユーザーが理解するためのサンドボックス環境であり、データがまだ「使用目的に適していない」ことをユーザーが理解できるようになることが、データガバナンスの重要な側面です。

そして、統制されたデータレイクに向けて、データはリージョンを通過して進化していきます。

インフォマティカの電子ブック「データレイクを沼地化させない5つの攻略法」では、全社規模のガバナンスプログラムによって、データレイク内のすべてのデータをビジネスに役立つ信頼できるデータにする方法を説明していますので、ぜひご覧ください。

本記事は、「Build Your Healthcare Cloud Data Lake With a Data Governance Foundation」の抄訳です。