データカタログのユーザー使用率を高めるための7ステップ
データカタログの重要性
デジタルトランスフォーメーションの基盤となるもの、それは「データ」です。しかし、ほとんどの企業では、異なる複数の部門や、オンプレミスやクラウドにある多様なアプリケーションやデータウェアハウス、データレイクにデータが分散しており、信頼できるデータがどこにあるのか分からなくなっています。これにより、社内外の関係者のコラボレーションを阻んでいます。こうした問題を解決して、デジタルトランスフォーメーションを効果的に進めるためには、データカタログ機能を利用して、すべてのデータ資産の目録を作成し、信頼できるデータへのアクセスを組織全体に提供することが重要です。

AI/機械学習を搭載したインテリジェントなデータカタログは、オンプレミスあるいはクラウドに関わらず、組織が所有するあらゆるデータ資産を自動探索し、メタデータを使うことで、データを自動的にカタログ化してくれます。しかし、技術的なメタデータがあるだけでは、データのビジネス価値を十分に高めることはできません。カタログ化されたデータに、より多くの業務ユーザーがビジネスコンテキスト(業務上の意味)を追加して、欲しいデータをセルフサービスで検索して利用できるようにならなければ、データカタログの導入効果は半減してしまいます。
つまり、いかに業務との関連性の高い信頼できるデータを、業務用語をキーワードにしてすばやく見つけられるかが重要であり、いかに多くの業務ユーザーが利用して、データの使い勝手や業務との関連性をユーザー目線で評価(レビュー)し、こうしたフィードバックをもとに改善できるかという「業務ユーザーの関わり度合い」によって、データカタログの価値は大きく変わってきます。
本記事では、データカタログのメリットを最大限に引き出すために、データカタログのユーザー使用率を高める方法を、7つのステップでご紹介します。
【ステップ1】導入の目的、使用事例、メリットを明確に伝える
すべてのデータ資産をカタログ化するということは、組織全体にわたって非常に多くのユーザーを巻き込むことになります。何のためにデータカタログを導入するのか、どのような業務に使えて、どんな課題を解決してくれるのかを、すべての関係者に明確に伝えて、納得してもらうことが最初のステップです。
例えば、多くのユーザーが次のような課題を抱えています。
- データがサイロ化しているため、データの分析よりも、適切なデータの検索に時間がかかっている
- どのデータを信頼すべきか分からない
- データの定義について共通の認識がなく、同じ指標でもレポートによって数値が異なる
- 下流のシステムに対するデータ変更の影響を把握できない
- データソースに対する責任の所在が曖昧
データカタログを導入することで、これらの課題をどのように解決できるのかを明確にして、ユーザーの同意を得ることが重要です。
【ステップ2】短期間で成果の出るパイロットプロジェクトを選ぶ
ステップ2として、成功率の高いパイロットプロジェクトになるような、小規模でシンプルな使用事例を選びます。
下記のような点を目安にして、プロジェクトの複雑性を評価します。
- 対象となるユーザー数とそのスキルレベル
- データリネージを把握するために必要なデータセットの数
- 対象となるデータドメイン数
- 業務上の用語を定義する必要のある数
- 機密性の高いデータが含まれている可能性
例えば、データの利用者(業務アナリスト、データアナリスト、データサイエンティストなど)がセルフサービスでデータを評価して活用できるようになること、あるいはデータの変換や変更履歴を可視化して追跡できるようになるといった使用事例は、優先順位の高いプロジェクトになります。
次に、ステップ1で挙げた課題に対して、パイロットプロジェクトが達成すべき成果を定義します。例えば、次のような成功基準です。
- 必要なデータを見つけるまでの時間が短縮できたか?
- セルフサービスのデータ利用者が増えたか?
- データの変更や移行の影響分析ができるようになったか?
- データリネージを追跡できるようになったか?
- データソースの責任者が明確になったか?
【ステップ3】データの取り込みを開始し、メタデータをエンリッチ化する
ステップ3では、パイロットプロジェクトに使用するデータソースを決定します。データベース、ファイルシステム、データウェアハウス、データレイク、BIレポートなどから、対象となる3~4つのデータソースを選びます。例えば、パイロットプロジェクトを実施する使用事例の業務において重要なレポートが、どのデータソースを使っているのかを辿れば、データソースの重要度を判断して、データソースを絞ることができます。

データセットを特定できれば、いよいよデータカタログ機能を使って、データソースのスキャンと新規データの取り込みを自動実行します。この作業は、ソースシステムの変更頻度に応じて繰り返されるようにスケジュールを設定します。
その後、メタデータをエンリッチ化する(コンテキスト情報を追加する)作業に入ります。メタデータのエンリッチ化とは、業務内容に応じた記述やカスタムのタグ、注釈をつけることで、技術メタデータにビジネスコンテキストを追加するプロセスです。例えば、業務上の名称、データを所有する部門や責任者、データを利用する業務プロセスやシステム、データの有効性、機密分類、ライフサイクル、配置ゾーンなどの属性を付与します。この作業は、カタログ導入後に、業務ユーザーが必要とする関連性の高いデータ資産を、キーワード検索で簡単に検索、探索して、内容を理解し、セルフサービスで利用できるようにする上で極めて重要です。
【ステップ4】データの機密性に応じたアクセス権限を割り当てる
データのセルフサービス利用を促進して、ユーザー適用率を高めるためには、機密性の高いデータを保護して、個人情報の取り扱いなどの規制違反リスクを回避することが重要です。使用事例で想定されるユーザーおよびユーザーグループを作成し、データの特性に応じたアクセス権限を割り当てます。 例えば、人事情報の入ったデータベースには、人事ユーザーグループだけがアクセスできるように設定するなどです。
【ステップ5】ユーザーをトレーニングする
データカタログのメリットとその使用方法を理解してもらうためのユーザートレーニングを実施します。
- データカタログの社内専門家となるようなサポート担当者を決めて、まず彼らに徹底的なトレーニングを実施します。次に、業務部門の専門家と協力しながら、エンドユーザー向けの実践的なトレーニングコンテンツを準備します。データカタログでの一般的なタスクの実行方法を説明した3~4分間の短い動画を作成するのも効果的です。
- グループトレーニングセッションの実施後、数週間が経過してユーザーがデータカタログに慣れてきた頃に、1対1で相談に応じる時間を設けて、ユーザーが実際に直面している問題をヒアリングし、判明した問題に対処します。
【ステップ6】使用状況の追跡とフィードバックの収集
ユーザーのログイン状況やデータセットの検索状況からユーザーの使用率を把握し、データセットに対する評価、短縮できた時間、キュレーションの履歴、新規に作成されたデータセットなどの指標を使って、データカタログの使用状況をモニタリングし、業務への影響を評価します。ほとんどの企業にとって、インテリジェントデータカタログを導入する主な目的は、データサイロの解消です。フィードバックを収集して、業務担当者間のコラボレーションを促進することにより、業務担当者の知識を全社で共有できるように促します。
【ステップ7】改良、拡張する
パイロットプロジェクトを通じて判明したことや得られた利点を分析します。そして、データカタログを拡張することでメリットを得られる新たなユーザー層や新たな使用事例を検討します。業務担当者の積極的な関与を促しながら、ビジネスの優先度にしたがって データカタログの使用範囲を広げていきます。
まとめ
インテリジェントなデータカタログを使って、データ資産の目録を作成して重要なビジネスコンテキストを付加し、ユーザーが関連性の高いデータをすばやく簡単に見つけられるようになれば、データカタログの使用率が上がって、データの価値がさらに高まるという好循環を生み出すことができます。
本記事は、電子ブック「インテリジェントな データカタログ導入の7つのベストプラクティス」の要約です。各ステップで使えるチェックシートや詳しい内容については、電子ブックをダウンロードください。
コメント