ユーザー主体のデータ加工と準備 – データ・プレパレーション –

インフォマティカのビッグデータソリューションを大きく分けると、下記の図の通り、3つに分ける事が出来ます。前回のブログでは②のデータ・カタログによるガバナンス強化についてご紹介しましたが、今回はその先にある「③ データ・プレパレーション 」をご紹介します。
データ・プレパレーションとは、データを活用する前(例えば、BIでデータ分析を行う前)に、ユーザー自身がデータの確認・抽出と簡単な加工を行える機能のことです。


ビッグデータ・ソリューション データ・プレパレーション

これまで、BIなどを使ってデータ分析をする際には、システム部門がデータを用意し、定義済みのデータマートへ定期的にデータを連携し、それらに対してユーザー部門がBIツールやアプリでアクセスするのが一般的でした。
この場合問題になるのは、新しいデータソースやデータの種類が増えた際に、システム部門によるデータ連携ロジックの変更やデータマート定義の変更を待たなければ分析できず、近年のセルフサービス型BIやビッグデータなど要件が変動しやすいアーキテクチャに追随するのが難しい点です。

それがデータ・プレパレーションを実装することで、これまで以上にユーザー部門が主体となってデータ活用を実施できるようになります。
下記の図がそのプロセスですが、赤枠がユーザー主体の新しいプロセス部分です。

 

では、具体的にプレパレーションでどのような事が出来るのか、実際の画面とともにご説明します。

  • プレパレーションの実行

データ・カタログの画面から作成した「プロジェクト」と言う作業単位毎に、プレパレーションの実行ができます。

 

  • プレパレーションの画面

Excelライクな画面で「シート」と呼ばれる単位でデータの確認および加工が実施できます。
例えば、各列を選択するとデータの頻度や分布などをグラフィカルにかつインタラクティブに確認することが出来ます。その結果を見ながら、その場でデータの修正や加工も可能です。

 

  • データ加工

データの加工を効率化するために、Excelライクな関数群を利用できます。
下記の図の場合、「都道府県(Address1)」と「市町村(Address2)」をCONCATENATEの文字列連結関数を使って連結し、「NewAddress」を生成しています。

 

  • Lookupによる外部データ参照

正規化されたテーブルやファイルは、参照したいデータが外部にありデータ分析には不適である場合があります。それをLookupを利用して参照したいデータを取り込む事が出来ます。
下記の例では、「custtype」カラムに顧客を分類したタイプ毎の数字が入力されています。このような場合、Lookupを使って他のシートから実際の顧客タイプ名「custtype_name」を取り込むことが出来ます。どのシートのどの列を参照して参照データを取ってくるのか、簡単に設定できます。

 

  • シート連結

マスターデータやトランザクションデータを突き合わせてデータ分析したいというニーズは多いかと思います。その場合は、「Merge」機能を使って、それぞれのシートを連結します。
下図の場合、「custono(顧客番号)」を連結キーにして、2つのシート(「m_customer」と「t_contents」)を連結する事が出来ます。
また右下には2つのシートの連結状況を確認でき、連結できなかった不適合なデータを確認することができます。

 

インフォマティカソリューションの特徴は、データ・ガバナンス(カタログ)とデータ・プレパレーションの両方を1つのパッケージにして実装しているところです。これは単純なプレパレーション機能だけでは、無秩序に新たなデータが発生してしまい、データの重複や誤利用、精度の低下を招いてしまう恐れがあるからです。
また自分が作成した加工のロジックを、ナレッジとして公開することができるため、ノウハウやデータ活用が共有化され、それ自体が新たな価値となります。

データ活用の高度化のために、データ・プレパレーションを活用してみてはいかがでしょうか?

コメント