データプレパレーションを自ら行い、データサイエンスを習得する

データプレパレーションは、現代のAIや機械学習に欠かせない存在です。大まかに言えば、データプレパレーションとは分析前のデータをクレンジングして変換することを指します。これがいかに重要であるか理解を深めるために、ボードゲームを例に挙げてご説明しましょう。

アジア発祥の囲碁は、石を用いて対戦相手との領域の広さを争うゲームです。単純なルールですが、とても奥が深いゲームであることから機械が人間を倒すことは不可能だと考えられていました。しかし、DeepMind Technologies社の開発したAlphaGoと呼ばれるプログラムがプロの囲碁棋士を破り、その常識は覆されることになります。

AlphaGoはアルゴリズムを使用し、機械学習によって事前に「学んだ」知識に基づいて動作します。具体的には、人間とコンピュータ両方から得た人工ニューラルネットワーク(ディープラーニング)によって動きます。しかし、AlphaGoが人間に勝つことができた最たる理由は、研究者が機械学習モデルを構築する過程で適切かつ正確なデータセットを使用したためです。AlphaGoや囲碁と同じように、企業がAIやML、データサイエンスイニシアチブを推進するためには、適切なデータが必要です。

データサイエンスの推進における最大の課題は、データプレパレーションです

451 Researchが実施した、AIやMLに直接携わる人への調査によると、回答者の33%が機械学習を使用する際の障壁としてデータへのアクセスやデータ準備を挙げています。

調査の結果、データサイエンスプロジェクトの推進における最大の問題点は、データのクリーニングと準備に全体の80%もの時間を費やし、分析には20%ほどの時間しか割くことができていないことだと判明しました。実際に、データサイエンティストたちのなかでは「データのクレンジングに80%の時間を使い、残りの20%はその作業に対しての不満を言うことに費やす」というジョークがあるほどなのです。

多くの組織が、データベース、スプレッドシート、ログ、IoTセンサー、マシンデータ、ビジネスアプリケーションなど複数のソースからなるデータにアクセスした後、そのデータを分析で使えるようにするに苦戦しています。従来のETLプロセスでは、データをデータウェアハウス、データベース、データレイクに移行するのに膨大な時間がかかるため、レポートやモデリングの準備に進むことができません。分析用のデータを整える作業が滞ると、データアナリスト、データエンジニア、データサイエンティストなどDataOpsチーム全体に影響を与えます。

例えばA地点からB地点へとデータを移行しようとすると、DataOpsチームは必ずボトルネックの影響を受けます。レポートを作成し、分析用にデータを処理する作業に数か月かかる場合もあります。一方、その間にも状況は変化するため、企業には迅速な判断が求められます。

最新のEnterprise Data PreparationでAI、MLプロジェクトの時間を短縮

では、データプレパレーションとはいったい何なのでしょうか?データプレパレーションを行うと、データの一貫性と高品質を確保することができます。データの合理化と検証によってフォーマットの一貫性を確認することができ、データがソースから削除されても問題なく作業できるように処理します。またフォーマットの変更、重複排除などを行い、データの処理や分析をより簡単に行うことが可能になります。

多くのデータサイエンスプロジェクトでは、まずデータにアクセスし、そのデータをビジネスニーズに応じたフォーマットにする作業を行います。従来のやり方であれば、分からない事柄が浮上した場合、データへのアクセス権やデータセットに関するノウハウを持っている開発者、IT専門家、技術者に尋ねていました。しかしこれでは効率が悪く、ITチームとデータサイエンスチームの間に対立が起こる場合もあります。

インフォマティカができること

インフォマティカの提供するEnterprise Data Catalog(EDC)は、適切なデータを見つけ、Enterprise Data Preparation(EDP)によってそのデータのプロビジョニングを行います。これにより、データサイエンティストとデータエンジニアは高度な分析やAI、MLのためのデータ準備に力を割けるため、先述した80:20の比率を逆転させることが可能になります。

インフォマティカは、個々の独立型ではなくエンドツーエンドのデータプレパレーションのアプローチを提供します。データレイクをはじめとする企業内のデータすべてをカタログ化し、Data Engineering Integration(DEI)によるデータの運用、データ品質ルールの適用、プライバシーの保護を行います。これらすべての作業を、業界初のメタデータ主導AIであるインフォマティカ製®CLAIRE®エンジンによって処理することができます。

EDPでは、Googleのようなセマンティック検索を用いて企業のデータを迅速に発見することができます。また、認定データセットや、データドメイン、ユーザー、使用状況などに関する主要な情報をはじめ、関連データの管理が可能です。ユーザーはデータソースを視覚化してデータセットの追跡を行うことができ、エンドツーエンドのデータリネージと影響分析機能により、データ主導のビジネスへ効果的に移行することができるようになります。

そして、CLAIREエンジンと高度な機械学習アルゴリズムを活用し、データ検索、データセットの関連性の予測、パターン認識、代替データセットの推奨、レシピ推奨など、データ準備に必要なタスクを自動化します 。


本ブログは4月22日の Preetam Kumar によるMaster the Art of Data Science With Self-Service Data Preparationの翻訳です。