非構造化データからの自動抽出機能

非構造化データとは

企業には売上管理や受発注処理、顧客情報など様々な情報が存在しています。これらの情報のうち、リレーショナルデータベースに格納されている情報(構造化データ)を利用して、様々な分析をされている方も多いと思います。また、昨今 IT の進化にともない、リレーショナルデータベースで管理できないような情報(非構造化データ)も増加しています。ビッグデータと称されるストリーミングデータ、XML/JSON データ、ログデータなども、この非構造化データにあたります。しかし、非構造化データはこのビッグデータだけではありません。企業にはもっとよく利用される非構造化データがあります。例えば、取引先とやり取りする受発注情報や、日々上長に報告する営業成績。それは多くの場合、Microsoft Excel などを利用したファイルです。

例えば、取引先から発注情報を Excel ファイルで受け取り、受注処理を進めるためにはその内容を社内のシステムに入力しなければいけないとします。この入力作業が人手で行われる場合、以下のような課題があげられます。

  • リアルタイム性の欠如

入力待ちの取引情報を他の人がシステムで確認できず、正確な在庫情報が把握できないためにビジネス機会を逃す可能性があります。

  • データ品質の低下

人的作業によるミスの可能性はゼロにはなりません。

  • 人的コスト

人的作業のため、人的コストが発生します。またビジネスの拡大に伴って受発注処理が増えると入力作業員の増強が必要になります。

データの質を維持するためにチェック体制を強化するなど考えられますが、人的作業のみでこれらの課題を全て解消することは困難です。そこで、一つの解決策としてあげられるのが、この人的作業の自動化です。

 

非構造化データ自動抽出機能

弊社製品では、こういった非構造化データを自動的に抽出できるデータトランスフォーメーションという機能が有効です。データトランスフォーメーションは、企業で多く利用されているMicrosoft Office や PDF ドキュメントなどのファイルからデータの自動抽出処理が可能です。もちろん、XML/JSON データ、メッセージング形式、HTML ページなどのビッグデータにも対応しています。また、個別業務に特化した、ACORD、HIPAA、HL7、EDI-X12、EDIFACT、AFP、SWIFT などの形式も変換可能です。

3

 

企業に存在する様々な情報のうち、大半がこれらの非構造化データだと言えます。この非構造化データの処理を自動化すれば、業務を効率化するだけでなくその膨大な情報が活用しやすい形になります。これまで分析してきた構造化データに、これらの膨大な非構造化データの情報を加えることで、ビジネスの拡大のための様々な角度での情報分析を実現していきませんか。