Edouard Guerin

Edouard Guerin
Edouard Guérin a rejoint Informatica en 2011 en tant que Consultant Avant-Vente sur les solutions d'intégration de données et B2B. Auparavant consultant avant-vente chez Talend, il a acquis une expérience significative dans les domaines de l'intégration de données, du MDM et de la qualité de données. D'un profil technique, il a occupé préalablement les postes de Consultant Décisionnel en SSII open source (Java), Ingénieur Études et Développement dans l'intégration de CSM open source ainsi que Concepteur Développeur d'applications Web sur les technologies PHP et XML.

De la Data Integration au DIH !

 « Tout vient à point à qui peut attendre » est une phrase populaire, héritée de l’œuvre de François Rabelais, signifiant littéralement qu’il suffit d’être patient pour atteindre son objectif. Et s’il fallait plutôt comprendre : c’est en attendant qu’on en arrive au « point-à-point » ? Les plus vigilants d’entre vous hurleront à l’anachronisme, à la supercherie odieuse et peut être même à l’imposture littéraire et technologique. Ils n’auront pas complètement tort, sans avoir vraiment raison non plus. Non, c’est vrai, la Renaissance n’a pas connue l’informatique et le décisionnel, au sommet de la monarchie, devait plus s’apparenter à la remontée de données de terrain façon artisanale (coups d’épée et incendies de villages) qu’aux tableaux de bord pacifiques et temps-réels. Mais passons, revenons-en à notre époque, celle de l’intégration de données moderne et informatisée.

A l’ère du Cloud, du Big Data, des échanges inter-applicatifs, et de la BI en général, nous sommes très loin des besoins de François 1er en terme de restitution et d’analyse financière. Les données ont considérablement augmenté et les processus d’intégration aussi. A titre d’exemple, de 2005 à 2010, les données digitales ont grimpé de 130 exaoctets à 1 227 exaoctets ; étrangement, nous n’avons aucune métrique sur la période capétienne (sic). Aussi, les interfaces se sont déraisonnablement multipliées suite à différents rachats, acquisitions, abandons d’applications ou ajout de nouvelles solutions dans l’entreprise. Les entrepôts de données restent les mêmes mais les applications sources évoluent rapidement. D’un point de vue opérationnel, les échanges inter-applicatifs nécessitent souvent d’extraire l’information à des fréquences variables et impliquent, de fait, de multiples mouvements de données.

Ainsi, et en jouant (un peu) sur les bons mots de Rabelais, on peut oser dire que plus le temps passe et plus les interfaces d’intégration de données s’accumulent, s’entremêlent, se complexifient et finissent fatalement par étouffer la plate-forme d’intégration. Autrement dit, le « point-à-point » est inévitable avec le temps, dès lors que la plate-forme d’intégration repose uniquement sur un « ETL ».

Fort heureusement, de nombreuses entreprises ont déjà réagi en introduisant la notion de SOA, évitant théoriquement le syndrome du « plat de spaghetti » tant craint des architectes. L’ESB devait  fluidifier les échanges mais on parlait finalement de messages en oubliant la notion de données. A ce titre, c’est un vrai succès. Sauf que, l’infrastructure orientée service repose généralement sur des Web Services, et qui dit Web Services dit « HTTP », et qui dit « HTTP » dit fortes fréquences mais faibles volumes (traitements par messages, donc non massifs, non transactionnels). Là où l’ESB simplifie le routage de l’information en temps réel, sa limite survient lorsque les échanges massifs nécessitent des transformations complexes, doivent être en mode delta voire appliquer des étapes de qualité de données : standardisation, complétude, etc.

Alors que choisir ? Sans vision d’industrialisation, le moteur ETL accumule les interfaces point-à-point tandis ce que l’ESB tend à optimiser la circulation de l’information sans se préoccuper des mouvements de données redondants ni des performances pour les chargements « bulk ». L’idée d’établir un nœud central d’intégration de données se fait alors plus que sentir, il s’agit d’un « Data Integration Hub » !

Concrètement, le Data Integration Hub (DIH) est une plate-forme d’intégration de données reposant sur les socles suivants :

  • Un moteur d’intégration de données (ETL)
  • Une couche de persistance, assurant la bonne délivrance de l’information (reprocess possible + gestion du delta) tout en évitant les extractions multiples pour un même besoin : moins de mouvements de données, livraisons de données plus courtes, réduction de la consommation réseau, moins d’interactions avec les systèmes sources, etc.
  • Un système d’abonnement (publish / subscribe) voué à industrialiser les échanges applicatifs (A2A). Une interface fournit N consommateurs à des latences différentes. Chaque consommateur peut personnaliser son interface via des paramètres d’entrée : filtres, dates, service, pays, etc.
  • Une interface de supervision générale permettant de voir les événements de chaque publication et de chaque souscription : intégration étape par étape, logs techniques et fonctionnels et nombre de lignes traitées
  • Une supervision des SLA + BAM : respect des délais de livraison suivant les contraintes métier (KPI personnalisables), temps moyen de chargement, application la plus consommatrice, application source la plus sollicitée, etc.

Vous l’aurez compris, le DIH est une réponse  aux limites des interfaces point-à-point et du manque de gouvernance qui en découle. S’agissant des ETL et des ESB, le DIH est désormais une technologie permettant de prendre le meilleur de ces deux solutions : le traitement de masse pour le premier et le système d’abonnement / souscription pour le second. Cela ne veut donc pas dire qu’il faut revoir le Système d’Informations, le DIH n’est pas un ETL killer ni un ESB killer, il s’agit bien d’une brique hybride, tout-terrain, très flexible mais surtout très industrielle…

Pour conclure sur un clin d’œil Rabelaisien : un DIH, Chinon rien !

Pour en savoir plus, rendez-vous lors d’Informatica Day Paris le 10 octobre à 11h15 http://bit.ly/1b5HZVV

Et téléchargez la brochure sur le site 

 

Share
Posted in Intégration des Données | Tagged , , | Leave a comment

Les données non structurées au cœur de l’information stratégique

Selon les analystes, et maintes études publiées depuis une quinzaine d’années, la part des données non structurées dans le Système d’Information oscille entre 80 et 85%. Paradoxalement, seulement 6% d’entre-elles sont utilisées à des fins décisionnelles (source : De l’information à la prise de décision, MARKESS International – juin 2012). Doit-on en conclure que la majorité de ces données n’a aucune valeur stratégique ? Pas si sûr.

De manière générale, les données non structurées se caractérisent par leur aspect complexe, tant en termes de protocole d’acquisition que d’extraction. On y retrouve en grande partie les tableurs, comportant plusieurs onglets, graphiques ou règles de calculs. Les échanges emails représentent également une masse d’informations conséquente. Les fournisseurs poussent les prix directement dans le courrier ; la marge commerciale est dans le titre ; la liste des participants à l’évènement marketing est dans la pièce-jointe en PDF ; les ordres de fabrication en fichiers plats attachés, etc.

Les informations en ligne constituent aussi un défi important, celui de capter les messages en temps réel et dans un format totalement aléatoire. Il en va du Tweet à la page HTML plus traditionnelle. Le Web invisible (ensemble de pages non indexées par les moteurs de recherche) constitue aussi une manne informationnelle à forte valeur ajoutée. Les brevets, les spécifications de standards industriels, les thèses, les conclusions d’études scientifiques, les agendas partagés, les postes à pourvoir chez les concurrents (RH), les inscrits aux salons, etc. forment autant de données stratégiques à croiser et à ingérer que de formats hétérogènes et complexes (PDF, Word, XML industriels, formats propriétaires…). Au-delà de l’aspect « conversion » pure, les protocoles d’accès peuvent également être multiples et spécifiques. La donnée peut ainsi être cryptée, compressée ou même signée durant l’échange.  

Face à cet accroissement de données non structurées internes, externes, opérationnelles ou non, les entreprises peinent à définir un ordre de marche pour les extraire et les convertir. Malheureusement, et dans de nombreux cas,  l’information est purement et simplement ignorée, éludée par le manque de temps ou la méconnaissance des équipes techniques. L’alternative immédiate à cette non-intégration est le recours aux développements spécifiques. Les programmes Java, PHP, Perl… foisonnent et la maintenance en devient coûteuse, chronophage et inabordable. Accéder à un fichier Word compressé via un FTP sécurisé est, par exemple, un cauchemar à développer : et si le fichier change de format ? Il peut suffire d’un paragraphe en plus pour que toute l’intégration s’arrête !

Il existe pourtant une démarche outillée ou pour chaque étape d’intégration, un moteur dédié opère :

  • Le MFT (Managed File Transfer) a pour mission d’acheminer les données (mode fichier) suivant de multiples protocoles : HTTP, SMTP, FTP, FTPS, SSH… ; gérer la sécurité de cet échange : par reprise, analyse d’intégrité, encryption (PGP, AES, RC/2, RC/4) et compression.
  • L’ETL (Extract Transform Load) peut se connecter aux médias sociaux, aux fichiers structurés, aux applications métiers (ERP, CRM, spécifiques), aux fichiers XML, aux Web Services, ainsi qu’aux bases de données tant en sources qu’en cibles. Les transformations entre la source et la cible se font graphiquement, sans code et par paramétrages, en mode batch ou temps réel.
  • Le « Data Converter » ou « Data Transformer » convertit les formats complexes (non structurés) vers un format universel. Il s’agit généralement d’une approche graphique, « any to any » ou toute donnée texte est convertie vers une structure canonique. Chaque zone de texte manquante ou mouvante (un page Web peut, par exemple, changer de format) est identifiée et tracée dans un fichier de log ou d’erreur.

Cette approche modulaire apporte de toute évidence plus de flexibilité qu’une solution dite « à tout faire ». Informatica B2B Data Exchange répond ainsi à ces enjeux en associant ces différentes technologies au sein d’une plateforme centralisée et consultable en temps réel. Le suivi des échanges et conversions de données deviennent alors mesurables et industrialisables.

Ainsi, n’ayez plus peur, les données non structurées sont intégrables et bien exploitables ! Du décisionnel aux échanges partenaires, la non-intégration de l’information est un véritable gaspillage, si ce n’est un risque pour l’entreprise.

Share
Posted in Autres | Tagged , , | Leave a comment