Pourquoi le Data Catalog est en passe de connaître un succès identique au Catalogue IKEA ?

 

Savez-vous que le catalogue IKEA est plus distribué que la Bible ? Près de 250 millions d’exemplaires sont imprimés dans 35 langues et adressés dans plus de 50 pays ! À son échelle bien sûr, le Data Catalog est en passe de connaître un succès sans pareil. Les DSI, dans une problématique bien différente, doivent assurer la cohérence du Système d’Information. Encore faut-il avoir les idées claires quant au patrimoine informationnel. C’est le rôle du Data Catalog.

Maîtriser son patrimoine informationnel avec un Data Catalog

Considérée comme fastidieuse, et donc chronophage, la gestion d’un cadastre informatique (et notamment des données) est malheureusement trop souvent négligée. Pourtant, les solutions existent et les architectes d’entreprise peuvent s’appuyer sur des fonctionnalités essentielles de catalogage, de cartographie, de découverte et d’audit des données.

Pensez-vous que le géant suédois vendrait ses meubles sans catalogue ? Bien sûr que non.  Il en va de même pour l’architecture d’entreprise. L’urbanisation du SI n’est possible qu’après avoir inventorié le parc applicatif, identifié les dépendances, remonté à la surface les données enfouies et parfois non structurées (dark data, hidden data, etc.), et mesuré la qualité de celles-ci. Voici les quatre points clefs pour percevoir le SI dans son ensemble.

Cataloguer = recenser + indexer + rechercher

Trouver une information nécessite au préalable trois étapes : le recensement, l’indexation et la recherche. Imaginez-vous un pays sans recensement de population, une encyclopédie sans index ou une bibliothèque sans outil de recherche ? C’est impossible, la démographie serait inconnue, l’encyclopédie ne servirait à rien et la bibliothèque non plus.

Le patrimoine informationnel s’appuie sur la même logique et les architectes d’entreprise ne peuvent ignorer l’existence d’un fichier client stocké dans un data lake, une infrastructure Cloud ou On-Premise.

La constitution d’un data catalog est alors indispensable.

Data Catalogs Are the New Black in Data Management and Analytics

‒ Gartner, Décembre 2017

Concrètement, le catalogue de données collecte les métadonnées du SI, les indexe et les présente via un moteur de recherche multicritère et personnalisable. Une interface d’administration doit permettre de déclarer tous les systèmes en place : SGBD, fichiers, ERP, CRM, datawarehouse, data lake, etc. Des scanners se chargent d’extraire les métadonnées avec une fréquence de rafraîchissement paramétrable : hebdomadaire, mensuelle, trimestrielle, etc.

Cartographier : une photo du SI en mode paysage

Trouver ou retrouver l’information ne suffit pas, encore faut-il comprendre son origine : d’où vient-elle, comment est-elle calculée, a-t-elle été modifiée entre sa source et sa forme finale ?

Le data lineage est une fonctionnalité majeure de la gestion du patrimoine informationnel. Il relie les systèmes entre eux et en affiche une représentation graphique. Il répond d’ailleurs à deux problématiques :

  • Analyse d’impacts : quelles sont les dépendances en amont et en aval d’une application ou d’un échantillon de données.
    Cas d’usage : une montée de version de l’ERP est nécessaire, quelles seront les interfaces d’échanges à modifier, quel est le nombre de bases de données impliquées, combien de rapports et tableaux de bords seront affectés ?
  • Traçabilité : comment justifier un écart dans un indicateur décisionnel, comment assurer qu’une donnée client n’est pas altérée ?
    Cas d’usage : une contrainte réglementaire impose d’établir une liste des indicateurs financiers avec toutes les transformations opérées de bout-en-bout.

Illustration d'un Data Lineage

Découvrir : que faire en l’absence de métadonnées ?

De nombreux systèmes (applications, programmes spécifiques, interfaces, etc.) n’exposent pas leurs métadonnées. A contrario, celles qui sont exposées sont parfois illisibles. Exemple : un nom de colonne technique « GRKS1 ». Bien malin celui qui trouvera la signification ! Pourtant, les algorithmes le permettent :

  • Data Domain : règle réutilisable décrivant un modèle de donnée.
    Exemple : un numéro de téléphone répond à un certain format.
  • Data Similarity : chaque jeu de données possède sa propre signature. On peut parler d’empreinte : nombre d’attributs, nature des données, types, formats, descriptions, etc. Chaque empreinte est alors comparée avec le reste des objets présents dans le data catalog. Cette comparaison permet ainsi de rapprocher les données similaires dans un même catalogue. La solution devient force de proposition.

La conjonction de ces techniques se traduit par le moteur CLAIRE.

Auditer : un état des lieux sur la qualité de vos données

Les données sont-elles exploitables ? Pour répondre à cette question il faut pouvoir mesurer la qualité des données. De nombreuses statistiques permettent ce comprendre la répartition des valeurs : les plus représentées et l’inverse. Quel est le niveau de complétude et le pourcentage de valeurs distinctes ? Cet audit est très rapide à mettre en place, il ne fait que scanner les données : scan complet ou sur échantillon. La représentation graphique apporte une vision synthétique. C’est, en quelque sorte, un état des lieux du Système d’Information.

Vous l’avez compris, pour maîtriser son patrimoine informationnel, il faut mettre en place un catalogue de données. C’est notamment ce que propose Enterprise Data Catalog (Brochure EDC en PDF).

Commentaire