Comment maîtriser ses métadonnées de manière efficiente ?
La sémantique en entreprise est un sujet trop souvent sous-estimé dont les effets sont majeurs en termes de cohérence des trajectoires prises par l’organisation. Si nous abordons ses effets dans l’article Sémantique adorée – Part 1, nous souhaitons ici présenter une vision plus pragmatique de maîtrise de la sémantique d’entreprise.
En effet quand les pratiques de gouvernance des données commencent à innerver une organisation, un de ses premiers livrables est une capitalisation sémantique rassemblant de l’information métier, logique et technique sur les données. L’idée est ici de partager de quoi penser ces trois couches sémantique et en bonus d’aborder la question de la nécessité d’un outil dédié à cette capitalisation.
Trois niveaux de description des données de l’organisation
Sémantique métier
Son objectif est d’écrire un langage commun pour l’entreprise, en définissant les termes métier, indicateurs (KVIs, KPIs, métriques…), nomenclatures, valeurs de nomenclatures, ou encore les vues sur les données.
Si des ateliers de collecte, de spécification de reporting, d’alignement à un vocabulaire normé (etc.) permettent d’élaborer ce langage commun, la définition des termes métier ne s’improvise pas. Elle respecte des règles comme la non circularité (voir norme ISO sur les métadonnées: https://www.iso.org/fr/standard/35346.html) et satisfait aux exigences de ses usages (ex : être compréhensible aisément). Les data stewards & SMEs (experts métier) y veillent.
Le glossaire ainsi élaboré n’est pas une fin en soi : il doit être partagé et disponible partout dans l’entreprise, c’est une des clés de l’acculturation à la data. Grâce à cela, quand un métier confronte sa compréhension à un glossaire d’entreprise établi, il peut entrer en discussion avec ses propres connaissances, avec ses pairs ou avec le data owner du domaine data concerné.
Sémantique logique
Son objectif est de concilier les vues métier et technique des concepts utilisés par l’organisation en une vue non ambigüe et compréhensible et par tous.
Il s’agit de modèles de données, de schémas de composition, etc. qui sont par définition exempts d’ambiguïté : ils peuvent être compris par les métiers comme par les acteurs DSI. Ils sont exprimés de façon à pouvoir être automatisés. Les différents items de la modélisation logique doivent être liés à la sémantique métier et toute implémentation doit s’y référer.
La modélisation se construit à l’occasion de phases de spécification ou éventuellement dans des temps dédiés de modélisation avec les architectes d’entreprise par exemple.
Les métiers qui s’intéressent à leurs données doivent être formés aux concepts de modélisation – c’est court et extrêmement utile. Le rôle de “data modeler”, avec la contribution des acteurs métier (data steward, SMEs) réalisera les modélisations (en suivant des standard comme ceux de la modélisation entités-relations ou d’UML, ici : https://www.omg.org/spec/UML), ce qui exige des compétences spécifiques. Les architectes d’entreprises peuvent se spécialiser dans ce rôle fondamental de la gouvernance des données.
Sémantique technique
Son objectif est de connaître l’implémentation réelle des données dans le système d’information afin de pouvoir en comprendre le lignage, de réaliser des analyses d’impact et de permettre l’élaboration d’une stratégie IT data-centrée.
Il s’agit de la description des bases de données, tables, colonnes, APIs, traitements inter-applicatifs, etc. dont la majeure partie doit être automatisée afin d’en garantir la fraîcheur. Les éléments sémantiques de la couche physique sont le reflet de la réalité technique. Leur capitalisation se réalise donc a posteriori. Il sont reliés aux métadonnées métier et logique diminuant du même coup les barrières de compréhension entre métier et IT.
Compte-tenu des volumes, les métadonnées techniques sont avant tout remontées par automatisation. En revanche, la documentation des relations entre les métadonnées de la couche technique et celles des autres couches logique et métier est réalisée manuellement avec les sachants du domaine des données concernées (data steward, data custodian, architecte).
La profondeur de la couche sémantique technique est fonction des ambitions de l’organisation en termes de maîtrise de son SI. L’objectif n’est pas ici de cartographier le SI mais uniquement de connaître la localisation et les traitements appliqués aux données. Par exemple, la capitalisation relatives aux APIs est une question ouverte : le Payload des APIs (stateless par définition) n’induit pas un stockage des données mais se documente utilement afin de maîtriser les données mises à disposition des consommateurs de ces APIs.
Les outils de capitalisation sémantique
Les outils de capitalisation sémantique, désignés également metadata repository par le DAMA, ont le vent en poupe. En un mot, il s’agit de bibliothèques où vous pourrez stocker et consulter toutes les informations réunies sur les 3 couches sémantiques sus-décrites.
On trouve sur le marché et de manière non exhaustive des outils pertinents sur le sujet comme Collibra, DataGalaxy, Informatica, Zeenea, ou encore Alation. Ces outils ont une approche, une couverture fonctionnelle ainsi qu’un mode de licencing différent les uns des autres.
Ces outils demandant dans tous les cas un investissement financier et humain significatif, il faut se demander s’ils sont indispensables ou si on peut s’en passer.
Après 15 ans d’expérience sur le sujet (ce qui remonte à avant l’apparition de ces outils), nous vous conseillons d’investir dans l’un de ces outils car les solutions homemade sont très loin de pouvoir permettre le partage des connaissances réunies et l’automatisation de la collecte attendue (pour réduire l’effort de complétion à un niveau acceptable pour l’organisation). Ces outils sont clé pour la réussite des initiatives de gouvernance des données et il faut ainsi choisir celui qui correspond le mieux à la maturité et aux besoins de l’entreprise.
N’oublions pas cependant qu’ils ne produiront rien sans une vraie transformation des pratiques de gouvernance des données et qu’il est vain de blâmer un outil quand il n’est pas au service d’un objectif compris par l’organisation. Les compétences qui accompagneront ces initiatives sont le premier levier de leur réussite.
Acteurs opérationnels de la transformation data-driven des organisations, les équipes AEKIDEN vous suggèrent également de consulter le témoignage client de AAADATA qui illustre notre expertise et la simplicité de nos mises en œuvre.