Par Thibaut De Vylder

Le data-vault est une réponse pratique aux limites de deux autres approches importantes dans le monde du datawarehouse.

La première approche est le ‘Entreprise Data Warehouse’ proposé par Bill Inmon, qui croit en la centralisation des données.

La seconde approche est le modèle dimensionnel de Joseph Kendall qui propose de garder les données sourcées telles quelles et de les assembler à l’envi pour adresser toute nouvelle demande.

Si on résume les deux approches qui ont donné naissance au data-vaulting dans un tableau incomplet mais synoptique:

Enterprise Data Warehouse de Bill Inmon

Modèle dimensionnel de Joseph Kendall

Les données sont centralisées Les données sourcées ne sont pas centralisées. Certaines sont assemblées par rapport à un besoin précis, via un ETL*
Il y a un double effort, de centralisation d’abord et de restitution ensuite, qui doit être fait par la même équipe L’effort marginal, lors de l’ajout de sources, est de plus en plus important car les nouveaux assemblages / ETLs doivent rester cohérents avec les précédents pour ne pas créer une double réalité
Le risque est important que les nouveaux besoins (ajout de source, nouveaux rapports) aient un impact sur l’existant Il y a un réel risque d’incohérence lors d’activités de maintenance (d’une règle commune à tous les ETLs par exemple)
Le délai de livraison est long: toutes les données doivent être sourcées avant de produire le moindre output

Not Fast, and complex to go far

Le délai est court pour le premier besoin mais de plus en plus long pour les suivants …

Fast but not far

La centralisation évite la redondance mais devient vite compliquée La distribution donne l’illusion de la rapidité mais devient vite complexe à opérer et à maintenir

*ETL: Extract Transform and Load = outil/procédure de copie de données d’un système source vers un système de destination

Le data-vaulting intègre les aspects positifs des deux approches: voir Blog#2 – Avantages du data-vaulting. Il génère une lourdeur apparente par l’ajout de tables nécessaire au respect de quelques règles simples:

  • La structure des données est définie par des clefs business au travers de Hubs et de Lien entre ces hubs
  • Tous les détails sont stockés dans des Satellites

Cet ajout de table, qui permet par ailleurs de créer un modèle très lisible pour les utilisateurs business, est un inconvénient plus qu’acceptable au vu des avantages offerts par l’approche du data-vaulting.

Rencontre avec Bill Inmon

Le 21 mai 2014, j’ai eu la chance de me rendre à une présentation de “Emergo”, qui était un des premiers à proposer des solutions basées sur le data-vaulting 1.0. J’y suis principalement allé pour deux raisons: nous appliquions la méthodologie du data-vault 1.0 depuis presque 2 ans et on annonçait un participant de choix: Bill Inmon.

Je lui ai posé la question suivante: que faites-vous dans ce type d’événement alors que le data-vaulting pointe les défauts de votre modèle de ’Entreprise Data Warehouse’ (EDW)? Il me répondit par une petite histoire: dans les années 90, il a réussi à modéliser la plus grosse société du monde, Wallmart, dans un EDW, prévoyant que dès lors toutes les autres organisations allaient être plus simples. “But I reached the end of the ocean.”

Il me dit aussi qu’à l’époque deux choses n’existaient pas: Internet et les données qu’il génère. Nous étions dans un monde de ‘small data’. Il me dit encore ne pas être responsable du fait que son approche restait la plus étudiée dans le monde et ses livres les plus vendus…

the father of data warehouse 540x405 - Origine et utilité du 'data-vaulting'

Rencontre de Bill Inmon, ‘the father of data warehouse’
et Thibaut De Vylder le 21 mai 2014 à l’événement Emergo

Pin It