Door Thibaut De Vylder

Data-vaulting is een praktisch antwoord op de beperkingen van twee andere belangrijke benaderingen in de datawarehousewereld.

De eerste benadering is het Enterprise Data Warehouse, voorgesteld door Bill Inmon, die gelooft in het centraliseren van gegevens.

De tweede benadering is het dimensionale model van Joseph Kendall, dat voorstelt de brongegevens te behouden zoals zij zijn en ze naar behoefte samen te voegen om aan elke nieuwe vraag te voldoen.

Wanneer we de twee benaderingen waaruit data-vaulting is ontstaan, samenvatten in een onvolledige maar synoptische tabel:

Enterprise Data Warehouse van Bill Inmon

Het dimensionale model van Joseph Kendall

De gegevens zijn gecentraliseerd De brongegevens zijn niet gecentraliseerd. Sommige worden samengevoegd op basis van een specifieke behoefte, via een ETL*.
Er is een tweeledige inspanning, enerzijds centralisatie en anderzijds restitutie, die door hetzelfde team moet worden verricht De marginale inspanning, bij het toevoegen van bronnen, wordt steeds belangrijker omdat de nieuwe samenvoegingen / ETL’s consistent moeten blijven met de vorige om geen dubbele realiteit te creëren
Er is een aanzienlijk risico dat nieuwe vereisten (toevoegen van bronnen, nieuwe verslagen) gevolgen zullen hebben voor de bestaande Er is een reëel risico op inconsistentie tijdens onderhoudsactiviteiten (van een regel die gemeenschappelijk is voor alle ETL’s bijvoorbeeld)
De leveringstermijn is lang: alle gegevens moeten worden opgevraagd voordat enige output kan worden geproduceerd

Not Fast, and complex to go far

De termijn is kort voor de eerste behoefte, maar steeds langer voor de volgende…

Fast but not far

→ Centralisatie vermijdt redundantie maar wordt snel ingewikkeld → De distributie geeft de illusie van snelheid, maar wordt snel complex in bediening en onderhoud

*ETL: Extract Transform and Load = tool/procedure voor het kopiëren van gegevens van een bronsysteem naar een doelsysteem

Data-vaulting integreert de positieve aspecten van beide benaderingen: zie Blog#2 – Voordelen van data-vaulting. Het genereert een schijnbare logheid door de toevoeging van tabellen die nodig zijn om enkele eenvoudige regels na te leven:

  • De gegevensstructuur wordt bepaald door bedrijfssleutels via hubs en links tussen deze hubs
  • Alle gegevens worden opgeslagen in Satellieten

Deze toevoeging van tabellen, die ook een zeer leesbaar model voor zakelijke gebruikers oplevert, is een meer dan aanvaardbaar nadeel in het licht van de voordelen die de aanpak van data-vaulting biedt.

Ontmoeting met Bill Inmon

Op 21 mei 2014 had ik de kans om naar een presentatie te gaan van ‘Emergo’, dat een van de eersten was om op data-vaulting 1.0 gebaseerde oplossingen aan te bieden. Ik ging vooral om twee redenen: we pasten de data-vaulting 1.0-methodologie al bijna 2 jaar toe en ze kondigden een belangrijke deelnemer aan: Bill Inmon

Ik heb hem de volgende vraag voorgelegd: wat doe je in zo’n geval wanneer data-vaulting je wijst op de gebreken in je Enterprise Data Warehouse (EDW)-model? Hij antwoordde met een verhaaltje: in de jaren ’90 slaagde hij erin het grootste bedrijf ter wereld, Wallmart, in een EDW te modelleren en voorspelde toen dat vanaf dan alle andere organisaties eenvoudiger zouden zijn. “But I reached the end of the ocean”.

Hij vertelt me ook dat in die tijd twee dingen nog niet bestonden: het internet en de gegevens die het genereert. We bevonden ons in een wereld van “small data”. Hij zegt me nog steeds dat hij niet verantwoordelijk is voor het feit dat zijn aanpak de meest bestudeerde in de wereld is gebleven en zijn boeken de meest verkochte…

the father of data warehouse 1 540x405 - Oorsprong en nut van 'data-vaulting'

Ontmoeting tussen Bill Inmon, “the father of data warehouse”
en Thibaut De Vylder op 21 mei 2014 tijdens het Emergo-event

Pin It