Door Thibaut De Vylder
Data-vaulting is een praktisch antwoord op de beperkingen van twee andere belangrijke benaderingen in de datawarehousewereld.
De eerste benadering is het Enterprise Data Warehouse, voorgesteld door Bill Inmon, die gelooft in het centraliseren van gegevens.
De tweede benadering is het dimensionale model van Joseph Kendall, dat voorstelt de brongegevens te behouden zoals zij zijn en ze naar behoefte samen te voegen om aan elke nieuwe vraag te voldoen.
Wanneer we de twee benaderingen waaruit data-vaulting is ontstaan, samenvatten in een onvolledige maar synoptische tabel:
Enterprise Data Warehouse van Bill Inmon
|
Het dimensionale model van Joseph Kendall
|
De gegevens zijn gecentraliseerd |
De brongegevens zijn niet gecentraliseerd. Sommige worden samengevoegd op basis van een specifieke behoefte, via een ETL*. |
Er is een tweeledige inspanning, enerzijds centralisatie en anderzijds restitutie, die door hetzelfde team moet worden verricht |
De marginale inspanning, bij het toevoegen van bronnen, wordt steeds belangrijker omdat de nieuwe samenvoegingen / ETL’s consistent moeten blijven met de vorige om geen dubbele realiteit te creëren |
Er is een aanzienlijk risico dat nieuwe vereisten (toevoegen van bronnen, nieuwe verslagen) gevolgen zullen hebben voor de bestaande |
Er is een reëel risico op inconsistentie tijdens onderhoudsactiviteiten (van een regel die gemeenschappelijk is voor alle ETL’s bijvoorbeeld) |
De leveringstermijn is lang: alle gegevens moeten worden opgevraagd voordat enige output kan worden geproduceerd
→ Not Fast, and complex to go far |
De termijn is kort voor de eerste behoefte, maar steeds langer voor de volgende…
→ Fast but not far |
→ Centralisatie vermijdt redundantie maar wordt snel ingewikkeld |
→ De distributie geeft de illusie van snelheid, maar wordt snel complex in bediening en onderhoud |
*ETL: Extract Transform and Load = tool/procedure voor het kopiëren van gegevens van een bronsysteem naar een doelsysteem
Data-vaulting integreert de positieve aspecten van beide benaderingen: zie Blog#2 – Voordelen van data-vaulting. Het genereert een schijnbare logheid door de toevoeging van tabellen die nodig zijn om enkele eenvoudige regels na te leven:
- De gegevensstructuur wordt bepaald door bedrijfssleutels via hubs en links tussen deze hubs
- Alle gegevens worden opgeslagen in Satellieten
Deze toevoeging van tabellen, die ook een zeer leesbaar model voor zakelijke gebruikers oplevert, is een meer dan aanvaardbaar nadeel in het licht van de voordelen die de aanpak van data-vaulting biedt.
Ontmoeting met Bill Inmon
Op 21 mei 2014 had ik de kans om naar een presentatie te gaan van ‘Emergo’, dat een van de eersten was om op data-vaulting 1.0 gebaseerde oplossingen aan te bieden. Ik ging vooral om twee redenen: we pasten de data-vaulting 1.0-methodologie al bijna 2 jaar toe en ze kondigden een belangrijke deelnemer aan: Bill Inmon
Ik heb hem de volgende vraag voorgelegd: wat doe je in zo’n geval wanneer data-vaulting je wijst op de gebreken in je Enterprise Data Warehouse (EDW)-model? Hij antwoordde met een verhaaltje: in de jaren ’90 slaagde hij erin het grootste bedrijf ter wereld, Wallmart, in een EDW te modelleren en voorspelde toen dat vanaf dan alle andere organisaties eenvoudiger zouden zijn. “But I reached the end of the ocean”.
Hij vertelt me ook dat in die tijd twee dingen nog niet bestonden: het internet en de gegevens die het genereert. We bevonden ons in een wereld van “small data”. Hij zegt me nog steeds dat hij niet verantwoordelijk is voor het feit dat zijn aanpak de meest bestudeerde in de wereld is gebleven en zijn boeken de meest verkochte…

Ontmoeting tussen Bill Inmon, “the father of data warehouse”
en Thibaut De Vylder op 21 mei 2014 tijdens het Emergo-event