To lineage or not to lineage |

To lineage or not to lineage

To lineage or not to lineage

De sleutel tot goede besluitvorming is het hebben van goede informatie. Maar wat als de data die wordt gebruikt voor deze informatie niet juist is? Heb jij het overzicht van de complexe losse datastromen binnen de organisatie om te achterhalen waar de fouten zitten? Weet je wie de eigenaar van deze data is? Wat is de bron van de data? Welke definities worden gehanteerd? Door welke gebruikers, afdelingen en processen wordt de (on)juiste data nog meer gebruikt? Dit zijn slechts een aantal vragen die worden beantwoord door data lineage.

1000

Gerelateerde content

Data stromen

Informatie wordt tegenwoordig verkregen op basis van gegevens die zijn vastgelegd op veel verschillende plekken, zowel intern als extern. Uiteindelijk zijn het niet alle gegevens die worden verwerkt tot informatieproducten (zoals bijvoorbeeld rapportages). De data die wel wordt gebruikt heeft vaak verschillende complexe transformaties ondergaan. Het inzichtelijk maken van de wijze waarop data attributen worden getransformeerd van bron tot en met de uiteindelijke informatieproducten (rapportages), wordt ook wel data lineage genoemd.

Data lineage is geen nieuwe technologie maar heeft afgelopen jaren wel veel terrein gewonnen in data management. Wet- en regelgeving heeft hier in belangrijke mate aan bijgedragen, met name in de financiële dienstverlening. Zo zijn verzekeraars bijvoorbeeld al verplicht om aan tonen welke data wordt gebruikt voor rapportages (bijvoorbeeld Solvency II en IFRS17). Hetzelfde geldt voor banken (bijvoorbeeld BCBS239, IFRS9). Andere sectoren zijn ook steeds meer onderhevig aan de vraag vanuit toezichthouders om de datastromen in kaart te brengen, bijvoorbeeld vanuit de General Data Protection (GDPR Mei 208) die aanstaande is.

Wat zijn de voordelen?

Om de vraag ‘to lineage or not to lineage’ te beantwoorden is het goed om stil te staan bij de voordelen van data lineage. Het inzichtelijk maken van de datastromen is niet een doel op zich, maar draagt bij aan het beheersen van data. Zo helpt data lineage bijvoorbeeld bij het uitvoeren van data governance. Data lineage geeft inzichten wie met de data werkt, hoe de data wordt gedeeld tussen verschillende groepen en gebruikers, in welke systemen data zit en wie hiervan de data eigenaren zijn. Daarnaast helpt data lineage ook bij datakwaliteit.

Een issue in datakwaliteit begint vaak in de bron of terug in de keten (van rechts naar links). Data lineage helpt in dit geval om inzichtelijk te maken waar het issue zijn oorsprong heeft, om vervolgens het issue op te lossen. Zo’n impactanalyse kan via data lineage ook andersom (van links naar rechts) worden toegepast. Bijvoorbeeld als er aanpassingen worden gemaakt in systemen, data of processen. Data lineage maakt in dat geval inzichtelijk op welke andere systemen, processen, data of informatieproducten (rapportages) de wijziging impact heeft. Het in kaart brengen van de data verwerkingen en de risico’s die hieraan gerelateerd zijn dragen op die manier bij aan het ‘in control’ zijn van de organisatie. Het is daarom ook niet heel raar dat wetgevers data lineage verplichten in steeds meer sectoren.

Welke uitdagingen zijn er?

Het opstellen van data lineage wordt vaak ervaren als complex maar vooral arbeidsintensief. Hoe weet je waar je moet beginnen in de grote spaghetti van verstrengelde datastromen? Hoe weet je wat het juiste detailniveau is? Data lineage wordt vaak ervaren als een technische exercitie ervaren. Vaak ontbreekt er een gedegen aanpak, een juiste scoping, een consistente vastlegging en (geen) gebruik van ondersteunende toolings.

Welke oplossingen zijn er?

Afhankelijk van het doel en scope van de datastromen die je in kaart wilt brengen is het goed om van te voren om na te denken over geautomatiseerde oplossingen. Is het je doel om de datastromen van slechts één rapportage in kaart te brengen? Dan is het nog te behappen om dit handmatig te doen (bijvoorbeeld in Excel, Access of Viso). Ook als je een pilot wil uitvoeren voor data lineage kan dit handmatig. Wanneer je echter de datastromen van een volledig rapportage domein in kaart wil of moet brengen, dan is het verstandig om in een vroeg stadium na te denken over een geautomatiseerde oplossing. Deze dragen bij aan de schaalbaarheid van data lineage. Automatische scanners kunnen namelijk de data attributen en transformaties en integraties uitlezen voor een geheel IT- landschap. De kans op fouten wordt daarmee ook kleiner dan wanneer je dit handmatig uitleest en vastlegt. Daarnaast helpt een automatische oplossing bij het onderhouden van de data lineage. Door de automatische scanners is het geen ‘snapshot’ zoals wanneer je dat handmatig doet. Tenslotte kan data lineage tooling geïntegreerd worden met andere data management oplossingen zoals bijvoorbeeld data quality- en data governance tooling.

Kortom

Gelet op de voordelen die data lineage biedt en de toenemende wet- en regelgeving is het niet de vraag of je data lineage moet hebben, maar vooral op welke manier je data lineage moet toepassen.

Meer weten? Auteur van deze blog is Ruurd van der
Ham
. Ruurd is senior consultant bij KPMG Enterprise Data Management. Hij
is voornamelijk betrokken in projecten de financial services met focus op data
governance, data quality, data architectuur en gerelateerde wet- en
regelgeving.

Neem contact met ons op

 

Offerteaanvraag (RFP)

 

Bevestig