Ideální stav předpokládá dostupnost všech zdrojových systémů hned od počátku, dosažitelnost klíčových lidí u klienta, kompletní dokumentaci a minimum změn v projektu. Skutečnost ale vypadá jinak, každý z těchto předpokladů je reálný pouze v ideálním světě, v praxi se všechny tyto prvky mění v průběhu implementace projektu. Jak z toho ven?
Z naší dlouholeté praxe víme, že v případě vývoje datových skladů opravdu jde máloco podle plánu a pokazí se i to, co se na první pohled pokazit nemůže. Proto jsme identifikovali čtyři hlavní oblasti, se kterými jsme se při vývoji data warehouse opakovaně setkávali. Sesbírali jsme naše zkušenosti a sestavili je do metodik – funkčních návodů, které poradí, jak se i za méně příznivé situace vypořádat s vývojem datových skladů. Díky nim lze minimalizovat a/nebo předejít škodám a maximalizovat užitek.
Problém číslo 1: Čas
Málokdy se stane, že na začátku vývoje máte k dispozici všechny zdrojové systémy a kompletní dokumentaci. Co s tím? Rozdělte si projekt na menší logické celky. To umožní dodávat práci po částech a zlepší to vaši pozici u klienta. Z naší zkušenosti víme, že když už má zákazník něco hotového v ruce, ochotněji komunikuje, spolupracuje a poskytuje další data.
Pro to, abyste pochopili byznys procesy a terminologii potřebné k hladké kooperaci, doporučujeme zapojit se v co největší míře do firemního dění. Účastněte se oficiálních i neoficiálních akcí a hodně si povídejte. Díky tomu zjistíte, kdo jsou klíčoví lidé, jaké řeší problémy a jaký vlastně byl počáteční požadavek. Ten totiž vůbec nemusí být totožný s finálním zadáním, které se k vám dostalo skrz několik prostředníků. Když to budete vědět, snáze dosáhnete cíle.
A co dál? Nebojte se navrhnout prototyp – klient si často uvědomí, co konkrétně chce, až když to vidí skutečné. Automatizujte tvorbu data warehouse z metadat, zaveďte jejich verzování a vyberte vhodnou metodu historizace dat.
Problém číslo 2: Důvěra
V případě datových skladů se čas od času stává, že koncoví uživatelé poukazují na nesrovnalosti mezi hodnotami z DWH a očekávanými čísly. Důsledkem je pak ztráta důvěry, i když příčinou bývá nejčastěji kvalita vstupních dat nebo různé skryté transformace vzniklé během desítek let používání systému. Této situaci předejdete, když identifikujete klíčové byznys vlastníky a zapojíte je do procesu datové kvality. Jak? Nám se osvědčilo vytvořit kolem každého z nich malý datový sklad řídící se jejich vlastními pravidly a udělat z nich v podstatě spoluautory řešení a ambasadory celého DWH směrem do firmy.
Problém číslo 3: Anomálie
Ani tak ale není stoprocentně vyhráno. Není neobvyklé, že i v průběhu trvání projektu se objevují nevysvětlitelná čísla. Důvodem může být změna dat, pravidel atd. Důležité je umět tyto úpravy dohledat, s čímž pomůže automatizované generování data lineage. Doporučujeme také zavést kontrolní KPIs pro verifikaci transformací, které odhalí nejčastější chyby na vstupu dat.
Problém číslo 4: Změny
Vývoj DWH a jeho implementace je časově náročný proces, během něhož není možné zastavit byznys a vyhnout se změnám. Je tedy potřeba celý systém navrhnout tak, aby byly separované domény orientované na vstup a na výstup. Jejich oddělení usnadňuje přechod na nový systém a umožňuje dobře rozvrhnout odpovědnost a kompetence. Zároveň je nutné zajistit schopnost domény orientované na výstup přepínat mezi více zdrojovými doménami.
Metodika je důležitým prvkem při vývoji datových skladů. Aby neznamenala zbytečnou časovou zátěž pro projekt, je součástí našeho řešení také automatizace, která šetří čas při jejím dodržování.
Autory metodiky jsou Veronika Chramostová, head of BI department ve společnosti KOMIX, a Michal Balajka, BI & data solutions architect ve společnosti KOMIX.