Vysokou kvalitu dat uchovávaných v počítačových systémech dnes považujeme za samozřejmost. Nejsou tu počítače právě proto? Jsou, a obrovská část úsilí vynaloženého na vývoj hardwaru a softwaru se vždy týkala ochrany dat a udržení datové kvality na žádoucím stupni. Problém je, že kvalita dat není absolutní pojem, a musíme ji posuzovat v kontextu využití informací. A kontext se neustále mění.
Uveďme si několik důvodů pro současný zájem o datovou kvalitu. Je to datová integrace, kdy data, která naprosto vyhovují potřebám jedné aplikace, mohou způsobit zmatek v datovém skladu, nejsou-li pro nový kontext dostatečně ošetřena. Je to samoobslužnost, která umožňuje lidem zacházet s daty často nepředvídaným způsobem, například ve webových dotaznících záměrně zadávat chybné údaje s cílem chránit své soukromí. Dále je to kritický význam informací, které stále více ovlivňují úspěch i úpadek organizací. V neposlední řadě je to naše každodenní závislost na informacích.
Nekvalitní případy
Před pár lety, někdy kolem Halloweenu, jsem stál u přepážky v bance a dotazoval se, proč mi bankomat odmítá vydat peníze. Úřednice cosi nezúčastněně naťukala do počítače, zatvářila se překvapeně a zavolala kolegyni. Obě si něco špitaly a ukazovaly si střídavě na mne a na obrazovku. Jejich sdělení mne šokovalo. Jsem nebožtík. A s mým účtem nelze do vyřízení pozůstalosti nic dělat. Změna barvy mého obličeje a několik prudších pohybů přece jen způsobily na druhé straně přepážky jisté pochyby o správnosti jejich údajů. Po důkladném ověření mé životnosti (ano, zrcadlo odráželo můj obraz, ani pokus prostrčit pravítko mou dlaní nevyšel) se dámy za přepážkou omluvily a daly se do práce. Za půl hodiny jsem bankovně ožil. Případ se šťastným koncem nazvěme „Nebožtík z Halloweenu“.
Mnohem hůře mohl skončit další případ. 23. července 1983 Boeingu 767 společnosti Air Canada v půlce pravidelného letu z Montrealu do Edmontonu ztichly oba motory. Piloti v manuálu marně hledali, jak s proudovým letadlem plachtit. Jenom díky jejich rozvaze, obrovské zkušenost a znalosti místních podmínek dovedli stroj klouzavým letem na nepoužívanou dráhu letiště v Gimli, kde letadlo bezpečně přistálo s nezraněnými 61 cestujícími a posádkou, pouze s poškozenou přídí díky nezajištěnému podvozku. Incident, který nezpůsobila technická závada, je v oboru známý jako Gimli Glider, „Kluzák z Gimli“.
Další, zcela čerstvý příklad mi poskytla změna mé adresy v pobočce přední české banky.
V bance využívám tři úzce provázané produkty. Novou adresu mám sice jen jednu, ale úřednice ji musela zadat třikrát a vytisknout tři různé formuláře, které jsem podepsal. Ty pak zahajují své dlouhé, předpisy definované životy. Na každém formuláři měla adresa jiný formát, na dvou drobnou chybu. Celá procedura trvala skoro půl hodiny. Pracovní název případu bude „Bankovní puzzle“.
Příčiny a následky
Tyto případy skončily dobře, bez katastrof nebo bez velkých finančních ztrát. Dokonce i kluzák z Gimli byl opraven a létá dodnes. Pokusme se tedy najít typ problému a možné následky zobecnit.
Nebožtík z Halloweenu vznikl díky nezachycené chybě, kdy banka zablokovala správné číslo účtu, ale s nesprávným předčíslím označujícím pobočku. Důsledkem byl chybně nastavený stav účtu. Chybná datová položka. Řeknete si, běžná chyba na vstupu, jaká se občas stane. Banku stálo odstranění chyby asi 20 minut práce. Jenže konto skutečného nebožtíka bylo několik dnů zcela bez ochrany a banka tím mohla být vystavena značným finančním rizikům. Ostatně, je stejně snadné zadat chybný kód i při jiných transakcích? Kolik takových incidentů je zákazník ochoten tolerovat, než změní banku?
Gimli Glider byl způsoben jiným typem chyby. Boeing 767 bylo první letadlo provozované Air Canadou, které používalo metrické jednotky. Při srovnání množství natankovaného paliva s potřebou pro let piloti mylně vynásobili natankovaný počet litrů koeficientem pro libry a výsledek srovnávali s kilogramy potřebnými pro cestu. Letadlo pak odstartovalo jen s polovičním množstvím potřebného paliva.
Hlavním problémem je zde definice dat vstupujících do výpočtu, která nebyla piloty zohledněna. Nešlo sice o data uložená v databázi počítače, ale v IT je definice dat častý problém. Nedostatečná, nejasná, zastaralá nebo v komunikujících systémech nejednotná definice způsobuje problémy při datové integraci i v jednotlivých aplikacích. Následky – nepoužitelné analýzy a statistiky z datových skladů, nemožnost rekoncilace výstupů. Finanční ztráty z chybných rozhodnutí nebo nerealizovaných přínosů datových skladů mohou jít do milionů. Pracnost dodatečného manuálního vykazování, dohledávání a změn také není zadarmo.
Bankovní puzzle představuje situaci, kdy si každá aplikace udržuje svou databázi zákazníků. Jde tedy o redundantní databáze. Tyto informační ostrovy znemožňují získání jednotného pohledu na zákazníka, omezují účinnost kampaní a příležitostí pro cross-selling, komplikují tvorbu datových skladů. Při změně dat, jako v našem Bankovním puzzlu, se často zapomene na některý produkt, takže výpisy, nabídky nebo faktury chodí dál na starou adresu.
V daném příkladu jsme si všimli plýtvání časem při oddělené aktualizaci základních dat u různých produktů jednoho klienta. Napadlo vás, kolik těch pár minut navíc stojí peněz? Řekněme, že organizace má 3 miliony klientů se záznamem ve více databázích. Každoročně 10 % klientů změní důležitý údaj jako adresu nebo příjmení. To je 300 000 změn ročně, a každá trvá o 15 minut déle, než je nezbytně nutné. Ztrácíte tedy 75 000 hodin neboli 9 375 člověkodnů za rok. Jen personální náklady, při skromném odhadu 2 000 Kč na člověkoden, budou skoro 19 milionů korun.
Řešení datové kvality
Jestliže vám při výčtu rizik a ztrát spojených s informacemi ve vaší organizaci připadá zaměstnání u ochranky v Kábulu jako bezpečné místečko, nezoufejte! Předně, je velmi pravděpodobné, že za ta data nezodpovídáte ani vy, ani nikdo jiný ve vaší organizaci! Mnohými metodikami doporučovaná praxe „data stewards“, tedy ustanovených správců či vlastníků okruhů dat, je u nás zatím raritou. Uplatnění některé z uznávaných metodik je dobrý začátek, především pro celofiremní iniciativy zaměřené na kvalitu dat.
Ale vy říkáte, že máte konkrétní problém, který musíte neodkladně řešit? Pak vám mohou pomoci nástroje zaměřené na datovou kvalitu. Ušetří čas, zvýší produktivitu a dodají potřebný know-how. Patří sem především nástroje pro profiling, cleansing a také pro správu metadat.
Profiling
Naše příklady jsou ty šťastné. Bez větších škod odhalují, kde je problém. Víte, proč přes 50 % projektů CRM (studie Gartner z r. 2005) a ještě vyšší procento integračních projektů má závažné problémy? Data, která napájejí CRM, nebo datový sklad, nejsou to, co řešitelé očekávají. Za dobu života aplikace dochází ke změnám ve způsobu ukládání, akumulují se duplicity a chyby. Samotné aplikaci to nevadí, historická data a neplatné záznamy jsou při pravidelném zpracování ignorovány. A designér datového skladu předpokládá, že najde vše podle současné dokumentace.
Pro tyto a všechny ostatní případy, kdy nám na kvalitě dat záleží, je zde profiling. Moderní softwarové nástroje pro profiling nám nejen poskytnou přesný obrázek prohlížených dat se všemi statistikami, ale umožňují zkoumání a postupné objevování vztahů uvnitř souboru nebo mezi soubory, definování pravidel (business rules) a odhalování nejskrytějších chyb. Výhodou je možnost práce jednotným způsobem se soubory různých formátů. Přínosem nástroje je zvýšení produktivity analýz 10–20× (uvádí British Telecom), ale především know-how, které s nástrojem získáváme.
Výsledky se dostaví rychle a často překvapí vlastníky dat. Při nedávném pilotním projektu s využitím profilingového nástroje jsme okamžitě zjistili anomálie v souboru zákazníků typu: IČO unikátní z 96 % a detaily záznamů s duplicitním IČO, 14 různých formátů IČO, chybějící hodnoty, několik typů zápisů adres, výskyt záznamů s diakritikou i bez ní. Dále jsme analyzovali rozdíly proti referenčním databázím – neplatná IČO, rozdílné názvy a adresy atd.
Cleansing
Profiling nám odhalil problémy. Neúplné adresy, duplicitní záznamy, tři způsoby označení stavu zákazníka, různé kódování platební disciplíny. Podobné je to v dalších dvou aplikacích, odkud chceme zákaznická data nalévat do datového skladu.
Je čas podívat se po nástrojích pro cleansing. Proces čištění a oprav souboru zpravidla probíhá v krocích. Hovoříme o standardizaci, která provádí konverze formátu, sjednocení názvů, nebo označení (ne)platnosti záznamů. K doplnění údajů, jako jsou chybějící poštovní směrovací čísla, čtvrť atd. je obohacení (enrichment). Provázání (linking) slouží k nalezení závislostí mezi záznamy, buď s cílem nalezení duplikátů, nebo záznamů, které mají něco společného – členů jedné domácnosti, jedné profese a podobně. Integrace zajišťuje zařazení vybraných a vyčištěných dat namísto jejich běžného využití.
Jednorázové vyčištění ovšem problém kvality dat nevyřeší. Pokud nemáme řešení pro průběžné udržování nastavených standardů, problém se rychle vrátí. Některé čistící nástroje umožňují práci v operativním režimu, tedy kontrolu a opravy dat u každé jednotlivé transakce. Potřeba trvalého řešení datové kvality nás nutí otevřít další téma.
Re-engineering
Sem patří široký rozsah činností vedoucích ke změně procesů, k trvalému zapojení nástrojů a někdy i zásadních změn infrastruktury IT. Protože jejichž popis je nad rámec článku, pokusme se alespoň naznačit řešení pro dva z našich příkladů.
V případu Nebožtíka z Halloweenu se soustředíme na aplikaci a proceduru pro vstup dat. V aplikaci půjde o prověření, případně posílení kontrol a způsobu zobrazení referenčních údajů, toho, jak „ergonomické“ jsou vstupní formuláře. Vedle potřebných úprav softwaru prověříme proceduru používanou při zadávání dat.
Bankovní puzzle vyžaduje radikální změnu. Nabízí se řešení typu Master Data Management (MDM) aplikované na zákaznická data. MDM je koncept datové integrace založený na centrální databázi, která pro všechny připojené aplikace uchovává data o zákazníkovi, výrobku, dopravním spoji a podobně. Databáze může být aktualizována z různých aplikací, přitom se provádí kontrola duplicit a správnosti dat. MDM musí respektovat rozdílné požadavky aplikací na formát a skladbu údajů o daném subjektu.
Datová kvalita je aspekt informatiky, jehož ignorování může přijít draho. Zároveň je to oblast zahrnující účinné nástroje, metodiky a koncepty, které vám pomohou odhalovat a eliminovat problémy a rizika. Řešení vždy existuje, zhoubná je pouze nečinnost.
Autor pracuje jako Product Manager ve společnosti Profinit, kde se specializuje na datovou kvalitu a Enterprise Content Management.
Foto: Wkipedia, licence obrázků GFDL a public domain