BI potřebuje čistá data

4. 11. 2010

Doba čtení: 10 minut

Proč si myslíme, že je potřebné kvalitu dat ještě nějak více řešit? Vždyť kdo měl data v nepořádku, dávno zkrachoval

Hromadíme data již desítky let. Pracujeme s nimi každý den – jak fungovat bez nich, si už ani nedokážeme představit. Na první pohled je s nimi vše v pořádku – koneckonců dodáváme, fakturujeme a firma funguje. Proč si tedy myslíme, že je potřebné kvalitu dat ještě nějak více řešit? Vždyť kdo měl data v nepořádku, dávno zkrachoval.

Abychom si mohli odpovědět na položenou otázku, musíme se nejdříve podívat až na konec, tam, kde je spotřeba či použití dat. Pro další využití totiž data celou dobu hromadíme – ta, která nepoužíváme, nemají význam a měli bychom se jich zbavit. A právě v otázce použití dat je zakleta odpověď na otázky týkající se jejich kvality. Data jsou dostatečně kvalitní právě tehdy, když vyhovují potřebám, pro které je používáme. To, co používáme v každodenní praxi již desítky let, evidentně vyhovuje každodenní potřebě. V poslední době lze ale využívat data novými způsoby – a pak záhy zjišťujeme, že to, co stačilo až dosud, nestačí dnes a už vůbec nebude stačit zítra.

Právě něco tak samozřejmého, jako je fakturace, může sloužit jako dobrý příklad – pro vystavení faktury potřebujeme správné údaje o odběrateli. Ten, kdo už od nás přestal odebírat, nás z pohledu faktur nezajímá. Nepotřebujeme mít o něm správné údaje. A tak se nám například stane, že totožného odběratele budeme mít ve svých datech vícekrát, pokaždé s jinými daty. Pro potřeby fakturace nám to nevadí, fakturujeme „tomu správnému“. Ve chvíli, kdy chceme zjistit, proč již od nás odběratel přestal odebírat, začne nám to vadit. Nezjistíme totiž, že vůbec odebírat nepřestal, jen se skrývá pod jiným jménem nebo číslem.

BI je nejvýznamnějším z nových způsobů využití dat. Právě proto je oblast BI motorem, který táhne celou oblast datové kvality dopředu. Jsou tady však i další okolnosti. Uživatel BI řešení obvykle vstupní data nepořizuje. Nemůže proto sám bezprostředně ovlivnit jejich kvalitu podle svých potřeb. Nezbývá mu, než volat o pomoc jinde.

Datová myčka

Když mám špinavé auto, zajedu s ním do myčky. Když mám špinavá data? Setkávám se s názorem, že data je možné vyčistit nějakým geniálním softwarem. Tvrdí to prodejci takového softwaru a přizvukují ti, kteří mají rádi jednoduchá řešení.

My, kdo se kvalitou dat již pár let zabýváme takřka na plný úvazek, víme, že je to s jejich čistěním ošidné. Jistě, leccos se dá díky zajímavým a moderním řešením opravit. Ale tak jako vám při každém mytí oken občas ukápne špína na zem, také při každém čištění dat se občas něco ještě více zašpiní. A čím více toho budete čistit, tím více toho také zašpiníte. Budete-li dostatečně opatrní, může být čištění dat významným přínosem. Ale zázraky nečekejte.

Governance

Cesta ke kvalitním datům se jmenuje Data Governance. Zajímavé je, že přestože se tento pojem skloňuje čím dál více, setkávám se s tím, že si pod tím každý představuje něco jiného. Pokusím se tedy pro jistotu shrnout základní body.

Data vznikají, zanikají, upravují se. Data popisují realitu, ale realita se neustále mění v čase. Co z toho plyne? Chceme-li řešit datovou kvalitu, nemůžeme ji řešit jako projekt s pevným začátkem a koncem. Řízení kvality dat je proces, který začal s nástupem dat a bude trvat tak dlouho, dokud budou trvat data. Data Governance proto musí být průběžnou a nikdy nekončící aktivitou.

Mantrou datové kvality je fakt, že data jsou kvalitní právě tehdy, pokud vyhovují potřebám, pro které je používáme. Odtud plyne, že datovou kvalitu nemůžeme řídit, nestojí-li v centru tohoto řízení odběratelé dat.

Kvalita dat je přímo úměrná procesům, kterými data pořizujeme. Neřekneme-li osobám, které pořizují data, jak to mají dělat, bude to každý dělat po svém. Setkal jsem se s případem, kdy v jedné velké tuzemské organizaci dokázali napsat název své vlastní firmy asi padesáti způsoby. Nevadilo to, dokud nevznikla potřeba v rámci BI řešení vybrat ten správný a podle něj vyhledávat. Data Governance je v mnoha ohledech zejména o komunikaci směrem k těm, kteří data pořizují, a také k těm, kteří pro ně připravují prostředí ať již metodické, nebo softwarové.

Jiný příklad z praxe: protože se operátoři pořizující data domnívali, že adresa slouží jen pro tisk obálek, nevadilo jim, že jednou píší Great Britain, podruhé United Kingdom, potřetí Velká Británie, příště England, pak zase Anglie, nechybělo ani Spojené království, UK, GB a další formy. Ve chvíli, kdy se měla nová verze softwaru rozhodnout, ze které země klient je, a podle toho upravit své chování, ukázalo se, že tato data jsou nepoužitelná. Je typické, že nás začne kvalita dat trápit až ve chvíli, kdy jsou již pořízena a zpětně jejich vznik neovlivníme. Data Governance proto potřebuje zahrnout osoby, které umí data analyzovat a v případě potřeby je také opravovat. Říkáme jim datoví stevardi a musíme je vybavit nástroji, pomocí kterých mohou svou práci efektivně vykonávat.

Předchozí dva příklady z praxe ukazují ještě jedno. Protože se potřeby mění, stojí za to snažit se předvídat a řešit datovou kvalitu dříve, než se projeví. Zjednodušeně řečeno „pořádek se vyplatí“. Stojí za to psát názvy firem vždy stejně i přesto, že to v této chvíli k ničemu nepotřebujeme. Stojí za to psát státy jednotně, stojí za to vyplňovat do stejných kolonek vždy stejný druh informace. Data Governance by měl definovat obecné principy i v případech, kdy prozatím nejsou vynuceny konkrétní potřebou.

Pokud bychom sebrali v některé velké organizaci všechny informace o kvalitě dat, o rozporech mezi skutečností a potřebou, nepochybně bychom zjistili, že na jejich řešení budeme potřebovat roky. Je zřejmé, že nemůžeme řešit všechno najednou. Data Governance musí stanovit priority. V ideálním případě by měly odrážet celkovou podnikovou strategii. Například pokud je základní strategií cross seling, pak prioritou by měla být kvalita identifikačních údajů klientů, je-li strategií zvýšení produktivity práce při obsluze klienta, pak by prioritou mělo být to, co tuto produktivitu nejvíce ovlivňuje.

Představme si situaci, kdy jsme pracně vybudovali celé prostředí Data Governance. Udělali jsme to správně? Neměli bychom na tom prostředí něco změnit? Jak to zjistíme? Obecně platí, že co neumíme měřit, neumíme ani řídit. Data Governance musí mít nástroje k měření datové kvality.

A nakonec si řekněme ještě jednu maličkost. Ať již budeme dělat cokoli, vždy nás to bude něco stát. Bez zdrojů nelze dosáhnout ničeho. Data Governance musí mít vlastní zdroje, finanční, technické i personální.

Jak začít?

Že už jste začali? Ale jistě, pracujeme přece s daty desítky let. Všichni jsme se již začali nějak starat o svá data. Možná si dokonce myslíme, že to děláme dobře. A možná máme pravdu.

Kdysi dávno, v letech základní školní docházky, se mi do rukou dostala nevelká kniha s názvem „Klíč k určování rostlin“. Nelíbila se mi. Na rozdíl od atlasu rostlin v ní nebyly krásné obrázky. Ale najít v atlasu rostlin to, co právě kvete na louce za domem, to je spíše dílem náhody. Pomocí onoho klíče to bylo mnohem snazší. Pojďme si tedy zopakovat jednotlivé nezbytné složky Data Governance a ptejme se sami sebe, nakolik je máme vyřešeny.

Máme firemní strategii zajišťování kvality dat?
Je zavedeno prostředí a procesy řízení kvality dat?
Byli do tohoto prostředí zahrnuti všichni odběratelé dat a máme vybudovány kanály, kterými komunikují své potřeby?
Máme do prostředí řízení kvality dat zahrnuty všechny procesy jejich pořizování? Máme nástroje, kterými řídíme operátory pořizující data a nástroje, kterými řídíme požadavky na software, kterým se pořizují data?
Dokáží naši pracovníci analyzovat kvalitativní jevy v datech? Umí opravovat kvalitativní jevy v datech? Mají k tomu dostatečné nástroje?
Máme definovány obecné principy, podle kterých se chováme ke svým datům, aby byla data v pořádku? Komunikujeme tyto principy v dostatečné míře se všemi, kteří by je měli znát?
Byly stanoveny priority při řešení požadavků na kvalitu dat? Víme, proč jsme stanovili právě tyto priority a ne jiné? Jsou v souladu s celkovou obchodní strategií organizace?
Umíme měřit účinnost procesů řízení datové kvality, kvalitu dat a její vývoj? Dokážeme říct, zda je vývoj v souladu s našimi prioritami?
Jsou vyčleněny zdroje pro řízení kvality dat,a evidovány všechny náklady na řízení kvality dat?
Máme výše uvedené položky popsány ve firemních politikách či směrnicích a můžeme jejich dodržování vynucovat?

Závěr

Osobně jsem se setkal s projektem nasazení nového softwaru, který několikanásobně překročil plánované náklady. Důvodů bylo samozřejmě více včetně prvotního podcenění problému. Ale podstatná část zvýšených nákladů na projekt byla způsobena především nekvalitními daty, se kterými měl onen software pracovat.

Nikdo se nepokusil přesně vyčíslit, jak velká část zvýšených nákladů šla na vrub nekvalitních dat. Nikdo tedy neví, kolik by se bývalo bylo vyplatilo investovat do kvality dat již dříve, než se nekvalita takto výrazně projevila.

Ve stejné organizaci jsem se setkal i s podobnými projekty, které se realizovaly za nižší než plánované náklady. Shodou okolností všechny tyto projekty s řešením kvality dat nějakým způsobem počítaly. Možná to byla náhoda. Ale co když ne?

Autor pracuje jako senior konzultant ve společnosti Adastra

Vyšlo v CIO Business World 9/2010

Našli jste v článku chybu?

Vlastimil Bardoň

Témata:

21. 11. Mews zase nakupuje

Český jednorožec Mews kupuje švédskou firmu Atomize, která se specializuje na software pro řízení výnosů (RMS). Díky pokročilým algoritmům umožňuje platforma Atomize hotelům dynamicky upravovat ceny a lépe využívat kapacity, což otevírá cestu k vyšším příjmům a efektivnějšímu řízení.
Mews zároveň nedávno posílil svou pozici na trhu akvizicí francouzské společnosti Quotelo, jejíž technologie usnadňuje hotelům organizaci eventů a automatizuje administrativní procesy spojené se skupinovými a firemními rezervacemi. Mews Ventures má na svém kontě od svého vzniku celkem jedenáct akvizic.
6. 11. Výhra Trumpa vytvořila nové milionáře díky BTC

Vítězství Donalda Trumpa vyvolalo výrazný nárůst hodnoty bitcoinu (BTC). Výzkum společnosti Finbold zjistil, že za posledních 30 dní vzniklo 11 487 nových bitcoinových adres, které drží 1 milion dolarů nebo více, a to především díky 7,5% růstu BTC od doby, kdy se náskok Donalda Trumpa ve volbách stal drtivým.
Nyní drží 132 842 adres v bitcoinech více než milion dolarů: 121 126 adres drží od 1 do 9,99 milionu dolarů, zatímco 11 697 adres drží 10 milionů dolarů a více. Analýza využila historické údaje a porovnávala předvolební údaje ze 7. října 2024, získané pomocí webového archivačního nástroje Wayback Machine, s nejnovějšími povolebními statistikami k 6. listopadu 2024.
6. 11. První akvizice EET v Česku

Strategickou akvizici divize náhradních dílů společnosti Moravia Consulting, která se specializuje především na obchod s náhradními díly k produktům Hewlett Packard a Hewlet Packard Enterprise uskutečnila distribuční společnost EET Group. Upevňuje tak svou pozici předního poskytovatele náhradních dílů pro IT po celé Evropě. Zároveň jde o první akvizici firmy z České republiky po vstupu EET Group na český trh.
30. 10. Miliony pro start-upy

Agentura CzechInvest otevírá další výzvu projektu Technologická inkubace. V pořadí již pátá výzva s alokací 104,8 milionu korun bude spuštěna v pravé poledne 30. října a potrvá do 29. listopadu 2024. Program, který podporuje startupové prostředí prostřednictvím sedmi specializovaných technologických hubů, nabízí podnikatelům pomoc s jejich inovativním produktem či službou. Nyní spolupracuje s téměř 180 firmami z plánovaných 250, projekt se tak již přehoupl přes svou symbolickou polovinu.
Více informací o programu a nové výzvě naleznete zde.
30. 10. Rozšiřující se DIA

Vzhledem ke sjednocování souvisejících agend přechází kompletní správa, rozvoj a financování registru obyvatel a registru osob od 1. listopadu 2024 z Ministerstva vnitra, resp. Českého statistického úřadu na Digitální a informační agenturu (DIA).
V době samotného převodu obou registrů od 31. října 20:00 do 1. listopadu 04:00 se může projevit snížená dostupnost jejich služeb, jinak by se podle tvrzení DIA dostupnost služeb nijak měnit neměla.

Sdílet

Autor článku

Vlastimil Bardoň

Témata:

Mohlo by vás zajímat

Businessworld Newsletter

HP Knowledge HUB
pro moderní firemní IT

Krátce

21. 11. Mews zase nakupuje

6. 11. Výhra Trumpa vytvořila nové milionáře díky BTC

6. 11. První akvizice EET v Česku

30. 10. Miliony pro start-upy

30. 10. Rozšiřující se DIA

Anketa

Je pro váš podnik umělá inteligence vhodným řešením některých požadavků?

SPECIÁLNÍ PROJEKTY

Windows chystá offline AI vyhledávání souborů Catchy headline:

Coffee break: Když Wi-Fi potřebuje překonávat i kovové zdi

Třetí čtvrtletí letošního roku ryze českých investic

Gmail chystá dočasné „štítové“ e-mailové adresy proti spamu

HPE ocenilo partnery roku 2024, nejlepším distributorem je DNS

Na co mají zaměstnanci nárok, pokud se starají o nemocné blízké?

Sledují vás přes HDMI? Revoluční útok využívá AI a elektromagnetické záření

IDC: Dodávky průmyslových tiskáren stagnují, výkonnost segmentů se ale liší

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

BI potřebuje čistá data

Sdílet

Autor článku

Mohlo by vás zajímat

Kvíz týdne

21. 11. Mews zase nakupuje

6. 11. Výhra Trumpa vytvořila nové milionáře díky BTC

6. 11. První akvizice EET v Česku

30. 10. Miliony pro start-upy

30. 10. Rozšiřující se DIA

Anketa

Je pro váš podnik umělá inteligence vhodným řešením některých požadavků?

SPECIÁLNÍ PROJEKTY

Z našich webů

Windows chystá offline AI vyhledávání souborů Catchy headline:

Coffee break: Když Wi-Fi potřebuje překonávat i kovové zdi

Třetí čtvrtletí letošního roku ryze českých investic

Gmail chystá dočasné „štítové“ e-mailové adresy proti spamu

HPE ocenilo partnery roku 2024, nejlepším distributorem je DNS

Na co mají zaměstnanci nárok, pokud se starají o nemocné blízké?

Sledují vás přes HDMI? Revoluční útok využívá AI a elektromagnetické záření

IDC: Dodávky průmyslových tiskáren stagnují, výkonnost segmentů se ale liší

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Dále u nás najdete

Ministr Válek má rakovinu, lékaři ji odhalili při prevenci

Počet OSVČ je opět rekordní. Nestojí za tím změny u dohod?

Gamingu kralují konzole, preferují je dvě třetiny kupujících

Nová centrální evidence srážek ze mzdy

Vánoční slevy operátorů? Daleko za očekáváním

Řešíme, jestli máme dost vitamínu C, ale imunitě spíš chybí déčko

Firmy mají řešit byznys, ne hledat účtenky, razí Fidoo

Do penze se půjde až v 67 letech. Co přináší důchodová reforma?

V aplikaci Záchranka je rozcestník péče pro nevyléčitelně nemocné

Domácí mazlíčci jí téměř ožívají pod rukama. Figurky vyrábí z vlny

Týmové ordinace praktiků dostanou přidáno, za to musejí nabírat pacienty

Dřívější neplodnost dnes řeší miniinvazivní operace

Resort spravedlnosti nestíhá digitalizaci, ČR tím přišlo o miliony

Prémiové AI funkce: Stojí za příplatek?

Každý osmý diabetik má problémy s očima

Stát si posvítí na zaměstnavatele na chráněném trhu práce

O kolik vzrostou důchody? Spočítejte si, jak se zvýší váš

Novu nebude tvořit AI. A umělé moderátory v ČRo nečekejte

Ročně dostane ledvinu deset dětí, důležitá je velikost

Co dělat, když vám zavřou dodavatele IT služeb?