Pozor na znečištění… dat

24. 7. 2008

Doba čtení: 14 minut

Existuje jen málo IT projektů, které firmy straší více než integrace a sdružování dat. Opravdovou noční můrou je pak scénář datové integrace, která se zvrtne.

Existuje jen málo IT projektů, které firmy straší více než integrace a sdružování dat. Opravdovou noční můrou je pak scénář datové integrace, která se zvrtne.

Někdy se totiž se špatnými vstupními daty již začne – ať už jde o nechtěnou chybu lidského faktoru či úmyslnou sabotáž. Občas jsou data zpočátku v pořádku, během procesu (při přesunu mezi systémy či databázemi) se však část ztratí, zkomolí nebo jinak pozmění nežádoucím způsobem. Data mohou také zastarat, vyloučeno není ani to, že je uživatelé v organizaci zkrátka odmítají navzájem sdílet a každé oddělení si hraje na vlastním písečku. Nakonec vám úlohu neusnadní ani fakt, že se dnes v naprosté většině firem produkuje stále narůstající objem dat.

Datové projekty se mohou zkazit mnoha různými způsoby. My vám přinášíme pět těch nejčastějších, spolu s popisem toho, co bylo špatně, jaký byl následek a jak předejít tomu, abyste nedopadli stejně. Jména společností jsou ze zřejmých důvodů fiktivní.

1. INICIATIVNÍ ZÁKAZNICKÁ PODPORA

Buďte opatrní s tím, odkud získáváte svá data. Ne vždy jsou taková, jaká byste očekávali. Tento příběh se odehrál v jedné velké finanční instituci, hlavní roli si v něm zahrálo tamní call centrum.

Jako téměř u všech helpdesků také zaměstnanci tohoto vybavovali telefonáty a zadávali zákaznická data do sdílené databáze. Tato konkrétní databáze zahrnovala editovatelné políčko pro oslovení. Namísto omezení na Pan či Paní mohli pracovníci napsat cokoli o délce až třiceti znaků. A jelikož práce v zákaznické podpoře není žádný med, začali někteří frustrovaní zaměstnanci do daného pole zadávat vlastní uštěpačné poznámky typu „nehorázný blbec“, „bláznivý zákazník“ nebo „otravný idiot“.

Roky plynuly, ale nikdo si ničeho nevšiml, neboť žádné jiné oddělení nečerpalo informace z databáze oddělení helpdesku. Jednoho dne se však vedení společnosti kvůli propagaci nové služby rozhodlo spustit přímou marketingovou kampaň pomocí e-mailu. A namísto nákupu adres uživatelů od třetí strany se přiklonilo k tomu sáhnout pro informace právě do databáze vlastního call centra.

Tak zákazníci dostávali e-maily s oslovením „Milý otravný idiot Jan Novák“ nebo „Milý bláznivý zákazník Ladislav Šulc“. Asi se nebudete divit, když vám prozradíme, že kampaň byla naprostý propadák a firma tímto způsobem na novou službu nepřilákala vůbec nikoho. Vedení to bylo divné, a tak se začalo zkoumat proč. Analýza odesílané pošty udělala ve všem jasno. A jaké z tohoto příběhu plyne ponaučení?

„Realita je taková, že už dnes nejsme vlastníky svých dat,“ říká viceprezident řízení výroby a prodeje výrobků a kontrolor kvality dat ze společnosti Informatica Arvind Parthasarathi. „Svět je natolik propojený, že je navýsost pravděpodobné, že se někdo vašich informací zmocní a využije je naprosto jiným než vámi zamýšleným způsobem. A jelikož ve firmě využíváte data z mnoha rozličných zdrojů, musíte se ujistit, že máte správně nastavenou úroveň správy kvality dat, než je v praxi využijete pro cokoli nového.“

Co přesně znamená „správně nastavená úroveň správy kvality dat“, bude záležet na tom, jakým způsobem svá data využíváte. „V oblasti přímého marketingu e-mailem postačí, že je správně nějakých 70 až 80 % vstupních dat. Jinde, například ve zdravotnickém průmyslu, se však toto číslo musí přehoupnout alespoň přes 99 %. Žádná společnost však doopravdy nechce, nepotřebuje a nebude platit za perfektní data. To by totiž bylo příliš drahé. Hlavní otázka tedy zní: K jakým účelům budou data využívána a je pro to jejich úroveň dostačující?“

2. MRTVÍ LIDÉ NEVOLÍ

Čištění dat může být otázkou života a smrti, a to doslova. PR specialistka Nancy Kirková v roce 2006 asistovala jako dobrovolnice u voleb do amerického kongresu. Jejím úkolem tehdy bylo obvolávat registrované voliče a nalákat je k volebním urnám. Tehdy však zjistila znepokojivou věc. Tři z deseti lidí, kterým volala, byli v té době již mrtví.

Problém vlastnictví takto neaktuálních dat, jejichž soubor zahrnuje třeba i již zemřelé, není v komerční sféře ničím neobvyklým. Nadto tento stav obvykle mívá reálné dopady také na sféru živých. Prezident divize komunikačních služeb ve společnosti The Keane Organization Jim Keyster strávil poslední rok mapováním investorů a akcionářů organizací, jako jsou pojišťovny, společné fondy a firmy z žebříčku Fortune Top 500.

Podle Keystera v průměru 8 až 15 % datových záznamů obsahuje anomálie typu špatně zadaného čísla sociálního zabezpečení nebo již neplatných adres. Asi v jedné pětině těchto anomálií pak figuruje osoba, která je již více jak pět let po smrti. Keyster ve svém pátrání narazil dokonce i na případ akcionáře, který zemřel před celými dvaasedmdesáti lety!

„Tady nejde o nedbalost, ale přirozený problém,“ říká Keyster. Soukromé společnosti se stávají veřejnými, mění názvy, jsou skupovány a prodávány… a celým tímto kolotočem sebou stále vláčejí data svých akcionářů, často i po celá desetiletí.

Důsledky mohou být bohužel horší než jen peníze vyhozené za rozesílání pošty již zemřelým. Největší obavy vzbuzují samozřejmě podvody a krádeže identit. Cizí člověk by tak mohl za mrtvého inkasovat dividendy, bránit právoplatným dědicům v nárokování pozůstalosti či neoprávněně přistupovat k důvěrným datům společnosti.

Jaké je řešení tohoto problému? Na trhu je již k dostání software, který dokáže identifikovat datové anomálie napříč různými systémy a označit je k přezkoumání. To ale samo o sobě nestačí. Společnosti, které se rozhodnou jej nasadit, však zároveň musejí o data náležitě pečovat, mít dobré interní kontroly a provádět pravidelné ověřování všech záznamů.

„V praxi se s tímto problémem do určité míry potýká téměř každá firma,“ upozorňuje Keyster. „Z hlediska správy rizik je tím nejlepším, co můžete udělat, pravidelná kontrola záznamů. Porozumění tomu, v jakých souvislostech tento fenomén vaši organizaci reálně ovlivňuje, je dobrým prvním krokem.“

3. ZAPLAVENÍ DUPLICITNÍMI ZÁZNAMY

Chyba lidského faktoru je nepříjemná. Vynalézavost uživatelů ovšem může být ještě horší. Podívejme se na příklad velké pojišťovny, která uchovávala většinu zákaznických dat v mainframové aplikaci z osmdesátých let. Pracovníci zadávající data byli instruováni k tomu, aby vždy nejprve databázi prohledali a zjistili, zda v ní daný klient již nefiguruje. Protože však vyhledávání bylo velice pomalé a často nepřesné, většina zaměstnanců tento krok zkrátka přeskakovala a raději data vložila znovu. A výsledek? Někteří zákazníci v databázi figurovali až 700 či 800krát, díky čemuž byl systém ještě pomalejší a méně přesný než kdykoli předtím.

Jelikož aplikace byla zabudovaná tak hluboko v rámci firemní IT infrastruktury, zdráhalo se nejprve vedení vydat nemalé finance na její odstranění a nahrazení něčím kvalitnějším. Alespoň do doby, než IT oddělení vypracovalo obchodní studii, která ukazovala, že neschopnost lokalizovat v databázi existující zákazníky firmu denně může přijít až na 750 000 dolarů v příjmech. To rozhodlo a vedení dalo změnám zelenou. Tehdy společnost použila software SSA-Name3 firmy Identity Systems k pročištění dat. Ve finále bylo odstraněno na 36 000 duplicitních záznamů.

„Duplicitní záznamy jsou na seznamu problémů, které u IT správců vyvolávají noční můry. A obecně platí, že čím větší databáze, tím horší je stav,“ vysvětluje ředitel společnosti Identity Systems Ramesh Menon. „Většina lidí však nemá ponětí o tom, jak rozsáhlému problému vlastně čelí. Pokud vám někdo řekne něco ve stylu, že se v jeho databázi nachází přesně 2,7 % duplicitních záznamů, nevěřte mu. Pravděpodobně se mýlí a situaci nechtěně bagatelizuje.“

Proti „duplikátům“ neexistuje žádná kouzelná formulka. Podle Menona řešení začíná u využití technologie pro párování dat (data matching) k izolování a vyfiltrování jednotného přehledu informací ze všech datových zdrojů organizace. I poté však budete čelit úloze přimět všechny zúčastněné strany (různé divize a oddělení) k dohodě na rozsahu poskytovaných dat a definici toho, jak vlastně takový duplicitní záznam vypadá.

„Dvě různá oddělení stejné organizace mohou mít například diametrálně odlišné představy o vymezení duplikátů. Tyto druhy integračních snah často padají právě s neschopností organizačních jednotek v rámci organizace usnést se na nějakém konsenzu – ať už ohledně definice duplikátů nebo toho, které informace navzájem sdílet a které nikoli.“

4. DATA S PROŠLOU LHŮTOU SPOTŘEBY

Vzpomínáte na staré textové hry jako Zork, kde jste pomocí příkazového řádku zkoumali zatuchlé kobky zhmotnělé jen ve vaší fantazii? Podle všeho jsou i dnes, po x letech, na světě lidé, kteří se zabývají programováním obdobných záležitostí. Co je však horší, k propagaci svých „děl“ využívají data, která byla stěží aktuální před nějakými deseti lety.

Spoluzakladatel mailingové služby MailChimp Ben Chestnut se s námi podělil o historku o jednom herním vývojáři ze staré školy. Když dokončil druhý díl své úžasné hry, rozhodl se vykřičet to do světa právě pomocí e-mailu a služby MailChimp. Iniciativní vývojář měl sice k dispozici asi 10 000 adres, problém však byl, že stáří většiny z nich přesahovalo deset let. Dekáda je v tomto směru velice dlouhá doba, a tak není divu, že mnohé z adres již vůbec neexistovaly. Krom toho Microsoft na své e-mailové službě Hotmail některé již používal jako spamové pasti (spam traps). Den nato se tedy e-mailový účet MailChimpu objevil na blacklistu Hotmailu.

Naštěstí pro MailChimp měl vývojář k dispozici původní záznamy i s jednotlivými IP adresami, které dokazovaly, že si uživatel každé z adres kdysi dávno první díl jeho hry skutečně stáhnul. „A to nás zachránilo,“ říká Chestnut. „Veškeré získané důkazy jsme ihned poslali Microsoftu. Den nato byl náš účet z blacklistu odstraněn. To se jen tak nevidí, byla to pro nás velká výhra.“

Všechna data zastarávají závratnou rychlostí, u kontaktních informací to však platí dvojnásobně. „Data bych přirovnal k radioaktivním vzorkům. Postupně se také rozkládají,“ říká Parthasarathi ze společnosti Informatica. „Proto musíte pravidelně přistupovat do všech systémů a informace stále aktualizovat. Opravdová hodnota totiž netkví v samotných datech, nýbrž ve schopnosti udržovat je stále korektní a čistá.“

5. VÁLKA S CHYBAMI

Rozdíl mezi „dobrými“ a „špatnými“ daty může být v jedné jediné tečce velikosti pixelu. Přesvědčila se o tom také Penny Quirková, hlavní konzultantka společnosti Robbins-Gioia‘s Records Optimization Solutions. Jednou byla pověřena rolí konzultantky v projektu datové integrace. Vše tehdy probíhalo bez sebemenších problémů a projekt byl „zdárně“ ukončen. O šest měsíců později však jeden uživatel otevřel datovou tabulku, v níž našel jen změť různých symbolů, ale žádná použitelná data.

„Šlo o chybu v kódování,“ vzpomíná Quirková, „Když se v některém z polí nacházely dvě tečky za sebou, stal se po integraci nepoužitelným celý daný řádek.“ Společnost tedy musela celou databázi vytvořit znovu ze záložních kopií. Ty předtím musely být ještě prohledány a vyčištěny od symbolů, které při konverzi způsobovaly problémy.

„Nejčastějším problémem nejsou jen špatně zapsané údaje. Spíše jde o to, že většina organizací zanedbá fázi plánování při migraci dat mezi různými operačními systémy či databázemi,“ domnívá se Quirková. „Firmy se snaží o co nejrychlejší završení celého procesu. Využívají tedy všech datových zdrojů a doufají, že se jim výsledná sada podaří pročistit později. Ještě horší je, že testovací prostředí v mnoha případech neodpovídá tomu produkčnímu, nebo firmy k testování využívají jen malou část dat a po migraci zjistí, že se zbytek neřídí stejnými pravidly.“

„Organizace, které provádějí dramatické technologické změny, aniž by vyvinuly potřebné úsilí a vyhradily si čas nezbytný na kvalitně provedené sdružování, integraci a konverzi dat, ve výsledku velice často dostanou nepoužitelná data,“ varuje Quirková. „Šance, že se data v průběhu procesu jejich přesouvání mezi různými zdroji ‚znečistí‘ je ohromná.“

Co tedy Quirková doporučuje? „Rozhodně nepočítejte s tím, že za vás IT oddělení ověří platnost datové sady. Do plánování a testovací integračního procesu se pokuste zapojit také zkušenější uživatele, kteří s danými daty normálně pracují. Než se rozhodnete pro konsolidaci, podívejte se na všechna datová pole a popřemýšlejte nad tím, které aplikace by z nich mohly čerpat. Je-li to možné, používejte v testovací fázi kompletní datový set, nikoli jen náhodně zvolený vzorek. I nepatrná chybička se v tomto případě může rovnat stovkám ztracených hodin a spoustě zbytečně vynaložených finančních prostředků.“ Poslední větu Quirkové ostatně dokládá i následující příběh.

Prezident a CTO (Chief Technology Officer) společnosti Keane Business Risk Management Solutions Peter Teuten vypráví o jednom klientovi, který chtěl pomocí kontroly na serveru a databáze SQL zjistit, zda sítí nekolují porušené soubory CAD. Kdyby počet porušených paketů překročil určenou prahovou hodnotu, implementovala by společnost nástroje pro data mining a čištění dat.

Kde byl tedy problém? Při zadávání pravidla pro kontrolu pracovníci omylem převrátili jeho definici. Čím více porušených packetů, tím lépe, vypadaly výsledné reporty. „Nakonec byla celá síť firmy napadena červem, který porušil i hlavní inženýrské soubory CAD a na celý problém se přišlo. Společnost musela udělat většinu návrhů znovu a začít v podstatě od nuly. To jí stálo miliony dolarů. A vše začalo ‚nevinným‘ přehozením dvou hodnot…“ A pokud vás ke zvýšené opatrnosti při implementaci příštího integračního projektu nepřiměje ani tento příklad, pak už asi nic.

Našli jste v článku chybu?

Dan Tynan

Patrik Khudhur

21. 11. Mews zase nakupuje

Český jednorožec Mews kupuje švédskou firmu Atomize, která se specializuje na software pro řízení výnosů (RMS). Díky pokročilým algoritmům umožňuje platforma Atomize hotelům dynamicky upravovat ceny a lépe využívat kapacity, což otevírá cestu k vyšším příjmům a efektivnějšímu řízení.
Mews zároveň nedávno posílil svou pozici na trhu akvizicí francouzské společnosti Quotelo, jejíž technologie usnadňuje hotelům organizaci eventů a automatizuje administrativní procesy spojené se skupinovými a firemními rezervacemi. Mews Ventures má na svém kontě od svého vzniku celkem jedenáct akvizic.
6. 11. Výhra Trumpa vytvořila nové milionáře díky BTC

Vítězství Donalda Trumpa vyvolalo výrazný nárůst hodnoty bitcoinu (BTC). Výzkum společnosti Finbold zjistil, že za posledních 30 dní vzniklo 11 487 nových bitcoinových adres, které drží 1 milion dolarů nebo více, a to především díky 7,5% růstu BTC od doby, kdy se náskok Donalda Trumpa ve volbách stal drtivým.
Nyní drží 132 842 adres v bitcoinech více než milion dolarů: 121 126 adres drží od 1 do 9,99 milionu dolarů, zatímco 11 697 adres drží 10 milionů dolarů a více. Analýza využila historické údaje a porovnávala předvolební údaje ze 7. října 2024, získané pomocí webového archivačního nástroje Wayback Machine, s nejnovějšími povolebními statistikami k 6. listopadu 2024.
6. 11. První akvizice EET v Česku

Strategickou akvizici divize náhradních dílů společnosti Moravia Consulting, která se specializuje především na obchod s náhradními díly k produktům Hewlett Packard a Hewlet Packard Enterprise uskutečnila distribuční společnost EET Group. Upevňuje tak svou pozici předního poskytovatele náhradních dílů pro IT po celé Evropě. Zároveň jde o první akvizici firmy z České republiky po vstupu EET Group na český trh.
30. 10. Miliony pro start-upy

Agentura CzechInvest otevírá další výzvu projektu Technologická inkubace. V pořadí již pátá výzva s alokací 104,8 milionu korun bude spuštěna v pravé poledne 30. října a potrvá do 29. listopadu 2024. Program, který podporuje startupové prostředí prostřednictvím sedmi specializovaných technologických hubů, nabízí podnikatelům pomoc s jejich inovativním produktem či službou. Nyní spolupracuje s téměř 180 firmami z plánovaných 250, projekt se tak již přehoupl přes svou symbolickou polovinu.
Více informací o programu a nové výzvě naleznete zde.
30. 10. Rozšiřující se DIA

Vzhledem ke sjednocování souvisejících agend přechází kompletní správa, rozvoj a financování registru obyvatel a registru osob od 1. listopadu 2024 z Ministerstva vnitra, resp. Českého statistického úřadu na Digitální a informační agenturu (DIA).
V době samotného převodu obou registrů od 31. října 20:00 do 1. listopadu 04:00 se může projevit snížená dostupnost jejich služeb, jinak by se podle tvrzení DIA dostupnost služeb nijak měnit neměla.

Sdílet

Autor článku

Dan Tynan

Patrik Khudhur

Mohlo by vás zajímat

Businessworld Newsletter

HP Knowledge HUB
pro moderní firemní IT

Krátce

21. 11. Mews zase nakupuje

6. 11. Výhra Trumpa vytvořila nové milionáře díky BTC

6. 11. První akvizice EET v Česku

30. 10. Miliony pro start-upy

30. 10. Rozšiřující se DIA

Anketa

Je pro váš podnik umělá inteligence vhodným řešením některých požadavků?

SPECIÁLNÍ PROJEKTY

Windows chystá offline AI vyhledávání souborů Catchy headline:

Coffee break: Když Wi-Fi potřebuje překonávat i kovové zdi

Třetí čtvrtletí letošního roku ryze českých investic

Gmail chystá dočasné „štítové“ e-mailové adresy proti spamu

HPE ocenilo partnery roku 2024, nejlepším distributorem je DNS

Na co mají zaměstnanci nárok, pokud se starají o nemocné blízké?

Sledují vás přes HDMI? Revoluční útok využívá AI a elektromagnetické záření

IDC: Dodávky průmyslových tiskáren stagnují, výkonnost segmentů se ale liší

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Pozor na znečištění… dat

Sdílet

Autor článku

Mohlo by vás zajímat

Kvíz týdne

21. 11. Mews zase nakupuje

6. 11. Výhra Trumpa vytvořila nové milionáře díky BTC

6. 11. První akvizice EET v Česku

30. 10. Miliony pro start-upy

30. 10. Rozšiřující se DIA

Anketa

Je pro váš podnik umělá inteligence vhodným řešením některých požadavků?

SPECIÁLNÍ PROJEKTY

Z našich webů

Windows chystá offline AI vyhledávání souborů Catchy headline:

Coffee break: Když Wi-Fi potřebuje překonávat i kovové zdi

Třetí čtvrtletí letošního roku ryze českých investic

Gmail chystá dočasné „štítové“ e-mailové adresy proti spamu

HPE ocenilo partnery roku 2024, nejlepším distributorem je DNS

Na co mají zaměstnanci nárok, pokud se starají o nemocné blízké?

Sledují vás přes HDMI? Revoluční útok využívá AI a elektromagnetické záření

IDC: Dodávky průmyslových tiskáren stagnují, výkonnost segmentů se ale liší

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Dále u nás najdete

Opatrně s kofeinovým práškem, už jedna lžička je životu nebezpečná

Firmy mají řešit byznys, ne hledat účtenky, razí Fidoo

Českou husu musíte objednávat i rok dopředu. V obchodech teď koupíte jen ty zahraniční

Oznámení o osvobozených příjmech: shrnutí povinností

Vyhněte se chybám a prodlužte životnost USB flash disku

Dávají práci lidem na Valašsku a předávají dál folklor

Youtubeři a influenceři se musí registrovat

Vyzkoušeli jsme test, který ukazuje, co jsme zdědili po předcích

V aplikaci Záchranka je rozcestník péče pro nevyléčitelně nemocné

Chrome OS se zřejmě promění v Android

Akutní srdeční selhání může být horší než infarkt

O kolik vzrostou důchody? Spočítejte si, jak se zvýší váš

Změny v dárcovství: za spermie 2 tisíce, za vajíčka 28 tisíc

Ministr Válek má rakovinu, lékaři ji odhalili při prevenci

Počet OSVČ je opět rekordní. Nestojí za tím změny u dohod?

DVTV začala vysílat v DVB-T2 multiplexu 23

Prémiové AI funkce: Stojí za příplatek?

Stát si posvítí na zaměstnavatele na chráněném trhu práce

Chcete někoho, kdo vám opravdu rozumí? Zkuste AI

SSD už také mají obrovskou kapacitu – až 122 TB