;

Operace čistá data

27. 11. 2004
Doba čtení: 5 minut

Sdílet

Brzy ráno 20. března 2003 se britští vojáci, námořní pěchota a letectvo připojili k amerických ozbrojeným silám při invazi do Iráku, jejímž cílem bylo svržení Saddáma Husajna. Do této doby sehráli klíčovou roli při obnově Basry a životně důležitého přístavu Umm Kasr v Perském zálivu. K úspěchu byly nutné masivní dodávky vojenského materiálu, a lze říci, že vše kromě vozidel, ostré munice a čerstvých zásob putovalo do Zálivu z britských vojenských skladů. Během několika týdnů, které předcházely invazi, bylo z těchto skladů letecky nebo lodí odesláno 3 169 kontejnerů a téměř 22 000 palet.

Dostat tyto zásilky do Zálivu, to byla logistická noční můra, které by však byla ještě mnohem horší, kdyby se britské ministerstvo obrany bývalo před čtyřmi lety nerozhodlo investovat 10,8 milionu dolarů do spojení tří oddělených zásobovacích řetězců. Tento projekt zahrnoval sladění 850 různých informačních systémů, integraci tří inventarizačních systémů a 15 vzdálených systémů.

Největším nepřítelem při této masivní integraci nebyl Saddám Husajn, ale znečištěná nebo nespojitá data. V jednom systému položka 99 000 1111 představovala 24hodinový potravinový balíček pro oblasti se studeným klimatem, v dalším systému totéž číslo reprezentovalo elektronku. Pokud by vyhladovělé jednotky dostaly místo potravinových balíčků elektronky, nepokročila by invaze do Iráku a jeho obnova příliš daleko.

Znečistěná data jsou již dlouhou dobu strašákem všech CIO. Ale v dnešním propojeném světě rostou náklady a důsledky nepřesných informací exponenciálně. Zmatené adresáře jsou jedna věc, chybějící vojenský materiál je věc zcela odlišná. Přičtěme k tomu komplikace vyplývající ze slučování různých souborů údajů, například v důsledku sloučení firem nebo akvizice, a problém s pročištěním dat se znásobí. Při přípravě tohoto článku jsme hovořili se zkušenými odborníky na čištění dat z nejrůznějších organizací, počínaje britským ministerstvem obrany přes americký Úřad pro sčítání lidu a konče firmou Cendant, což je realitní a pohostinský konglomerát. Nicméně poznatky se shodovaly ve dvou tématech: jak překonat technické problémy čištění dat a jak sladit práci IT a obchodní části firmy tak, aby se podařilo úkol správně realizovat.

Poznej svého nepřítele

Když britské ministerstvo obrany v roce 2000 zahájilo projekt čištění dat, stál před ním ohromný úkol, vypráví podplukovník Andrew Law, ředitel TCP (The Cleansing Project). IT tým na ministerstvu využíval tři hlavní systémy k setřídění více než 1,7 milionu záznamů, z nichž každý měl doslova stovky atributů. Každý ze záznamů se týkal položky, kterou by vojenské jednotky mohly potřebovat, mnohé z těchto položek měly být vyskladněny z roztroušených skladů v anglickém Bicesteru a na jiných místech. (Sklady v Bicesteru jsou stavěny daleko od sebe, protože byly postaveny v roce 1942 a cílem bylo ztížit německým bombardérům jejich úplné zničení.)

Lawovým úkolem byla kontrola všech těchto dat, nicméně jeho tým se musel zaměřit na pročištění šesti klíčových položek: NATO identifikátory jednotlivých položek, klasifikace zásob podle NATO, výdejová jednotka, dodavatelský kód, kód balení a stupeň rizika. Těchto šest položek bylo zvoleno na základě analýzy, které položky by měly největší negativní dopad na zásobovací řetězec v případě jejich chybné identifikace.
„Prvním krokem bylo identifikace homonym a synonym,“ říká Paul Nettle, manažer TCP pro čištění dat. Homonyma jsou dvě nebo více různých položek se stejným identifikátorem, jako například zmíněné potravinové balíčky a elektronky. Synonyma jsou totožné položky s více než jedním identifikátorem – např. stejné elektronky uložené na dvou místech skladiště pod dvěma různými čísly.

„Synonyma jsou čistě neefektivní,“ konstatuje Nettle. Z takovýchto chyb vznikají nadbytečné zásoby a zbytečné nákupy, nedochází k tomu, že by jednotky byly zásobovány nesprávným zbožím.

V dalším kroku IT tým využil software pro profilování dat, který příslušné údaje prošel a zkontroloval platné NATO identifikátory. Zjištění bylo znepokojivé: 119 000 čísel (zhruba každé desáté) bylo neplatných. Kód u elektronek byl ověřen jako platný, ale číslování potravinových balíčků pocházelo ze satelitního systému, který se řídil nestandardními pravidly. Každá z chybně očíslovaných položek musela být odeslána do úřadu NATO v Glasgow ke kodifikaci, a následně bylo nutné opravit údaje ve všech systémech, v nichž se vyskytovala. Nettle a jeho tým také zjistili, že bude nutné výrazně změnit značení ve skladech, protože většina zásob byla po přečíslování umístěna v nesprávně označených regálech.

Dalším krokem bylo „fuzzy“ párování, kdy software vyhledával duplicitní údaje a chyby způsobené překlepy na klávesnici. „Schopnost ignorovat nevýznamné chyby v interpunkci a zjistit, že trojka byla zaměněna za osmičku, byla v této části velmi důležitá,“ dodává Nettle. Podobné numerické chyby mohou koneckonců změnit celý smysl textu, zatímco nesprávná interpunkce byla často zdrojem vítaného pobavení.

Více v BW11/2004.

Autor článku