Operace čistá data

27. 11. 2004

Doba čtení: 5 minut

Brzy ráno 20. března 2003 se britští vojáci, námořní pěchota a letectvo připojili k amerických ozbrojeným silám při invazi do Iráku, jejímž cílem bylo svržení Saddáma Husajna. Do této doby sehráli klíčovou roli při obnově Basry a životně důležitého přístavu Umm Kasr v Perském zálivu. K úspěchu byly nutné masivní dodávky vojenského materiálu, a lze říci, že vše kromě vozidel, ostré munice a čerstvých zásob putovalo do Zálivu z britských vojenských skladů. Během několika týdnů, které předcházely invazi, bylo z těchto skladů letecky nebo lodí odesláno 3 169 kontejnerů a téměř 22 000 palet.

Dostat tyto zásilky do Zálivu, to byla logistická noční můra, které by však byla ještě mnohem horší, kdyby se britské ministerstvo obrany bývalo před čtyřmi lety nerozhodlo investovat 10,8 milionu dolarů do spojení tří oddělených zásobovacích řetězců. Tento projekt zahrnoval sladění 850 různých informačních systémů, integraci tří inventarizačních systémů a 15 vzdálených systémů.

Největším nepřítelem při této masivní integraci nebyl Saddám Husajn, ale znečištěná nebo nespojitá data. V jednom systému položka 99 000 1111 představovala 24hodinový potravinový balíček pro oblasti se studeným klimatem, v dalším systému totéž číslo reprezentovalo elektronku. Pokud by vyhladovělé jednotky dostaly místo potravinových balíčků elektronky, nepokročila by invaze do Iráku a jeho obnova příliš daleko.

Znečistěná data jsou již dlouhou dobu strašákem všech CIO. Ale v dnešním propojeném světě rostou náklady a důsledky nepřesných informací exponenciálně. Zmatené adresáře jsou jedna věc, chybějící vojenský materiál je věc zcela odlišná. Přičtěme k tomu komplikace vyplývající ze slučování různých souborů údajů, například v důsledku sloučení firem nebo akvizice, a problém s pročištěním dat se znásobí. Při přípravě tohoto článku jsme hovořili se zkušenými odborníky na čištění dat z nejrůznějších organizací, počínaje britským ministerstvem obrany přes americký Úřad pro sčítání lidu a konče firmou Cendant, což je realitní a pohostinský konglomerát. Nicméně poznatky se shodovaly ve dvou tématech: jak překonat technické problémy čištění dat a jak sladit práci IT a obchodní části firmy tak, aby se podařilo úkol správně realizovat.

Poznej svého nepřítele

Když britské ministerstvo obrany v roce 2000 zahájilo projekt čištění dat, stál před ním ohromný úkol, vypráví podplukovník Andrew Law, ředitel TCP (The Cleansing Project). IT tým na ministerstvu využíval tři hlavní systémy k setřídění více než 1,7 milionu záznamů, z nichž každý měl doslova stovky atributů. Každý ze záznamů se týkal položky, kterou by vojenské jednotky mohly potřebovat, mnohé z těchto položek měly být vyskladněny z roztroušených skladů v anglickém Bicesteru a na jiných místech. (Sklady v Bicesteru jsou stavěny daleko od sebe, protože byly postaveny v roce 1942 a cílem bylo ztížit německým bombardérům jejich úplné zničení.)

Lawovým úkolem byla kontrola všech těchto dat, nicméně jeho tým se musel zaměřit na pročištění šesti klíčových položek: NATO identifikátory jednotlivých položek, klasifikace zásob podle NATO, výdejová jednotka, dodavatelský kód, kód balení a stupeň rizika. Těchto šest položek bylo zvoleno na základě analýzy, které položky by měly největší negativní dopad na zásobovací řetězec v případě jejich chybné identifikace.
„Prvním krokem bylo identifikace homonym a synonym,“ říká Paul Nettle, manažer TCP pro čištění dat. Homonyma jsou dvě nebo více různých položek se stejným identifikátorem, jako například zmíněné potravinové balíčky a elektronky. Synonyma jsou totožné položky s více než jedním identifikátorem – např. stejné elektronky uložené na dvou místech skladiště pod dvěma různými čísly.

„Synonyma jsou čistě neefektivní,“ konstatuje Nettle. Z takovýchto chyb vznikají nadbytečné zásoby a zbytečné nákupy, nedochází k tomu, že by jednotky byly zásobovány nesprávným zbožím.

V dalším kroku IT tým využil software pro profilování dat, který příslušné údaje prošel a zkontroloval platné NATO identifikátory. Zjištění bylo znepokojivé: 119 000 čísel (zhruba každé desáté) bylo neplatných. Kód u elektronek byl ověřen jako platný, ale číslování potravinových balíčků pocházelo ze satelitního systému, který se řídil nestandardními pravidly. Každá z chybně očíslovaných položek musela být odeslána do úřadu NATO v Glasgow ke kodifikaci, a následně bylo nutné opravit údaje ve všech systémech, v nichž se vyskytovala. Nettle a jeho tým také zjistili, že bude nutné výrazně změnit značení ve skladech, protože většina zásob byla po přečíslování umístěna v nesprávně označených regálech.

Dalším krokem bylo „fuzzy“ párování, kdy software vyhledával duplicitní údaje a chyby způsobené překlepy na klávesnici. „Schopnost ignorovat nevýznamné chyby v interpunkci a zjistit, že trojka byla zaměněna za osmičku, byla v této části velmi důležitá,“ dodává Nettle. Podobné numerické chyby mohou koneckonců změnit celý smysl textu, zatímco nesprávná interpunkce byla často zdrojem vítaného pobavení.

Více v BW11/2004.

Našli jste v článku chybu?

Malcolm Wheatley

21. 11. Mews zase nakupuje

Český jednorožec Mews kupuje švédskou firmu Atomize, která se specializuje na software pro řízení výnosů (RMS). Díky pokročilým algoritmům umožňuje platforma Atomize hotelům dynamicky upravovat ceny a lépe využívat kapacity, což otevírá cestu k vyšším příjmům a efektivnějšímu řízení.
Mews zároveň nedávno posílil svou pozici na trhu akvizicí francouzské společnosti Quotelo, jejíž technologie usnadňuje hotelům organizaci eventů a automatizuje administrativní procesy spojené se skupinovými a firemními rezervacemi. Mews Ventures má na svém kontě od svého vzniku celkem jedenáct akvizic.
6. 11. Výhra Trumpa vytvořila nové milionáře díky BTC

Vítězství Donalda Trumpa vyvolalo výrazný nárůst hodnoty bitcoinu (BTC). Výzkum společnosti Finbold zjistil, že za posledních 30 dní vzniklo 11 487 nových bitcoinových adres, které drží 1 milion dolarů nebo více, a to především díky 7,5% růstu BTC od doby, kdy se náskok Donalda Trumpa ve volbách stal drtivým.
Nyní drží 132 842 adres v bitcoinech více než milion dolarů: 121 126 adres drží od 1 do 9,99 milionu dolarů, zatímco 11 697 adres drží 10 milionů dolarů a více. Analýza využila historické údaje a porovnávala předvolební údaje ze 7. října 2024, získané pomocí webového archivačního nástroje Wayback Machine, s nejnovějšími povolebními statistikami k 6. listopadu 2024.
6. 11. První akvizice EET v Česku

Strategickou akvizici divize náhradních dílů společnosti Moravia Consulting, která se specializuje především na obchod s náhradními díly k produktům Hewlett Packard a Hewlet Packard Enterprise uskutečnila distribuční společnost EET Group. Upevňuje tak svou pozici předního poskytovatele náhradních dílů pro IT po celé Evropě. Zároveň jde o první akvizici firmy z České republiky po vstupu EET Group na český trh.
30. 10. Miliony pro start-upy

Agentura CzechInvest otevírá další výzvu projektu Technologická inkubace. V pořadí již pátá výzva s alokací 104,8 milionu korun bude spuštěna v pravé poledne 30. října a potrvá do 29. listopadu 2024. Program, který podporuje startupové prostředí prostřednictvím sedmi specializovaných technologických hubů, nabízí podnikatelům pomoc s jejich inovativním produktem či službou. Nyní spolupracuje s téměř 180 firmami z plánovaných 250, projekt se tak již přehoupl přes svou symbolickou polovinu.
Více informací o programu a nové výzvě naleznete zde.
30. 10. Rozšiřující se DIA

Vzhledem ke sjednocování souvisejících agend přechází kompletní správa, rozvoj a financování registru obyvatel a registru osob od 1. listopadu 2024 z Ministerstva vnitra, resp. Českého statistického úřadu na Digitální a informační agenturu (DIA).
V době samotného převodu obou registrů od 31. října 20:00 do 1. listopadu 04:00 se může projevit snížená dostupnost jejich služeb, jinak by se podle tvrzení DIA dostupnost služeb nijak měnit neměla.

Sdílet

Autor článku

Malcolm Wheatley

Mohlo by vás zajímat

Businessworld Newsletter

HP Knowledge HUB
pro moderní firemní IT

Krátce

21. 11. Mews zase nakupuje

6. 11. Výhra Trumpa vytvořila nové milionáře díky BTC

6. 11. První akvizice EET v Česku

30. 10. Miliony pro start-upy

30. 10. Rozšiřující se DIA

Anketa

Je pro váš podnik umělá inteligence vhodným řešením některých požadavků?

SPECIÁLNÍ PROJEKTY

Windows chystá offline AI vyhledávání souborů Catchy headline:

Coffee break: Když Wi-Fi potřebuje překonávat i kovové zdi

Třetí čtvrtletí letošního roku ryze českých investic

Gmail chystá dočasné „štítové“ e-mailové adresy proti spamu

HPE ocenilo partnery roku 2024, nejlepším distributorem je DNS

Na co mají zaměstnanci nárok, pokud se starají o nemocné blízké?

Sledují vás přes HDMI? Revoluční útok využívá AI a elektromagnetické záření

IDC: Dodávky průmyslových tiskáren stagnují, výkonnost segmentů se ale liší

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Operace čistá data

Sdílet

Autor článku

Mohlo by vás zajímat

Kvíz týdne

21. 11. Mews zase nakupuje

6. 11. Výhra Trumpa vytvořila nové milionáře díky BTC

6. 11. První akvizice EET v Česku

30. 10. Miliony pro start-upy

30. 10. Rozšiřující se DIA

Anketa

Je pro váš podnik umělá inteligence vhodným řešením některých požadavků?

SPECIÁLNÍ PROJEKTY

Z našich webů

Windows chystá offline AI vyhledávání souborů Catchy headline:

Coffee break: Když Wi-Fi potřebuje překonávat i kovové zdi

Třetí čtvrtletí letošního roku ryze českých investic

Gmail chystá dočasné „štítové“ e-mailové adresy proti spamu

HPE ocenilo partnery roku 2024, nejlepším distributorem je DNS

Na co mají zaměstnanci nárok, pokud se starají o nemocné blízké?

Sledují vás přes HDMI? Revoluční útok využívá AI a elektromagnetické záření

IDC: Dodávky průmyslových tiskáren stagnují, výkonnost segmentů se ale liší

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Dále u nás najdete

Týmové ordinace praktiků dostanou přidáno, za to musejí nabírat pacienty

Ministr Válek má rakovinu, lékaři ji odhalili při prevenci

Akutní srdeční selhání může být horší než infarkt

Nejčastější české heslo? Pořád jen „123456“!

Youtubeři a influenceři se musí registrovat

O kolik vzrostou důchody? Spočítejte si, jak se zvýší váš

Firmy mají řešit byznys, ne hledat účtenky, razí Fidoo

Změny v dárcovství: za spermie 2 tisíce, za vajíčka 28 tisíc

„Nemáme na tom zájem“. Opozice brzdí TV poplatky

Resort spravedlnosti nestíhá digitalizaci, ČR tím přišlo o miliony

Balík od DPD si nově můžete vyzvednout i na České poště

Digitální transformace znamená neustálé změny a úpravy

Potíže, které dříve znamenaly neplodnost, umí lékaři vyřešit

Domácí mazlíčci jí téměř ožívají pod rukama. Figurky vyrábí z vlny

Firmy s vazbami na Čínu jsou problém. Zákaz je i o geopolitice

Nitroděložní tělíska jsou spolehlivá a hodí se i pro mladé ženy

Lumbální punkce sice vypadá děsivě, ale nebolí

Každý osmý diabetik má problémy s očima

Kdy začít péct cukroví? Vhodná doba nastává o adventu

USA zastavují dodávky pokročilých AI čipů TSMC do Číny