;

Čištění a kontrola kvality dat

23. 5. 2007

Sdílet

Získávání závěrů z dat, ať už transakčních a operačních nebo výzkumných či monitorovacích, sbíraných ručním zápisem, přímým počítačovým vstupem nebo automatickým měřením, je pouze malou částí datového procesu. Nutnou a základní podmínkou pro správnost a spolehlivost závěrů, které mohou mít rozhodující dopad na činnost organizace, jsou kvalitní data.

Kvalita dat je v praxi tím faktorem, který nejvíce podlamuje spolehlivost závěrů. Přestože v mnoha organizacích jsou již běžně používány podnikové informační systémy a provozovány datové sklady, stává se zcela běžně, že i tato data obsahují značný podíl nekvalitních údajů. Vysoké kvality dat dosahujeme mnoha způsoby, zajištěním přesnosti záznamu, u subjektivních dat ovšem také vhodným způsobem dotazu, kontrolami hodnot i logických podmínek správnosti a smysluplnosti dat, ale nutně i kontrolou všech datových vlastností a vztahů při přebírání dat pro analýzu a při přípravě souboru.

Příprava

Etapa přípravy dat a kontroly kvality i s tím spojená úloha čištění dat a zajišťování vysoké kvality vstupů je nutnou součástí všech procesů a projektů, v nichž se připravuje datový soubor pro rozhodovací datový proces. Především tam, kde jde o podklady pro operativní řízení organizací a trhu v reálném čase a o data miningové a predikční modely (dávkové i průběžné) ústící do skórování a odhadů budoucnosti či neznámých latentních stavů, je naprosto nutné věnovat této etapě vysokou pozornost. Nekvalitní data ovlivňují odhady průměrů a procent, ale především zkreslují vztahy v predikčních modelech a výpočty skórovacích hodnot (např. u rizik, pravděpodobností odchodů zákazníků, u odhadu budoucích nákupů apod.). I malé procento nekvalitních údajů dokáže podstatným způsobem znehodnotit výsledný model.

Existuje několik základních přístupů k odhalování nekvalitních dat a jejich reparaci či odstranění. Především je to kontrola správnosti dat, ve které se zaměřujeme na přípustnost hodnot, duplicitní záznamy, jednotné a srovnatelné úrovně jednotek, hrubé chyby v záznamech hodnot apod.

Logika a rozpory

Dále kontrolujeme nelogická a zřetelně rozporná data (jako jsou chybně připojené produkty k výrobci nebo ke kategoriím, dvacetiletí prarodiče či těhotní muži). Většina proměnných má svá logická omezení, která musejí všechny hodnoty proměnné splňovat. U číselných proměnných jsou to zejména hranice a přípustné hodnoty, které musejí být dodrženy. Například hmotnost nemůže být záporná nebo podíl části na celku musí být v intervalu 0–1. Další typy omezení se týkají kategorizovaných proměnných, které mohou nabývat jen přesně určených hodnot. Důležitá jsou také pravidla, která kontrolují věcný smysl kombinací dvou nebo více proměnných.

Empirické vlastnosti

Celá řada kontrol a oprav vychází z empirických vlastností datových distribucí a je prováděna­ statistickými, matematickými a logickými postupy. Patří sem především odhalování odlehlých a podezřelých záznamů. Explorační jednorozměrná i mnohorozměrná statistická analýza upozorní na podezřelý případ, který je buď eliminován, nebo prověřen a případně opraven.
V uvedených případech jsou vždy možné manuální modifikace, ale se vhodnými softwarovými prostředky je třeba mít k dispozici i automatický proces oprav, který je nutný především u velkých souborů stále doplňovaných dat a v procesech transakčních a operačních záznamů.

Přínosy zaručeny

Data miningové modely přinášejí úspory a zisky, snižují rizika a zvyšují pravděpodobnost úspěšnosti v průběhu konkrétních marketingových, prodejních či kontrolních procesů­. Kontrola kvality, monitorování spolehlivosti a sledování nejrůznějších technických, sociálních či politických procesů a jejich predikce přinášejí informace pro optimalizaci řízení a efektivní rozhodování. K tomu jsou kvalitní data nutně zapotřebí. To se týká obchodních, finančních, výzkumných, vědeckých a akademických či státních organizací, stejně tak jako policie, armády nebo boje proti terorismu.

Autor je analytikem společnosti SPSS.

Našli jste v článku chybu?

Autor aktuality