Datamining je netriviální proces zjišťování platných, neznámých, potenciálně užitečných a snadno pochopitelných závislostí v údajích.
Datamining je proces analýzy dat z různých perspektiv a jejich přeměny na užitečné informace. Z matematického a statistického hlediska jde o hledání korelací, tedy vzájemných vztahů nebo vzorů v údajích. Využívá statistické metody, neuronové sítě a další metody z oblasti umělé inteligence. Umožňuje studovat, pochopit a pravděpodobně i vylepšit prakticky jakýkoli proces ve vzájemně velmi odlišných oblastech, jako jsou například řízení procesu výroby, lidské zdroje, analýza lékařských vzorků, analýza signálů... prostě všude tam, kde je možné shromažďovat údaje z procesů.
Pomáhá sledovat a analyzovat trendy a předvídat události. Může se využívat v bankovnictví při analýze a predikci úvěrového rizika, predikci rizika při vydávání kreditních karet, u operátorů telekomunikačních sítí, při optimalizaci dopravní infrastruktury, ve zdravotnictví pro analýzu laboratorních vzorků a podobně.
Jako příklad z oblasti zdravotnictví uvedeme screening karcinomu prostaty. Na základě různých kritérií se lékaři rozhodují, komu pomocí nepříjemné a bolestivé biopsie přes konečník odebrat vzorky na laboratorní vyšetření. Berou přitom v úvahu různé rizikové faktory a záznamy o výsledcích tisíců vyšetření. Je třeba upřesnit, které atributy zohlednit při rozhodnutí.
Co datamining neumožňuje
Po přečtení úvodu by se zdálo, že datamining by mohl být univerzální a téměř „všemocnou“ metodou. Samozřejmě tomu tak není. Někdy je sice možné na základě víceméně náhodně vybraných vstupů získat cenné informace, jindy však může být výsledek dataminingu triviální, v praxi nevyužitelný, ba dokonce žádný.
Nemá totiž smysl dokonce ani při procvičování dataminingu aplikovat dataminingový model na databázi naplněnou náhodnými daty. Kde se v údajích žádné informace ani souvislosti neskrývají, nemůžete je samozřejmě ani vydolovat. I při reálných údajích musejí tyto informace být kvalitní, tedy kvalitně připraveny.
Procesní schéma dataminingu
Proces dataminingu je možné rozdělit do tří fází: průzkum dat čili učení, nalezení souvislostí čili poznatků a v poslední třetí fázi se udělá predikce. Ve fázi trénování a vytváření modelu lze v údajích, které jsou k dispozici, odkrývat různé závislosti, jež tyto informace v sobě skrývají.
Takto vytvořené znalosti se pak využívají při prediktivní analýze nových případů. V učicí fázi se dataminingový model učí a zpřesňuje své parametry na množině dat získaných z dosud existujících případů. Jako podklad pro učicí fázi slouží dosud shromážděné (naměřené) a vyhodnocené údaje. V etapě predikce se již naučený dataminingový model aplikuje na množinu vstupních dat, ze kterých potřebujeme získat souvislosti. Aplikace pro datamining mají zpravidla implementovány algoritmy typu lineární regrese, logistická regrese, rozpadové stromy, shlukování, sekvenční shlukování, asociační pravidla časové řady, neuronové sítě, naive Bayes a mnohé další.
Jednoznačné doporučení pro výběr nejvhodnějšího algoritmu pro tu kterou roli neexistuje, vždy to závisí na každém konkrétním případu.
Například algoritmus využívající rozhodovací stromy je velmi rychlý a podporuje predikci diskrétních i spojitých atributů. Cílem algoritmu je identifikovat entity popsané různými atributy a rozdělit je do tříd. Rozhodovací strom se vytváří z množiny daných objektů, které se zařazují do skupin. Někdy se pro tento algoritmus používá i označení rozpadové stromy.
Algoritmus na odhalování shluků dat se snaží organizovat podobné objekty do skupin. Vyhledávají se přirozené shluky (clustery) dat, přičemž kritéria shlukování nejsou předem daná, ale odhalují se z přirozené struktury dat. Algoritmus je vhodný například k identifikaci zákaznických segmentů, které jsou založeny na společných charakteristikách, například demografických, sociálních, profesních a podobně.
Na úlohy typu analýza nákupního košíku se často využívají algoritmy na bázi asociačních pravidel, zaměřené na odkrývání vztahů v datech a odhalování různých souvislostí přiřazování. Z hlediska matematické statistiky jde o zkoumání korelace, ať už pozitivní nebo negativní.
Algoritmus analýzy časových řad umožňuje na základě analýzy údajů z minulosti a současnosti definovat určitá pravidla, pomocí kterých pak předpovídá budoucí trend dané proměnné, typicky obratu či zisku. V principu jde o regresi časových úseků, takže předpovědi trendů v sobě zahrnují i krátkodobé cyklické fluktuace, například zvýšení obratu před obdobím nákupní špičky.
Zpracování pomocí neuronových sítí nevychází ze žádného statistického rozdělení, ale pracuje podobně jako lidský mozek na principu rozpoznávání vzorů a minimalizace chyb. Tento proces si můžete představit jako příjem informací a poučení se z každé zkušenosti. Neuronové sítě tvoří uzly uspořádané do vrstev. Předtím, než se začne vlastní proces, údaje se rozdělí do trénovací a testovací množiny. Během každé iterace jsou vstupy zpracovávány systémem a jsou porovnávány se skutečnou hodnotou. Změří se chyba a předá se ke zpracování systému, aby upravil původní váhy. Proces končí zpravidla v okamžiku dosažení předem určené minimální chyby.
Samoobslužné dolování dat
Výběr algoritmů pro řešení typických okruhů úloh není jednoduchý a už zdaleka ne jednoznačný. Management potřebuje získat odpovědi na otázky typu: „Jaké typy kampaní a členských karet má nabízet obchodní firma?“, „Jaký okruh zájemců osloví reklamní a marketingová kampaň?“, „Proč firma ztrácí zákazníky?“, „Bude zamýšlený produkt úspěšný?“
Datoví vědci nebo v menších firmách specialisté na analýzy pak experimentují a hledají nejvhodnější algoritmy a jejich parametry. Takto se to dělalo v minulosti, v současnosti se u špičkových analytických aplikací prosazuje trend samoobslužné BI čili manažeři dokážou pomocí interaktivních a názorných průvodců vytvářet modely pro běžné analytické úlohy sami.
Tomu jsou přizpůsobeny i tutoriály, které jsou maximálně srozumitelné, až žertovné. Například tutoriál od Oraclu využívá jako cvičné údaje tabulku s informacemi o tom, jak jednotlivá plemena psů hrají poker. Je to parodie na hru dogsplayingpoker.org. Je to fiktivní, ale pro každého srozumitelné. Pokud by byl použit námět příkladu z byznysu, nemuseli by mu rozumět biologové, a naopak.
Stejně srozumitelný, ale z reálné praxe, je cvičný příklad dataminingu umožňující na základě atributů určit, zda je zkoumaná houba jedlá, nebo nejedlá, či jedovatá.
Tutoriál s námětem palatibility hub je užitečnější, než by se na první pohled mohlo zdát. Aplikováním modelu rozpadových stromů na databázi obchodních případů můžete na základě atributů dosavadních prodejů a seznamu zákazníků z CRM databáze predikovat, zda si ten který zákazník produkt potenciálně koupí, a v tom případě má smysl oslovit ho s marketingovou nabídkou, nebo téměř jistě nekoupí.
Datamining je věda a umění extrahování skrytých hodnotných informací z velkých objemů dat, které se použijí při tvorbě efektivních rozhodnutí. Je to způsob učení se z minulosti, tak aby se v budoucnu přijímala lepší rozhodnutí.
Datamining umožňuje přeměnit reaktivní firmu na proaktivní. Organizace, které nevyužívají své nejhodnotnější aktivum – data a v nich ukryté informace, budou poraženy konkurencí používající strategie vyvinuté na základě extrahování informací z jejich dat.
Autor je redaktorem PC Revue.