Ne vždy se datová věda jako nástroj na podporu rozhodování osvědčí, byť se dnes těší značné pozornosti IT i obchodních manažerů.
Co se dozvíte v článku
- 1. Nekvalitní data
- 2. Nejasné zadání problému k řešení
- 3. Nedostatek relevantních dat
- 4. Netransparentnost dat
- 5. Neochota připustit, že zjištění mohou být nejistá
- 6. Chybějící podpora ze strany vedení firmy
- 7. Nedostatek kvalifikovaných pracovníků
- 8. Datová věda nebyla od počátku správně zvoleným řešením
Datové projekty využívající vědecké metody, procesy, algoritmy a výpočetní systémy k získávání nejrůznějších poznatků ze strukturovaných i nestrukturovaných dat mohou z různých důvodů skončit neúspěchem a vést ke ztrátě času, peněz a jiných prostředků. Chybně postavené projekty mohou nadělat více škody než užitku tím, že poskytnou zavádějící informace jako podklad pro důležitá rozhodnutí. Existuje několik základních příčin, proč se datově vědecké projekty nevyvinou podle očekávání.
1. Nekvalitní data
Špatná data vedou ke špatným výsledkům. Je tedy nezbytně nutné dbát na maximální kvalitu dat. Platí to u každé analýzy a samozřejmě i u datové vědy.
„Nekvalitní nebo nevyčištěná data brání úspěchu datově vědeckých iniciativ,“ říká Neal Riley, CIO společnosti Adaptavist, která se zabývá poradenstvím v oblasti digitální transformace. „Data musejí být čistá a připravená k analýze, jinak je to pouze ztráta času.“
„Použije-li podnik pro účely datově vědeckého projektu nevyčištěná data, bude mít v ruce modely poskytující prapodivné výsledky, které nebudou odpovídat realitě, nebo takové, jež neumožní vylepšit příslušné podnikové procesy,“ říká Neal Riley.
Někdy jsou data nekvalitní kvůli systematické chybě, jednostrannosti nebo nesrovnalostem v datových souborech.
„Některé podniky využívají řadu různých systémů včetně všelijakých zastaralých, udržovaných pro referenci nebo ověřování. S každým novým systémem se však v mnoha případech mění i podnikové procesy a metriky. To bývá častou příčinou nezdaru datově vědeckých projektů a zkreslených zjištění. Je proto nutné jednoznačně stanovit konkrétní okamžik, od kterého se budou veškeré analýzy odvíjet,“ upozorňuje Brandon Jones, CIO mezinárodní pojišťovny Waepa.
2. Nejasné zadání problému k řešení
Datově vědecké projekty mohou jen stěží uspět, nerozumějí-li členové týmu obchodnímu problému, který mají řešit. Přesto se lze s takovou situací v mnoha případech setkat.
„Definice problému je ponechána na samotných datových vědcích, přestože jde o obchodní otázky a na výsledku analýzy dat závisí například potenciální návratnost investic,“ říká Michael Roytman, hlavní datový vědec bezpečnostní společnosti Kenna Security.
„Obchodní uživatelé musejí mít jasno o problému, který chtějí pomocí datové vědy řešit. Stejně jako u jakéhokoli jiného projektu je nutné věnovat čas přesné definici zadání, rozsahu a zdrojů dat,“ říká Marc Johnson, vedoucí konzultant a CIO společnosti Impact Advisors, která se specializuje na poradenství ve zdravotnictví.
„Před několika lety jsem byl požádán o vytvoření analytického produktu pro dvacet let starou firmu. Neexistoval však žádný průzkum mezi zákazníky, zda je po takovém produktu vůbec na trhu poptávka. Nebyly ani definované metriky, které by měl produkt zkoumat. Vše vycházelo z tvrzení, že konkurence údajně analytický produkt má a že o něj prý zákazníci mají zájem. Projekt se dva roky potácel na jenom místě, protože nebylo jasné, kam má směřovat,“ Johnson popisuje svoji zkušenost.
Chcete dostávat do mailu týdenní přehled článků z CIO Business Worldu? Objednejte si náš mailový servis a žádná důležitá informace vám neuteče. Objednat si lze také newsletter To hlavní, páteční souhrn nejdůležitějších článků ze všech našich serverů. Newslettery si můžete objednat na této stránce.
3. Nedostatek relevantních dat
Další spolehlivý způsob, jak potopit datově vědecký projekt, je neposkytnout specifické druhy dat potřebné k řešení daného zadání. Vrhnout na problém obří objem dat není totiž řešení.
„Panuje představa, že z velkého objemu dat lze získat cenné poznatky. To se však stává zřídka,“ říká Michael Roytman. „Za vznikem robustních zobecnitelných modelů často stojí chytře zvolené, přizpůsobené a mnohdy spíše menší soubory dat.“
„Má-li být datová věda přínosem, je nutné průběžně shromažďovat data z nejrelevantnějších zdrojů, není to jednorázová záležitost,“ upozorňuje Marc Johnson a varuje: „Při získávání nebo nákupu dat z různých zdrojů je nutné dát pozor, aby případné úpravy nebyly na úkor kvality celého souboru dat a nezkreslily výsledky. Ošetřit je nutné také právní a etické otázky, ochranu osobních údajů apod.“
4. Netransparentnost dat
Datově vědecké týmy musejí být naprosto transparentní v tom, jaká data užily k tvorbě každého svého modelu.
„Datově vědecké projekty končí neúspěchem, když lidé nedůvěřují modelu nebo nerozumějí řešení,“ říká Jack McCarthy, CIO soudního systému státu New Jersey. „Bojovat proti tomu lze ukázáním matematických principů a vysvětlením modelu netechnicky zaměřeným zainteresovaným stranám způsobem, jakému budou rozumět.“
„Datoví vědci musejí uvést, odkud pocházejí data, srozumitelně popsat, jak vytvořili modely, a poskytnout přístup ke všem relevantním informacím. Transparentnost totiž může být klíčem k úspěchu projektu,“ poznamenává Jack McCarthy.
Jako příklad uvádí algoritmus pro posuzování rizik užívaný v New Jersey. „Všechny strany obdrží zprávu, jež udává, které případy v historii obžalovaného spadají do které kategorie a jejich závažnost. Jejich zohlednění v případu mohou obě strany napadnout. Vše je zcela transparentní.“
5. Neochota připustit, že zjištění mohou být nejistá
Někdy není obchodní jednotka, která žádá o analýzu dat, nebo samotný datově vědecký tým ochotný přiznat, že zjištění jsou nejistá, nejasná nebo nedostatečně průkazná, aby byla reálně využitelná.
„Je naprosto přípustné a přijatelné říci, že model není dostatečně dobrý na to, aby z něj podnik měl ekonomický užitek,“ říká Michael Roytman.
Datově vědecký tým společnosti Kenna Security strávil dva měsíce tvorbou modelu pro klasifikaci zranitelností, který by automaticky kategorizoval zranitelnosti podle systému CWE. „Model fungoval. Byla to solidní odpověď na problém, jaký se řeší v pokročilých vysokoškolských kurzech. Ale nedostačoval z hlediska potřeb zákazníků – byl málo přesný. Projekt jsme proto zrušili, i když nás stál čas a peníze a přinesl hmatatelný výsledek,“ popisuje Roytman.
6. Chybějící podpora ze strany vedení firmy
Datově vědecké projekty potřebují sponzora v nejvyšším vedení firmy, který zajistí, že se jim dostane potřebných prostředků a podpory.
„Je užitečné, pokud jím je CIO. U nás datovou vědu bereme jako nedílnou součást našich činností a já se starám o jejich podporu a propagaci uvnitř firmy,“ říká Neal Riley a dodává, že i v případech, kdy CIO není interním sponzorem datové vědy, měl by být zodpovědný za zajišťování bezpečnosti veškerých užívaných dat. Ale zapojený by měl být mnohem šířeji než pouze do otázek bezpečnosti.
Podle jeho názoru spočívá role moderního CIO v získávání maximálního užitku z dostupných informací. K dispozici má data i nástroje k jejich inteligentnímu využití a s tím by měl smysluplně pracovat ku prospěchu celého podniku.
Jeho firma Adaptavist s největším úspěchem využila datovou vědu při rozhodování o nových obchodních taktikách a vylaďování procesu prodeje. „Nemá to nic společného s produktem, IT infrastrukturou ani marketingem. Týká se to optimalizace podnikových procesů a efektivnějšího zacházení s potenciálními obchodními případy,“ vysvětluje Neal Riley.
7. Nedostatek kvalifikovaných pracovníků
Nedostatek kvalifikovaných zaměstnanců způsobuje potíže v mnoha oblastech informačních technologií a datová věda není výjimkou. Řada podniků nedisponuje potřebnými schopnostmi, aby mohla z projektů získat maximální užitek nebo o nich vůbec uvažovat.
„Skuteční datoví vědci jsou velmi žádaní, těžko k nalezení a drazí,“ říká Tracy Huitika, CIO společnosti Beanworks, která poskytuje cloudové řešení pro automatizaci pohledávek. „Taková pozice obvykle vyžaduje doktorát z matematiky nebo přírodních věd, ale také schopnost programovat v R a Pythonu.
Podle Marca Johnsona je jednou z hlavních příčin nezdaru datově vědeckých projektů, byť by se dostaly do produkční fáze, nedostatek pracovníků, kteří by je udržovali v chodu. „Nechat špičkového datového vědce vytvořit model, aniž máte plán, jak zajistit jeho fungování v provozu včetně průběžných úprav podle vývoje trhu a dat, je jako zkonstruovat sportovní vůz a dát klíčky do rukou desetiletému dítěti,“ varuje Johnson.
Firmy proto potřebují získat patřičně kvalifikované pracovníky k udržování modelu – buď přímým náborem, nebo pomocí externích odborníků či konzultantů.
8. Datová věda nebyla od počátku správně zvoleným řešením
Co když k řešení určitého problému není datová věda vůbec zapotřebí? Využití této disciplíny v nevhodných případech může skončit neúspěchem. Je tedy žádoucí se nad aplikací datově vědeckých metod, procesů a nástrojů dobře zamyslet.
„Jednou z nejčastějších příčin selhání datové vědy je snaha o uplatnění jejích algoritmů a strojového učení tam, kde to není vhodné řešení,“ říká Neal Riley. „Někdy není model strojového učení vůbec zapotřebí a stačí běžné statistické postupy. Jednou jsme takovou situaci zažili při modelování pro účely vizualizace prediktorů budoucí ekonomické úspěšnosti našich jednotlivých obchodních činností. Nakonec se ukázalo, že nepotřebujeme datovou vědu, ale nejlepší nástroj v tomto případě je prostá regresní analýza.“
Článek vyšel v magazínu CIO BW 6/2021.
CIO Business World si můžete objednat i jako klasický časopis (v tištěné i v digitální podobně) Věnujeme se nejnovějším technologiím a efektivnímu řízení podnikové informatiky. Přinášíme nové ekonomické trendy a analýzy a zejména praktické informace z oblasti podnikového IT se zaměřením na obchodní a podnikatelské přínosy informačních technologií. Nabízíme možná řešení problémů spojených s podnikovým IT v období omezených rozpočtů. Naší cílovou skupinou je vyšší management ze všech odvětví ekonomiky.