Kdesi na své cestě se počítače transformovaly z kartoték na data do křišťálových koulí, které předpovídají budoucnost tím, že tato data zkoumají a odhadují z nich, co by se mohlo stát během několika sekund, několika dní, možná i několika let.
Mnoho nástrojů pro dosažení tohoto úkolu spadá pod pojem „prediktivní analytika“. Tento termín zastřešuje algoritmy vyvinuté v průběhu let, od zcela odlišných koutů statistiky, umělé inteligence, strojového učení a vícerozměrné matematiky. Tyto nástroje se přesunuly z laboratoří do podniků, kde plní serverové farmy, a nyní jsou připraveny vést obchodní týmy k tomu, aby činily správná rozhodnutí o přidělování zdrojů a dosahování zisků.
Nástroje mají dvě hlavní role, z nichž ta zřejmější spočívá v nahlédnutí do moře bitů v databázi a vytržení nějaké té vize pro budoucnost. Dělají to podporou několika dobrých algoritmů s různými strategickými přístupy; některé podporují desítky takových algoritmů.
Druhá role je méně zřetelná, ale často časově náročnější. Příprava dat může být vysilující, protože data jsou zřídka tak konzistentní nebo čistá, jak potřebujeme. Pokud existují dva soubory, které je třeba integrovat, jsou u nich často různé datové formáty (od slova datum) a dělení do různých časových pásem. Sjednocení takových komplikací je ale snadné. Obtížnější příklady zahrnují chybějící pole nebo hodnoty vepsané na nesprávná místa; ty mohou být výsledkem chyby – nebo by mohlo jít o přesné znaménko, které musí být zahrnuto do datové sady. Odstranění chyb při zachování integrity dat je skutečnou výzvou. Všechny nejlepší nástroje nabízejí dobrou podporu pro přípravu dat a prezentaci výsledků.
Mnoho nástrojů pro prediktivní analýzu jsou rozšíření značky vytvořená vývojáři databází a obchodními analytiky a prodejci reportovacích nástrojů, kteří pomalu spojili tradiční generování sestav s algoritmy AI, aby vytvořili nástroje, které shrnují data i nabízejí předpovědi.
Mnoho nástrojů je úzce spojeno s konkrétním produktem pro ukládání dat. I když všichni pracují s generickými formáty, jako je CSV, mají tendenci pracovat s některými databázemi o něco lépe, protože tyto databáze jsou vlastněny společností, která vyvinula ony prediktivní schopnosti. Často je nejjednodušší využít nástroj vytvořený stejnou společností, která ukládá vaše data.
Samozřejmě můžete vždy migrovat nebo exportovat data ve standardním formátu, abyste využili jiný nástroj. Na správném připojení trubek často není moc práce, takže jimi bity tečou relativně hladce a z konce potrubí pak vycházejí finální postřehy.
Zde je 15 prediktivních analytických nástrojů, které revolucionizují způsob, jakým společnosti využívají svá data k přijímání obchodních rozhodnutí s ohledem na budoucnost.
Alteryx
Alteryx se zaměřil na automatizaci světa prediktivní analýzy integrací prediktivních algoritmů do své platformy pro generování sestav a správu workflow. Tento nástroj má velkou knihovnu rutin sběru dat, která dokáže importovat data z široké škály hlavních a „ne tak hlavních“ zdrojů, které mohou být nové nebo dokonce celé dekády staré. Tento nástroj je vysoce přizpůsobitelný a zaměřený na každodenní použití technologicky zručnějšími manažery namísto vývojářů, aby tak povzbudil rozšířené vylepšení prediktivní technologie na reporting a business intelligence. Společnost se také zaměřila na dodávku předpřipravených řešení přizpůsobených pro různá firemní oddělení, od marketingu po výzkum, aby tak podpořila rychlejší míru přijetí.
Amazon
Okruh nástrojů společnosti AWS zaměřené na vyhledávání signálů v datových proudech se neustále rozšiřuje. Tyto nástroje se obvykle dělí do různých produktových řad a jsou spojeny možnostmi ukládání dat AWS (obvykle S3 „buckets“). Amazon Forecast se například zaměřuje na rozšíření údajů o časových řadách, aby předpověděl, kolik prodejů se očekává v příštím čtvrtletí a kolik zdrojů je třeba předem propojit, aby byla uspokojena očekávaná poptávka. Amazon Code Guru vyhledá špatné vzorce kódů, které pomohou vylepšit váš kód. Některé z těchto nástrojů byly vyvinuty společností Amazon na podporu vlastního podnikání (Fraud Detector a Amazon Personalize) a společnost tyto nástroje prodává ostatním, kteří by si mohli budovat vlastní impérium elektronického obchodu.
Board
Společnosti, které rády udržují dashboardy shrnující trendy v datech, mohou Board použít ke sběru dat z široké škály datových sil (ERP, SQL atd.) A proměnit je v zprávy, které shrnují minulost a předpovídají budoucnost. Důraz je kladen na shromažďování dat z co největšího množství zdrojů a jejich přeměnu ve standardizovaný „pohled“, který lze poté přímo použít pro vizualizaci nebo prediktivní analýzu (strojové učení, shlukové algoritmy nebo čistě statistické algoritmy).
Dash
Sada nástrojů Dash je rozdělena do dvou úrovní: verze s otevřeným zdrojovým kódem a podnikový systém, který spravuje cloud modelů ve vývoji nebo v aktivním používání. Verze s otevřeným zdrojovým kódem sdružuje mnoho nejlepších knihoven Pythonu pro analýzu a vizualizaci dat. Podniková verze pak přidává Kubernetes, autentizaci a několik dalších důležitých nástrojů, jako je integrace GPU pro případy nasazení, které slouží velkým skupinám uživatelů. Podniková verze také obsahuje další tzv. low-code vylepšení pro vlastní produkci dashboardů a dalších populárních rozhraní.
Databricks
Společnosti s rozsáhlými sbírkami dat mohou použít sadu nástrojů Databricks, která je řešena jako nadstavba Apache Spark, Delta Lake, TensorFlow a ML Flow, čtyř populárních open source projektů propagovaných lidmi, kteří pracují v Databricks. Společnost navíc přidává kolekci nástrojů, jako jsou spolupracující notebooky a pipeliny pro zpracování dat, aby usnadnila integraci výkonu do vašeho workflow. Databricks již vyvinula verze integrované s AWS a Azure, aby zjednodušila práci s daty v těchto cloudech. Jedna nedávná případová studie ukazuje, jak Databricks pomohly předvídat problémy s údržbou při vrtání ropy před selháním.
DataRobot
Společnosti, které hledají různé možnosti nasazení svých modelů na lokální hardware, cloud nebo něco hybridnějšího, mohou DataRobot použít ke správě svých dat a modelů. Nástroje nabízejí automatizované strojové učení se sbírkou rutin přizpůsobených pro běžná průmyslová odvětví, jako je pojištění (vyvažování rizika s cenotvorbou).
IBM
Nástroje IBM pocházejí ze dvou samostatných vývojových tradic. SPSS modeller byl spuštěn v 60. letech a stal se základem mnoha společností, které chtěly optimalizovat své výrobní linky pomocí statistik. Éra děrovaných karet je však již dávno pryč a nástroj nyní umožňuje neprogramátorům přetahovat data pomocí grafického uživatelského rozhraní a vytvářet sestavy plné statistických měření. Další velká kolekce společnosti IBM je spojena pod značkou Watson proslavenou soutěží Jeopardy. Tyto nástroje jsou z velké části založeny na iteračních algoritmech strojového učení, které jsou schopny pořizovat tréninková data a převádět je na modely. Kód může pracovat se surovými čísly, obrázky nebo nestrukturovaným textem.
Information Builders
Datová platforma Information Builders enables umožňuje datovým architektům nastavit vizuální potrubí (pipeline), které shromažďuje data ze zdrojů, čistí je a poté spouští analytické nástroje. Důležitý soubor možností nastavení umožňuje komplexní modely správy dat pro ochranu informací, které nemohou být široce sdíleny se všemi uživateli. Existují přizpůsobené šablony pro důležitá průmyslová odvětví, jako je výroba a obslužné programy, které uživatelům umožňují rychle rozvíjet provozní informace o jejich obchodních pravidlech.
MathWorks
MathWorks začal jako společnost zaměřená na pomoc vědcům pracujícím s velkými matricemi s využitím svého MATLABu a pomalu roste a zahrnuje stále více různých forem numerické analýzy dat. Produkty v rámci značky MATLAB se zaměřují na optimalizaci a statistickou analýzu, zatímco nástroje v rámci značky SIMULINK poskytují simulaci a modelování. Mnoho skupin může chtít jeden ze specializovaných toolboxů, které přizpůsobují nástroje pro konkrétní trhy, jako jsou autonomní automobily, konstrukce antén nebo zpracování obrazu. Existuje několik desítek variant.
Python
Ačkoliv Python začal život jako skriptovací jazyk podobný Perlu, stal se jedním z nejpopulárnějších jazyků pro analýzu dat ve vědách. Mnoho výzkumných laboratoří používá k analýze svých výsledků právě kód Pythonu. V poslední době začali vědci spojovat data, analytický kód a psaný popis do notebooků Jupyter, což je formát, který vytváří živé zprávy, které čtenář dokáže nejen číst, ale také vyladit a znovu analyzovat. Nástroje Pythonu, jako jsou notebooky Jupyter, PyCharm, Spyder a IDLE, jsou místem, kde lze najít některé z nejnovějších myšlenek, jež jsou ale často jen hrubě zpracované a nejlépe tak osloví vývojáře softwaru a datové vědce. Mnoho cloudů nyní nabízí specializovaná prostředí pro sdílení notebooků Jupyter, jako jsou textové nebo tabulkové procesory, a představují dobrý způsob šíření prediktivní analýzy.
R
Tohle je technicky pouze otevřený zdrojový jazyk pro analýzu dat, který je z velké části vytvořen a podporován akademickou komunitou. I když existují některé dobré obecné integrované nástroje pro používání R, jako je R Studio, Radiant nebo Visual Studio, jsou tyto nástroje nejvhodnější pro programátory a „hardcore“ vědce. Nejnovější nápady z výzkumných laboratoří se často objevují nejprve jako balíčky R a právě „hardcore“ datoví vědci je rádi prozkoumávají. Mnoho dalších nástrojů v tomto seznamu umožňuje integrovat kód R jako moduly. Pokud z integrovaných nástrojů nemůžete získat to, co chcete, můžete se vždy hlouběji ponořit do R modulů s otevřeným zdrojovým kódem.
Rapid Miner
Nástroje pro modelování v RapidMiner jsou navrženy tak, aby byly co nejvíce automatizované, a aby tak týmy mohly vytvářet prediktivní modely s minimální asistencí. Vývojové studio produkuje funkční notebooky Jupyter s „automatizovaným výběrem modelu“ a „přípravou řízených dat“. Modely jsou vybírány z mnoha standardních voleb postavených na principech, jako jsou klasické strojové učení, bayesovská logika, statistická regrese nebo různé formy shlukování. Vývojáři se snažili vyhnout „černým skříňkám“ přidáním vysvětlení, aby uživatelé mohli mít větší důvěru v to, jak modely odvozují své výsledky.
SAP
Mnoho společností spoléhá na společnost SAP při správě svých dodavatelských řetězců, a nyní jsou nástroje pro podávání zpráv SAP vylepšeny tak, aby nabízely prediktivní analýzu, která týmům umožňuje vytvářet předpovědi z modelů strojového učení vytvořených z dřívějších dat. Algoritmy zahrnují jak tradiční umělou inteligenci, tak simulace. Software lze spustit lokálně nebo v cloudu SAP. Vývojáři také usilují o podporu celého podniku přizpůsobenými uživatelskými rozhraními, která mohou zůstat konzistentní mezi jednotlivými odděleními. Uživatelé fungující ve webovém prostředí nebo v mobilních zařízeních dostávají vyladěné přehledy, čímž je podporována rozsáhlá míra přijetí.
SAS Advanced Analytics
Sbírka nástrojů SAS sdružuje téměř dva tucty různých balíčků do jediné platformy, která proměňuje vaše SAS data v náhledy a předpovědi. Statistické balíčky a dolování dat se zaměří na korelace mezi datovými prvky a nástroje pro optimalizaci a predikci najdou řešení a budoucí vodítka. Velký důraz je kladen na analýzu textu, aby bylo možné podrobně rozebrat detaoůy v nestrukturovaném textu. V poslední době společnost ilustruje schopnost softwaru ukázat, jak může pomoci externím „stopařům“ sledovat průběh pandemie.
Tableau
Tableau, který loni získala společnost Salesforce.com, na sebe upozornil díky svému sofistikovanému a rafinovanému grafickému vykreslování reportovacích informací. Řídicí panely lze nyní rozšířit pomocí integrovaného analytického modelu, který poskytuje interaktivní možnosti vizuálního porozumění. Tento nástroj závisí na bohaté sbírce modulů pro sběr a přípravu dat pro analýzu.