Big data přenášejí a zpracovávají osobní identifikační údaje jednotlivce jakožto součást masy dat – milionů až bilionů záznamů – rychle tak proplouvají novými uzly, z nichž každý má své vlastní zranitelnosti. Deidentifikace maskuje osobní identifikační údaje a odděluje informace, které určují konkrétního jednotlivce od zbytku jeho či jejích dat. Všeobecně se doufá, že tento proces chrání soukromí lidí a udržuje pod pokličkou informace, které by mohly roznítit předpojatost a další druhy zneužití. Existuje však tzv. reidentifikace, jež osobní identifikační údaje skládá zpět opětovným spojováním, čímž maří přístupy deidentifikace. Proto není realistické věřit, že by deidentifikace opravdu mohla dosáhnout 100% bezpečnosti a soukromí osobních informací ve scénářích big dat.
Zranitelnosti, odhalení a deidentifikace
Podniky spravují big data za pomoci velkých, komplexních systémů. „Běžně jde o ETL proceduru (extrahovat, přenést, nahrát), která nahraje big data z tradičního RDBMS datového skladu na cluster Hadoop. Protože je většina dat nestrukturovaných, systém uskuteční operaci, jejímž účelem je data strukturovat,“ vysvětluje Brian Christian, CTO společnosti Zettaset. Během těchto transakcí jsou však data velmi zranitelná.
Tvůrci řešení pro big data nikdy nepřemýšleli nad všemi možnými důsledky. Vezměte si například „map reduce“. „Google vyvinul map reduce pro ukládání veřejných odkazů, tak aby je lidé mohli hledat,“ říká Christian. Nikdo si nelámal hlavu s bezpečností, protože šlo o veřejné odkazy. Dnes podniky využívají map reduce a NoSQL systémy pro zdravotní a finanční záznamy, které by měly zůstat soukromé. Protože zde není přítomno zabezpečení, musejí podniky a výrobci tyto systémy zabezpečením dovybavit. „To znamená velký problém,“ říká Christian, „výrobci nenavrhli firewally a systémy detekce narušení (IDS) pro distribuované výpočetní architektury.“ Tyto architektury mají tendenci se škálovat až do extrémů, kam tradiční firewally a IDS nativně nedosáhnou.
Podle článku ve Stanford Law Review dostávají zranitelnosti odhalující osobní identifikační údaje lidi pod drobnohled, což vyvolává obavy z případného profilování, diskriminace a vyčleňování na základě demografických údajů jednotlivce. Přestože firmy využívají osobní identifikační údaje primárně k marketingu, z čehož mají zákazníci často spíše výhody, mohli by titíž výrobci, ale i vládní úřady a další třetí strany jednat i ke škodě jednotlivce.
Aby se tomu vyhnuly, používají metody deidentifikace – anonymizaci, pseudonymizaci, šifrování, kódování a tříštění dat – aby osobní identifikační údaje oddělily od reálných identit. Zatímco anonymizace chrání soukromí odstraňováním jmen, adres a čísel sociálního zabezpečení, pseudonimizace tyto informace nahrazuje přezdívkami, pseudonymy a umělými identifikátory. Kódování osobní informace zakóduje a vytvoří klíč k jejich dekódování. A tříštění dat rozdělí data na částečky v horizontálním dělení, což poskytuje dostatek dat pro práci, ale zase ne tolik, aby se dal identifikovat jednotlivec.
Opětovné vytváření identit
Nicméně počítačoví vědci ukázali, že dokážou využít data, která nejsou osobně identifikovatelnými informacemi, aby opětovně vytvořili identitu související osoby. „Existuje mnoho způsobů, jak data spojit znovu dohromady, a to dokonce i tehdy, máte-li k dispozici pouze jeden typ dat,“ říká Keith Carter, který vyučuje na Ekonomické škole Národní singapurské univerzity. Pokud by nějaká firma či vláda získala seznam GPS záznamů za poslední rok, mohla by je využít k tomu, aby zjistila mnohem více o osobě či osobách, od nichž záznamy pocházejí, včetně jejich identit.
Čtěte také:
→ Big Data Suite pro efektivní práci s velkými objemy dat
První „mega sada“ nástrojů pro zpracování velkých objemů dat usnadňuje a zjednodušuje používání datové platformy Pivotal Hadoop, relační databáze MPP a transakční databáze v paměti.
→ Stanou se big data zlatým dolem?
Trh velkých dat by měl v následujících pěti letech zažít exponenciální růst, a to jak z hlediska objemu zpracovávaných dat, tak z hlediska generovaných příjmů. Zatím má ale 85 procent firem problémy s analýzou svých dat.
„Byli byste jednoduše schopni zjistit, kdo jsou, identifikací adresy, z níž pravidelně odjíždějí v sedm nebo osm ráno. Byli byste schopni vidět školu nebo kancelář, kam jezdí přes den. A byli byste schopni zjistit, kam se vrátili večer,“ říká Carter. Z těchto informací by kdokoliv mohl s vysokou přesností zjistit jejich jméno a adresu s využitím veřejně přístupných nástrojů na vyhledávání adresy. Jakmile získáte příjmení, je jednoduché dohledat, o kterého člena rodiny jde, a to z informace o tom, kam dojede, jakmile ráno opustí svůj domov – na základní či střední školu, případně na nějaké konkrétní pracoviště.
Ztráta víry
Článek v magazínu Stanford Law Review naznačuje, že schopnost opětovné identifikace lidí z kousíčků dat má negativní dopad na pravidla soukromí a podrývá víru v anonymizaci. Autoři textu rovněž tvrdí, že deidentifikace je klíčovým komponentem obchodních modelů zejména v odvětvích zdravotní péče, cílené on-line reklamy a cloudu. Mezi dopady patří to, že pokud jsou společnosti pevně zakořeněny v deidentifikaci jakožto řešení pro soukromí, mohlo by to na ně vytvořit velký tlak, aby nalezly a financovaly alternativní řešení. Zneužití, která plynou z reidentifikace, mohou mít dlouhodobé následky.
„To však v první řadě předpokládá, že vlády a firmy víru v anonymizaci měly. Existuje také domněnka, že utratily dost peněz za něco, co nepřináší hodnotu pro byznys,“ poznamenává Carter. Ve skutečnosti vlády a firmy udělaly to, že si využitím deidentifikace/anonymizace vytvořily svůj vlastní bezpečný přístav. A dokonce i když společnosti deidentifikaci nepoužívají, jsou právní následky plácnutím přes prsty, potvrzuje Carter.
Pravdou je, že se nikdy nemusí objevit adekvátní řešení obav týkajících se soukromí big dat, ať už dostupné či nedostupné. Mohou existovat pouze řešení, která chrání podniky a další entity před odpovědností a chlácholí lidi, jejichž data jsou ohrožena. Naneštěstí pro jednotlivce to znamená, že zneužití budou pokračovat, a to nezávisle na řešení, které je právě po ruce.
Čtěte také:
→ Big Data Suite pro efektivní práci s velkými objemy dat
První „mega sada“ nástrojů pro zpracování velkých objemů dat usnadňuje a zjednodušuje používání datové platformy Pivotal Hadoop, relační databáze MPP a transakční databáze v paměti.
→ Stanou se big data zlatým dolem?
Trh velkých dat by měl v následujících pěti letech zažít exponenciální růst, a to jak z hlediska objemu zpracovávaných dat, tak z hlediska generovaných příjmů. Zatím má ale 85 procent firem problémy s analýzou svých dat.