Big data: otázky bezpečnosti a soukromí stále nezodpovězeny

15. 5. 2014

Doba čtení: 7 minut

Přístupy k ukládání, správě, analýze a sběru big dat jsou nové, což s sebou samozřejmě přináší i četné výzvy v oblasti bezpečnosti a soukromí.

Big data přenášejí a zpracovávají osobní identifikační údaje jednotlivce jakožto součást masy dat – milionů až bilionů záznamů – rychle tak proplouvají novými uzly, z nichž každý má své vlastní zranitelnosti. Deidentifikace maskuje osobní identifikační údaje a odděluje informace, které určují konkrétního jednotlivce od zbytku jeho či jejích dat. Všeobecně se doufá, že tento proces chrání soukromí lidí a udržuje pod pokličkou informace, které by mohly roznítit předpojatost a další druhy zneužití. Existuje však tzv. reidentifikace, jež osobní identifikační údaje skládá zpět opětovným spojováním, čímž maří přístupy deidentifikace. Proto není realistické věřit, že by deidentifikace opravdu mohla dosáhnout 100% bezpečnosti a soukromí osobních informací ve scénářích big dat.

Zranitelnosti, odhalení a deidentifikace

Podniky spravují big data za pomoci velkých, komplexních systémů. „Běžně jde o ETL proceduru (extrahovat, přenést, nahrát), která nahraje big data z tradičního RDBMS datového skladu na cluster Hadoop. Protože je většina dat nestrukturovaných, systém uskuteční operaci, jejímž účelem je data strukturovat,“ vysvětluje Brian Christian, CTO společnosti Zettaset. Během těchto transakcí jsou však data velmi zranitelná.

Tvůrci řešení pro big data nikdy nepřemýšleli nad všemi možnými důsledky. Vezměte si například „map reduce“. „Google vyvinul map reduce pro ukládání veřejných odkazů, tak aby je lidé mohli hledat,“ říká Christian. Nikdo si nelámal hlavu s bezpečností, protože šlo o veřejné odkazy. Dnes podniky využívají map reduce a NoSQL systémy pro zdravotní a finanční záznamy, které by měly zůstat soukromé. Protože zde není přítomno zabezpečení, musejí podniky a výrobci tyto systémy zabezpečením dovybavit. „To znamená velký problém,“ říká Christian, „výrobci nenavrhli firewally a systémy detekce narušení (IDS) pro distribuované výpočetní architektury.“ Tyto architektury mají tendenci se škálovat až do extrémů, kam tradiční firewally a IDS nativně nedosáhnou.

Podle článku ve Stanford Law Review dostávají zranitelnosti odhalující osobní identifikační údaje lidi pod drobnohled, což vyvolává obavy z případného profilování, diskriminace a vyčleňování na základě demografických údajů jednotlivce. Přestože firmy využívají osobní identifikační údaje primárně k marketingu, z čehož mají zákazníci často spíše výhody, mohli by titíž výrobci, ale i vládní úřady a další třetí strany jednat i ke škodě jednotlivce.

Aby se tomu vyhnuly, používají metody deidentifikace – anonymizaci, pseudonymizaci, šifrování, kódování a tříštění dat – aby osobní identifikační údaje oddělily od reálných identit. Zatímco anonymizace chrání soukromí odstraňováním jmen, adres a čísel sociálního zabezpečení, pseudonimizace tyto informace nahrazuje přezdívkami, pseudonymy a umělými identifikátory. Kódování osobní informace zakóduje a vytvoří klíč k jejich dekódování. A tříštění dat rozdělí data na částečky v horizontálním dělení, což poskytuje dostatek dat pro práci, ale zase ne tolik, aby se dal identifikovat jednotlivec.

Opětovné vytváření identit

Nicméně počítačoví vědci ukázali, že dokážou využít data, která nejsou osobně identifikovatelnými informacemi, aby opětovně vytvořili identitu související osoby. „Existuje mnoho způsobů, jak data spojit znovu dohromady, a to dokonce i tehdy, máte-li k dispozici pouze jeden typ dat,“ říká Keith Carter, který vyučuje na Ekonomické škole Národní singapurské univerzity. Pokud by nějaká firma či vláda získala seznam GPS záznamů za poslední rok, mohla by je využít k tomu, aby zjistila mnohem více o osobě či osobách, od nichž záznamy pocházejí, včetně jejich identit.

Čtěte také:
→ Big Data Suite pro efektivní práci s velkými objemy dat
První „mega sada“ nástrojů pro zpracování velkých objemů dat usnadňuje a zjednodušuje používání datové platformy Pivotal Hadoop, relační databáze MPP a transakční databáze v paměti.
→ Stanou se big data zlatým dolem?
Trh velkých dat by měl v následujících pěti letech zažít exponenciální růst, a to jak z hlediska objemu zpracovávaných dat, tak z hlediska generovaných příjmů. Zatím má ale 85 procent firem problémy s analýzou svých dat.

„Byli byste jednoduše schopni zjistit, kdo jsou, identifikací adresy, z níž pravidelně odjíždějí v sedm nebo osm ráno. Byli byste schopni vidět školu nebo kancelář, kam jezdí přes den. A byli byste schopni zjistit, kam se vrátili večer,“ říká Carter. Z těchto informací by kdokoliv mohl s vysokou přesností zjistit jejich jméno a adresu s využitím veřejně přístupných nástrojů na vyhledávání adresy. Jakmile získáte příjmení, je jednoduché dohledat, o kterého člena rodiny jde, a to z informace o tom, kam dojede, jakmile ráno opustí svůj domov – na základní či střední školu, případně na nějaké konkrétní pracoviště.

Ztráta víry

Článek v magazínu Stanford Law Review naznačuje, že schopnost opětovné identifikace lidí z kousíčků dat má negativní dopad na pravidla soukromí a podrývá víru v anonymizaci. Autoři textu rovněž tvrdí, že deidentifikace je klíčovým komponentem obchodních modelů zejména v odvětvích zdravotní péče, cílené on-line reklamy a cloudu. Mezi dopady patří to, že pokud jsou společnosti pevně zakořeněny v deidentifikaci jakožto řešení pro soukromí, mohlo by to na ně vytvořit velký tlak, aby nalezly a financovaly alternativní řešení. Zneužití, která plynou z reidentifikace, mohou mít dlouhodobé následky.

„To však v první řadě předpokládá, že vlády a firmy víru v anonymizaci měly. Existuje také domněnka, že utratily dost peněz za něco, co nepřináší hodnotu pro byznys,“ poznamenává Carter. Ve skutečnosti vlády a firmy udělaly to, že si využitím deidentifikace/anonymizace vytvořily svůj vlastní bezpečný přístav. A dokonce i když společnosti deidentifikaci nepoužívají, jsou právní následky plácnutím přes prsty, potvrzuje Carter.

Pravdou je, že se nikdy nemusí objevit adekvátní řešení obav týkajících se soukromí big dat, ať už dostupné či nedostupné. Mohou existovat pouze řešení, která chrání podniky a další entity před odpovědností a chlácholí lidi, jejichž data jsou ohrožena. Naneštěstí pro jednotlivce to znamená, že zneužití budou pokračovat, a to nezávisle na řešení, které je právě po ruce.

Našli jste v článku chybu?

David Geer

Témata:

21. 11. Mews zase nakupuje

Český jednorožec Mews kupuje švédskou firmu Atomize, která se specializuje na software pro řízení výnosů (RMS). Díky pokročilým algoritmům umožňuje platforma Atomize hotelům dynamicky upravovat ceny a lépe využívat kapacity, což otevírá cestu k vyšším příjmům a efektivnějšímu řízení.
Mews zároveň nedávno posílil svou pozici na trhu akvizicí francouzské společnosti Quotelo, jejíž technologie usnadňuje hotelům organizaci eventů a automatizuje administrativní procesy spojené se skupinovými a firemními rezervacemi. Mews Ventures má na svém kontě od svého vzniku celkem jedenáct akvizic.
6. 11. Výhra Trumpa vytvořila nové milionáře díky BTC

Vítězství Donalda Trumpa vyvolalo výrazný nárůst hodnoty bitcoinu (BTC). Výzkum společnosti Finbold zjistil, že za posledních 30 dní vzniklo 11 487 nových bitcoinových adres, které drží 1 milion dolarů nebo více, a to především díky 7,5% růstu BTC od doby, kdy se náskok Donalda Trumpa ve volbách stal drtivým.
Nyní drží 132 842 adres v bitcoinech více než milion dolarů: 121 126 adres drží od 1 do 9,99 milionu dolarů, zatímco 11 697 adres drží 10 milionů dolarů a více. Analýza využila historické údaje a porovnávala předvolební údaje ze 7. října 2024, získané pomocí webového archivačního nástroje Wayback Machine, s nejnovějšími povolebními statistikami k 6. listopadu 2024.
6. 11. První akvizice EET v Česku

Strategickou akvizici divize náhradních dílů společnosti Moravia Consulting, která se specializuje především na obchod s náhradními díly k produktům Hewlett Packard a Hewlet Packard Enterprise uskutečnila distribuční společnost EET Group. Upevňuje tak svou pozici předního poskytovatele náhradních dílů pro IT po celé Evropě. Zároveň jde o první akvizici firmy z České republiky po vstupu EET Group na český trh.
30. 10. Miliony pro start-upy

Agentura CzechInvest otevírá další výzvu projektu Technologická inkubace. V pořadí již pátá výzva s alokací 104,8 milionu korun bude spuštěna v pravé poledne 30. října a potrvá do 29. listopadu 2024. Program, který podporuje startupové prostředí prostřednictvím sedmi specializovaných technologických hubů, nabízí podnikatelům pomoc s jejich inovativním produktem či službou. Nyní spolupracuje s téměř 180 firmami z plánovaných 250, projekt se tak již přehoupl přes svou symbolickou polovinu.
Více informací o programu a nové výzvě naleznete zde.
30. 10. Rozšiřující se DIA

Vzhledem ke sjednocování souvisejících agend přechází kompletní správa, rozvoj a financování registru obyvatel a registru osob od 1. listopadu 2024 z Ministerstva vnitra, resp. Českého statistického úřadu na Digitální a informační agenturu (DIA).
V době samotného převodu obou registrů od 31. října 20:00 do 1. listopadu 04:00 se může projevit snížená dostupnost jejich služeb, jinak by se podle tvrzení DIA dostupnost služeb nijak měnit neměla.

Sdílet

Autor článku

David Geer

Témata:

Mohlo by vás zajímat

Businessworld Newsletter

HP Knowledge HUB
pro moderní firemní IT

Krátce

21. 11. Mews zase nakupuje

6. 11. Výhra Trumpa vytvořila nové milionáře díky BTC

6. 11. První akvizice EET v Česku

30. 10. Miliony pro start-upy

30. 10. Rozšiřující se DIA

Anketa

Je pro váš podnik umělá inteligence vhodným řešením některých požadavků?

SPECIÁLNÍ PROJEKTY

Nový Projekt Manhattan: Umělá inteligence jako klíč k technologické dominanci

Canalys: Příprava na AI je v plném proudu, investice do cloudové infrastruktury vystřelily o 21 %

Třetí čtvrtletí letošního roku ryze českých investic

Hackeři zneužili reklamy na Facebooku k šíření falešných správců hesel pro Chrome – pak ukradnou…

Arrow Electronics v EMEA spouští Cloud Amplification Program

Na co mají zaměstnanci nárok, pokud se starají o nemocné blízké?

Windows chystá offline AI vyhledávání souborů

Coffee break: Když Wi-Fi potřebuje překonávat i kovové zdi

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Big data: otázky bezpečnosti a soukromí stále nezodpovězeny

Sdílet

Autor článku

Mohlo by vás zajímat

Kvíz týdne

21. 11. Mews zase nakupuje

6. 11. Výhra Trumpa vytvořila nové milionáře díky BTC

6. 11. První akvizice EET v Česku

30. 10. Miliony pro start-upy

30. 10. Rozšiřující se DIA

Anketa

Je pro váš podnik umělá inteligence vhodným řešením některých požadavků?

SPECIÁLNÍ PROJEKTY

Z našich webů

Nový Projekt Manhattan: Umělá inteligence jako klíč k technologické dominanci

Canalys: Příprava na AI je v plném proudu, investice do cloudové infrastruktury vystřelily o 21 %

Třetí čtvrtletí letošního roku ryze českých investic

Hackeři zneužili reklamy na Facebooku k šíření falešných správců hesel pro Chrome – pak ukradnou…

Arrow Electronics v EMEA spouští Cloud Amplification Program

Na co mají zaměstnanci nárok, pokud se starají o nemocné blízké?

Windows chystá offline AI vyhledávání souborů

Coffee break: Když Wi-Fi potřebuje překonávat i kovové zdi

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Dále u nás najdete

Horké nápoje: Zkuste recepty na šest nejznámějších

Digitální transformace znamená neustálé změny a úpravy

Windows chystá offline AI vyhledávání souborů

Vyznejte se v kuřatech. Takhle se liší selské od venkovského

Potíže, které dříve znamenaly neplodnost, umí lékaři vyřešit

Dřívější neplodnost dnes řeší miniinvazivní operace

Firmy mají řešit byznys, ne hledat účtenky, razí Fidoo

Nitroděložní tělíska jsou spolehlivá a hodí se i pro mladé ženy

Temný rekord, počet kyberútoků dosáhl historického maxima

Osvědčené způsoby, jak snížit vysoký krevní tlak

Prokletí slavného spisovatele: duševní poruchy a sebevraždy

Jihlava a Havlíčkův Brod mění daň z nemovitostí. Co další města?

Nedostatek železa se projevuje únavou, bledostí a dušností

Bezplatný Microsoft PC Manager vylepšen

Češi riskují s daty, podceňují zálohy i bezpečnost

Nevyžádané marketingové hovory přísnější zákon nevymýtil

Pokuty za spam zřejmě vzrostou a můžou být likvidační

Kyberbezpečnost v Česku – dokážeme čelit novým hrozbám?

Balík od DPD si nově můžete vyzvednout i na České poště

Hackeři zneužili reklamy na Facebooku k šíření falešných správců hesel pro Chrome – pak ukradnou Facebook účet