Chránit osobní data a zároveň poskytnou AI dostatek tréninkových dat, může být oříšek

4. 4. 2023

Doba čtení: 9 minut

Podniky a vlastníci dat musí zajistit soukromí dat zákazníků a zároveň trénovat své modely strojového učení. Pojďme se naučit jak.

Různá odvětví stále více spoléhají na data a umělou inteligenci při zlepšování procesů a rozhodování. Čelí však značné výzvě při zajištění soukromí kvůli citlivým osobním údajům (PII) ve většině podnikových datových sad. Ochrana osobních údajů není nový problém.

Co se dozvíte v článku

Vstupte do nové třídy
Zajištění soukromí a bezpečnosti v moderním životním cyklu ML
Moderní sada nástrojů pro ochranu soukromí pro ML a AI: Výhody a nevýhody
Federované učení
Diferenciální soukromí
Homomorfní šifrování
Syntetická data
- Důvěrné výpočty (confidential computing)
Vyvážení opatrného přístupu důvěrnosti PII s AI: Nová třída ochrany PII
Výběr správného řešení
Výzva i problém

Konvenční IT a datové týmy dotazují data obsahující PII, ale přístup vyžaduje pouze několik vybraných. Přístup s omezením rychlosti, ochrana přístupu na základě rolí a maskování byly široce přijaty pro tradiční aplikace BI pro řízení přístupu k citlivým datům.

Ochrana citlivých dat v moderním kanálu AI/ML má různé požadavky. Vznikající a stále rostoucí třída uživatelů dat se skládá z datových vědců ML a aplikací vyžadujících větší datové sady. Vlastníci dat musejí být velice opatrní, aby zajistili, že strany v jejich životním cyklu AI/Ml získají náležitý přístup k datům, která potřebují, a zároveň maximalizují soukromí těchto PII dat.

Vstupte do nové třídy

Vědci zabývající se daty ML potřebují velké množství dat k trénování modelů strojového učení. Poté se trénované modely stanou konzumenty obrovského množství dat, aby získaly přehled, který je základem pro obchodní rozhodnutí. Bez ohledu na to, zda před nebo po modelovém školení, tato nová třída spotřebitelů dat spoléhá na dostupnost velkého množství dat, která poskytují obchodní hodnotu.

Chcete dostávat do mailu týdenní přehled článků z CIO Business Worldu? Objednejte si náš mailový servis a žádná důležitá informace vám neuteče. Objednat si lze také newsletter To hlavní, páteční souhrn nejdůležitějších článků ze všech našich serverů. Newslettery si můžete objednat na této stránce.

Na rozdíl od konvenčních uživatelů, kteří potřebují přistupovat pouze k omezenému množství dat, nová třída datových vědců a aplikací ML vyžaduje přístup k celým datovým sadám, aby bylo zajištěno, že jejich modely budou data přesně reprezentovat. A i když jsou použity, nemusí to stačit k tomu, aby zabránily útočníkovi odvodit citlivé informace analýzou zašifrovaných nebo maskovaných datových vzorů.

Nová třída často používá pokročilé techniky, jako je hluboké učení, zpracování přirozeného jazyka a počítačové vidění, aby analyzovala a extrahovala poznatky z dat. Tyto snahy jsou často zpomaleny nebo blokovány, protože čelí citlivým údajům umožňujícím zjištění totožnosti, které jsou zamotané ve velké části datových sad, které vyžadují. Uvádí se, že až 44 % dat je pro organizaci nedostupných. Toto omezení blokuje cestu do zaslíbené země umělé inteligence při vytváření nových a průlomových hodnot, efektivnosti a případů použití.

Nové požadavky vedly ke vzniku technik, jako je diferenciální soukromí, federované učení, syntetická data a homomorfní šifrování, jejichž cílem je chránit PII a zároveň umožnit vědcům a aplikacím ML datům přístup k datům, která potřebují, a jejich analýzu. Na trhu však stále existuje potřeba řešení nasazených v průběhu životního cyklu ML (před a po modelovém tréninku), aby bylo možné chránit PII při přístupu k rozsáhlým datovým sadám – bez drastických změn dnes používané metodiky a hardwaru.

Zajištění soukromí a bezpečnosti v moderním životním cyklu ML

Nový druh spotřebitelů dat ML musí zavést opatření na ochranu soukromí v obou fázích životního cyklu ML: tréninku ML i nasazení (nebo odvození) ML.

Ve fázi tréninku je primárním cílem použít existující příklady k trénování modelu.

Trénovaný model musí provádět přesné předpovědi, například klasifikovat vzorky dat, které neviděl, jako součást trénovací datové sady. Datové vzorky používané pro školení často obsahují citlivé informace (jako PII) v každém datovém záznamu. V takovém případě jsou k ochraně citlivých informací zapotřebí moderní techniky a prvky kontroly na ochranu soukromí.

Ve fázi nasazení ML trénovaný model předpovídá nová data, která model během trénování neviděl; inferenční data. I když je důležité zajistit, aby všechny PII používané k trénování modelu ML byly chráněny a předpovědi modelu neodhalovaly žádné citlivé informace o jednotlivcích, je stejně důležité chránit jakékoli citlivé informace a PII také v rámci vzorků odvozených dat. Odvozování zašifrovaných dat je pro většinu aplikací neúnosně pomalé, a to i s vlastním hardwarem. Proto existuje kritická potřeba životaschopných řešení ochrany soukromí s nízkou režií, která zajistí důvěrnost dat během životního cyklu ML.

Moderní sada nástrojů pro ochranu soukromí pro ML a AI: Výhody a nevýhody

Různá moderní řešení byla vyvinuta pro řešení problémů PII, jako je federované učení, důvěrné výpočty a syntetická data, která nová třída spotřebitelů dat zkoumá pro ochranu soukromí v ML a AI. Každé řešení má však různé úrovně účinnosti a složitosti implementace, tak aby uspokojilo požadavky uživatelů.

Federované učení

Federované učení je technika strojového učení, která umožňuje trénovat na decentralizované datové sadě distribuované na více zařízeních. Namísto odesílání dat na centrální server ke zpracování probíhá školení lokálně na každém zařízení a na centrální server se přenášejí pouze aktualizace modelu.

Omezení: Výzkum provedený v roce 2020 v Institutu elektrotechnických a elektronických inženýrů ukazuje, že útočník by mohl ve federovaném učení odvodit soukromé informace z parametrů modelu. Kromě toho federované učení neřeší fázi odvození, která stále vystavuje data modelu ML během nasazení cloudu nebo okrajových zařízení.

Diferenciální soukromí

Diferenciální soukromí poskytuje rezervy na to, jak moc jeden datový záznam z tréninkové datové sady přispívá k modelu strojového učení. Test členství v záznamech trénovacích dat zajišťuje, že pokud je z datové sady odstraněn jeden datový záznam, výstup by se neměl změnit nad určitou prahovou hodnotu.

Omezení: I když má trénink s diferenciálním soukromím výhody, stále vyžaduje přístup datového vědce k velkým objemům dat ve formátu prostého textu. Navíc v žádném případě neřeší fázi odvození ML.

Homomorfní šifrování

Homomorfní šifrování je typ šifrování, který umožňuje provádět výpočty na datech, která zůstávají zašifrována. Pro moderní uživatele to znamená, že algoritmy strojového učení mohou pracovat s daty, která byla zašifrována, aniž by bylo nutné je nejprve dešifrovat. To může poskytnout větší soukromí a zabezpečení citlivých dat, protože data nemusejí být nikdy odhalena ve formě prostého textu.

Omezení: Homomorfní šifrování je neúnosně nákladné, protože pracuje se zašifrovanými daty spíše než s daty ve formátu prostého textu, což je výpočetně náročné. Homomorfní šifrování často vyžaduje vlastní hardware k optimalizaci výkonu, jehož vývoj a údržba mohou být nákladné. A konečně, datoví vědci používají hluboké neuronové sítě v mnoha doménách, které je často obtížné nebo nemožné implementovat homomorfně šifrovaným způsobem.

Syntetická data

Syntetická data jsou počítačem generovaná data, která napodobují data z reálného světa. Často se používají k trénování modelů strojového učení a ochraně citlivých dat ve zdravotnictví a financích. Syntetická data mohou rychle generovat velké množství dat a obejít rizika ochrany soukromí.

Omezení: I když syntetická data mohou pomoci trénovat prediktivní model, dostatečně pokrývají pouze některé možné podprostory reálných dat. To může mít za následek ztrátu přesnosti a podkopání schopností modelu ve fázi odvození. Také skutečná data musejí být chráněna ve fázi odvození, kterou syntetická data nemohou řešit.

Důvěrné výpočty (confidential computing)

Confidential computing je bezpečnostní přístup, který chrání data během používání. Velké společnosti, včetně Google, Intel, Meta a Microsoft, se připojily ke konsorciu Confidential Computing Consortium, aby propagovaly prostředí Trusted Execution Environments (TEE), založená na hardwaru. Toto řešení izoluje výpočty od těchto hardwarových TEE pro ochranu dat.

Omezení: Důvěrné výpočty vyžadují, aby společnosti vynaložily dodatečné náklady na přesun svých služeb založených na ML na platformy, které vyžadují specializovaný hardware. Toto řešení je také bezrizikové jen částečně. Útok v květnu 2021 shromáždil a poškodil data z TEE, které se spoléhají na technologii Intel SGX.

I když jsou tato řešení užitečná, jejich omezení se projeví při výcviku a nasazení modelů umělé inteligence. Další fáze ochrany osobních údajů musí být odlehčená a musí doplňovat stávající opatření a procesy v oblasti ochrany soukromí a zároveň poskytovat přístup k datovým souborům provázaným s citlivými informacemi.

Vyvážení opatrného přístupu důvěrnosti PII s AI: Nová třída ochrany PII

Prozkoumali jsme některé moderní přístupy k ochraně osobních údajů a výzvy, kterým nová třída spotřebitelů dat čelí. Existuje akt vyvažování, ve kterém PII nemohou být vystaveny AI, ale spotřebitelé dat musejí použít co možná nejvíce dat, aby vytvořili nové případy použití a hodnotu AI. Většina moderních řešení také řeší ochranu dat během fáze tréninku ML bez životaschopné odpovědi na ochranu reálných dat během nasazení AI.

Zde potřebujeme řešení pro budoucnost, abychom toto vyvažování zvládli. Jedním z takových řešení, které jsem použil, je transformace barevného skla (stained glass transform), která organizacím umožňuje extrahovat poznatky ML z jejich dat a zároveň chránit před únikem citlivých informací. Technologie vyvinutá společností Protopia AI dokáže transformovat jakýkoli typ dat tím, že identifikuje, co modely AI vyžadují, eliminuje zbytečné informace a transformuje data v maximální možné míře při zachování téměř dokonalé přesnosti.

Pro ochranu dat uživatelů při práci na modelech umělé inteligence si podniky mohou zvolit transformaci z barevného skla, aby zvýšily množství svých dat pro trénink a nasazení ML, aby tak dosáhly lepších předpovědí a výsledků a zároveň nemusely mít takové obavy z prozrazení dat.

Ještě důležitější je, že tato technologie také přidává novou vrstvu ochrany během životního cyklu ML – pro trénink a vyvozování. To řeší významnou mezeru, ve které bylo soukromí během fáze odvození ML u většiny moderních řešení ponecháno nevyřešené.

Nejnovější průvodce Gartner AI TriSM pro implementaci Trust, Risk a Security Management v AI upozornil na stejný problém a řešení. TRiSM vede vedoucí analytiky a datové vědce k zajištění spolehlivosti, důvěryhodnosti a zabezpečení umělé inteligence.

Přestože existuje několik řešení pro ochranu citlivých dat, konečným cílem je umožnit podnikům maximálně využít svá data k podpoře umělé inteligence.

Výběr správného řešení

Výběr správných řešení pro ochranu soukromí je nezbytný pro vyřešení vašich problémů v oblasti ML a AI. Každé řešení musíte pečlivě vyhodnotit a vybrat ta, která doplňují či rozšiřují [stávající řešení] nebo jsou samostatná, tak aby splňovala vaše jedinečné požadavky. Syntetická data mohou například vylepšit data z reálného světa a zlepšit výkon vašich modelů umělé inteligence. Syntetická data můžete použít k simulaci vzácných událostí, které může být obtížné zachytit, jako jsou přírodní katastrofy, a rozšířit reálná data, když jsou omezená.

Dalším slibným řešením jsou důvěrné výpočty (confidential computing), které mohou transformovat data před vstupem do důvěryhodného exekučního prostředí. Tato technologie je další bariérou, která minimalizuje útočnou plochu na jiné ose. Řešení zajišťuje, že data v prostém textu nebudou kompromitována, i když dojde k porušení TEE. Vyberte si tedy ta správná řešení na ochranu soukromí, která vyhovují vašim potřebám, a maximalizujte výkon své AI, aniž byste ohrozili soukromí dat.

Výzva i problém

Ochrana citlivých dat není jen technický problém – je to celopodniková výzva. S tím, jak spotřebitelé nových dat rozšiřují své schopnosti AI a ML, je zabezpečení osobních údajů (PII) ještě důležitější. Abychom vytvořili vysoce výkonné modely přinášející poctivou hodnotu, musíme maximalizovat přístup k datům a zároveň je chránit.

Každé řešení na ochranu soukromí musí být pečlivě vyhodnoceno, aby vyřešilo naše nejnaléhavější výzvy AI a ML. Nakonec musíme mít na paměti, že důvěrnost PII není jen o dodržování zákonných povinností, ale také o respektování soukromí a duševní pohody jednotlivců a jejich ochraně.

CIO Business World si můžete objednat i jako klasický časopis (v tištěné i v digitální podobně) Věnujeme se nejnovějším technologiím a efektivnímu řízení podnikové informatiky. Přinášíme nové ekonomické trendy a analýzy a zejména praktické informace z oblasti podnikového IT se zaměřením na obchodní a podnikatelské přínosy informačních technologií. Nabízíme možná řešení problémů spojených s podnikovým IT v období omezených rozpočtů. Naší cílovou skupinou je vyšší management ze všech odvětví ekonomiky.

Našli jste v článku chybu?

Nimesh Mehta

Témata:

6. 11. Výhra Trumpa vytvořila nové milionáře díky BTC

Vítězství Donalda Trumpa vyvolalo výrazný nárůst hodnoty bitcoinu (BTC). Výzkum společnosti Finbold zjistil, že za posledních 30 dní vzniklo 11 487 nových bitcoinových adres, které drží 1 milion dolarů nebo více, a to především díky 7,5% růstu BTC od doby, kdy se náskok Donalda Trumpa ve volbách stal drtivým.
Nyní drží 132 842 adres v bitcoinech více než milion dolarů: 121 126 adres drží od 1 do 9,99 milionu dolarů, zatímco 11 697 adres drží 10 milionů dolarů a více. Analýza využila historické údaje a porovnávala předvolební údaje ze 7. října 2024, získané pomocí webového archivačního nástroje Wayback Machine, s nejnovějšími povolebními statistikami k 6. listopadu 2024.
6. 11. První akvizice EET v Česku

Strategickou akvizici divize náhradních dílů společnosti Moravia Consulting, která se specializuje především na obchod s náhradními díly k produktům Hewlett Packard a Hewlet Packard Enterprise uskutečnila distribuční společnost EET Group. Upevňuje tak svou pozici předního poskytovatele náhradních dílů pro IT po celé Evropě. Zároveň jde o první akvizici firmy z České republiky po vstupu EET Group na český trh.
30. 10. Miliony pro start-upy

Agentura CzechInvest otevírá další výzvu projektu Technologická inkubace. V pořadí již pátá výzva s alokací 104,8 milionu korun bude spuštěna v pravé poledne 30. října a potrvá do 29. listopadu 2024. Program, který podporuje startupové prostředí prostřednictvím sedmi specializovaných technologických hubů, nabízí podnikatelům pomoc s jejich inovativním produktem či službou. Nyní spolupracuje s téměř 180 firmami z plánovaných 250, projekt se tak již přehoupl přes svou symbolickou polovinu.
Více informací o programu a nové výzvě naleznete zde.
30. 10. Rozšiřující se DIA

Vzhledem ke sjednocování souvisejících agend přechází kompletní správa, rozvoj a financování registru obyvatel a registru osob od 1. listopadu 2024 z Ministerstva vnitra, resp. Českého statistického úřadu na Digitální a informační agenturu (DIA).
V době samotného převodu obou registrů od 31. října 20:00 do 1. listopadu 04:00 se může projevit snížená dostupnost jejich služeb, jinak by se podle tvrzení DIA dostupnost služeb nijak měnit neměla.
29. 10. Apple Tap to Pay už i v ČR

Apple počínaje dneškem podporuje Tap to Pay na iPhonu v Rakousku, České republice, Irsku, Rumunsku a Švédsku, čímž dává milionům obchodníků možnost využívat iPhone k plynulému a bezpečnému přijímání bezkontaktních plateb.
Tap to Pay na iPhonu pomáhá podnikům všech velikostí přijímat bezkontaktní platby kreditními a debetními kartami, pomocí Apple Pay a pomocí dalších digitálních peněženek za použití pouze iPhonu a partnerských aplikací pro iOS, což v praxi znamená, že nemusí pracovat s žádným dalším hardwarem.

Sdílet

Vstupte do nové třídy

Zajištění soukromí a bezpečnosti v moderním životním cyklu ML

Šestero nejpřeceňovanějších IT technologií

Moderní sada nástrojů pro ochranu soukromí pro ML a AI: Výhody a nevýhody

Federované učení

Diferenciální soukromí

Homomorfní šifrování

Máme se bát umělé inteligence? Zde je deset důvodů, proč ano

Syntetická data

Důvěrné výpočty (confidential computing)

Nový začátek: Čas resetovat hesla a přehodnotit strategii správy hesel

Vyvážení opatrného přístupu důvěrnosti PII s AI: Nová třída ochrany PII

Tipy pro vytváření sítí pro IT lídry: Průvodce budováním propojení

Výběr správného řešení

Výzva i problém

Autor článku

Nimesh Mehta

Témata:

Mohlo by vás zajímat

Businessworld Newsletter

HP Knowledge HUB
pro moderní firemní IT

Krátce

6. 11. Výhra Trumpa vytvořila nové milionáře díky BTC

6. 11. První akvizice EET v Česku

30. 10. Miliony pro start-upy

30. 10. Rozšiřující se DIA

29. 10. Apple Tap to Pay už i v ČR

Anketa

Je pro váš podnik umělá inteligence vhodným řešením některých požadavků?

SPECIÁLNÍ PROJEKTY

Intel přiznává chyby s Arrow Lake – náprava do konce roku!

Gartner: Držte si klobouky, investice do IT v Evropě příští rok vyrostou o 8,7 %

Jakou představu mají Češi o ideálním čistém měsíčním platu?

Copilot od Microsoftu nyní i pro běžné uživatele M365 – s omezením, ale dostupný!

Check Point: Počet kyberútoků dosáhl historického maxima, vzrostl o 75 %

Bitcoin opět v akci: Může dosáhnout jednoho milionu dolarů, jak navrhují někteří odborníci

Chcete nasadit AI a tápete? Nvidia má řešení

DPD rozšiřuje síť výdejních míst o pobočky České pošty

Co dnes musí člověk umět, aby byl úspěšný v práci?

Chránit osobní data a zároveň poskytnou AI dostatek tréninkových dat, může být oříšek

Sdílet

Vstupte do nové třídy

Zajištění soukromí a bezpečnosti v moderním životním cyklu ML

Šestero nejpřeceňovanějších IT technologií

Moderní sada nástrojů pro ochranu soukromí pro ML a AI: Výhody a nevýhody

Federované učení

Diferenciální soukromí

Homomorfní šifrování

Máme se bát umělé inteligence? Zde je deset důvodů, proč ano

Syntetická data

Důvěrné výpočty (confidential computing)

Nový začátek: Čas resetovat hesla a přehodnotit strategii správy hesel

Vyvážení opatrného přístupu důvěrnosti PII s AI: Nová třída ochrany PII

Tipy pro vytváření sítí pro IT lídry: Průvodce budováním propojení

Výběr správného řešení

Výzva i problém

Autor článku

Mohlo by vás zajímat

Kvíz týdne

6. 11. Výhra Trumpa vytvořila nové milionáře díky BTC

6. 11. První akvizice EET v Česku

30. 10. Miliony pro start-upy

30. 10. Rozšiřující se DIA

29. 10. Apple Tap to Pay už i v ČR

Anketa

Je pro váš podnik umělá inteligence vhodným řešením některých požadavků?

SPECIÁLNÍ PROJEKTY

Z našich webů

Intel přiznává chyby s Arrow Lake – náprava do konce roku!

Gartner: Držte si klobouky, investice do IT v Evropě příští rok vyrostou o 8,7 %

Jakou představu mají Češi o ideálním čistém měsíčním platu?

Copilot od Microsoftu nyní i pro běžné uživatele M365 – s omezením, ale dostupný!

Check Point: Počet kyberútoků dosáhl historického maxima, vzrostl o 75 %

Bitcoin opět v akci: Může dosáhnout jednoho milionu dolarů, jak navrhují někteří odborníci

Chcete nasadit AI a tápete? Nvidia má řešení

DPD rozšiřuje síť výdejních míst o pobočky České pošty

Co dnes musí člověk umět, aby byl úspěšný v práci?

Dále u nás najdete

O kolik vzrostou důchody? Spočítejte si, jak se zvýší váš

10 tradičních českých vánočních značek. Znáte jejich příběh?

Trh zařízení pro chytrou domácnost ožívá, ale velmi pomalu

Jak českým firmám pomáhá digitální transformace?

Roční poplatky: Endokrinologie chce pětistovku, praktici tisíc korun

Lékaři učí umělou inteligenci jak poznat infarkt

Na svátek 17. listopadu to s nákupy nebude moc složité

Pirátský web Hellspy je zpět. Plný filmů a seriálů ke stažení

Počet OSVČ je opět rekordní. Nestojí za tím změny u dohod?

ChatGPT nebo Copilot Pro? Výběr nejlepšího AI pomocníka!

Rýsuje se jednodušší zdanění kryptoměn

Na mixéru hledala tlačítko zpět. Nyní má ořechová másla jako dítě

Pardubice zvýší firmám a části obyvatel daň z nemovitostí

Windows Recall: Kontroverzní funkce sledující obrazovku má další zpoždění!

Českou husu musíte objednávat i rok dopředu. V obchodech teď koupíte jen ty zahraniční

Bez znalostí technologií si už zaměstnanci ani neškrtnou

Evropská komise vyšetřuje Temu

Největší známé prvočíslo má 41 milionů číslic

Řetězce falšují slevy záměrně. Měly by dostávat vyšší sankce

Zvýšení televizních poplatků stihneme, doufají poslanci