Průkopníci informačního věku (30.) - Edgar Codd

25. 12. 2012

Doba čtení: 16 minut

Britský matematik, který formuloval relační model databázových systémů a navrhl první relační systém řízení databáze (System R), položil základy moderním databázovým systémům, jež jsou dnes svázány s mnoha lidskými činnostmi.

Žijeme ve věku elektronických databází. Zpravidla si už ani neuvědomujeme, jak úzce jsou naše běžné činnosti provázány s obrovskými datovými centry. Sofistikované databázové systémy zabezpečují převody peněz, umožňují platit platebními kartami, využívat internetové bankovnictví či objednávat letenky a rezervace v hotelích. Pokud se přihlásíme k účtu elektronického obchodu Amazon.com, máme okamžitě k dispozici kustomizovanou nabídku, sestavenou nejen na základě našich minulých objednávek, ale i preferencí zákazníků, kteří si zakoupili stejné zboží. Společnost Amazon.com totiž disponuje obrovskou databází klientů, kterou efektivně využívá k podpoře svých obchodních aktivit – algoritmus Amazonu vyhodnocuje preference uživatele (co vyhledává a kupuje) a na základě toho mu doporučuje další produkty, někdy až s neuvěřitelnou přesností.

V současné době je hojně využíván pojem databáze v různých významech a často je tímto pojmem myšlen databázový systém. Databázový systém (DBS) se skládá z databáze (DB) a systému řízení báze dat (SŘBD). Rozvoj databázových systémů je reakcí na potřebu efektivně zpracovávat různé rozsáhlé agendy se zaměřením na vyhledávání a aktualizaci dat. Vyhledávání představuje nalezení takových informací – záznamů, které vyhovují podmínkám na požadovaná data. Dnes je již naprostou samozřejmostí, že tyto podmínky jsou formulovány ve formě dotazu ve vhodném dotazovacím jazyce a odpovědí je typicky podmnožina z uložených záznamů (případně ještě zpracovaných – výpočtem z uložených dat získáme odvozené informace). Stejnou samozřejmostí je i skutečnost, že výsledné údaje můžeme třídit podle různých kritérií a prezentovat ve formě tištěných výstupních sestav nebo svoje databáze pravidelně aktualizovat tak, aby informace korespondovaly s realitou. Když tyto běžné činnosti provádíme, sotva si už uvědomujeme, že jsou výdobytkem moderních databázových technologií, které se vyvíjejí zhruba od poloviny minulého století. Zásadní přínos do nich vnesl zejména britský matematik a počítačový vědec Edgar Codd, tvůrce relačního modelu databázových systémů, na němž je založena převážná většina databázových systémů, s nimiž den co den pracujeme.

Matematik z Oxfordu

Edgar F. Codd se narodil v srpnu roku 1923 na ostrově Portland v jižní Anglii, a to jako nejmladší ze sedmi dětí. Jeho otec vlastnil malý podnik na zpracování kůže, zatímco matka byla učitelkou na základní škole. Ted Codd od mládí vynikal v matematice. Díky těmto schopnostem stejně jako touze po vyniknutí (což vyplývá z faktu, že coby nejmladší si často musel mezi staršími sourozenci hájit své „místo na slunci“) se dostal na Oxfordskou univerzitu, kde studoval matematiku a chemii na Exeter College. V době druhé světové války přerušil studium a působil jako pilot Royal Air Force. Že si zde vedl odvážně, o tom svědčí skutečnost, že dosáhl hodnosti kapitána. Když se po válce vrátil do klidných uliček starobylého Oxfordu, aby dokončil studium, dlouho zde nepobyl. Vydal se za svou snoubenkou Elizabeth do Spojených států amerických, kde krátce působil jako instruktor matematiky na University of Tennessee.

Poté, co se oženil, se začal rozhlížet po solidnějším zaměstnání. Shodou okolností se zúčastnil konkurzu, který pořádala společnost IBM, jež v té době hledala mladé nadané matematiky. Fakt, že Codd u konkurzu uspěl, pro něj znamenal významný životní předěl – dostal se k počítačům, a to přímo do výzkumného střediska IBM v New Yorku, jednoho z nejprestižnějších výzkumných center počítačového světa té doby. Do programování a práce na počítači jej zasvěcoval mimo jiné i John Backus, který se svým týmem o pár let později vyvinul programovací jazyk FORTRAN. Prvním počítačem, na němž Ted Codd pracoval, byl SSEC (Selective Sequence Electronic Calculator), elektromechanické monstrum, jehož výpočetní jednotku tvořila kombinace elektronek a elektromechanických relé a který do historie vstoupil jako první, byť ne zcela zdařilý prototyp digitálního počítače od společnosti IBM.

První systémy pro řízení databází

Celulární automaty, genetické programování či vývoj samoreplikujících se systémů, to byla lákavá a v šedesátých letech ještě neprobádaná půda pro vědecký výzkum. Nicméně Ted Codd po několika letech, kdy se této problematice věnoval, usoudil, že je třeba se zaměřit na otázky, které v té době byly aktuální z hlediska praktického využití. Ne náhodou učinil toto rozhodnutí na přelomu šedesátých a sedmdesátých let, v té poněkud zmatené době, kdy se ideály desetiletí, jež John Lennon označil za „pohoří století“, střetávaly s drsnou realitou. To se ostatně projevilo i v počítačové vědě – zejména v teoretických oblastech, jako byla např. umělá inteligence, kde se čím dál zřetelněji ukazovalo, že ideje, které se ještě před nedávnem zdály být na dosah ruky, jsou ve skutečnosti, tedy v podobě praktických aplikací, ještě na míle daleko. Na druhé straně to bylo období nesporného pokroku, byť většinové společnosti zatím utajeného. Jak jsme mohli v minulých částech tohoto volného seriálu sledovat, právě v této době si do podniků začaly nacházet cestu minipočítače (a s nimi přirozeně i řada nových aplikací), jasnější obrysy dostávaly snahy v oblasti návrhu operačního systému podporující multiuživatelský režim (stejně jako efektivnějších metod a konceptů programování). V téže době spatřil světlo světa i mikroprocesor, tedy vynález, jenž se zrodil takřka mimoděk v laboratořích společnosti Intel a který znamenal zásadní předěl ve využívání informačních a komunikačních technologií.

Na období, jež označujeme jako poněkud zmatené, to není vůbec špatná bilance, a to jsme zmínili pouze některé z revolučních objevů a inovací, jež v té době oblast informatiky a počítačové vědy užaslému, ale dosud povětšinou nechápajícímu světu představila. Ted Codd přirozeně tento vývoj sledoval a vnímal jej dokonce ještě ostřeji než kolegové (nemluvě o lidech, pro které byl počítač jen ten „drahý stroj na děrné štítky“. O tom vypovídá fakt, že se zaměřil na problematiku, jež kupodivu v té době takřka nikoho nevzrušovala, totiž na otázky spojené s organizováním dat, resp. s vytvářením databázových systémů. Že požadavky na databáze vzrůstaly, je nabíledni. Vyšší výpočetní výkon i kapacita paměťových médií stejně jako dostupnost minipočítačů byly důsledkem toho, že se práce s velkými soubory dat začaly využívat i tam, kde to před desetiletím předpokládal jen málokdo. Nemalou roli sehrál i samotný přechod od magnetických pásek k magnetickým diskům, které umožňovaly jen sériový přístup k datům.

Proč vlastně problematice databází vědci nevěnovali pozornost? Na to je snadná odpověď. Řešení zde v té době již bylo a podle všeobecného názoru více než uspokojivé. Představoval je vyšší programovací jazyk COBOL (COmmon Business Oriented Language), vzniklý díky sdružení uživatelů a výrobců počítačů CODASYL (Conference On Data SYstem Languages) a určený přednostně pro vytváření obchodních aplikací. V rámci CODASYL vznikla samostatná skupina označovaná jako Databaze Task Group (DBTG), kterou vedl Charles Bachman ze společnosti General Electric. Bachman byl první, kdo se otázkou efektivní organizace dat v souvislosti s nástupem digitálních počítačů zevrubně zabýval a byl to také on, kdo již na počátku šedesátých let jakožto vedoucí osobnost DBTG představil první integrovaný datový sklad (Integrated Data Store) s vlastním systémem řízení databáze, který byl založený na tzv. síťovém modelu databází a disponoval některými vlastnostmi databázového managementu, jakkoli z dnešního pohledu značně omezenými.

Ani společnost IBM, v níž Codd působil, nezůstávala samozřejmě v této oblasti pozadu. Díky účasti na velkolepém projektu Apollo (kde „Big Blue“ patřila k firmám, jež od počátku zajišťovaly výpočetní techniku a vývoj potřebného softwaru) vyvinula firma svůj vlastní databázový systém IMS (Information Management System). Ten sice využíval některé vlastnosti Bachmanova IDS, ale na rozdíl od něj a dalších databází kompatibilních s doporučeními CODASYL byl založen na hierarchickém modelu dat. Jak už bylo naznačeno, původně byl IMS navržen pro práci s obrovským objemem dat, který si vyžadovala konstrukce monumentální třístupňové rakety Saturn V, ale v roce 1968 byl tento databázový systém uveden na trh, a to ve spojení s rodinou počítačů IBM System/360s.

Tyto zmíněné databázové systémy (stejně jako řada dalších od nich odvozených) byly dostatečně výkonné a robustní, takže pokud jde o řešení databází, vytvořily status quo, které trvalo dlouhá léta.

Ted Codd, v němž studium celulárních automatů zanechalo smysl pro abstraktní vyjádření, byl přesvědčený, že databázové systémy by mohly pracovat daleko efektivněji, pokud by byly založeny na relačním modelu vycházejícím z teorie množin. Základem jeho modelu je tedy matematické zobecnění pojmu soubor pomocí silného formalismu matematické relace a využívání operací relační algebry.

Codd popsal svůj koncept v článku nazvaném Relační model pro data ve velkých sdílených databankách (A Relational Model of Data for Large Shared Data Banks, 1970), v němž ukázal, že pomocí základních operací (sjednocení, kartézský součin, rozdíl, selekce, projekce a spojení) lze vlastně uskutečnit veškeré operace s daty, přičemž ostatní operace je možné odvodit z kombinace této základní pětice.

Osudné zaváhání

Když Codd v IBM navrhl nový model pro organizaci a práci s daty, setkal se s nepochopením. Vedení firmy považovalo tento návrh pouze jako případnou okrajovou alternativu, intelektuální kuriozitu, která nemá valné praktické využití. Tento názor podporoval fakt, že produkt IMS byl již zavedený, žádaný, a tedy i komerčně úspěšný. Nebyl zkrátka důvod, aby se investovalo do nového databázového systému. Proto vývoj první relační databáze nazvané System R, na němž se Codd se svými spolupracovníky podílel, zůstal v IBM okrajovou záležitostí.

I tak ovšem tato skupina dosáhla značného pokroku. Původní System R byl v první polovině sedmdesátých let testován s daty o objemu 8 MB. System R (a stejně tak i Inges, o němž bude řeč dále) vytvořil základní model pro relační databázi. Jak už bylo předesláno, relační datový model se odklonil od metod provázaných seznamů jednotlivých záznamů a navrhl jako základní jednotku relační tabulku. Data rozložená do více tabulek (relací) jsou tak provázána klíčovými hodnotami a pro manipulaci s nimi lze použít relační algebru založenou na pěti výše zmíněných základních operacích. Toto řešení odstranilo problémy sekvenčního přístupu a obtížné změny datové struktury, s nimiž se potýkaly systémy založené na síťovém a hierarchickém modelu. Klíčovou výhodou se pak stal i dotazovací jazyk, který vznikal ruku v ruce s prací na projektu System R. Záměrem bylo vytvořit jazyk, v němž by se příkazy tvořily syntakticky co nejblíže přirozenému jazyku, resp. angličtině; tento jazyk se rodil ze sady používaných příkazů a byl zprvu označován jako SEQUEL (Structured English Query Language). Krátce poté, co Codd a jeho spolupracovníci v roce 1976 zveřejnili popis jazyka SEQUEL2, byl název změněn na dnes již všeobecně známou zkratku SQL (Structured Query Language).

Mezitím se ledy pohnuly a databázový systém založený na relačním modelu se začínal dostávat do ohniska pozornosti řady počítačových vědců. Největší vliv na pozdější vývoj měl tzv. Project Ingres, relační databáze geografických údajů, jež pod vedením Michaela Stonebrakera a Eugena Wonga vznikala na Kalifornské univerzitě v Berkeley.

Skutečnost, že byrokraticky řízený kolos IBM nedokázal Coddův výzkum dlouhou dobu využít, nahrála ostatním výzkumníkům, zejména skupině z Kalifornské univerzity v Berkeley. Dvojice Stonebraker a Wong založila koncem sedmdesátých let společnost Ingres Corporation, která v roce 1980 představila relační databázový systém Ingres. Robert Epstein, jeden ze členů Stonebrakerovy skupiny, se o čtyři roky později stal spoluzakladatelem společnosti Sybase, jedné z vůdčích firem zaměřených na RDBMS (Relational Database Management System), která např. uvedla první klient-server relační databáze. Illustra, Informix Corporation či Versta, to jsou jen některé z firem, jejichž vznik inicioval výzkum relačních databází na univerzitě v Berkeley.

A pak tu byl také Larry Ellison, programátor a dravý podnikatel, který vytvořil databázové systémy Oracle na základě výzkumů Coddovy skupiny a po nedlouhé době se jeho podnik stal jednou z nejmocnějších firem v Silicon Valley. Codd ovšem nebyl podnikatel, nýbrž vědec. Na jím formulovaných základech pracuje dnes většina databázových systémů, jako jsou Google nebo Amazon.com, a prostřednictvím databázového enginu SQLite i aplikace v mobilních telefonech či tabletech.

Coddova pravidla

Edgar Codd v roce 1985 publikoval dvanáct pravidel, která mají splňovat databázové systémy založené na relačním modelu dat. Jejich znění je následující:

Informační pravidlo: všechna data musejí být reprezentována jako hodnoty v tabulkách.

Pravidlo zajišťující přístup: každá hodnota musí být dosažitelná pomocí názvu tabulky, názvu sloupce a klíče.

Zpracování neznámých hodnot: neznámé (NULL) hodnoty jsou podporovány pro vyjádření neznámé informace, a to nezávisle na datovém typu.

Popis relačního katalogu: Popis celé databáze je na logické úrovni reprezentován stejně jako běžná data, tedy také jako tabulka.

Pravidlo pro jazyk: musí existovat alespoň jeden jazyk, který podporuje DDL, DML, integritní omezení, práci s transakcemi a autorizaci.

Pravidlo pohledů: všechny pohledy, které jsou teoreticky aktualizovatelné, jsou také systémem aktualizovatelné.

Pravidlo operací: schopnost zpracování relace jako operandu je zachována nejen při čtení dat, ale i u vkládání, aktualizace a odstranění dat.

Pravidlo fyzické nezávislosti dat: výsledky operací jsou nezávislé na fyzické datové struktuře.

Pravidlo logické nezávislosti dat: výsledky operací jsou nezávislé na změně logické struktury.

Pravidlo nezávislosti dat na integritních omezeních: integritní omezení musí být definovatelná prostředky relační databáze a musí být uchovatelná v katalogu a ne v aplikačním programu.

Pravidlo nezávislosti dat na distribuci: výsledky operací jsou nezávislé na konkrétním rozmístění dat v distribuované databázi.

Pravidlo nenarušitelnosti SŘBD: žádný uživatel (ani aplikace) nesmí obcházet ani narušovat rozhraní SŘBD.

Edgar Frank („Ted“) Codd (1923–2003), britský počítačový vědec; autor relačního modelu pro databázový management. Vystudoval matematiku a chemii na Oxfordské univerzitě. Během 2. světové války sloužil jako pilot RAF. Po válce se přestěhoval do Spojených států, kde začal pracovat pro společnost IBM. Na Michiganské univerzitě dokončil doktorské studium počítačové vědy. V polovině šedesátých let začal působit ve výzkumném středisku společnosti IBM v San José (IBM Almaden Research Center), kde se zabýval návrhem nového způsobu řízení databázových systémů a na základě poznatků z teorie množin navrhl systém pro řízení báze dat založený na relačním modelu. Společně se svým týmem v 70. letech vytvořil prototyp tohoto systému (System R) a dotazovací jazyk SQL. Z této výzkumné práce vychází většina moderních databázových systémů. Codd se rovněž zabýval celulárními automaty a návrhem samoreplikujících se systémů, zasloužil se také o vznik technologie OLAP (Online Analytical Processing), využívané v systémech business intelligence. Je autorem řady vědeckých článků a knihy Celulární automaty (Cellular Automata, 1968). Za přínos k rozvoji databázových technologií získal v roce 1981 Turingovu cenu. Na jeho počest uděluje SIGMOD (Special Interest Group on Management of Data), skupina v rámci ACM, od roku 2004 cenu Edgara F. Codda (E. F. Codd Innovations Award).

Našli jste v článku chybu?

Jan Kapoun

Témata:

Analýzy
IT

21. 11. Mews zase nakupuje

Český jednorožec Mews kupuje švédskou firmu Atomize, která se specializuje na software pro řízení výnosů (RMS). Díky pokročilým algoritmům umožňuje platforma Atomize hotelům dynamicky upravovat ceny a lépe využívat kapacity, což otevírá cestu k vyšším příjmům a efektivnějšímu řízení.
Mews zároveň nedávno posílil svou pozici na trhu akvizicí francouzské společnosti Quotelo, jejíž technologie usnadňuje hotelům organizaci eventů a automatizuje administrativní procesy spojené se skupinovými a firemními rezervacemi. Mews Ventures má na svém kontě od svého vzniku celkem jedenáct akvizic.
6. 11. Výhra Trumpa vytvořila nové milionáře díky BTC

Vítězství Donalda Trumpa vyvolalo výrazný nárůst hodnoty bitcoinu (BTC). Výzkum společnosti Finbold zjistil, že za posledních 30 dní vzniklo 11 487 nových bitcoinových adres, které drží 1 milion dolarů nebo více, a to především díky 7,5% růstu BTC od doby, kdy se náskok Donalda Trumpa ve volbách stal drtivým.
Nyní drží 132 842 adres v bitcoinech více než milion dolarů: 121 126 adres drží od 1 do 9,99 milionu dolarů, zatímco 11 697 adres drží 10 milionů dolarů a více. Analýza využila historické údaje a porovnávala předvolební údaje ze 7. října 2024, získané pomocí webového archivačního nástroje Wayback Machine, s nejnovějšími povolebními statistikami k 6. listopadu 2024.
6. 11. První akvizice EET v Česku

Strategickou akvizici divize náhradních dílů společnosti Moravia Consulting, která se specializuje především na obchod s náhradními díly k produktům Hewlett Packard a Hewlet Packard Enterprise uskutečnila distribuční společnost EET Group. Upevňuje tak svou pozici předního poskytovatele náhradních dílů pro IT po celé Evropě. Zároveň jde o první akvizici firmy z České republiky po vstupu EET Group na český trh.
30. 10. Miliony pro start-upy

Agentura CzechInvest otevírá další výzvu projektu Technologická inkubace. V pořadí již pátá výzva s alokací 104,8 milionu korun bude spuštěna v pravé poledne 30. října a potrvá do 29. listopadu 2024. Program, který podporuje startupové prostředí prostřednictvím sedmi specializovaných technologických hubů, nabízí podnikatelům pomoc s jejich inovativním produktem či službou. Nyní spolupracuje s téměř 180 firmami z plánovaných 250, projekt se tak již přehoupl přes svou symbolickou polovinu.
Více informací o programu a nové výzvě naleznete zde.
30. 10. Rozšiřující se DIA

Vzhledem ke sjednocování souvisejících agend přechází kompletní správa, rozvoj a financování registru obyvatel a registru osob od 1. listopadu 2024 z Ministerstva vnitra, resp. Českého statistického úřadu na Digitální a informační agenturu (DIA).
V době samotného převodu obou registrů od 31. října 20:00 do 1. listopadu 04:00 se může projevit snížená dostupnost jejich služeb, jinak by se podle tvrzení DIA dostupnost služeb nijak měnit neměla.

Sdílet

Matematik z Oxfordu

První systémy pro řízení databází

Osudné zaváhání

Coddova pravidla

Autor článku

Jan Kapoun

Témata:

Mohlo by vás zajímat

Businessworld Newsletter

HP Knowledge HUB
pro moderní firemní IT

Krátce

21. 11. Mews zase nakupuje

6. 11. Výhra Trumpa vytvořila nové milionáře díky BTC

6. 11. První akvizice EET v Česku

30. 10. Miliony pro start-upy

30. 10. Rozšiřující se DIA

Anketa

Je pro váš podnik umělá inteligence vhodným řešením některých požadavků?

SPECIÁLNÍ PROJEKTY

Nový Projekt Manhattan: Umělá inteligence jako klíč k technologické dominanci

Canalys: Příprava na AI je v plném proudu, investice do cloudové infrastruktury vystřelily o 21 %

Třetí čtvrtletí letošního roku ryze českých investic

Hackeři zneužili reklamy na Facebooku k šíření falešných správců hesel pro Chrome – pak ukradnou…

Arrow Electronics v EMEA spouští Cloud Amplification Program

Na co mají zaměstnanci nárok, pokud se starají o nemocné blízké?

Windows chystá offline AI vyhledávání souborů

Coffee break: Když Wi-Fi potřebuje překonávat i kovové zdi

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Průkopníci informačního věku (30.) - Edgar Codd

Sdílet

Matematik z Oxfordu

První systémy pro řízení databází

Osudné zaváhání

Coddova pravidla

Autor článku

Mohlo by vás zajímat

Kvíz týdne

21. 11. Mews zase nakupuje

6. 11. Výhra Trumpa vytvořila nové milionáře díky BTC

6. 11. První akvizice EET v Česku

30. 10. Miliony pro start-upy

30. 10. Rozšiřující se DIA

Anketa

Je pro váš podnik umělá inteligence vhodným řešením některých požadavků?

SPECIÁLNÍ PROJEKTY

Z našich webů

Nový Projekt Manhattan: Umělá inteligence jako klíč k technologické dominanci

Canalys: Příprava na AI je v plném proudu, investice do cloudové infrastruktury vystřelily o 21 %

Třetí čtvrtletí letošního roku ryze českých investic

Hackeři zneužili reklamy na Facebooku k šíření falešných správců hesel pro Chrome – pak ukradnou…

Arrow Electronics v EMEA spouští Cloud Amplification Program

Na co mají zaměstnanci nárok, pokud se starají o nemocné blízké?

Windows chystá offline AI vyhledávání souborů

Coffee break: Když Wi-Fi potřebuje překonávat i kovové zdi

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Dále u nás najdete

Windows chystá offline AI vyhledávání souborů

Firmy mají řešit byznys, ne hledat účtenky, razí Fidoo

O kolik vzrostou důchody? Spočítejte si, jak se zvýší váš

Od dynamitu k Viagře. Výbušný nitroglycerin uvolňuje cévy

Co dělat, když vám zavřou dodavatele IT služeb?

Horké nápoje: Zkuste recepty na šest nejznámějších

Vyznejte se v kuřatech. Takhle se liší selské od venkovského

V obchodech je máslo s obsahem tuku jen 61 %. Rarita, ale povolená

Papírové letáky budou zpoplatněny, může jít o desetník za kus

Přílišné uklízení škodí plicím stejně jako cigarety

Osvědčené způsoby, jak snížit vysoký krevní tlak

USA zastavují dodávky pokročilých AI čipů TSMC do Číny

Bezplatný Microsoft PC Manager vylepšen

Podnikatelé s nižšími příjmy si za celý rok připlatí skoro o 13 tisíc víc

Souvisí zákaz Huawei i s nákupem stíhaček F-35?

Balík od DPD si nově můžete vyzvednout i na České poště

Pokuty za spam zřejmě vzrostou a můžou být likvidační

Nedostatek železa se projevuje únavou, bledostí a dušností

Temný rekord, počet kyberútoků dosáhl historického maxima

Poznáte slavné značky a firmy jen podle loga?