Tento slovník shromažďuje základní pojmy z oblasti ochrany důvěrnosti dat (statistical disclosure control), anonymizace a syntetických dat.
Je určen analytikům, výzkumníkům, datovým kurátorům i dalším zájemcům, kteří pracují s mikrodaty nebo publikují agregovaná data.
Každý pojem obsahuje anglický originál a výstižné české vysvětlení. Slovník vychází z terminologie používané ve výzkumu, oficiální statistice i praktických doporučeních evropských statistik a datových institucí.
Slovník průběžně doplňujeme. Pokud vám v něm nějaký pojem chybí, napište nám.
I
Identifikace
Identifikace je přiřazení konkrétního záznamu v datové sadě ke konkrétní populační jednotce..
Identifikační datová sada
- EN: Identification dataset
Datová sada, která obsahuje formální identifikátory.
Identifikační údaje
Osobní údaje, které umožňují přímou identifikaci subjektu údajů a které jsou potřebné pro sběr, kontrolu a propojování dat, ale následně se nepoužívají pro sestavování statistických výsledků.
Inferenční prozrazení
- EN: Inferential disclosure
Inferenční prozrazení nastává, když lze z publikovaných statistických vlastností dat s vysokou mírou jistoty odvodit citlivou informaci.
Například pokud data vykazují silnou korelaci mezi příjmem a kupní cenou nemovitosti, může třetí strana využít veřejně dostupnou cenu domu k odvození příjmu respondenta.
Interní pracoviště
Pracoviště zřízené v prostorách organizace, kde mohou mít externí výzkumníci přístup k potenciálně prozraditelným datům na základě smluvních ujednání.
Tato ujednání zajišťují zachování důvěrnosti a stanovují přísná pravidla pro způsob využití dat.
Interní pracoviště lze považovat za formu zabezpečeného prostředí, ve kterém je možné analyzovat důvěrná data.
Samotné pracoviště zahrnuje fyzicky i technicky zabezpečené prostředí pro práci a uchovávání dat, které zajišťuje důvěrnost dat pro výzkumné účely.
Součástí jsou také administrativní a podpůrné služby pro externí uživatele a kontrola dodržování stanovených podmínek přístupu k datům.
M
Metoda post-náhodné změny (PRAM)
- EN: Post Randomisation Method (PRAM)
Metoda ochrany mikrodat, při které se hodnoty kategoriální proměnné mění s určitou pravděpodobností na jiné hodnoty.
Jde tedy o záměrné chybné zařazení s předem známými pravděpodobnostmi záměny.
Metody statistické ochrany důvěrnosti
- EN: Disclosure control methods
Existují tři hlavní přístupy k řízení rizika prozrazení důvěrných dat.
Prvním přístupem je snížení informačního obsahu dat poskytovaných externímu uživateli.
U tabulkových dat se tento přístup označuje jako metoda řízení prozrazení založená na omezení a u mikrodat jako řízení prozrazení redukcí dat. Tento přístup se označuje jako neperturbační metody.
Druhým přístupem je úprava dat před jejich zveřejněním tak, aby se snížilo riziko prozrazení, přičemž se co nejvíce zachová jejich informační hodnota.
Tento přístup se označuje jako perturbační metody.
Třetím přístupem je generování syntetických dat, která nahrazují skutečná data simulovanými hodnotami vytvořenými na základě statistických modelů, a tím zcela eliminují riziko prozrazení při zachování analytické využitelnosti.
Metody založené na omezení
- EN: Restriction based disclosure control method
Metoda zveřejňování tabulkových dat, která spočívá ve snížení přístupu externího uživatele k poskytovaným údajům.
Tato metoda snižuje množství informací poskytovaných uživateli tabulkových dat – například nezveřejněním všech hodnot odvozených ze získaných dat nebo zveřejněním informací v méně podrobné podobě, než by bylo technicky možné.
Meze
Rozsah možných hodnot buňky v tabulce četností, kde byla hodnota buňky perturbována nebo potlačena. Pokud jsou zveřejněny pouze marginální součty tabulek, je možné odvodit meze pro nezveřejněné společné rozdělení. Jednou z metod odvozování mezí v tabulce je Shuttle algoritmus.
Horní mez je nejvyšší možná hodnota buňky v tabulce četností, kde byla hodnota buňky perturbována nebo potlačena.
Dolní mez je nejnižší možná hodnota buňky v tabulce četností, kde byla hodnota buňky perturbována nebo potlačena.
Mikroagregace
Metoda, kde záznamy jsou seskupeny na základě míry podobnosti ve vybraných proměnných, a ze stejných malých skupin se vypočítávají agregované hodnoty pro tyto proměnné.
Namísto původních hodnot jednotlivých záznamů se zveřejňují tyto agregáty.
Mikrodata
Sada mikrodat se skládá ze souboru záznamů obsahujících informace o jednotlivých respondentech nebo o ekonomických subjektech.
Minimální jedinečnost
Kombinace hodnot proměnných, která je jedinečná v dané mikrodatové sadě a neobsahuje žádnou vlastní podmnožinu, která by tuto vlastnost také měla – tedy minimální množina s vlastností jedinečnosti.
P
P-procentní pravidlo
Speciální případ pravidla (p,q), kde q
je 100 %.
To znamená, že na základě obecně dostupných informací může jakýkoli respondent odhadnout přínos jiného respondenta s relativní chybou nejvýše 100 % – tedy ví, že hodnota je nezáporná a nepřesahuje určitou mez, která může být až dvojnásobkem skutečné hodnoty.
Perturbační metody
Metody řízení prozrazení založené na perturbaci jsou techniky, které spočívají ve změně dat před jejich zveřejněním tak, aby se snížilo riziko prozrazení důvěrných informací, přičemž se co nejvíce zachovává informační hodnota dat.
Metody založené na perturbaci úmyslně zavádějí chybu do dat z důvodu ochrany důvěrnosti.
Například chyba může být vložena do hodnot buněk až po vytvoření tabulky – jde o tzv. perturbaci výstupu (output perturbation).
Chybu lze také zavést přímo do původních mikrodat, která tvoří vstup pro tvorbu tabulek – v tomto případě se jedná o perturbaci vstupu (input perturbation), což je přesnější, i když méně používaný termín.
Pravidlo (p,q)
Před zveřejněním tabulkových dat se předpokládá, že přínos jednotlivce k celkovému součtu buňky lze odhadnout s relativní chybou nejvýše q procent (a priori relativní chyba při odhadu individuálního přínosu). Pokud po zveřejnění údajů lze tento přínos odhadnout s relativní chybou nejvýše p procent (a posteriori relativní chyba při odhadu individuálního přínosu), buňka je označena jako důvěrná.
Parametry p
a q
určuje odpovědný pracovník.
Hodnoty p
a q
by měly být důvěrné.
Pravidlo (n,k)
Buňka je považována za důvěrnou, pokud n největších jednotek přispívá více než k
% k celkovému součtu buňky.
Například n = 2
a k = 85
znamená, že buňka je označena jako riziková, pokud dvě největší jednotky přispívají více než 85 % k celkovému součtu buňky.
Hodnoty n
a k
stanovuje příslušný pracovník.
Hodnoty n
a k
by měly být důvěrné.
Potlačení
Jedním z nejběžněji používaných způsobů ochrany citlivých buněk v tabulce je jejich potlačení.
Je zřejmé, že v řádku nebo sloupci s potlačenou citlivou buňkou je nutné potlačit alespoň jednu další buňku, jinak by bylo možné hodnotu citlivé buňky přesně dopočítat odečtením od marginálního součtu.
Z tohoto důvodu musí být potlačeny i některé další buňky, tzv. sekundární potlačení.
Ačkoli je možné vybrat buňky pro sekundární potlačení ručně, je obtížné tímto způsobem zaručit dostatečnou úroveň ochrany.
Potlačení buněk
U tabulkových dat metoda potlačení buněk spočívá v primárním a doplňkovém (sekundárním) potlačení. Primární potlačení spočívá ve zadržení hodnot všech rizikových buněk, což znamená, že jejich hodnota není v tabulce zobrazena, ale nahrazena symbolem, například „ד, který označuje potlačení.
Podle definice rizikových buněk musí být v tabulkách četností primárně potlačeny všechny buňky s malými počty a v tabulkách velikostí všechny buňky s malými počty nebo případy dominance.
Pro dosažení požadované ochrany rizikových buněk je nutné potlačit i další, nerizikové buňky – toto potlačení se nazývá doplňkové (sekundárním) potlačení.
Vzorec doplňkově potlačených buněk musí být pečlivě zvolen, aby poskytl požadovanou úroveň nejednoznačnosti pro rizikové buňky při co nejmenší ztrátě informací.
Pravděpodobnostní prozrazení (přibližné nebo přesné)
- EN: Probability based disclosures (approximate or exact)
Někdy, i když skutečnost není zveřejněna s jistotou, lze na základě publikovaných dat učinit tvrzení, které má vysokou pravděpodobnost, že bude správné.
Pravidlo prahové hodnoty
Pravidlo, podle kterého je buňka v tabulce četností považována za citlivou, pokud počet respondentů v buňce nedosahuje stanovené minimální hodnoty.
Některé instituce vyžadují v každé buňce alespoň pět respondentů, jiné například tři.
Pokud prahová hodnota není splněna, může instituce tabulku přepracovat – sloučit kategorie, použít potlačení buněk, zaokrouhlování, úpravu pro zajištění důvěrnosti nebo jinou dodatečnou ochranu, aby pravidlo bylo dodrženo.
Primární důvěrnost
- EN: Primary confidentiality
Týká se buněk v tabulkových datech, jejichž zveřejnění by mohlo vést k prozrazení atributů.
Hlavními důvody, proč jsou data označena za primárně důvěrná, jsou: - příliš malý počet jednotek v buňce; - dominance jedné nebo dvou jednotek v buňce.
Hranice toho, co představuje „příliš málo“ nebo „dominanci“, se liší mezi jednotlivými oblastmi statistiky a přísluší na rozhodnutí odpovědného pracovníka.
Primární ochrana
Ochrana u všech buněk obsahujících malé počty nebo případy dominance.
Primární potlačení
Tato technika spočívá v nezveřejnění všech prozraditelných buněk, což znamená, že jejich hodnota není v tabulce uvedena, ale nahrazena symbolem, například „ד, označujícím potlačení.
Podle definice prozraditelných buněk musí být v tabulkách četností primárně potlačeny všechny buňky s malými počty a v tabulkách velikostí všechny buňky s malými počty nebo případy dominance.
Proces propojování záznamů
- EN: Record linkage process
Proces, jehož cílem je rozhodnout, které dvojice záznamů ze dvou datových souborů A a B patří ke stejné reálné jednotce (tzv. skutečné shody, množina M), a které dvojice k sobě ve skutečnosti nepatří (tzv. nesprávné shody, množina U).
Zkoumané dvojice pocházejí z kartézského součinu A×B a jsou klasifikovány podle míry shody hodnot ve vybraných proměnných.
Prozrazení
Prozrazení se týká neoprávněného přiřazení informací subjektu údajů, ať už jednotlivci nebo organizaci.
Prozrazení má dvě složky: identifikaci a přiřazení.
Prozrazení atributů
Prozrazení atributu je přiřazení/atribuce určitého atributu nezávisle na identifikaci konkrétní populační jednotky. Tento typ prozrazení je hlavním problémem pro národní statistické úřady při zveřejňování tabulkových dat. Vzniká v důsledku existence prázdných buněk v publikované tabulce nebo v propojené sadě tabulek po provedení odčítání. Minimálně samotná přítomnost prázdné buňky umožňuje narušiteli na základě znalosti, že je určitá jednotka v tabulce zahrnuta, odvodit, že daná jednotka nemá kombinaci atributů uvedenou v prázdné buňce.
Prozrazení na základě znalosti účasti
- EN: Disclosure by response knowledge
Prozrazení, které vyplývá ze skutečnosti, že narušitel ví, že určitá osoba se účastnila konkrétního šetření.
Pokud narušitel ví, že data dané osoby se v datové sadě nacházejí, může být její identifikace a následné prozrazení výrazně snazší.
Prozrazení spontánním rozpoznáním
- EN: Disclosure by spontaneous recognition
Situace, kdy je jednotlivec v datové sadě rozpoznán.
Může k tomu dojít náhodně, nebo proto, že se narušitel cíleně snaží identifikovat konkrétní osobu.
Úspěšnost takového rozpoznání je vyšší, pokud má jednotlivec vzácnou kombinaci charakteristik, kterou má narušitel k dispozici.
Prozrazení systematickým vyhledáváním
- EN: Disclosure by fishing
Metoda útoku, při které se narušitel snaží v cílové datové sadě identifikovat rizikové záznamy a následně nalézt jednotky populace, které těmto záznamům odpovídají.
Tento typ prozrazení lze vyhodnocovat pomocí analýzy zvláštních jedinečností.
Prozrazení z analytických výstupů
- EN: Disclosure from analytical outputs
Situace, kdy jsou výstupy z analýz použity k přiřazení informací jednotlivým jednotkám populace.
K této situaci může dojít u uživatelů, kteří mohou data analyzovat, ale nemají k nim přímý přístup – například ve vzdálené datové laboratoři.
Přesné prozrazení
Přesné prozrazení nastává, pokud uživatel dokáže na základě zveřejněných informací určit přesnou hodnotu atributu pro konkrétní jednotku.
Přibližné prozrazení
- EN: Approximate disclosure
Přibližné prozrazení nastává, pokud narušitel dokáže odhadnout hodnotu respondenta, která je blízká skutečné hodnotě. Pokud by odhad přesně odpovídal skutečné hodnotě, jedná se o přesné prozrazení.
Přístup na základě souhlasu
Namísto potlačení tabulkových dat některé instituce žádají respondenty o souhlas se zveřejněním buněk, přestože by mohlo dojít k přesnému odhadu jejich citlivých údajů. Tento postup se označuje jako přístup na základě souhlasu.
Souhlasy jsou podepsané záznamy, kterými respondenti dávají svolení ke zveřejnění takových buněk.
Tato metoda je nejvhodnější u malých šetření nebo u sad tabulek s jen několika případy dominance, kdy je potřeba jen několik souhlasů. Samozřejmě platí, že respondenti musí mít za to, že jejich údaje nejsou zvlášť citlivé, aby byli ochotni souhlas podepsat.
R
Riziko prozrazení
Riziko prozrazení nastává tehdy, pokud je možné nepřiměřeně přesně odhadnout důvěrnou informaci respondenta, nebo pokud je možné s vysokou mírou jistoty dosáhnout přesného prozrazení.
Riziko sekundárního prozrazení
- EN: Secondary disclosure risk
Týká se dat, která sama o sobě nejsou primárně prozraditelná, ale jejich zveřejnění v kombinaci s jinými daty může umožnit identifikaci jednotky v mikrodatech nebo prozrazení jejího atributu.
Riziková data
Data jsou považována za prozraditelná, pokud umožňují identifikaci statistických jednotek, a to buď přímo, nebo nepřímo, čímž dochází k prozrazení individuálních informací.
Při posuzování, zda je statistická jednotka identifikovatelná, je třeba zohlednit všechny prostředky, které by mohla třetí strana rozumně použít k její identifikaci.
Rizikové buňky
Buňky v tabulce, které nelze zveřejnit z důvodu rizika statistického prozrazení, se označují jako rizikové buňky.
Podle definice existují tři typy rizikových buněk: buňky s malými počty, buňky dominance a buňky doplňkového potlačení.
Reziduální prozrazení
Prozrazení, ke kterému dochází kombinací zveřejněných údajů s dříve zveřejněnými nebo veřejně dostupnými informacemi.
Například tabulky pro vzájemně se nepřekrývající oblasti lze odečíst od tabulky za větší region, čímž může vzniknout důvěrná reziduální informace pro malé oblasti.
Rozostření
Rozostření nahrazuje původní hlášenou hodnotu průměrnou hodnotou. Existuje mnoho způsobů, jak tuto metodu implementovat. Skupiny záznamů pro průměrování mohou být vytvořeny na základě shody v jiných proměnných nebo seřazením podle proměnné zájmu. Počet záznamů ve skupině (jejichž data budou zprůměrována) může být pevně daný nebo náhodný. Vypočtený průměr může být přiřazen všem členům skupiny nebo pouze „prostřednímu“ členovi (např. jako u klouzavého průměru). Rozostření může být aplikováno na více proměnných, přičemž každá z nich může mít odlišné seskupení.
S
Sekundární potlačení
- EN: Secondary suppression
Pro dosažení požadované ochrany rizikových buněk je nutné potlačit i další, nerizikové buňky – toto potlačení se nazývá sekundární nebo doplňkové potlačení.
Vzorec doplňkově potlačených buněk musí být pečlivě vybrán tak, aby zajistil požadovanou úroveň nejednoznačnosti u prozraditelných buněk při zachování co největšího množství informací ve zveřejněné statistice.
Shuttle algoritmus
Metoda pro nalezení dolních a horních mezí buněk pomocí iteracímezi závislostmi mezi počty v buňkách. V kontingenčních tabulkách existuje mnoho závislostí mezi jednotlivými počty a jejich agregacemi. Pokud nejsou všechny jednotlivé počty známy, ale některé agregované počty ano, lze tyto závislosti využít k odhadům chybějících hodnot. Shuttle algoritmus vytváří specifickou podmnožinu možných závislostí a rekurzivně je prochází, aby nalezl meze pro chybějící počty. Jelikož mnoho závislostí zahrnuje neznámé hodnoty, musí být vyjádřeny pomocí nerovností zahrnujících dolní a horní meze, místo jednoduchých rovností. Algoritmus končí, když kompletní iterace již dále nezpřesní žádné meze počtů v buňkách.
Soukromí
Soukromí je pojem, který se vztahuje k subjektům údajů, zatímco důvěrnost se vztahuje k samotným údajům.
Soukromí je definováno jako „stav, který je přisuzován údajům na základě dohody mezi osobou nebo organizací poskytující údaje a organizací, která je přijímá, a který určuje míru ochrany, jež bude údajům poskytnuta.“
Mezi soukromím a důvěrností existuje jasný vztah — porušení důvěrnosti může vést k prozrazení údajů, které poškodí jednotlivce.
To je útok na soukromí, protože jde o zásah do práva člověka rozhodovat o tom, jak budou jeho osobní údaje používány.
Informační soukromí zahrnuje svobodu jednotlivce před nadměrným zasahováním při získávání informací a možnost rozhodovat, do jaké míry a za jakých okolností budou jeho názory, chování a postoje sdíleny s ostatními nebo naopak zůstávají soukromé.
Statistická ochrana důvěrnosti
- EN: Statistical Disclosure Control (SDC)
- EN: Statistical Disclosure Limitation (SDL)
Techniky kontroly zveřejňování statistických informací lze definovat jako soubor metod ke snížení rizika zveřejnění informací o jednotlivcích, firmách nebo jiných organizacích.
Tyto metody se vztahují pouze k kroku diseminace a zveřejnění a obvykle jsou založeny na omezení množství zveřejňovaných údajů nebo jejich úpravě.
Statistická důvěrnost
- EN: Statistical confidentiality
Ochrana údajů, které se vztahují k jednotlivým statistickým jednotkám a byly získány přímo pro statistické účely nebo nepřímo ze správních či jiných zdrojů, proti jakémukoli porušení práva na důvěrnost.
Zahrnuje prevenci neoprávněného prozrazení.
Statistické prozrazení
- EN: Statistical disclosure
Statistické prozrazení nastává, pokud zveřejnění statistiky umožní externímu uživateli dat získat lepší odhad důvěrné informace, než by bylo možné bez této statistiky.
Subaditivita
Jedna z vlastností pravidla (n,k) nebo (p,q), která napomáhá při hledání doplňkových buněk.
Tato vlastnost znamená, že citlivost sjednocení disjunktních buněk nemůže být větší než součet jejich individuálních citlivostí (obdoba trojúhelníkové nerovnosti).
Subaditivita je důležitá vlastnost, protože zajišťuje, že souhrny buněk, které nejsou citlivé, rovněž nejsou citlivé a není třeba je dále testovat.
Syntetická data
Přístup k ochraně důvěrnosti, při kterém se místo skutečných dat zveřejňují syntetická data, která byla vygenerována na základě jednoho nebo více populačních modelů.
V
Vzdálená datová laboratoř
- EN: Remote data laboratory
Virtuální prostředí poskytující službu vzdálené analýzy dat. Umožňuje vzdálené spouštění skriptů nad citlivými mikrodaty uloženými v chráněné síti instituce.
Vypočtený interval
Interval obsahující možné hodnoty potlačené buňky v tabulce, určený na základě struktury tabulky a zveřejněných hodnot.
Výběr
V kontextu řízení rizika prozrazení označuje zveřejnění pouze části původních záznamů v mikrodatovém souboru.
Výběrový poměr
Podíl populace obsažený ve zveřejněném datovém souboru.
Při jednoduchém náhodném výběru výběrový poměr představuje podíl jednotek populace, které byly vybrány do vzorku.
U složitějších výběrových metod jde obvykle o poměr počtu jednotek ve vzorku k počtu jednotek v populaci, ze které byl vzorek vybrán.
Výměna (nebo přepínání)
- EN: Swapping (or switching)
Výměna (nebo přepínání) spočívá ve výběru vzorku záznamů, nalezení odpovídajících záznamů v databázi na základě sady předem určených proměnných a následné výměně všech nebo některých ostatních proměnných mezi těmito spárovanými záznamy.
Výměna dat
Metoda u mikrodat, která spočívá ve výměně hodnot proměnných mezi záznamy, které se shodují v klíčových porměnných. Jedná se o transformační techniku, která (za určitých podmínek) zaručuje zachování vybraných statistických vlastností, jako jsou průměry, rozptyly a jednorozměrná rozdělení.
Výměna podle pořadí
Výměna podle pořadí je technika, při níž se k určení dvojic záznamů pro výměnu používají spojité proměnné.
Namísto požadavku na shodu hodnot se záznamy považují za „blízké“, pokud jsou si blízko podle pořadí v seznamu seřazeném podle spojité proměnné.
Záznamy, které jsou v pořadí blízko u sebe, jsou určeny jako páry pro výměnu.
Často se k řazení a výměně používá stejná proměnná.
Vzdálený přístup
On-line přístup k chráněným mikrodatům.
Vzdálené spouštění
Odeslání skriptů přes internet k provedení nad citlivými mikrodaty, která jsou uložena v chráněném prostředí instituce. Pokud jsou výsledky považovány za bezpečné z hlediska zveřejnění, jsou odeslány zpět autorovi skriptu. V opačném případě je autor informován, že požadavek nelze schválit.
Vzdálené spouštění může probíhat buď prostřednictvím skriptů určených pro konkrétní statistický software (např. R, Python, SAS, SPSS nebo STATA), který běží na vzdáleném serveru, nebo pomocí speciálního klientského systému nainstalovaného na počítači uživatele.