Slovník pojmů

Tento slovník shromažďuje základní pojmy z oblasti ochrany důvěrnosti dat (statistical disclosure control), anonymizace a syntetických dat.
Je určen analytikům, výzkumníkům, datovým kurátorům i dalším zájemcům, kteří pracují s mikrodaty nebo publikují agregovaná data.

Každý pojem obsahuje anglický originál a výstižné české vysvětlení. Slovník vychází z terminologie používané ve výzkumu, oficiální statistice i praktických doporučeních evropských statistik a datových institucí.

Slovník průběžně doplňujeme. Pokud vám v něm nějaký pojem chybí, napište nám.

Přejděte na:
A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z


A

Analytický server

  • EN: Analysis server

Forma vzdálené datové laboratoře, která umožňuje provádět analýzy nad daty uloženými na zabezpečeném serveru. Uživatel vidí výsledky své analýzy, ale nemá přístup k samotným datům.

Analýza scénářů

  • EN: Scenario analysis

Soubor kvazi-kriminologických metod sloužících k analýze a klasifikaci pravděpodobných kanálů rizika datového narušení.
Tyto metody vycházejí z vymezení prostředků, motivů a příležitostí, které může mít narušitel k provedení útoku.
Výsledkem takové analýzy je specifikace souboru klíčových proměnných, které pravděpodobně budou mít narušitelé k dispozici.

Analýza zvláštních jedinečností

  • EN: Special uniques analysis

Metoda sloužící k analýze rizika prozrazení na úrovni jednotlivých záznamů v mikrodatech.

Anonymizovaná data

  • EN: Anonymised data

Data obsahující pouze anonymizované záznamy.

Anonymizovaný záznam

  • EN: Anonymised record

Záznam, ze kterého byly odstraněny přímé identifikátory.

Atribuce

  • EN: Attribution

Atribuce je přiřazení nebo odřazení určitého atributu/vlastnosti/přívlastku ke konkrétní populační jednotce.


B

Barnardizace

  • EN: Barnardisation

Barnardizace je metoda odhalování hodnot u tabulek počtů, která spočívá v náhodném přičítání nebo odečítání hodnoty 1 u některých buněk v tabulce.

Bezpečná data

  • EN: Safe data

Mikrodata nebo makrodata, která byla chráněna vhodnými metodami statistické ochrany důvěrnosti.


C

Citlivá buňka

  • EN: Sensitive cell

Buňka, u níž by znalost její hodnoty umožnila nepřiměřeně přesný odhad přínosu jednotlivého respondenta.
Citlivé buňky jsou identifikovány pomocí pravidel dominance, například pravidlem (n,k) nebo (p,q), aplikovaných na mikrodata.

Citlivé proměnné

  • EN: Sensitive variables

Proměnné obsažené v datovém záznamu, které nejsou klíčovými proměnnými, ale patří do soukromé sféry respondentů, kteří by si nepřáli jejich zveřejnění.
Neexistuje přesná definice toho, co je „citlivá proměnná“, a proto je rozlišení mezi klíčovými a citlivými proměnnými do určité míry arbitrární.
Některé údaje jsou zjevně citlivé, například trestní rejstřík, zdravotní stav nebo záznamy o úvěrech. V jiných případech závisí toto rozlišení na okolnostech – například příjem může být v některých zemích považován za citlivou proměnnou, zatímco jinde za kvazi-identifikátor; podobně náboženství může být v některých společnostech zároveň klíčovou i citlivou proměnnou.
Za citlivé se považují všechny proměnné, které obsahují jednu nebo více citlivých kategorií, tedy kategorií nesoucích citlivé informace o jednotlivci nebo podniku.

Částečné prozrazení

  • EN: Partial disclosure

Synonymum pro přibližné prozrazení.


D

Detekce datového narušení

  • EN: Data intrusion detection

Odhalení narušitele na základě jeho chování.
Nejpravděpodobněji k tomu může dojít prostřednictvím analýzy vzorců požadavků zasílaných do vzdálené datové laboratoře.

Diseminace

  • EN: Dissemination

Poskytování a šíření dat v jakékoli formě: publikace, přístup k databázím, CD, flashdiky, vzdálené připojení, mikrofiše, telefonická komunikace atd.

Doplňkové potlačení

  • EN: Complementary suppression

Synonymum pro sekundární potlačení.


E


F

Formální identifikátor

  • EN: Formal identifier

Jakákoli proměnná nebo sada proměnných, která je strukturálně jedinečná pro každou jednotku populace, například rodné číslo. Pokud narušitel zná formální identifikátor, může přímo identifikovat cílového jednotlivce bez nutnosti další znalosti před zkoumáním mikrodat. Některé kombinace proměnných, jako jméno a adresa, jsou praktické formální identifikátory – i když nemusí být strukturálně jedinečné, jejich nejedinečnost je v praxi zanedbatelná.


G

Globální překódování

  • EN: Global recoding

Problémy s důvěrností lze řešit změnou struktury dat – například sloučením řádků nebo sloupců v tabulkách do širších intervalů nebo nových skupin charakteristik.
Toto řešení může být jednodušší než potlačování jednotlivých položek, ale obvykle snižuje popisnou a analytickou hodnotu tabulky.
Tuto ochrannou techniku lze využít i pro mikrodata.


H

Horní a dolní zakódování

  • EN: Top and bottom coding

Horní a dolní zakódování spočívá v nastavení horních nebo dolních mezí pro kvantitativní proměnné. Horní kód pro proměnnou představuje horní hranici všech publikovaných hodnot této proměnné. Jakákoli hodnota přesahující tuto mez je nahrazena hodnotou horní meze, nebo vůbec není v mikrodatovém souboru zveřejněna. Podobně dolní kód představuje dolní hranici všech publikovaných hodnot proměnné. Různé meze mohou být použity pro různé kvantitativní proměnné nebo pro různé podpopulace.


I

Identifikace

  • EN: Identification

Identifikace je přiřazení konkrétního záznamu v datové sadě ke konkrétní populační jednotce..

Identifikační datová sada

  • EN: Identification dataset

Datová sada, která obsahuje formální identifikátory.

Identifikační proměnná

  • EN: Identifying variable

Proměnná, která je buď formálním identifikátorem, nebo je jeho součástí.

Identifikační údaje

  • EN: Identification data

Osobní údaje, které umožňují přímou identifikaci subjektu údajů a které jsou potřebné pro sběr, kontrolu a propojování dat, ale následně se nepoužívají pro sestavování statistických výsledků.

Inferenční prozrazení

  • EN: Inferential disclosure

Inferenční prozrazení nastává, když lze z publikovaných statistických vlastností dat s vysokou mírou jistoty odvodit citlivou informaci.
Například pokud data vykazují silnou korelaci mezi příjmem a kupní cenou nemovitosti, může třetí strana využít veřejně dostupnou cenu domu k odvození příjmu respondenta.

Informovaný souhlas

  • EN: Informed consent

Základní etický princip vědeckého výzkumu na lidské populaci.
Nedojde k nezapojení člověka jako účastníka výzkumu bez jeho informovaného souhlasu nebo souhlasu jeho zákonného zástupce, pokud není stanoveno jinak.
Informovaný souhlas znamená, že osoba souhlasí s poskytnutím osobních údajů pro účely výzkumu a statistiky na základě plného objasnění všech skutečností potřebných k informovanému rozhodnutí — včetně povědomí o možných rizicích, o způsobech a subjektech využití údajů a o dostupných alternativách k poskytnutí dat.

Interní pracoviště

  • EN: On-site facility

Pracoviště zřízené v prostorách organizace, kde mohou mít externí výzkumníci přístup k potenciálně prozraditelným datům na základě smluvních ujednání.
Tato ujednání zajišťují zachování důvěrnosti a stanovují přísná pravidla pro způsob využití dat.
Interní pracoviště lze považovat za formu zabezpečeného prostředí, ve kterém je možné analyzovat důvěrná data.
Samotné pracoviště zahrnuje fyzicky i technicky zabezpečené prostředí pro práci a uchovávání dat, které zajišťuje důvěrnost dat pro výzkumné účely.
Součástí jsou také administrativní a podpůrné služby pro externí uživatele a kontrola dodržování stanovených podmínek přístupu k datům.


J

Jedinečnost

  • EN: Uniqueness

Tento pojem označuje situaci, kdy lze jednotlivce odlišit od všech ostatních členů populace nebo vzorku na základě informací dostupných v mikrodatových záznamech.
Existence jedinečnosti závisí na velikosti populace nebo vzorku a na míře, do jaké je dataset členěn podle geografických údajů a počtu a podrobnosti charakteristik uvedených pro každou jednotku.

Jedinečný v populaci

  • EN: Population unique

Záznam v datové sadě, který je jedinečný v rámci celé populace vzhledem k daným klíčovým proměným.

Jedinečný ve sjednocení

  • EN: Union unique

Jedinečný záznam ve vzorku, který je zároveň jedinečný i v celé populaci.
Podíl jedinečných záznamů ve vzorku, které jsou jedinečné i v populaci, je jedním z ukazatelů rizika prozrazení na úrovni celého souboru.

Jedinečný záznam ve vzorku

  • EN: Sample unique

Záznam v datové sadě, který je jedinečný vzhledem k dané klíčové proměnné v rámci tohoto konkrétního vzorku.


K

Klíčová proměnná

  • EN: Key variable

Proměnná, která je společná dvěma datovým souborům a může být proto použita k jejich propojení. Klíčová proměnná může být buď formálním identifikátorem, nebo kvazi-identifikátorem.

Kontrolované zaokrouhlování

  • EN: Controlled rounding

K řešení problému aditivity byla vyvinuta procedura nazývaná kontrolované zaokrouhlování. Jedná se o formu náhodného zaokrouhlování, která je však omezena tak, aby součet zveřejněných hodnot v každém řádku a sloupci odpovídal zveřejněným marginálním součtům.
Pro nalezení vzoru kontrolovaného zaokrouhlování pro tabulku se využívají metody lineárního programování.

Kvazi-identifikátor

  • EN: Quasi-identifier

Hodnoty proměnných nebo jejich kombinace v datovém souboru, které nejsou strukturálně jedinečné, ale mohou být empiricky jedinečné a tím pádem v zásadě umožnit jednoznačnou identifikaci jednotky populace.


L

Licenční dohoda

  • EN: Licensing agreement

Povolení vydané za určitých podmínek, které umožňuje výzkumníkům používat důvěrná data pro specifické účely a po stanovenou dobu.
Tato dohoda zahrnuje smluvní a etické závazky a také sankce za nesprávné prozrazení nebo použití identifikovatelných údajů.
Sankce mohou sahat od odebrání licence a odepření přístupu k dalším datovým souborům až po propadnutí zálohy složené před vydáním mikrodatového souboru.
Licenční dohoda je téměř vždy doplněna podpisem smlouvy, která obsahuje následující požadavky: určení zamýšleného účelu použití dat, zákaz předávání mikrodatového souboru jiné osobě, předchozí posouzení a schválení výstupů určených ke zveřejnění ze strany poskytovatele dat, podmínky a místo přístupu a vymahatelné sankce.

Lokální potlačení

  • EN: Local suppression

Metoda, která snižuje riziko rozpoznání informací o jednotlivcích nebo podnicích potlačením jednotlivých hodnot v identifikačních proměnných.

Lokální překódování

  • EN: Local recoding

Metoda u mikrodat, při které se používají dvě (nebo více) různé verze proměnné v závislosti na jiné proměnné.
Různé verze mají různou úroveň podrobnosti kódování podle rozdělení první proměnné podmíněného druhou proměnnou.
Typickým případem je situace, kdy je rozdělení proměnné silně vychýlené v některých geografických oblastech — v těchto oblastech mohou být méně časté kategorie sloučeny, aby vznikla hrubší proměnná.


M

Makrodata

  • EN: Macrodata

Synonymum pro tabulková data.

Metoda post-náhodné změny (PRAM)

  • EN: Post Randomisation Method (PRAM)

Metoda ochrany mikrodat, při které se hodnoty kategoriální proměnné mění s určitou pravděpodobností na jiné hodnoty.
Jde tedy o záměrné chybné zařazení s předem známými pravděpodobnostmi záměny.

Metody statistické ochrany důvěrnosti

  • EN: Disclosure control methods

Existují tři hlavní přístupy k řízení rizika prozrazení důvěrných dat.

Prvním přístupem je snížení informačního obsahu dat poskytovaných externímu uživateli.
U tabulkových dat se tento přístup označuje jako metoda řízení prozrazení založená na omezení a u mikrodat jako řízení prozrazení redukcí dat. Tento přístup se označuje jako neperturbační metody.

Druhým přístupem je úprava dat před jejich zveřejněním tak, aby se snížilo riziko prozrazení, přičemž se co nejvíce zachová jejich informační hodnota.
Tento přístup se označuje jako perturbační metody.

Třetím přístupem je generování syntetických dat, která nahrazují skutečná data simulovanými hodnotami vytvořenými na základě statistických modelů, a tím zcela eliminují riziko prozrazení při zachování analytické využitelnosti.

Metody založené na omezení

  • EN: Restriction based disclosure control method

Metoda zveřejňování tabulkových dat, která spočívá ve snížení přístupu externího uživatele k poskytovaným údajům.
Tato metoda snižuje množství informací poskytovaných uživateli tabulkových dat – například nezveřejněním všech hodnot odvozených ze získaných dat nebo zveřejněním informací v méně podrobné podobě, než by bylo technicky možné.

Meze

  • EN: Bounds

Rozsah možných hodnot buňky v tabulce četností, kde byla hodnota buňky perturbována nebo potlačena. Pokud jsou zveřejněny pouze marginální součty tabulek, je možné odvodit meze pro nezveřejněné společné rozdělení. Jednou z metod odvozování mezí v tabulce je Shuttle algoritmus.
Horní mez je nejvyšší možná hodnota buňky v tabulce četností, kde byla hodnota buňky perturbována nebo potlačena.
Dolní mez je nejnižší možná hodnota buňky v tabulce četností, kde byla hodnota buňky perturbována nebo potlačena.

Mikroagregace

  • EN: Microaggregation

Metoda, kde záznamy jsou seskupeny na základě míry podobnosti ve vybraných proměnných, a ze stejných malých skupin se vypočítávají agregované hodnoty pro tyto proměnné.
Namísto původních hodnot jednotlivých záznamů se zveřejňují tyto agregáty.

Mikrodata

  • EN: Microdata

Sada mikrodat se skládá ze souboru záznamů obsahujících informace o jednotlivých respondentech nebo o ekonomických subjektech.

Minimální jedinečnost

  • EN: Minimal unique

Kombinace hodnot proměnných, která je jedinečná v dané mikrodatové sadě a neobsahuje žádnou vlastní podmnožinu, která by tuto vlastnost také měla – tedy minimální množina s vlastností jedinečnosti.


N

Narušení dat

  • EN: Disturbing the data

Tento proces spočívá ve systematické úpravě dat takovým způsobem, že výsledné hodnoty nejsou dostatečně přesné k prozrazení informací o jednotlivých případech.

Narušitel

  • EN: Intruder

Uživatel dat, který se pokouší propojit respondenta se záznamem mikrodat nebo z agregovaných dat určit atributy konkrétních populačních jednotek. Narušitelé mohou být motivováni snahou zdiskreditovat nebo jinak poškodit příslušnou organizaci, statistické průzkumy, státní instituci, či získat si proslulost nebo publicitu, případně získat výhodné znalosti o konkrétních respondentech.

Nepřímá identifikace

  • EN: Indirect identification

Odvození identity jednotky populace v mikrodatovém souboru jiným způsobem než přímou identifikací.


O

Odečítání

  • EN: Subtraction

Princip, kdy narušitel může útočit na tabulku populačních počtů tím, že odečítá známé jednotlivce z celkových součtů. Pokud tímto postupem vzniknou v tabulce určité nuly, stává se tabulka zranitelnou vůči prozrazení atributu.

Ochrana údajů

  • EN: Data protection

Ochrana údajů označuje soubor zákonů, politik a postupů motivovaných ochranou soukromí, jejichž cílem je minimalizovat zásahy do soukromí respondentů způsobené sběrem, uchováváním a šířením osobních údajů.

Ochrana statistických dat

  • EN: Statistical Data Protection (SDP)

Ochrana statistických dat je obecnější pojem, který zohledňuje všechny kroky procesu.
SDP je multidisciplinární oblast čerpající z informatiky (datová bezpečnost), statistiky a operačního výzkumu.

Omezená data

  • EN: Restricted data

Synonymum pro bezpečná data.

Omezený přístup

  • EN: Restricted access

Ukládání podmínek pro přístup k mikrodatům.
Uživatelé mohou mít buď přístup k celému rozsahu chráněných surových dat a samostatně zpracovávat informace, které je zajímají – což je pro ně ideální situace – nebo je jejich přístup omezen a mohou získat pouze určitý počet výstupů (např. tabulek), případně jen výstupy určité struktury.
Omezený přístup je někdy nezbytný pro zajištění toho, aby nebylo možné vytvářet propojení mezi tabulkami.

Osobní údaje

  • EN: Personal data

Jakákoli informace týkající se identifikované nebo identifikovatelné fyzické osoby (tzv. subjektu údajů).
Identifikovatelnou osobou je taková osoba, kterou lze identifikovat přímo nebo nepřímo Pokud jednotlivce nelze identifikovat, údaje se považují za anonymní.


P

P-procentní pravidlo

  • EN: P-percent rule

Speciální případ pravidla (p,q), kde q je 100 %.
To znamená, že na základě obecně dostupných informací může jakýkoli respondent odhadnout přínos jiného respondenta s relativní chybou nejvýše 100 % – tedy ví, že hodnota je nezáporná a nepřesahuje určitou mez, která může být až dvojnásobkem skutečné hodnoty.

Perturbační metody

  • EN: Perturbation methods

Metody řízení prozrazení založené na perturbaci jsou techniky, které spočívají ve změně dat před jejich zveřejněním tak, aby se snížilo riziko prozrazení důvěrných informací, přičemž se co nejvíce zachovává informační hodnota dat.
Metody založené na perturbaci úmyslně zavádějí chybu do dat z důvodu ochrany důvěrnosti.

Například chyba může být vložena do hodnot buněk až po vytvoření tabulky – jde o tzv. perturbaci výstupu (output perturbation).
Chybu lze také zavést přímo do původních mikrodat, která tvoří vstup pro tvorbu tabulek – v tomto případě se jedná o perturbaci vstupu (input perturbation), což je přesnější, i když méně používaný termín.

Pravidlo (p,q)

  • EN: (p,q) rule

Před zveřejněním tabulkových dat se předpokládá, že přínos jednotlivce k celkovému součtu buňky lze odhadnout s relativní chybou nejvýše q procent (a priori relativní chyba při odhadu individuálního přínosu). Pokud po zveřejnění údajů lze tento přínos odhadnout s relativní chybou nejvýše p procent (a posteriori relativní chyba při odhadu individuálního přínosu), buňka je označena jako důvěrná.
Parametry p a q určuje odpovědný pracovník.
Hodnoty p a q by měly být důvěrné.

Pravidlo (n,k)

  • EN: (n,k) rule

Buňka je považována za důvěrnou, pokud n největších jednotek přispívá více než k % k celkovému součtu buňky.
Například n = 2 a k = 85 znamená, že buňka je označena jako riziková, pokud dvě největší jednotky přispívají více než 85 % k celkovému součtu buňky.
Hodnoty n a k stanovuje příslušný pracovník.
Hodnoty n a k by měly být důvěrné.

Potlačení

  • EN: Suppression

Jedním z nejběžněji používaných způsobů ochrany citlivých buněk v tabulce je jejich potlačení.
Je zřejmé, že v řádku nebo sloupci s potlačenou citlivou buňkou je nutné potlačit alespoň jednu další buňku, jinak by bylo možné hodnotu citlivé buňky přesně dopočítat odečtením od marginálního součtu.
Z tohoto důvodu musí být potlačeny i některé další buňky, tzv. sekundární potlačení.
Ačkoli je možné vybrat buňky pro sekundární potlačení ručně, je obtížné tímto způsobem zaručit dostatečnou úroveň ochrany.

Potlačení buněk

  • EN: Cell suppression

U tabulkových dat metoda potlačení buněk spočívá v primárním a doplňkovém (sekundárním) potlačení. Primární potlačení spočívá ve zadržení hodnot všech rizikových buněk, což znamená, že jejich hodnota není v tabulce zobrazena, ale nahrazena symbolem, například „ד, který označuje potlačení.
Podle definice rizikových buněk musí být v tabulkách četností primárně potlačeny všechny buňky s malými počty a v tabulkách velikostí všechny buňky s malými počty nebo případy dominance.
Pro dosažení požadované ochrany rizikových buněk je nutné potlačit i další, nerizikové buňky – toto potlačení se nazývá doplňkové (sekundárním) potlačení.
Vzorec doplňkově potlačených buněk musí být pečlivě zvolen, aby poskytl požadovanou úroveň nejednoznačnosti pro rizikové buňky při co nejmenší ztrátě informací.

Pravděpodobnostní prozrazení (přibližné nebo přesné)

  • EN: Probability based disclosures (approximate or exact)

Někdy, i když skutečnost není zveřejněna s jistotou, lze na základě publikovaných dat učinit tvrzení, které má vysokou pravděpodobnost, že bude správné.

Pravidlo dominance

  • EN: Dominance rule

Synonymum pro (n,k) pravidlo.

Pravidlo koncentrace

  • EN: Concentration rule

Synonymum pro (n,k) pravidlo.

Pravidlo prahové hodnoty

  • EN: Threshold rule

Pravidlo, podle kterého je buňka v tabulce četností považována za citlivou, pokud počet respondentů v buňce nedosahuje stanovené minimální hodnoty.
Některé instituce vyžadují v každé buňce alespoň pět respondentů, jiné například tři.
Pokud prahová hodnota není splněna, může instituce tabulku přepracovat – sloučit kategorie, použít potlačení buněk, zaokrouhlování, úpravu pro zajištění důvěrnosti nebo jinou dodatečnou ochranu, aby pravidlo bylo dodrženo.

Pravidlo před-po

  • EN: Prior-posterior rule

Synonymum pro (p,q) pravidlo.

Pravidlo nejednoznačnosti

  • EN: Ambiguity rule

Synonymum pravidla (p,q).

Primární důvěrnost

  • EN: Primary confidentiality

Týká se buněk v tabulkových datech, jejichž zveřejnění by mohlo vést k prozrazení atributů.
Hlavními důvody, proč jsou data označena za primárně důvěrná, jsou: - příliš malý počet jednotek v buňce; - dominance jedné nebo dvou jednotek v buňce.

Hranice toho, co představuje „příliš málo“ nebo „dominanci“, se liší mezi jednotlivými oblastmi statistiky a přísluší na rozhodnutí odpovědného pracovníka.

Primární ochrana

  • EN: Primary protection

Ochrana u všech buněk obsahujících malé počty nebo případy dominance.

Primární potlačení

  • EN: Primary suppression

Tato technika spočívá v nezveřejnění všech prozraditelných buněk, což znamená, že jejich hodnota není v tabulce uvedena, ale nahrazena symbolem, například „ד, označujícím potlačení.
Podle definice prozraditelných buněk musí být v tabulkách četností primárně potlačeny všechny buňky s malými počty a v tabulkách velikostí všechny buňky s malými počty nebo případy dominance.

Proces propojování záznamů

  • EN: Record linkage process

Proces, jehož cílem je rozhodnout, které dvojice záznamů ze dvou datových souborů A a B patří ke stejné reálné jednotce (tzv. skutečné shody, množina M), a které dvojice k sobě ve skutečnosti nepatří (tzv. nesprávné shody, množina U).
Zkoumané dvojice pocházejí z kartézského součinu A×B a jsou klasifikovány podle míry shody hodnot ve vybraných proměnných.

Prozraditelné buňky

  • EN: Disclosive cells

Synonymum pro rizikové buňky.

Prozrazení

  • EN: Disclosure

Prozrazení se týká neoprávněného přiřazení informací subjektu údajů, ať už jednotlivci nebo organizaci.
Prozrazení má dvě složky: identifikaci a přiřazení.

Prozrazení atributů

  • EN: Attribute disclosure

Prozrazení atributu je přiřazení/atribuce určitého atributu nezávisle na identifikaci konkrétní populační jednotky. Tento typ prozrazení je hlavním problémem pro národní statistické úřady při zveřejňování tabulkových dat. Vzniká v důsledku existence prázdných buněk v publikované tabulce nebo v propojené sadě tabulek po provedení odčítání. Minimálně samotná přítomnost prázdné buňky umožňuje narušiteli na základě znalosti, že je určitá jednotka v tabulce zahrnuta, odvodit, že daná jednotka nemá kombinaci atributů uvedenou v prázdné buňce.

Prozrazení na základě znalosti účasti

  • EN: Disclosure by response knowledge

Prozrazení, které vyplývá ze skutečnosti, že narušitel ví, že určitá osoba se účastnila konkrétního šetření.
Pokud narušitel ví, že data dané osoby se v datové sadě nacházejí, může být její identifikace a následné prozrazení výrazně snazší.

Prozrazení spárováním

  • EN: Disclosure by matching

Prozrazení vzniklé propojením záznamů z identifikační datové sady se záznamy v anonymizované datové sadě

Prozrazení spontánním rozpoznáním

  • EN: Disclosure by spontaneous recognition

Situace, kdy je jednotlivec v datové sadě rozpoznán.
Může k tomu dojít náhodně, nebo proto, že se narušitel cíleně snaží identifikovat konkrétní osobu.
Úspěšnost takového rozpoznání je vyšší, pokud má jednotlivec vzácnou kombinaci charakteristik, kterou má narušitel k dispozici.

Prozrazení systematickým vyhledáváním

  • EN: Disclosure by fishing

Metoda útoku, při které se narušitel snaží v cílové datové sadě identifikovat rizikové záznamy a následně nalézt jednotky populace, které těmto záznamům odpovídají.
Tento typ prozrazení lze vyhodnocovat pomocí analýzy zvláštních jedinečností.

Prozrazení z analytických výstupů

  • EN: Disclosure from analytical outputs

Situace, kdy jsou výstupy z analýz použity k přiřazení informací jednotlivým jednotkám populace.
K této situaci může dojít u uživatelů, kteří mohou data analyzovat, ale nemají k nim přímý přístup – například ve vzdálené datové laboratoři.

Přesné prozrazení

  • EN: Exact disclosure

Přesné prozrazení nastává, pokud uživatel dokáže na základě zveřejněných informací určit přesnou hodnotu atributu pro konkrétní jednotku.

Přibližné prozrazení

  • EN: Approximate disclosure

Přibližné prozrazení nastává, pokud narušitel dokáže odhadnout hodnotu respondenta, která je blízká skutečné hodnotě. Pokud by odhad přesně odpovídal skutečné hodnotě, jedná se o přesné prozrazení.

Přímá identifikace

  • EN: Direct identification

Identifikace statistické jednotky na základě jejích formálních identifikátorů.

Přístup na základě souhlasu

  • EN: Waiver approach

Namísto potlačení tabulkových dat některé instituce žádají respondenty o souhlas se zveřejněním buněk, přestože by mohlo dojít k přesnému odhadu jejich citlivých údajů. Tento postup se označuje jako přístup na základě souhlasu.
Souhlasy jsou podepsané záznamy, kterými respondenti dávají svolení ke zveřejnění takových buněk.
Tato metoda je nejvhodnější u malých šetření nebo u sad tabulek s jen několika případy dominance, kdy je potřeba jen několik souhlasů. Samozřejmě platí, že respondenti musí mít za to, že jejich údaje nejsou zvlášť citlivé, aby byli ochotni souhlas podepsat.


Q


R

R-U mapa

  • EN: R-U map

Grafické znázornění kompromisu mezi rizikem prozrazení a užitečností dat.

Riziko prozrazení

  • EN: Disclosure risk

Riziko prozrazení nastává tehdy, pokud je možné nepřiměřeně přesně odhadnout důvěrnou informaci respondenta, nebo pokud je možné s vysokou mírou jistoty dosáhnout přesného prozrazení.

Riziko identifikace

  • EN: Identification risk

Riziko identifikace je definováno jako pravděpodobnost, že narušitel identifikuje alespoň jednoho respondenta ve zveřejněném mikrodatovém souboru.
Tato identifikace může vést k prozrazení (citlivých) informací o respondentovi.
Riziko identifikace závisí na počtu a povaze kvazi-identifikátorů v mikrodatech a na předchozích znalostech narušitele.

Riziko sekundárního prozrazení

  • EN: Secondary disclosure risk

Týká se dat, která sama o sobě nejsou primárně prozraditelná, ale jejich zveřejnění v kombinaci s jinými daty může umožnit identifikaci jednotky v mikrodatech nebo prozrazení jejího atributu.

Riziková data

  • EN: Risky data

Data jsou považována za prozraditelná, pokud umožňují identifikaci statistických jednotek, a to buď přímo, nebo nepřímo, čímž dochází k prozrazení individuálních informací.
Při posuzování, zda je statistická jednotka identifikovatelná, je třeba zohlednit všechny prostředky, které by mohla třetí strana rozumně použít k její identifikaci.

Rizikové buňky

  • EN: Risky cells

Buňky v tabulce, které nelze zveřejnit z důvodu rizika statistického prozrazení, se označují jako rizikové buňky.
Podle definice existují tři typy rizikových buněk: buňky s malými počty, buňky dominance a buňky doplňkového potlačení.

Reziduální prozrazení

  • EN: Residual disclosure

Prozrazení, ke kterému dochází kombinací zveřejněných údajů s dříve zveřejněnými nebo veřejně dostupnými informacemi.
Například tabulky pro vzájemně se nepřekrývající oblasti lze odečíst od tabulky za větší region, čímž může vzniknout důvěrná reziduální informace pro malé oblasti.

Rozostření

  • EN: Blurring

Rozostření nahrazuje původní hlášenou hodnotu průměrnou hodnotou. Existuje mnoho způsobů, jak tuto metodu implementovat. Skupiny záznamů pro průměrování mohou být vytvořeny na základě shody v jiných proměnných nebo seřazením podle proměnné zájmu. Počet záznamů ve skupině (jejichž data budou zprůměrována) může být pevně daný nebo náhodný. Vypočtený průměr může být přiřazen všem členům skupiny nebo pouze „prostřednímu“ členovi (např. jako u klouzavého průměru). Rozostření může být aplikováno na více proměnných, přičemž každá z nich může mít odlišné seskupení.


S

Scénáře prozrazení

  • EN: Disclosure scenarios

V závislosti na záměru narušitele, jeho předchozích znalostech a dostupných mikrodatech mohou u mikrodat nastat tři různé typy prozrazení, resp. scénáře prozrazení: - prozrazení spárováním; - prozrazení na základě znalosti účasti; - prozrazení spontánním rozpoznáním

Sekundární potlačení

  • EN: Secondary suppression

Pro dosažení požadované ochrany rizikových buněk je nutné potlačit i další, nerizikové buňky – toto potlačení se nazývá sekundární nebo doplňkové potlačení.
Vzorec doplňkově potlačených buněk musí být pečlivě vybrán tak, aby zajistil požadovanou úroveň nejednoznačnosti u prozraditelných buněk při zachování co největšího množství informací ve zveřejněné statistice.

Shuttle algoritmus

  • EN: Shuttle algorithm

Metoda pro nalezení dolních a horních mezí buněk pomocí iteracímezi závislostmi mezi počty v buňkách. V kontingenčních tabulkách existuje mnoho závislostí mezi jednotlivými počty a jejich agregacemi. Pokud nejsou všechny jednotlivé počty známy, ale některé agregované počty ano, lze tyto závislosti využít k odhadům chybějících hodnot. Shuttle algoritmus vytváří specifickou podmnožinu možných závislostí a rekurzivně je prochází, aby nalezl meze pro chybějící počty. Jelikož mnoho závislostí zahrnuje neznámé hodnoty, musí být vyjádřeny pomocí nerovností zahrnujících dolní a horní meze, místo jednoduchých rovností. Algoritmus končí, když kompletní iterace již dále nezpřesní žádné meze počtů v buňkách.

Soukromí

  • EN: Privacy

Soukromí je pojem, který se vztahuje k subjektům údajů, zatímco důvěrnost se vztahuje k samotným údajům.
Soukromí je definováno jako „stav, který je přisuzován údajům na základě dohody mezi osobou nebo organizací poskytující údaje a organizací, která je přijímá, a který určuje míru ochrany, jež bude údajům poskytnuta.“
Mezi soukromím a důvěrností existuje jasný vztah — porušení důvěrnosti může vést k prozrazení údajů, které poškodí jednotlivce.
To je útok na soukromí, protože jde o zásah do práva člověka rozhodovat o tom, jak budou jeho osobní údaje používány.
Informační soukromí zahrnuje svobodu jednotlivce před nadměrným zasahováním při získávání informací a možnost rozhodovat, do jaké míry a za jakých okolností budou jeho názory, chování a postoje sdíleny s ostatními nebo naopak zůstávají soukromé.

Statistická ochrana důvěrnosti

  • EN: Statistical Disclosure Control (SDC)
  • EN: Statistical Disclosure Limitation (SDL)

Techniky kontroly zveřejňování statistických informací lze definovat jako soubor metod ke snížení rizika zveřejnění informací o jednotlivcích, firmách nebo jiných organizacích.
Tyto metody se vztahují pouze k kroku diseminace a zveřejnění a obvykle jsou založeny na omezení množství zveřejňovaných údajů nebo jejich úpravě.

Statistická důvěrnost

  • EN: Statistical confidentiality

Ochrana údajů, které se vztahují k jednotlivým statistickým jednotkám a byly získány přímo pro statistické účely nebo nepřímo ze správních či jiných zdrojů, proti jakémukoli porušení práva na důvěrnost.
Zahrnuje prevenci neoprávněného prozrazení.

Statistické prozrazení

  • EN: Statistical disclosure

Statistické prozrazení nastává, pokud zveřejnění statistiky umožní externímu uživateli dat získat lepší odhad důvěrné informace, než by bylo možné bez této statistiky.

Subaditivita

  • EN: Subadditivity

Jedna z vlastností pravidla (n,k) nebo (p,q), která napomáhá při hledání doplňkových buněk.
Tato vlastnost znamená, že citlivost sjednocení disjunktních buněk nemůže být větší než součet jejich individuálních citlivostí (obdoba trojúhelníkové nerovnosti).
Subaditivita je důležitá vlastnost, protože zajišťuje, že souhrny buněk, které nejsou citlivé, rovněž nejsou citlivé a není třeba je dále testovat.

SUDA

  • EN: SUDA

Softwarový systém určený k analýze populačně jedinečných záznamů a zvláštních jedinečností ve vzorku.
Metoda analýzy zvláštních jedinečností implementovaná v systému SUDA pro měření a hodnocení rizika prozrazení je založena na metodách opakovaného výběru.

Syntetická data

  • EN: Synthetic data

Přístup k ochraně důvěrnosti, při kterém se místo skutečných dat zveřejňují syntetická data, která byla vygenerována na základě jednoho nebo více populačních modelů.


T

Tabulková data

  • EN: Tabular data

Souhrnné agregované informace o entitách prezentované v tabulkách.

Tabulky četností

  • EN: Tables of frequency (count) data

Tyto tabulky zobrazují počet jednotek analýzy v jednotlivých buňkách.
Pokud data pocházejí z výběrového šetření, mohou buňky obsahovat vážené počty, kdy se pomocí vah převádějí výsledky ze vzorku na úroveň celé populace.
Četnosti mohou být také vyjádřeny v procentech.

Tabulky údajů o velikosti

  • EN: Tables of magnitude data

Tabulky údajů o velikosti zobrazují agregované hodnoty „sledované veličiny“ za všechny jednotky analýzy v dané buňce.
Pokud data pocházejí z výběrového šetření, mohou buňky obsahovat vážené souhrny, kdy jsou hodnoty násobeny vahami jednotek, aby výsledky ze vzorku odpovídaly celé populaci.
Data mohou být také prezentována jako průměry, pokud se agregované hodnoty dělí počtem jednotek v příslušné buňce.


U

Užitečnost dat

  • EN: Data utility

Souhrnný pojem popisující hodnotu zveřejněného datového souboru jako analytického zdroje.
Zahrnuje analytickou úplnost dat a jejich analytickou platnost.
Metody statistické ochrany důvěrnosti obvykle negativně ovlivňují užitečnost dat.
Ideálním cílem každého režimu ochrany před prozrazením je maximalizovat užitečnost dat a zároveň minimalizovat riziko prozrazení.
V praxi jde o kompromisní rozhodování mezi těmito dvěma aspekty.

Úplné prozrazení

  • EN: Complete disclosure

Synonymum pro přesné prozrazení.


V

Virtuální zabezpečené prostředí

  • EN: Virtual safe setting

Synonymum pro vzdálenou datovou laboratoř.

Vzdálená datová laboratoř

  • EN: Remote data laboratory

Virtuální prostředí poskytující službu vzdálené analýzy dat. Umožňuje vzdálené spouštění skriptů nad citlivými mikrodaty uloženými v chráněné síti instituce.

Vypočtený interval

  • EN: Calculated interval

Interval obsahující možné hodnoty potlačené buňky v tabulce, určený na základě struktury tabulky a zveřejněných hodnot.

Výběr

  • EN: Sampling

V kontextu řízení rizika prozrazení označuje zveřejnění pouze části původních záznamů v mikrodatovém souboru.

Výběrový poměr

  • EN: Sampling fraction

Podíl populace obsažený ve zveřejněném datovém souboru.
Při jednoduchém náhodném výběru výběrový poměr představuje podíl jednotek populace, které byly vybrány do vzorku.
U složitějších výběrových metod jde obvykle o poměr počtu jednotek ve vzorku k počtu jednotek v populaci, ze které byl vzorek vybrán.

Výměna (nebo přepínání)

  • EN: Swapping (or switching)

Výměna (nebo přepínání) spočívá ve výběru vzorku záznamů, nalezení odpovídajících záznamů v databázi na základě sady předem určených proměnných a následné výměně všech nebo některých ostatních proměnných mezi těmito spárovanými záznamy.

Výměna dat

  • EN: Data swapping

Metoda u mikrodat, která spočívá ve výměně hodnot proměnných mezi záznamy, které se shodují v klíčových porměnných. Jedná se o transformační techniku, která (za určitých podmínek) zaručuje zachování vybraných statistických vlastností, jako jsou průměry, rozptyly a jednorozměrná rozdělení.

Výměna podle pořadí

  • EN: Rank swapping

Výměna podle pořadí je technika, při níž se k určení dvojic záznamů pro výměnu používají spojité proměnné.
Namísto požadavku na shodu hodnot se záznamy považují za „blízké“, pokud jsou si blízko podle pořadí v seznamu seřazeném podle spojité proměnné.
Záznamy, které jsou v pořadí blízko u sebe, jsou určeny jako páry pro výměnu.
Často se k řazení a výměně používá stejná proměnná.

Vzdálený přístup

  • EN: Remote access

On-line přístup k chráněným mikrodatům.

Vzdálené spouštění

  • EN: Remote execution

Odeslání skriptů přes internet k provedení nad citlivými mikrodaty, která jsou uložena v chráněném prostředí instituce. Pokud jsou výsledky považovány za bezpečné z hlediska zveřejnění, jsou odeslány zpět autorovi skriptu. V opačném případě je autor informován, že požadavek nelze schválit.
Vzdálené spouštění může probíhat buď prostřednictvím skriptů určených pro konkrétní statistický software (např. R, Python, SAS, SPSS nebo STATA), který běží na vzdáleném serveru, nebo pomocí speciálního klientského systému nainstalovaného na počítači uživatele.


W


X


Y


Z

Zabezpečené prostředí

  • EN: Safe setting

Prostředí, například laboratoř pro práci s mikrodaty, které umožňuje kontrolovaný přístup k prozraditelnému datovému souboru.

Zabezpečení

  • EN: Security

Účinná metoda statistické ochrany důvěrnosti poskytuje ochranu proti přesnému prozrazení nebo nežádoucímu úzkému odhadu atributů jednotlivé jednotky.
Jinými slovy – účinná technika zabraňuje přesnému nebo částečnému prozrazení.
Tomu odpovídá vysoká úroveň zabezpečení.
V případě metod statistické ochrany důvěrnosti při zveřejňování mikrodat je tato ochrana zajištěna tehdy, není-li možná identifikace respondenta – protože právě identifikace je předpokladem pro prozrazení.

Zaokrouhlování

  • EN: Rounding

Zaokrouhlování patří mezi perturbační metody.
Používá se k ochraně malých počtů v tabulkových datech před prozrazením.
Základní myšlenkou této metody je zaokrouhlit každý počet směrem nahoru nebo dolů – deterministicky nebo pravděpodobnostně – na nejbližší celočíselný násobek dané základny.
Tímto postupem bývá narušena aditivní povaha tabulky.
Zaokrouhlování může sloužit také jako metoda překódování mikrodat.