Skip to main content

Breadcrumb

Geheimhaltung mit Cell-Key-Methode

Statistische Geheimhaltung

Die Statistischen Ämter des Bundes und der Länder stellen sicher, dass die bereitgestellten Ergebnisse der amtlichen Statistik keine Einzelangaben von Bürgerinnen und Bürgern sowie Unternehmen offenlegen. Um dies zu gewährleisten, kommen in der amtlichen Statistik Geheimhaltungsverfahren zum Einsatz. Die Anforderungen der statistischen Geheimhaltung in der amtlichen Statistik regelt § 16 Bundesstatistikgesetz (BStatG). Es gibt verschiedene Verfahren, um Einzelangaben zu schützen (d. h. die statistische Geheimhaltung zu gewährleisten). Beim Einsatz eines Geheimhaltungsverfahrens ist es wichtig, dass so wenig Informationen wie möglich verloren gehen und die Qualität der Ergebnisse insgesamt erhalten bleibt.  Zudem muss das Verfahren ermöglichen, dass Auswertungen flexibel erstellt werden können. Ein Geheimhaltungsverfahren, das diese Ansprüche erfüllt, ist die Cell-Key-Methode.

Geheimhaltung mit der Cell-Key-Methode

Die statistische Geheimhaltung wird mit dieser Methode gewährleistet, indem jedes Originalergebnis mithilfe eines Zufallsmechanismus geringfügig verändert werden kann (aber nicht muss). Ähnlich wie beim kaufmännischen Runden wird stets jedes Ergebnis erst exakt berechnet und anschließend einzeln verändert, d. h. zu einigen Originalwerten wird ein kleiner Wert hinzuaddiert oder abgezogen. Aus den veröffentlichten Ergebnissen können somit keine eindeutigen Rückschlüsse auf Originalwerte und damit auf Einzelangaben gezogen werden.     

Die Änderung der Ergebnisse erfolgt so, dass Tabellenfelder, die die gleiche Aussage enthalten stets exakt gleich verändert werden. Die Gesamtanzahl von Frauen innerhalb einer Gemeinde bleibt dadurch immer identisch, unabhängig von weiteren Differenzierungen, z. B. nach Alter. Um eine hohe Genauigkeit sicherzustellen, werden auch Summen separat überlagert.          
Dieses Vorgehen sichert eine hohe Ergebnisqualität auf allen Gliederungsebenen (Bund, Länder, Kreise, Gemeinden etc.) und somit möglichst geringe Abweichungen vom jeweiligen Originalwert. Allerdings sind dadurch die Tabellenzeilen und -spalten nicht immer additiv (Nicht-Additivität, s. hierzu FAQ - Frage 7). 

FAQ - Fragen und Antworten

1. Warum statistische Geheimhaltung?

Um das Grundrecht aller Bürgerinnen und Bürger auf informationelle Selbstbestimmung zu schützen und den Vorgaben des Bundesstatistikgesetzes (BStatG) Rechnung zu tragen, dürfen aus Veröffentlichungen keine Rückschlüsse auf die Angaben von Einzelpersonen oder auf andere Einzelfälle möglich sein. Dies wird durch den Einsatz von sogenannten Geheimhaltungsverfahren gewährleistet. 

2. Auf welcher Rechtsgrundlage basiert die statistische Geheimhaltung?

Die Pflicht zur Geheimhaltung in der amtlichen Statistik ist in § 16 Bundesstatistikgesetz (BStatG) geregelt. Danach sind Einzelangaben über persönliche und sachliche Verhältnisse, die für eine amtliche Statistik gemacht werden, von den jeweils durchführenden statistischen Stellen geheim zu halten. Dies wird auch als Statistikgeheimnis bezeichnet.

3. Welche Anforderungen werden an die Verfahren der statistischen Geheimhaltung gestellt?

Generelle Anforderungen an ein Geheimhaltungsverfahren sind eine möglichst hohe Sicherheit gegen die Aufdeckung von Einzelangaben bei gleichzeitig möglichst hoher Qualität der Ergebnisse. Das Ziel ist es daher, die Daten so wenig wie möglich und so viel wie nötig zu verändern. Die Aussage(-kraft) einer Statistik soll durch das Geheimhaltungsverfahren nicht verändert werden. Weitere Anforderungen sind eine hohe Akzeptanz der Nutzenden und dass Auswertungen möglichst flexibel durchführbar sein sollten.

4. Welche Geheimhaltungsverfahren gibt es in der amtlichen Statistik?

Die amtliche Statistik setzt grundsätzlich zwei unterschiedliche Arten von Geheimhaltungsverfahren ein: Informationsreduzierende Verfahren und datenverändernde Verfahren.

Im Rahmen von informationsreduzierenden Verfahren werden:
     ● einzelne Werte nicht veröffentlicht oder
     ● Ausprägungen zusammengefasst, d.h. ein Ergebnis in seiner Darstellung vergröbert.

Vorteil: Veröffentlichte Einzelwerte sind hierbei unberührt von Veränderungen, das Verfahren ist einfach nachzuvollziehen.

Nachteil: Flexible, differenzierte oder regionale Darstellungen sind kaum möglich. Teilweise müssen viele Ergebnisse/Werte von einer Veröffentlichung ausgeschlossen werden, um einen wirksamen Schutz vor der Aufdeckung von Einzelangaben zu gewährleisten.

Informationsreduzierende Verfahren: z. B. Zellsperrung.


Bei datenverändernden Verfahren werden in der amtlichen Statistik bspw. Rundungsverfahren oder die stochastische (zufällige) Überlagerung eingesetzt. 

Vorteil: Datenverändernde Verfahren ermöglichen auch detaillierte, individuelle Auswertungen in Datenbanken. In Auswertungen müssen keine Ergebnisse weggelassen werden, um Einzelangaben zu schützen.        

Nachteil: Für die Nutzenden besteht die Unsicherheit, ob ein Wert verändert worden ist oder nicht (siehe auch Schutz der Daten). Die Tabellen sind teilweise nicht additiv.

Datenverändernde Geheimhaltungsverfahren: z. B. die Deterministische Rundung oder auch die Cell-Key-Methode

5. Was ist die Cell-Key-Methode?

Die Cell-Key-Methode ist ein datenveränderndes Geheimhaltungsverfahren. Bei diesem Verfahren findet eine zufällige Veränderung der Originalfallzahlen statt, wobei der Informationsverlust und der Verlust der Aussagekraft der Ergebnisse möglichst gering gehalten werden. 
Bei dieser Methode wird u. a. vorab festgelegt, wie groß die Abweichung von den Originalwerten maximal sein darf. Die Veränderung kann dabei auch Null betragen. Welche Werte wie verändert werden, erfolgt über einen Zufallsmechanismus und ist für die Nutzenden nicht erkennbar.

Für jedes Tabellenfeld wird ein „Schlüsselwert“, der sogenannte Cell-Key berechnet. Dieser ergibt sich aus der Summe der Zufallszahlen, die den einzelnen Beitragenden des Tabellenfelds zugeordnet sind. Jedem Cell-Key ist zudem ein fester sogenannter Überlagerungswert zugeordnet. Dieser gibt an, um welchen Wert die Originalfallzahl im Rahmen des Geheimhaltungsprozesses verändert wird. Ein Überlagerungswert kann bspw. den Wert -1 oder +2 annehmen, was bedeutet, dass der Originalwert um den Wert -1 bzw. +2 verändert wird. Handelt es sich beim Originalwert also beispielsweise um die Zahl 3 und der Überlagerungswert, der dem Cell-Key dieser Fallzahl zugeordnet ist, lautet -1, erfolgt die Überlagerung in der Tabelle mit dem Wert 2 gemäß 3 (Originalwert) - 1 (Überlagerungswert) = 2 (veränderte Zahl).     
Die Spezifika sind den jeweiligen methodischen Erläuterungen der Statistik zu entnehmen.    
Weiterführende Informationen zur Cell-Key-Methode allgemein und in den verschiedenen Statistiken finden Sie am Ende der Seite unter "Weitere Informationen zum Thema Cell-Key-Methode"

6. Kann ich mit den überlagerten Daten selbst weiterrechnen?

Eine eigenständige Bearbeitung und Berechnung, z. B. von Verhältniszahlen oder Veränderungsraten in Zeitreihen, ist möglich, führt jedoch ggf. zu größeren Abweichungen von den Originalergebnissen und auch zu Abweichungen von Ergebnissen, die durch die Statistischen Ämter des Bundes und der Länder veröffentlicht werden. 
Es wird daher empfohlen, nur die von den Statistischen Ämtern des Bundes und der Länder veröffentlichten Ergebnisse zu nutzen.

7. Was ist unter Nicht-Additivität zu verstehen?

Wenn Daten, die mit der Cell-Key-Methode geheim gehalten worden sind, in einer Tabelle dargestellt werden, ergibt sich bei der Aufsummierung der Einzelfelder in den Zeilen oder Spalten einer Tabelle nicht immer die Zeilen- und Spaltensummen. Es kann zu Abweichungen in den Summen kommen. Auch Verhältniszahlen (z. B. Anteile oder Mittelwerte) werden verändert. In bestimmten Statistiken kann dies in Einzelfällen auch zu Anteilen von über 100 % führen.

Das folgende Beispiel veranschaulicht dies: Der in der oberen Tabellenzeile ausgewiesene Insgesamt-Wert über alle Altersklassen für die Ausprägung „Männlich“ beträgt 175. Werden die zugehörigen Tabellenfelder jedoch separat addiert, ergibt deren Summe 173 (=20+31+32+40+50). Auch bei den spaltenweise ausgewiesenen Insgesamt-Werten lässt sich diese Besonderheit beobachten. Der Insgesamt-Wert für die komplette Tabelle ist mit 371 ausgewiesen. Werden die Werte für die Ausprägungen „Männlich“ und „Weiblich“ jedoch separat addiert, ergibt deren Summe 372 (= 175 + 197). Auch bei einer Addition über die Insgesamt-Werte aller Altersklassen 369 (= 47 + 56 + 71 + 86 + 109) sowie über alle Einzelwerte der Tabelle 368 (= 20 + 31 + 32 + 40 + 50 + 25 + 25 + 40 + 45 + 60) ergibt sich jeweils eine leichte Abweichung zum ausgewiesenen Insgesamt-Wert.

GeschlechtInsgesamtAlter
Unter 1818-2930-4950-6465 und älter
AnzahlAnzahlAnzahlAnzahlAnzahlAnzahl
Männlich1752031324050
Weiblich1972525404560
Insgesamt37147567186109

Beispieltabelle: Fallzahlen nach Geschlecht und Alter

8. Welche Auswirkungen hat das Geheimhaltungsverfahren auf statistische Kennzahlen (z. B. Anteile, Mittelwerte oder Veränderungsraten)?

Die Cell-Key-Methode hat auch Auswirkungen auf Kennzahlen wie Anteile, Mittelwerte, Salden sowie Veränderungsraten. Werden diese Kennzahlen mittels der gering veränderten Fallzahlen berechnet, können die jeweiligen Ergebnisse vom entsprechenden Originalwert ebenfalls geringfügig abweichen. Dies trifft ebenso auf Wertsummen, z. B. Wohnfläche in m² oder Umsatz in Euro, und daraus gebildete Mittelwerte zu. Die jeweils angewandte Vorgehensweise verhindert Rückschlüsse auf Einzelangaben und stellt gleichzeitig eine möglichst hohe Ergebnisqualität sicher. Auch hier gilt: Wenn bei der Recherche Diskrepanzen zu den amtlichen Ergebnissen vermieden werden sollen, sollten die statistischen Kennzahlen möglichst direkt über die Angebote der statistischen Ämter des Bundes und der Länder abgerufen werden, statt eigene Berechnungen zu verwenden.

9. Wie wird die Cell-Key-Methode bei Wertsummen (Summen von Wertmerkmalen) eingesetzt?

Bei Wertsummen handelt es sich um Summen von Wertmerkmalen, wie z. B. die Wohnfläche in m² oder der Umsatz in Euro. Die Anwendung des Verfahrens bei Wertmerkmalen erfolgt im Grundsatz analog zur Anwendung bei Fallzahlen. Auch hier werden Originalwerte auf Basis des Cell-Keys geringfügig verändert. Im Unterschied zur Anwendung der Cell-Key-Methode bei der Überlagerung von Fallzahlen muss das Ausmaß der Veränderung jedoch der Skaleneinheit des Wertmerkmals angepasst werden. Aus diesem Grund zielt die zufällige Überlagerung von Wertmerkmalen insbesondere darauf ab, dass aus den veröffentlichten Ergebnissen lediglich Abschätzungen von Einzelbeiträgen möglich sind, die mit ausreichender Unsicherheit behaftet sind.

10. Wie unterscheidet sich der Einsatz der Cell-Key-Methode bei Wertsummen und Fallzahlen?

Für Wertsummen wird eine Verfahrensvariante verwendet, die auf der Fallzahlüberlagerung aufbaut, diese aber erweitert. Während bei der Fallzahlüberlagerung vor allem die kleinen Fallzahlen schützenswert sind, müssen bei den Wertsummen besonders die Einheiten geschützt werden, die mit ihren Einzelwerten in hohem Maß zur Wertsumme beitragen (bspw. umsatzstarkes Unternehmen in einem Wirtschaftszweig). Durch die Cell-Key-Methode werden auf diese Weise auch näherungsweise Rückschlüsse auf einzelne Beitragende verhindert. Die Details sind in einer Veröffentlichung beschrieben.

11. Weshalb werden einige statistische Kennzahlen in Klammern oder ganze Tabellenteile gar nicht ausgewiesen?

Bei statistischen Kennzahlen (z. B. Anteile, Mittelwerte oder Veränderungsraten) kann es insbesondere dann zu hohen prozentualen Abweichungen vom Originalwert kommen, wenn sehr kleine Fallzahlen der jeweiligen Maßzahl zugrunde liegen. In diesem Fall wird die entsprechende Kennzahl in Klammern ausgewiesen, um einen eingeschränkten Interpretationsgehalt zu kennzeichnen. Weist eine Maßzahl eine besonders hohe Unsicherheit auf, so wird diese aus Qualitätsgründen gar nicht ausgewiesen (dargestellt durch das Zeichen „/“). Sehr schwach besetzte Tabellenteile mit besonders hohem Schutzbedarf werden aus Qualitätsgründen ebenfalls nicht ausgewiesen (dargestellt durch das Zeichen "."). Für stärker zusammengefasste Ebenen sind entsprechende Auswertungen in der Regel verfügbar. Diese Qualitätsinformation liegt bei einer eigenen Berechnung der Kennzahlen nicht vor. Deshalb der Hinweis: Wenn bei einer Recherche großer Wert auf Genauigkeit der Ergebnisse auch im Detail gelegt werden bzw. auch kleine Diskrepanzen zu den amtlichen Ergebnissen vermieden werden sollen, sollten die Ergebnisse möglichst direkt über die Angebote der statistischen Ämter des Bundes und der Länder abgerufen werden.

12. Wie groß ist der Anteil an nicht veränderten Werten in einer Tabelle?

Es ist in der Tabelle nicht mehr erkennbar, welche Werte verändert wurden und welche nicht. Wie viele Originalwerte in einer Tabelle noch enthalten sind, hängt von den gesetzten Parametern in den Geheimhaltungsverfahren der Statistik und vom Zufall ab.     
Jede Fallzahl-Statistik, in der die Cell-Key-Methode angewandt wird, veröffentlicht Qualitätsaussagen, um die Qualität der Fallzahl-Ergebnisse zu bewerten.     
 

Weitere Informationen zum Thema Cell-Key-Methode