<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta>
      <journal-title-group>
        <journal-title>Li, T., Li, N., Zhang, J., Molloy, I.: Slicing: A New Approach for Privacy Preserving
Data Publishing. IEEE Trans. Knowl. Data Eng.</journal-title>
      </journal-title-group>
    </journal-meta>
    <article-meta>
      <article-id pub-id-type="doi">10.1109/TKDE.2010.236</article-id>
      <title-group>
        <article-title>De-Anonymisierungsverfahren: Kategorisierung und Anwendung fur Datenbankanfragen</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Johannes Goltz</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Hannes Grunert</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Andreas Heuer</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Universitat Rostock, Lehrstuhl fur Datenbankund Informationssysteme, Institut fur Informatik</institution>
          ,
          <addr-line>18051 Rostock</addr-line>
        </aff>
      </contrib-group>
      <pub-date>
        <year>2007</year>
      </pub-date>
      <volume>574</volume>
      <issue>2012</issue>
      <abstract>
        <p>The project PArADISE deals with activity and intention recognition in smart environments. This can be used in apartments, for example, to recognize falls of elderly people. While doing this, the privacy concerns of the user should be kept. To reach this goal, the processing of the data is done as close as possible at those sensors collecting the data. Only in cases where the processing is not possible on local nodes the data will be transferred to the cloud. But before transferring, it is checked against the privacy concerns using some measures for the anonymity of the data. If the data is not valid against these checks, some additional anonymizations will be done. This anonymization of data must be done quite carefully. Mistakes might cause the problem that data can be reassigned to persons and anonymized data might be reproduced. This paper gives an overview about recent methods for anonymizing data while showing their weaknesses. How these weaknesses can be used to invert the anonymization (called de-anonymization) is shown as well. Our attacks representing the de-anonymization should help to nd weaknesses in methods used to anonymize data and how these can be eliminated. Zusammenfassung: Im Projekt PArADISE sollen Aktivitats- und Intentionserkennungen in smarten Systemen, etwa Assistenzsystemen in Wohnungen, so durchgefuhrt werden, dass Privatheitsanforderungen des Nutzers gewahrt bleiben. Dazu werden einerseits Auswertungen der Daten sehr nah an den Sensoren, die die Daten erzeugen, vorgenommen. Eine Ubertragung von Daten in die Cloud ndet nur im Notfall statt. Zusatzlich werden aber vor der Ubertragung der nicht vorausgewerteten Daten in die Cloud diese auf Privatheitsanforderungen hin gepruft, indem Anonymisierungsma e getestet und eventuell weitere Anonymisierungen von Daten vorgenommen werden. Diese Anonymisierung von Datenbestanden muss mit gro er Sorgfalt geschehen. Fehler konnen sehr schnell dazu fuhren, dass anonymisierte Datenbestande wieder personalisiert werden konnen und Daten, die eigentlich entfernt wurden, wieder zuruckgewonnen werden konnen. Dieser Artikel betrachtet aktuelle Verfahren zur Anonymisierung und zeigt Schwachstellen auf, die zu Problemen oder gar der Umkehrung der Methoden fuhren konnen. Unsere kunstlich erzeugten Angri e durch De-Anonymisierungen sollen helfen, Schwachstellen in den Anonymisierungsverfahren zu entdecken und zu beheben.</p>
      </abstract>
      <kwd-group>
        <kwd>Datenbanken</kwd>
        <kwd>Datenschutz</kwd>
        <kwd>(De-)Anonymisierung</kwd>
      </kwd-group>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>Copyright © 2017 by the paper’s authors. Copying permitted only for private and academic purposes.
In: M. Leyer (Ed.): Proceedings of the LWDA 2017 Workshops: KDML, FGWM, IR, and FGDB.
Rostock, Germany, 11.-13. September 2017, published at http://ceur-ws.org</p>
    </sec>
    <sec id="sec-2">
      <title>Einleitung</title>
      <p>Datenschutz wird in der heutigen Gesellschaft zunehmend wichtiger. Durch
neuartige Techniken werden immer mehr Systeme ins Leben eingebunden, die
Informationen von ihren Nutzern sammeln und auswerten. Die Auswertung
kommt neben dem Nutzer auch den Anbietern dieser Softwaresysteme zugute,
da sie immer einfacher und detaillierter Informationen uber ihre Nutzer
sammeln konnen, um einen besseren Service anzubieten. Fur Nutzer dieser Systeme
wird es hingegen zunehmend schwieriger zu erkennen, welche Daten konkret
gesammelt und wie diese weiter verarbeitet werden. Zudem wird hau g mit einer
Anonymisierung der Daten geworben, wobei allerdings detaillierte Informationen
zur Umsetzung hau g nicht zu nden sind.</p>
      <p>Erschwerend kommt hinzu, dass Nutzer hau g die Datenschutz- oder
Nutzungsvereinbarung aus Grunden der Bequemlichkeit nicht mehr lesen und
so keine Ahnung haben, wie ihre Daten weiterverarbeitet werden.
Beispielsweise versprachen einige Nutzer in einem Experiment durch die Nutzung eines
o entlichen Hotspots ihr erstgeborenes Kind oder liebstes Haustier dem Hoster
des Hotspots [12]. Dies zeigt, dass grundsatzlich eine gro e Diskrepanz zwischen
der Aufklarungsp icht des Anbieters und der Bereitschaft der Nutzer, diese zu
lesen, besteht.</p>
      <p>Bei Nutzung von aktuellen Anonymisierungsverfahren muss allerdings die
Implementierung genau betrachtet werden, da kleine Fehler fatale
Auswirkungen auf das Resultat haben konnen. Zu eng gewahlte Randbedingungen fur eine
Anonymisierung von einem Datenbestand konnen beispielsweise dazu fuhren,
dass die ursprunglichen Daten rekonstruiert werden konnen, oder zumindest
teilweise wieder personenbeziehbare Daten o engelegt werden.</p>
      <p>
        Konkret soll die De-Anonymisierung vor allem fur das
PArADISEFramework1 [
        <xref ref-type="bibr" rid="ref7">7</xref>
        ] betrachtet werden. Dieses wird im folgenden Kapitel des
Beitrags vorgestellt. Im darau olgenden Kapitel 3 werden zuerst verschiedene
Verfahren und Ma e vorgestellt, um eine Anonymisierung quanti zierbar zu
machen. Anschlie end werden im Kapitel 4 unterschiedliche Varianten der
DeAnonymisierung aufgezeigt, die zugleich die Probleme der einzelnen Verfahren
verdeutlichen. Nach einem Kapitel zu einer moglichen Automatisierung eines
Angri es liefert die Zusammenfassung einen U berblick und Ausblick. Eine
Langfassung der Thematik ist in [
        <xref ref-type="bibr" rid="ref5">5</xref>
        ] zu nden.
2
      </p>
    </sec>
    <sec id="sec-3">
      <title>Das PArADISE-Projekt</title>
      <p>Die Forschung an der Universitat Rostock beschaftigt sich unter anderem
interdisziplinar mit Assistenzsystemen. Hierbei sollen zum Beispiel Sturze in
Wohnungen erkannt werden. Es wird neben der Sensorik auch die
Datenverarbeitung untersucht. An dieser Stelle kommt PArADISE zum Einsatz,
1 Privacy Aware Assistive Distributed Information System Environment (PArADISE)
welches die Prinzipien von Privacy by Design umsetzt, indem die
Implementierung von datenschutzfordernden Techniken (Privacy Enhancing
Technologies, PETs) erfolgt. Dabei werden im Speziellen die rechtlichen
Anforderungen nach Datensparsamkeit und Datenvermeidung durch Techniken zur
Anfrageumschreibung umgesetzt. Ausgehend von dem reduzierten Datenbestand
werden verschiedene Anonymisierungstechniken verwendet, um das Ergebnis
der Anfrage datenschutzkonform zu vero entlichen. In diesem Artikel wird
beschrieben, wie durch De-Anonymisierungstechniken uberpruft wird, ob der
scheinbar anonymisierte Datensatz wieder deanonymisiert werden kann. Ziel
der U berprufung ist die Reduzierung von Angri smoglichkeiten innerhalb der
Verarbeitungskette im PArADISE-Framework.</p>
      <sec id="sec-3-1">
        <title>Privacy by Design durch Anfrageumschreibung</title>
        <p>
          Die Auswertung der Rohdaten erfolgt uber SQL-Anfragen, wobei ein
Schichtsystem aus logischen Schichten implementiert wurde. In Abbildung 1 ist dies
gezeigt. Die verfugbaren Gerate zur Auswertung werden nach Leistungsfahigkeit
in unterschiedliche Schichten eingeteilt und Daten zwischen den Schichten
werden nur weiter gereicht, wenn die aktuelle Schicht nicht ausreichend Leistung zur
Durchfuhrung der Anfrage besitzt. Die Anfrage wird dabei aufgespalten und in
mehrere Teilanfragen zerlegt. Jeder Knoten fuhrt die fur ihn maximal mogliche
Teilanfrage aus und reicht den fur ihn nicht ausfuhrbaren Teil weiter. Auf diese
Art und Weise ist es beispielsweise moglich, dass bereits Sensoren einfache
Selektionen oder auch Aggregate uber die letzten Werte berechnen und lediglich das
Ergebnis weiterreichen. Es ist zu beachten, dass im Ergebnis deutlich weniger
Informationen enthalten sind als im Originaldatenbestand aller ausgewerteten
Sensoren. Daher kann Datensparsamkeit auf diese Art sehr gut umgesetzt
werden. Die Anfrageumschreibung des PArADISE-Projekts ist in [
          <xref ref-type="bibr" rid="ref8">8</xref>
          ] detaillierter
beschrieben.
Sollten Daten an hohere Schichten weitergegeben werden, so werden diese
zusatzlich mit den hinterlegten Richtlinien verglichen. Sobald zu viele
Informationen enthalten sind, wird eine Anonymisierung durchgefuhrt.
        </p>
        <p>Dazu mussen wir einerseits die zu kontrollierenden Anonymitatsma e und
ihre Parameter festlegen, andererseits aber auch Verfahren implementieren, die
dieses Anonymitatsma e auf dem in die Cloud zu ubertragenden Datenbestand
e zient berechnen konnen (siehe folgendes Kapitel 3). Um zu testen, wie sicher
die Anonymitat des Nutzers gewahrleistet ist, entwickeln wir gleichzeitig
Angri sverfahren (De-Anonymisierung), die Schwachstellen in der Anonymisierung
aufdecken sollen (siehe Kapitel 4).
3</p>
      </sec>
    </sec>
    <sec id="sec-4">
      <title>Anonymisierungsverfahren und -ma e</title>
      <p>
        Um die Anonymisierung von Datenbestanden automatisieren zu konnen, werden
entsprechende Ma e benotigt, die den aktuellen Grad der Anonymitat
bestimmen. Sollten die vorliegenden Daten noch nicht anonym genug sein, konnen
Algorithmen genutzt werden, um den Informationsgehalt zu verringern. Dies wird
so lange iterativ in Schritten durchgefuhrt, bis ein entsprechendes Ma erfullt
ist. Dieser Absatz beschreibt entsprechende Methoden zum Messen des Grades
der Anonymisierung. Ein Kern-Bestandteil ist dabei der Quasi-Identi kator [
        <xref ref-type="bibr" rid="ref1">1</xref>
        ].
De nition 1 Ein Quasi-Identi kator (QI) QT ist eine endliche Menge von
Attributen fAi; : : : ; Ajg einer Tabelle T mit einer endlichen Menge von Attributen
fA1; A2; : : : ; Ang. Hierbei gilt fAi; : : : ; Ajg fA1; A2; : : : ; Ang. Mit Hilfe des
QIs ist es moglich, mindestens ein Tupel der Tabelle T eindeutig zu bestimmen
[
        <xref ref-type="bibr" rid="ref9">9</xref>
        ]. Eine Menge von Tupeln t von T, welche bezuglich des QIs QT nicht
unterscheidbar sind, wird als q -Block bezeichnet.
      </p>
      <p>
        Innerhalb von PArADISE werden QIs fur die Parametrisierung der
verschiedenen Komponenten und Algorithmen, wie dem Modul zur Generierung von
Datenschutzeinstellungen und dem Praprozessor zur Reformulierung von
Anfragen, genutzt (siehe Abbildung 2). Speziell im Postprozessor werden anhand von
QIs die Anonymitatsma e uberpruft. Durch die vorherige Projektion der
Attributmenge mussen nicht alle Attribute zum Finden von QIs in Betracht
gezogen werden. Durch den in [
        <xref ref-type="bibr" rid="ref6">6</xref>
        ] vorgestellten Algorithmus konnen die minimalen
QIs e zient berechnet werden. Ausgehend von der Hohe des erwarteten
Informationsverlustes fur eine gegebene Anfrage wird dasjenige
Anonymisierungsverfahren, welches gleichzeitig eine hohe Anonymisierung als auch einen geringen
Informationsverlust bietet, ausgewahlt.
      </p>
      <p>Ein sogenanntes "sensitives Attribut\ ist ein Attribut, das nicht mit
personenbeziehbaren Informationen in Verbindung gebracht werden darf, da dies der
entsprechenden Person schaden konnte. Beispielsweise konnte dieses Attribut
die Diagnose in einer Tabelle sein, in der Patientendaten mit entsprechenden
Diagnosen abgespeichert sind (siehe Tabelle 1). Wahrend die Informationen der
Spalte Diagnose allein nicht problematisch sind, werden sie in Verbindung mit
Name und Vorname durchaus kritisch. Die Mengen der sensitiven Attribute und
der Attribute von QIs und Schlusseln sind nicht zwangsweise disjunkt. Es kann
daher vorkommen, dass jedes Attribut Teil eines QIs ist.
3.1</p>
      <sec id="sec-4-1">
        <title>Anonymisierungsma e</title>
        <p>
          Die im Folgenden vorgestellten Ma e fur die Anonymitat einer Relation lassen
sich vor allem in Kombination mit der Technik der Generalisierung und
Unterdruckung einsetzen. Diese werden im weiteren Verlauf vorgestellt.
k-Anonymitat
Die k-Anonymitat stellt die geringsten Anforderungen an die zu bewertenden
Daten. Der Wert k gibt dabei an, wie viele Tupel es mit jeweils gleichem QI
geben muss. Eine formale De nition ist in [
          <xref ref-type="bibr" rid="ref9">9</xref>
          ] zu nden.
Je nach Wert fur k und dem QI mussen die Daten, sollten sie aktuell nicht
die geforderte k-Anonymitat erfullen, verallgemeinert werden. Dafur kann sehr
gut die Generalisierung genutzt werden. Der Vorgang wird dabei iterativ so
lange wiederholt, bis eine ausreichende Anonymisierung durchgefuhrt wurde.
Beispielhaft ist dies in Tabelle 1 gezeigt.
l-Diversitat und t-Closeness
l-Diversitat und t-Closeness stellen Verscharfungen der k-Anonymitat dar.
lDiversitat nimmt sich der Problematik an, dass der Attributwert des sensitiven
Attributes eines q -Blocks fur jedes Tupel darin gleich sein konnte.
Angenommen der Attributwert Roteln sei in Tabelle 1 ebenfalls Diabetes, dann wurde
die Tabelle damit immer noch k-Anonymitat fur k=2 erfullen, allerdings keine
l-Diversitat fur l=2 mehr. Der Wert l gibt entsprechend an, wie viele
unterschiedliche Werte fur das sensitive Attribut im entsprechenden q -Block
auftauchen mussen [
          <xref ref-type="bibr" rid="ref9">9</xref>
          ].
        </p>
        <p>
          Bei t-Closeness wird die Verteilung der Attributwerte des sensitiven
Attributes in Bezug zur Verteilung der Attributwerte in der gesamten Relation
betrachtet. Die Verteilung darf dabei pro q -Block hochstens um t von der
Gesamtverteilung abweichen [
          <xref ref-type="bibr" rid="ref9">9</xref>
          ]. Eine Herausforderung dieses Verfahrens ist
die Messung der Verteilung der Werte. Wahrend dies bei numerischen
Attributwerten einleuchtend und vergleichsweise einfach erscheint, wird es bei
abstrakten Werten komplizierter. Hier bieten sich die Kullback-Leibler- oder auch
die Jensen-Shannon-Divergenz an [14]. Fur t gilt, im Gegensatz zu k und l, je
kleiner desto anonymer werden die Daten. Typischerweise liegt der Wert fur t
zwischen 0 und 1.
        </p>
      </sec>
      <sec id="sec-4-2">
        <title>Di erential Privacy</title>
        <p>
          Ein weiteres Ma zum Messen der Anonymitat stellt Di erential Privacy [
          <xref ref-type="bibr" rid="ref3">3</xref>
          ] dar.
Dabei geht es darum, ein Tupel in einer Menge von Tupeln zu schutzen. Vor allem
Auswertungsergebnisse sollen nicht ersichtlich machen, ob ein gewisses Tupel
enthalten ist oder nicht. Unter Di erential Privacy werden verschiedene Verfahren
zum Hinzufugen von Rauschen auf den Daten und in den Anfragen
zusammengefasst [
          <xref ref-type="bibr" rid="ref4">4</xref>
          ]. Vorteile ergeben sich bei Di erential Privacy bei Aggregationen
auf dem gesamten Datensatz, da das hinzugefugte Rauschen die Verteilung der
Daten nur minimal beein usst. Das Rauschen fuhrt jedoch zu Nachteilen bei der
Auswertung von wenigen, aber vollstandigen (d. h. alle Attribute enthaltenden)
Tupeln, da jeder einzelne Attributwert verrauscht wird. Dadurch entsteht ein
hoherer Informationsverlust als bei der Generalisierung. Allerdings muss darauf
geachtet werden, dass kein symmetrisches Rauschen eingesetzt wird, da dies von
Angreifern herausgerechnet werden konnte.
3.2
        </p>
      </sec>
      <sec id="sec-4-3">
        <title>Anonymisierungsverfahren</title>
        <p>Ein typisches Verfahren zur Anonymisierung von Datenbestanden wird als
Generalisierung bezeichnet. Es kann auch mit der Unterdruckung kombiniert werden.
Konkrete Attributwerte werden dabei auf ein Intervall abgebildet, sodass ein Teil
der Informationen verloren geht und der Grad der Anonymisierung steigt.</p>
      </sec>
      <sec id="sec-4-4">
        <title>Generalisierung</title>
        <p>Die Generalisierung ist hierbei ein spaltenorientiertes Verfahren. Es werden zu
generalisierende Attribute ausgewahlt, anschlie end alle Attributwerte dieser
Spalten (die Domane) auf ein entsprechendes Intervall abgebildet. Die originalen
Werte einer Tabelle bilden die Grunddomane, welche auf weitere Domanen
generalisiert wird [13].
Das Verfahren der Unterdruckung arbeitet im Gegenzug dazu auf Zeilenebene.
Es kann dazu genutzt werden, um Ausrei er zu streichen, somit ein
Anonymisierungsma zu erfullen, und dabei weniger Generalisierungsschritte
durchzufuhren. Das Tupel, welches den Wert enthalt, der unterdruckt werden
soll, wird dabei komplett generalisiert. Das bedeutet, dass fur alle Attributwerte
ein " *" eingetragen wird. Hierbei ist es sinnvoll, eine Obergrenze an moglichen
Unterdruckungen anzugeben. Ansonsten konnte es passieren, dass durch den
starken Einsatz der Unterdruckung zwar eine Anonymisierung mit
vergleichsweise wenig Generalisierungsschritten erreicht werden kann, allerdings sind die
Daten nicht mehr reprasentativ, da zu viele Werte gestrichen wurden [13].</p>
        <p>In der rechten Relation von Tabelle 1 ist zu erkennen, wie Generalisierung
und Unterdruckung arbeiten. Zeile 2 wurde unterdruckt, da das Alter einen
stark abweichenden Wert im Verhaltnis zu den anderen Werten darstellt. Um
trotz des Wertes k-Anonymitat fur k =2 zu erfullen, hatten die Werte sonst
auf ein entsprechend gro es Intervall abgebildet werden mussen und alle Werte
hatten mit gro er Wahrscheinlichkeit im selben Intervall gelegen. Die
einzelnen q -Blocke wurden zusatzlich farblich hervorgehoben. Sie unterscheiden sich
bezuglich des QIs nicht. Ist bekannt, welches Alter die entsprechende Person hat,
so ist nicht mehr ersichtlich, welche Diagnose ihr gestellt wurde.</p>
      </sec>
      <sec id="sec-4-5">
        <title>Slicing</title>
        <p>Ein weiteres Verfahren wird als Slicing bezeichnet. Hierbei wird eine Relation
R in m vertikale und n horizontale Teilrelationen aufgeteilt. Innerhalb dieser
Teilrelationen werden die Tupel zufallig sortiert, bevor alle Teilrelationen wieder
zu einer kompletten Relation zusammengefugt werden [10]. Es ist zu beachten,
dass unbedingt angegeben werden muss, an welchen Stellen in der Relation
die Trennung vorgenommen wurde. Zusammenhangende Auswertungen
zwischen Attributen, die in unterschiedlichen Teilrelationen standen, sind nicht mehr
moglich, da die Reihenfolge unabhangig und zufallig verandert wurde.
Zwischen Attributen, die gemeinsam in einer Teilrelation standen, kann allerdings
problemlos eine Auswertung statt nden, da die Zusammenhange nicht verandert
wurden. Mit der Technik ist es somit moglich, trotz au erst geringem
Informationsverlust eine gute Anonymisierung zu erreichen. Naturlich muss sehr genau
beachtet werden, zwischen welchen Attributen die Tabelle aufgetrennt wird.
4</p>
      </sec>
    </sec>
    <sec id="sec-5">
      <title>De-Anonymisierungsverfahren</title>
      <p>Wir beschreiben nun, an welchen Stellen die vorher vorgestellten
Anonymisierungsverfahren versagen. Es lassen sich grundsatzlich zwei
unterschiedliche Ansatze unterscheiden. Zum einen kann lediglich die Anfrage zur
De-Anonymisierung von Daten betrachtet werden, zum anderen ist auch eine
De-Anonymisierung auf Grundlage der vorliegenden Daten moglich.
4.1</p>
      <sec id="sec-5-1">
        <title>Anfragebasierte De-Anonymisierungsverfahren</title>
        <p>
          Datenbankmanagementsysteme bieten die Moglichkeit, den Zugri komplett auf
einzelne Sichten zu beschranken. Diese Technik kann eingesetzt werden, um den
Zugri nur auf ganz bestimmte Attribute zu erlauben. Das Besondere ist, dass
auch Attributkombinationen vero entlicht werden konnen, die ohne Joins nicht
abzufragen sind, wobei in der Ergebnisrelation der Sicht das verbindende
Attribut ausgeblendet wird und nicht eingesehen werden kann. Anfragen, welche
an das DBMS gestellt werden, die auf die internen Relationen zugreifen, konnen
automatisiert in Anfragen umgeschrieben werden, die lediglich Sichten einsetzen.
Hierzu wird die sogenannte Answering-Queries-using-Views-Technik [
          <xref ref-type="bibr" rid="ref2">2</xref>
          ]
eingesetzt. Damit ist es moglich, Anfragen automatisiert umzuschreiben. Sollte keine
gleichwertige Anfrage mit den Sichten erreicht werden konnen, so wird eine
Anfrage formuliert, die ein Maximum der Antwort enthalt, die mit den originalen
Tabellen moglich ware. Allerdings sind die Algorithmen derzeit noch nicht in der
Lage, sehr komplexe SQL-Operationen umzuformulieren. Diese waren allerdings
notig, um Machine-Learning-Algorithmen umzusetzen, die in der Entwicklung
von Assistenzsystemen beispielsweise zur Aktivitats- und Intentionserkennung
eingesetzt werden.
        </p>
        <p>
          Da wir uns in diesem Artikel schwerpunktma ig mit der datenbasierten
De-Anonymisierung befassen, verweisen wir fur Details zu den bekannten
Verfahren und unsere Weiterentwicklung in Richtung einer
Answering-Queriesusing-Operators-Technik auf [
          <xref ref-type="bibr" rid="ref8">8</xref>
          ]. Sollte diese Technik jedoch eingesetzt werden,
und alle Anfragen entsprechend auf erlaubten Sichten arbeiten oder entsprechend
umformuliert werden konnen, muss auf jeden Fall die Gesamtheit der Sichten auf
Schwachstellen betrachtet werden. Insbesondere muss gepruft werden, ob es nicht
moglich ist, zwischen verschiedenen Ergebnisrelationen durch entsprechende
Selektionsbedingungen Joins durchfuhren zu konnen, die dazu fuhren, dass der
Angreifer Informationen verknupfen kann, welche nicht in direkten
Zusammenhang gebracht werden durfen. Zudem mussen die Ergebnisrelationen auch genau
gepruft werden und sollten im Zweifel noch weiter anonymisiert werden.
4.2
        </p>
      </sec>
      <sec id="sec-5-2">
        <title>Datenbasierte De-Anonymisierungsverfahren</title>
        <p>Bei datenbasierten Verfahren wird lediglich auf die aus der Auswertung
erhaltende Ergebnisrelation einer Anfrage geachtet, und nicht auf die Anfrage an sich.
Hier kommen die im vorangegangenen Abschnitt vorgestellten
Anonymisierungsma e zum Einsatz, um den Grad der Anonymitat zu bestimmen. Diese weisen
allerdings Schwachstellen auf, die Beachtung nden mussen.</p>
        <p>K-Anonymitat bildet das Anonymisierungsma mit der geringsten
Anforderung, daher sind auch hier besonders einfach Schwachpunkte zu nden. Ein
gro es Problem stellt die Selektivitat des sensitiven Attributes dar [11]. Sollte
ein q -Block k-Anonymitat entsprechend der Anforderungen erfullen, kann es
jedoch passieren, dass das sensitive Attribut aller Tupel in diesem Block den selben
Wert annimmt. Dies ist problematisch, da so die Daten ohne aktives Zutun des
Angreifers aufgrund der Homogenitat extrahiert werden konnen. Beispielhaft ist
dies in Tabelle 1 zu sehen.</p>
        <p>Das Ma der l-Diversitat nimmt sich dieses Problems teilweise an. Der Wert
von l gibt an, wie viele unterschiedliche Attributwerte innerhalb eines q -Blocks
vorkommen mussen. Je nach Unterschied der Werte kann dies allerdings noch
immer problematisch sein. Als Beispiel sollen Krankheiten dienen. Es kann sein,
dass fur das sensitive Attribut eines Blocks lediglich unterschiedliche Krebsarten
vorkommen, dies allerdings fur den Angreifer bereits ausreichend viele
Informationen sind. Tabelle 1 zeigt dieses Problem. Sobald bekannt ist, dass die Person
zwischen 20 und 29 Jahren alt ist und in der Tabelle vorkommt, kann abgeleitet
werden, dass sie eine Art von Krebs hat. Eine deutlich bessere Losung des
Problems bietet das Ma der t-Closeness. Hierbei wird auch die Verteilung der Werte
im sensitiven Attribut innerhalb eines q -Blocks in Bezug zur Verteilung der
Werte innerhalb der gesamten Relation betrachtet. Dabei darf ein Schwellwert t
nicht uberschritten werden. Bei restriktiver Anwendung kann diese Problematik
mit sehr hoher Wahrscheinlichkeit eliminiert werden.</p>
        <p>Ein ahnlich gelagertes Problem stellt gutes Hintergrundwissen dar.
Problematisch wird dies vor allem bei einer Anonymisierung von Daten, die keinen
strengen Anforderungen an k-Anonymitat und l-Diversitat stellt [11]. Es sind
immer genau x-1 Fakten notwendig, um ein Tupel aus einer Gruppe von x Tupeln
eindeutig zu identi zieren. Durch den Einsatz von t-Closeness kann das Problem
gemildert werden, da die Verteilung der Werte fur das sensitive Attribut ahnlich
zur gesamten Relation ist. Allerdings ist auch damit eine Identi zierung durch
Hintergrundwissen nicht ausgeschlossen.</p>
        <p>Je nach vero entlichten Daten kann auch die Sortierung der Tupel dem
Angreifer helfen, personliche Daten aus Ergebnissen zu extrahieren. Grundsatzlich
sind Ergebnisrelationen immer sortiert. Dies liegt an den internen
Speicherstrukturen der Datenbanksysteme [15]. Sollten allerdings mehrere Vero entlichungen
der gleichen Daten mit unterschiedlichen Quasi-Identi katoren gemacht werden,
so kann es zum Problem kommen, dass diese Daten eventuell einfach uber die
Sortierung verknupft werden konnen. In Tabelle 2 ist dies beispielhaft zu sehen.
Ahnlich verhalt es sich, wenn der Angreifer einen direkten Zugang zur Datenbank
nutzen kann. Damit konnte er die gleiche Anfrage mehrfach stellen und so ho en,
dass vom System unterschiedliche Attribute der Quasi-Identi katoren gewahlt
werden und so die Anonymisierung unterschiedlich umgesetzt wird. Zusatzlich
konnte es auch passieren, dass eventuell ein anderer Quasi-Identi kator gewahlt
wird. Das Problem lasst sich allerdings auch sehr leicht beheben, indem die
Ergebnisrelation einfach vor der Vero entlichung zufallig sortiert wird.</p>
        <p>Bei mehreren Vero entlichungen der gleichen Daten muss darauf geachtet
werden, dass immer der gleiche Quasi-Identi kator gewahlt wird, oder
zumindest alle Attribute, die im Quasi-Identi kator der ersten Vero entlichung
enthalten waren, im Neuen auch enthalten sind. Ansonsten ist es einem Angreifer
unter Umstanden moglich, durch die wechselnden Attribute Joins uber den
Vero entlichungen zu erstellen und somit private Daten zu rekonstruieren [15].
Ahnlich verhalt es sich bei zeitlich versetzten Vero entlichungen. Hier muss
gepruft werden, wie sich die beiden Vero entlichungen unterscheiden. Sollte
durch die A nderung des Datenbestandes eine geringere Generalisierung
statt nden, konnte es dazu kommen, dass Informationen genauer spezi ziert werden
konnen, als es mit der ursprunglichen Vero entlichung moglich war.
5</p>
      </sec>
    </sec>
    <sec id="sec-6">
      <title>Automatisierung eines Angri s</title>
      <p>Besonders wunschenswert ist fur einen Angreifer naturlich eine vollstandige
Automatisierung des Angri s. Dies hilft aber nicht nur dem spateren Angreifer,
sondern in der Entwicklungsphase bereits dem Entwickler des Assistenzsystems, der
das Prinzip Privacy by Design realisieren und Schwachstellen aufdecken mochte.
Fur anfragebasierte und datenbasierte De-Anonymisierungen wollen wir daher
auch Methoden entwickeln, um Angri e automatisch zu generieren | und diese
danach durch Verscharfung der Anonymisierungsma e und Verscharfung der
erlaubten Sichten zu verhindern.</p>
      <p>Dies wurde sehr viel Arbeit ersparen, ist aktuell aber nur mit au erst gro em
Aufwand realisierbar. Eine Hilfestellung fur die Wahl des richtigen Angri
svektors hingegen kann durch vergleichsweise einfache Techniken erreicht werden.
Durch eine statistische Auswertung der Ergebnisse kann ein schneller Uberblick
uber die vorliegenden Daten gewonnen werden.</p>
      <p>
        Hilfreich ist zudem das Suchen nach vorhandenen Quasi-Identi katoren im
Ergebnis der Anfrage, da diese eine Kombination von Attributen darstellen,
die besonders selektiv sind. Hierzu bietet sich vor allem der
TopDownBottomUp-Ansatz an (siehe [
        <xref ref-type="bibr" rid="ref6">6</xref>
        ]). Dabei werden alle, und vor allem auch minimale,
Quasi-Identi katoren gefunden. Ein minimaler Quasi-Identi kator zeichnet sich
dadurch aus, dass es keinen weiteren Quasi-Identi kator gibt, der aus weniger
Attributen besteht. Dies fuhrt dazu, dass ein Angreifer lediglich ein Minimum
an Informationen sammeln muss, um beispielsweise mittels Hintergrundwissen
wieder auf personliche Daten zuruck schlie en zu konnen. Unser Angri wurde
unau alliger, indem wir die Auswertung lediglich auf der lokalen Kopie des
Anfrageergebnisses ausgefuhrt haben und wir somit keine zusatzlichen Abfragen an
die Datenbank stellen mussten. Auf diese Art und Weise ist es einem Angreifer
moglich, einen schnellen Uberblick uber die abgefragten Daten zu gewinnen und
damit das weitere Vorgehen entsprechend zu steuern oder den Aufwand einer
Deanonymisierung einzuschatzen.
      </p>
      <p>
        Sollten Werte, welche fur die Bestimmung der statistischen Daten benotigt
werden, aus der Datenbank abgefragt werden, konnte es zu Problemen kommen,
wenn sich in der Zwischenzeit der Datenbestand verandert hat, oder auch die
Ausgabe fur jede Anfrage eventuell anders anonymisiert wurde. Weiterhin wurde
in PArADISE eine Moglichkeit gescha en, Wertebereiche der einzelnen Spalten
einschranken zu konnen, um so fehlerhafte beziehungsweise nicht relevante Werte
aus der statistischen Berechnung ausschlie en zu konnen (siehe [
        <xref ref-type="bibr" rid="ref5">5</xref>
        ]).
      </p>
      <p>Durch eine automatisierte Generalisierung konnen die Attributwerte des
sensitiven Attributes so lange iterativ generalisiert werden, bis fur jeden q -Block
ein eindeutiger Wert zugeordnet ist. Dabei mussen Duplikate nach jeder
Iteration geloscht werden. Mit den Informationen ist es einem Angreifer anschlie end
moglich, einen allgemeineren, aber immer noch moglichst spezi schen, Wert zu
erkennen, ohne dass er aktiv einschreiten muss.
6</p>
    </sec>
    <sec id="sec-7">
      <title>Zusammenfassung</title>
      <p>Grundsatzlich lasst sich sagen, dass trotz Anonymisierung die Daten nie zu
100 Prozent sicher vor einem Angri sind. Allerdings kann die Moglichkeit der
De-Anonymisierung durch Angreifer sehr stark verringert werden. Auf der
anderen Seite muss gepruft werden, ob die anonymisierten Daten noch fur die
notigen Auswertungen ausreichend Informationen enthalten. Es sollte ein
Maximum fur die Werte der Anonymisierungsma e gewahlt werden, sodass gerade
noch genugend Informationen fur die gutartigen Anfragen enthalten sind, die
von einem Assistenzsystem fur die Analyse erlaubter Aktivitaten (wie Sturze)
benotigt werden. Die Ausfuhrung von bosartigen Anfragen, etwa die Ableitung
genauerer Nutzerpro le oder Bewegungspro le, die nicht zur Analyse der
erlaubten Aktivitatserkennung beitragen, sollten dagegen verhindert werden.</p>
      <p>
        Die fertige Losung sollte auch schon wahrend des Entstehungsprozesses
und vor allem am Ende intensiv aus Sicht eines moglichen Angreifers
betrachtet werden, um eventuelle Schwachpunkte zu lokalisieren und diese abstellen
zu konnen. Die Answering-Queries-using-Views-Technik ist ein sehr
vielversprechender Ansatz, allerdings fehlt fur den produktiven Einsatz noch eine
automatisierte Umschreibung von komplexeren SQL-Operationen. Hieran wird
gerade im Rahmen des PArADISE-Projektes gearbeitet [
        <xref ref-type="bibr" rid="ref8">8</xref>
        ].
      </p>
      <p>
        Das Schichtkonzept des PArADISE-Frameworks [
        <xref ref-type="bibr" rid="ref7">7</xref>
        ] bietet eine sehr gute
Voraussetzung fur die Anonymisierung von Daten. Es kann einfach di erenziert
werden, wohin die Daten weiter gereicht werden und wie stark sie entsprechend
anonymisiert werden mussen. Die trotz des Schichtkonzeptes in die Cloud
zu ubertragenden Daten, die fur den Anbieter des Assistenzsystems
erforderlich sind, um die Aufgaben des Assistenzsystems erfullen zu konnen, mussen
dann schlussendlich mit den in diesem Artikel vorgestellten Verfahren (a) auf
Anonymitat gepruft, (b) eventuell weiter generalisiert und ge ltert, und (c)
durch die automatische Generierung von Angri en auf Schwachstellen gepruft
werden. Durch die Kombination von anfrage- und datenbasierten Verfahren
fur die De-Anonymisierung ho en wir aber, in PArADISE ein hochstmogliches
Niveau an Privatheit des Nutzers bewahren zu konnen (siehe auch [
        <xref ref-type="bibr" rid="ref7">7</xref>
        ]).
      </p>
    </sec>
    <sec id="sec-8">
      <title>Danksagung</title>
      <p>Wir danken den anonymen Gutachtern fur ihre konstruktiven Kommentare.</p>
    </sec>
    <sec id="sec-9">
      <title>Literaturverzeichnis</title>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          1.
          <string-name>
            <surname>Dalenius</surname>
            ,
            <given-names>T.</given-names>
          </string-name>
          :
          <article-title>Finding a Needle In a Haystack or Identifying Anonymous Census Records</article-title>
          .
          <source>Journal of o cial statistics 2(3)</source>
          ,
          <volume>329</volume>
          (
          <year>1986</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          2.
          <string-name>
            <surname>Doan</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Halevy</surname>
            ,
            <given-names>A.Y.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Ives</surname>
            ,
            <given-names>Z.G.</given-names>
          </string-name>
          :
          <article-title>Principles of Data Integration</article-title>
          . Morgan Kaufmann (
          <year>2012</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          3.
          <string-name>
            <surname>Dwork</surname>
            ,
            <given-names>C.</given-names>
          </string-name>
          :
          <article-title>Di erential Privacy</article-title>
          .
          <source>In: Encyclopedia of Cryptography and Security (2nd Ed.)</source>
          , pp.
          <volume>338</volume>
          {
          <fpage>340</fpage>
          . Springer (
          <year>2011</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          4.
          <string-name>
            <surname>Dwork</surname>
            ,
            <given-names>C.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Roth</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          :
          <article-title>The Algorithmic Foundations of Di erential Privacy</article-title>
          .
          <source>Foundations and Trends in Theoretical Computer Science</source>
          <volume>9</volume>
          (
          <issue>3-4</issue>
          ),
          <volume>211</volume>
          {
          <fpage>407</fpage>
          (
          <year>2014</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          5.
          <string-name>
            <surname>Goltz</surname>
          </string-name>
          , J.:
          <string-name>
            <surname>De-Anonymisierungsverfahren</surname>
          </string-name>
          :
          <article-title>Kategorisierung und deren Anwendung fur Datenbankanfragen</article-title>
          . Bachelorarbeit, Universitat
          <string-name>
            <surname>Rostock</surname>
          </string-name>
          (
          <year>2017</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          6.
          <string-name>
            <surname>Grunert</surname>
            ,
            <given-names>H.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Heuer</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          :
          <article-title>Big Data und der Fluch der Dimensionalitat</article-title>
          .
          <source>In: Proceedings of the 26th GI-Workshop Grundlagen von Datenbanken</source>
          , Bozen-Bolzano, Italy,
          <source>October 21st to 24th</source>
          ,
          <year>2014</year>
          . pp.
          <volume>29</volume>
          {
          <fpage>34</fpage>
          . http://ceur-ws.
          <source>org</source>
          (
          <year>2014</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          7.
          <string-name>
            <surname>Grunert</surname>
            ,
            <given-names>H.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Heuer</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          :
          <article-title>Datenschutz im PArADISE</article-title>
          .
          <source>Datenbank-Spektrum</source>
          <volume>16</volume>
          (
          <issue>2</issue>
          ),
          <volume>107</volume>
          {
          <fpage>117</fpage>
          (
          <year>2016</year>
          ), http://dx.doi.org/10.1007/s13222-016-0216-7
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          8.
          <string-name>
            <surname>Grunert</surname>
            ,
            <given-names>H.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Heuer</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          :
          <article-title>Rewriting complex queries from cloud to fog under capability constraints to protect the users' privacy</article-title>
          .
          <source>Open Journal of Internet Of Things</source>
          <volume>3</volume>
          (
          <issue>1</issue>
          ),
          <volume>31</volume>
          {
          <fpage>45</fpage>
          (
          <year>2017</year>
          ),
          <source>proceedings of the International Workshop on Very Large Internet of Things in conjunction with the VLDB 2017 Conference in Munich, Germany.</source>
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          9.
          <string-name>
            <surname>Hauf</surname>
            ,
            <given-names>D.</given-names>
          </string-name>
          :
          <string-name>
            <surname>Allgemeine Konzepte - K-Anonymity,</surname>
            l-Diversity and
            <given-names>T-</given-names>
          </string-name>
          <string-name>
            <surname>Closeness. IPD Uni-Karlsruhe</surname>
          </string-name>
          (
          <year>2007</year>
          ),
          <source>zuletzt aufgerufen am 14.10</source>
          .2016
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>