Interaktives Assistenzsystem PANDIA

Hand aufs Herz: Wurde jemals eine Datenschutzbestimmung tatsächlich gelesen, bevor das Häkchen gesetzt wurde? Wir fragen uns, gibt es überhaupt eine einzige Datenschutzbestimmung in dieser Welt, die aufmerksam gelesen wurde?

Eher nicht – und das ist eigentlich paradox; schließlich weiß jeder, dass der Umgang mit personenbezogenen Daten durchaus relevant für uns Nutzer ist. Hinzu kommt, dass die Marktlage in Fragen der Datenschutzfreundlichkeit nicht sehr verbraucherfreundlich aussieht, wie die nachfolgende Grafik zeigt. Dennoch stimmen wir Datenschutzbestimmungen in der Regel ungelesen zu. Immer. Überall.

Wir behaupten, das fehlende Interesse liegt daran, dass das ganze Thema einfach viel zu komplex und unübersichtlich ist. Wer hat schon ausreichend juristische und technische Fachkenntnisse, um wichtige von unwichtigen Informationen in den Datenschutztextwüsten zu unterscheiden – geschweige denn die Zeit für so etwas?

Stellen wir uns eine Welt vor, in der man jede Datenschutzbestimmung mit einem Klick prüfen lassen und eine leicht verständliche inhaltliche Zusammenfassung der wichtigsten Punkte erhalten würde.

Genau an dieser Idee arbeiten wir gerade: Gemeinsam mit dem Karlsruhe Institute Of Technology (KIT), dem Leibnitz-Institut und weiteren Partnern sind wir Teil des Verbundes im Forschungsprojekt PANDIA, das vom Bundesministerium für Bildung und Forschung (BMBF) initiiert wurde.

Textanalyse durch intelligenten Algorithmus

PANDIA wird es uns Nutzern ermöglichen, in wenigen Klicks eine prägnante, vereinfachte und rechtssichere Zusammenfassung von konkreten Datenschutzbestimmungen zu erhalten.

In einfacher Sprache und mit intuitiven Visualisierungen lässt sich der Inhalt einer Datennutzungsbedingung mit PANDIA auf der Größe eines Smartphone-Displays beurteilen. Wie das funktioniert?

Das zentrale Ziel des Projekts ist unter anderem die sogenannte Pandipedia – eine öffentlich zugängliche Datenbank, auf der Endverbraucher ganz praktisch nach Datennutzungsbedingungen suchen können. Neben einer verständlich visualisierten Zusammenfassung erfahren Nutzer auch, in welchen Punkten sich der Umgang und die Weiterverarbeitung der Daten von anderen Datennutzungsbedingungen anderer Anwendugen (Websites, Apps, Anbieter etc.) unterscheidet.

PANDIA klärt also in wenigen Sätzen darüber auf, welche personenbezogenen Daten in welcher Weise, an welchem Ort gespeichert, übertragen oder verarbeitet werden, indem es auf eine Datenbank zurückgreift, in der (fast) alle Datenschutzbestimmungen gespeichert sind, die wir im Internet finden. Und genau hier wird es spannend.

We Big Data

Denn damit PANDIA funktioniert, bedarf es einer Menge Daten – eine Menge Datennutzungsbedingungen, um genau zu sein. Mit Webcrawlern spüren wir deshalb in einem ersten Schritt des Forschungsprojektes Datennutzungsbedingungen im Netz auf und speichern sie. Anschließend lassen wir die Texte von einem lernenden Algorithmus analysieren. Das wird möglich durch Verfahren aus der Computerlinguistik:

Machine Learning & Natural Language Processing

Konkret arbeiten wir hierfür mit unseren Partnern an einer Kombination aus Machine Learning und Natural-Language-Processing-Verfahren, um den Inhalt von Zehntausenden gecrawlten Datenschutzbestimmungen maschinell auszuwerten.

Das Tolle daran: Im Laufe des Projekts steigt die Anzahl überprüfter und gespeicherter Datennutzungsbedingungen kontinuierlich an und führt, wie im Machine Learning üblich, zu einer immer besser werdenden Datenqualität und damit zu einem immer intelligenteren Algorithmus.

#snoopforscht

Bei PANDIA handelt es sich um einen Projektvorschlag, den wir für den Wettbewerb „Digitale Plattformen: Interaktive Assistenzsysteme“ des Bundesministeriums für Bildung und Forschung (BMBF) eingereicht haben (Förderkennzeichen: 16SV8394).

Der Wettbewerb basiert auf dem BMBF-Forschungsprogramm zur Mensch-Technik-Interaktion (MTI) „Technik zum Menschen bringen“ und ist Teil der Hightech-Strategie 2025 der Regierung der Bundesrepublik Deutschland.

Das Projekt wird gemeinsam von einem Konsortium, bestehend aus dem Karlsruher Institut für Technologie (KIT), der Ascora GmbH, der AI4BD GmbH, dem OFFIS e.V. – Institut für Informatik, dem Leibniz-Institut für Informationsinfrastruktur (FIZ Karlsruhe) und uns entwickelt.

Wir sind Konsortialführer im Projekt PANDIA und werden zur Untersuchung des Forschungs- und Marktumfeldes beitragen sowie die Anforderungen aus technischer und Nutzersicht einbringen. Darauf aufbauend erarbeiten wir die Systemarchitektur und evaluieren geeignete Technologien. Die Anbindung der Dokumentenquellen sowie deren Aufbereitung zur weiteren maschinellen Verarbeitung durch das PANDIA-System verantworten wir gleichermaßen. Zu guter Letzt entwickeln wir das User Interface sowie das Verbraucher-Portal Pandipedia.


Work

Mehr