Schlüsselwörter

1 Einsatzszenarien von Uploadfiltern

Unter dem Begriff „Uploadfilter“ werden Systeme verstanden, die digitale Werke beim Hochladen auf die Plattform eines Onlinedienstes untersuchen und basierend auf dem Untersuchungsergebnis eine Entscheidung über die nachfolgende Verfahrensweise mit diesem Inhalt treffen. Bekannt ist dabei der Onlinedienst YouTube mit seinem Verfahren ContentID, welches hochgeladene Videoinhalte Rechteinhabern zuordnen kann und diesen verschiedene Möglichkeiten bietet, auf das Verwenden ihrer Inhalte zu reagieren. Aber auch ein Erotikfilter, der selbständig erotische oder pornographische Aufnahmen erkannt und deren Verbreitung auf einer Webseite oder einem Firmennetzwerk unterbindet sowie Methoden, die automatisiert Hasskommentare in Foren erkennen und ablehnen, können als Uploadfilter angesehen werden.

1.1 Schutz von Urheberrechten

Lösungen wie das bereits erwähnte ContentID sind sicher die bekanntesten Vertreter von Uploadfiltern, die bereits lange in der Praxis verwendet werden. Ihre Aufgabe ist es, urheberrechtlich geschütztes Material zu erkennen, welches auf eine Internetplattform angeboten werden soll. Dazu werden die zu filternden Materialen entweder im Vorhinein in einer geeigneten Form in einer Datenbank hinterlegt oder bei einer Urheberrechtsverletzung auf der Plattform im Nachhinein der Datenbank hinzugefügt. Solche Lösungen regieren nur auf inhaltlich identische Kopien, ein Konzept von Ähnlichkeit wird hier nicht verfolgt: Ein geschütztes Musikstück wird erkannt, nicht aber ähnlich klingende Werke oder andere Werke des gleichen Musikers.

1.2 Schutz von Persönlichkeitsrechten

Ähnlich wie bei Uploadfiltern zum Urheberschutz agieren Lösungen zum Schutz von Persönlichkeitsrechten. Sie sollen verhindern, dass einmal als verletzend erkannte Inhalte erneut verbreitet werden können, beispielsweise in sozialen Netzwerken. So kann ein kompromittierendes Foto an einer weiteren Verbreitung gehindert werden. Auch hier sollen nicht alle Aufnahmen einer Person gelöscht werden, ebenso nicht andere Fotos, die ähnliche Inhalte zeigen. Im Falle einer ungewollten Nacktaufnahme beispielsweise soll weder jedes Foto der gezeigten Person aus einem sozialen Netz entfernt werden, sondern nur das von ihr als verletzten empfundene. Ebenso wenig sollen allerdings andere Fotos gelöscht werden, die einen vergleichbaren Grad von Nacktheit zeigen, was von anderen Personen aber gegebenenfalls gewollt ist.

1.3 Schutz vor Hate Speech

Beleidigende, verleumderische oder hetzende Kommentare sollen in sozialen Netzen und ähnlichen Umgebungen möglichst effizient entfernt werden. Wird eine entsprechende Äußerung gefunden, soll nicht nur diese gelöscht, sondern auch ihre Wiedereinstellung verhindert werden, und dabei möglichst auch alle Abwandlungen davon. Während die erste Variante, also das Erkennen einer Wiedereinstellung, den Uploadfiltern im Urheberechtsschutz gleicht, erfordert das Erkennen von Abwandlungen eine andere und komplexere Lösung. Hier kann nicht mehr eng zwischen einem Text und allen anderen denkbaren Texten unterschieden werden, sondern Texte sollen auch erkannt werden, wenn sie ausreichend ähnlich zu dem ursprünglichen Text sind.

1.4 Schutz gegen „Fake News“

Noch weiter gehen die Anforderungen bei der Erkennung von Desinformationen oder „Fake News“. Soll automatisiert eine Falschmeldung gefiltert werden, so ist ein System notwendig, welches autonom zwischen Wahrheit und Unwahrheit entscheiden kann. Weiterhin muss es in der Lage sein, den Kontext einer Aussage zu bewerten, da Desinformationen oft durch das verbreiten korrekter Sachverhalte in einem bewusst missverständlichen Zusammenhang entstehen. Ein System, welches dazu in der Lage ist, wäre das Ideal eines Uploadfilters gegen Desinformationen, hilfreich sind aber auch einfachere Ausprägungen, die den Ansätzen der vorherigen Abschnitte mehr ähneln und so technisch weniger anspruchsvoll sind.

1.5 Umsetzung

Uploadfilter sind eine verkürzte Bezeichnung für komplexe Systeme, in denen das eigentliche Filtern nur eine von vielen Komponenten ist. Entsprechende Lösungen müssen ja neben der Analyse beispielsweise auch die Umsetzungen der Reaktionen auf das Ergebnis der Analyse bereitstellen. Und bei dynamischen Vorgängen wie insbesondere der „Fake News“ Erkennung auch eine Anbindung an Wissensquellen beinhalten. Wir beschränken uns an dieser Stelle auf die Herausforderungen der Umsetzung der grundsätzlichen Aufgabe wie in Abschn. 1.1. bis 1.4. beschrieben. Diese Funktionen lassen grob unterscheiden in solche, die ein Wiedererkennen von Inhalten wie in 1.1. und 1.2. ermöglichen und solche, die ein Klassifizieren beliebiger Inhalte wie in 1.3 und 1.4 ermöglichen.

Das Wiedererkennen bzw. (Re-Identifizieren) von Inhalten geschieht entweder über sogenannte robuste Hashverfahren oder über Verfahren zur Extraktion von Merkmalen („Features“). Entsprechende Verfahren erzeugen eine kompakte Darstellung des Inhalts und speichern diese in einer Datenbank. Zum Prüfen wird dann vom Medium mit derselben Methode ein weiterer Hash oder ein Merkmalsvektor errechnet und mit der Datenbank verglichen. Diese Methoden sind schnell und einfach zu berechnen, weiterhin weisen sie niedrige Fehlerraten auf. Entsprechende Verfahren sind in erster Linie für Multimedia Daten bekannt und werden für Bild, Video und Ton in zahlreichen Anwendungen eingesetzt. Aber auch für Text sind robuste Hashverfahren bekannt, womit Anforderungen in 1.3 adressiert werden können, bei denen Texte wiedererkannt werden sollen, auch wenn diese leicht abgeändert wurden.

Sollen Entscheidungen nicht für bereits bekannte Inhalte getroffen werden, sondern auch Inhalte bewertet werden, welche nur eine gewisse Ähnlichkeit zu bereits bekannten Inhalten aufweisen, so müssen diese klassifiziert werden. Dazu wird heute in der Praxis Maschinelles Lernen eingesetzt. Anhand von Beispielen wird dem System während des Trainings beigebracht, wie die Ausprägungen der zu erkennenden Inhalte sind und welche Einordnung erfolgen soll. Dann können neue Inhalte durch das so trainierte Netz klassifiziert werden. Die Herausforderung ist hier, dass es eine Vielzahl möglicher Texte und Nachrichten gibt, die alle auf die beschränkte Zahl von Trainingsdaten abgebildet werden müssen. Dementsprechend sind die Fehlerraten hier deutlich höher als im Wiedererkennen.

Der folgende Abschnitt betrachtet die Umsetzung von Uploadfiltern in einem höheren Detailgrad und greift dabei die Unterscheidung zwischen Wiedererkennen und Klassifizieren auf. Auch wird die technische Umsetzung der Uploadfilter etwas breiter betrachtet. Wichtig ist dabei die kurze Bestandsaufnahme der aktuellen Erkennungsraten, die im späteren Kapitel „Herausforderungen“ im Zusammenhang mit den Schwellwerten von großer Bedeutung ist.

2 Technologie

Ein Uploadfilter besteht aus eine Reihe von Komponenten. Abstrakt müssen dabei zumindest die folgenden Vorhanden sein:

Referenzdatenbank

Anhand dieser Referenzdaten entscheidet der Uploadfilter, wie seine Reaktion ausfallen soll. Üblich ist hier eine Art „Blacklist“, in der die Fälle gespeichert sind, auf die der Uploadfilter mit weiteren Maßnahmen reagieren soll. Je nach Strategie zur Erkennung können die Daten beispielsweise zur effizienten Handhabe abstrahiert oder als Trainingsdaten für Maschinelles Lernen eingesetzt werden. Ebenso kann die Datenbank eine Liste von Signalworten zur Erkennung von Hassrede darstellen. Nur, wenn ein generelles Modell der zu erkennenden Daten gefunden werden kann, dann ist eine Referenzdatenbank nicht notwendig, beispielsweise, wenn Nacktheit anhand des Anteils von hautfarbenen Pixeln erkannt wird [1, 20]. Wenn die Reaktion auf erkannte Inhalte es erfordert, können hier auch weitere Metadaten hinterlegt sein, beispielsweise Kontaktadressen von Rechteinhabern zur Klärung von Nutzungsfragen.

Entscheidungsverfahren

Im Kern des Uploadfilters muss immer die Frage geklärt werden, ob ein eingehendes Datum (also beispielsweise ein Bild, ein Text oder ein Video) eine Eigenschaft hat, die eine Reaktion erfordert. Diese Einordnung kann auf vielfältige Weise geschehen. Ihre Zuverlässigkeit ist dabei davon abhängig, wie hoch der Freiheitsgrad der eingehenden Daten in Bezug auf die Referenzdatenbank ist. Soll nur auf Inhalte reagiert werden, die genau so in der Datenbank vorhanden sind, ist ein zuverlässiger Betrieb möglich, als wenn auch den Referenzen ähnliche Inhalte erkannt werden sollen.

Reaktionsmechanismus

Auf Basis der Entscheidung des Einordnungsverfahrens muss der Uploadfilter in der Lage sein, eine abhängige Handlung durchzuführen. Diese Reaktion kann wieder in Abhängigkeit vom Einsatzszenario vielfältig ausfallen. Zur Vermeidung von Urheberrechtsstreitigkeiten wird ein Inhalt vielleicht blockiert oder dem Rechteinhaber und dem Uploader zur Klärung übergeben. Ein Fall von vermeintlich erkannter Hassrede in einem sozialen Netzwerk wird dahingegen wahrscheinlich einem Moderator übergeben, der hier eine abschließende Entscheidung über Blockieren oder Veröffentlichung trifft.

2.1 Entscheidungsverfahren

Es gibt unterschiedliche Ansätze, die sich mit der Einordnung von Inhalten befassen, also im Kontext eines Uploadfilters die Aufgabe übernehmen, über einen eingehenden Inhalt eine Entscheidung zu treffen. Dabei unterscheiden sich die Verfahren für verschiedene Inhalte deutlich. Eine Lösung für Bilder ist nicht ohne weiteres auf Texte übertragbar. Auf der obersten Ebene lässt sich dies in zwei Gruppen einteilen:

Wiedererkennen

Hier wird angenommen, das ein Inhalt bereits bekannt ist, z. B. aus einer früheren Untersuchung. Er soll re-identifiziert und mit einigen in einer Datenbank gespeicherten Informationen darüber abgeglichen werden. Diese kann beispielsweise durch kryptographische (üblich bei Texten) oder robuste Hashes (üblich bei Medien wie Audio, Video und Bild) geschehen. Es muss betont werden, dass es bei dieser Aufgabe darum geht, die Inhalte selbst zu identifizieren und nicht darum, weitere Informationen daraus zu gewinnen. So zählt die Aufgabe, in einem Bild eine abgebildete Person zu erkennen, wie z. B. in [6] besprochen, nicht zur hier diskutierten Re-Identifikation.

Klassifizierung

In diesem Fall wird nicht davon ausgegangen, dass der Inhalt bereits bekannt ist. Statt dessen werden automatisch Metadaten generiert, z. B. durch Abgleich des Bildes mit Referenzbildern mit ähnlichen Merkmalen. Auf diese Weise kann ein Filtern nach relevanten Merkmalen erfolgen. Es existieren zahlreiche unterschiedliche Ansätze, wie beispielsweise Bilder klassifiziert werden können [11]. Für die Bildklassifikation sind trainierte tief lernende Netze bekannt, die die besten Ergebnisse [5] liefern. Es stehen mehrere allgemeine Netze zur Verfügung, die eine automatische Markierung oder Annotation von Bildern ermöglichen. Die eigentliche Entscheidung wird dann auf Basis der gewonnenen Annotationen gewonnen.

In den folgenden Abschnitten gehen wir auf eine Reihe von Methoden ein, mit denen Wiedererkennen und Klassifizierung umgesetzt werden können. Diese sind eher beispielhaft zu sehen. Ziel ist es, zu zeigen, wie unterschiedlich eine Einordnung erfolgen kann.

2.2 Kryptographische Hash-Funktionen

Kryptographische Hash-Funktionen (siehe z. B. [12]) sind ein Primitiv der Sicherheitsprotokolle mit vielen Anwendungen, die in der IT-Sicherheit schon sehr lange bekannt sind [4]. Sie berechnen Hash-Werte fester Länge aus Informationen beliebiger Länge. Sie müssen eine Reihe von Anforderungen erfüllen, unter anderem die folgenden:

  • Effizienz: Sie müssen mit geringem Aufwand berechnet werden können.

  • Kollisionsresistenz: Es muss extrem unwahrscheinlich sein, zwei Informationen zu finden, die den gleichen Hash-Wert haben

  • Einwegfunktion: Es muss praktisch unmöglich sein, die mit einem Hash-Wert verbundene Information zu finden.

Diese Eigenschaften führen dazu, dass Kryptographische Hash-Funktionen nur dazu geeignet sind, identische Kopien eines Inhalts, also beispielsweise eines Fotos oder eines Videos zu erkennen. Sobald auch nur minimale Änderungen an der Datei auftreten, die die Informationen speichert, ist der Hash ein vollständig anderer. Dazu genügt es, die Datei mit einem verlustbehafteten Kompressionsalogrithmus wie JPEG für Bilder oder h.264 für Videos zu speichern. Die dabei erfolgende Quantisierung führt zu Änderungen der Datei und einem Bruch des Hashes. Daher sind entsprechende Verfahren nicht geeignet, eine Re-Identifikation im Rahmen von Uploadfiltern zu ermöglichen. Sie spielen aufgrund ihrer Eigenschaften beispielsweise eine Rolle bei der Integritätsprüfung oder bei der Suche nach digitalen Duplikaten. Da im Kontext von Uploadfiltern immer mit Veränderungen der Inhalte gerechnet werden muss, sei es willentlich, um den Filter zu umgehen, oder unbewusst durch Verarbeitungsschritte, sind hier sogenannte „robuste“ Hashverfahren notwendig, die resistent gegen leichte Änderungen sind.

Sollten Texte re-identifiziert werden, kommen kryptographische Hashes allerdings häufig zum Einsatz. Sie werden dabei allerdings nicht als Hash über den vollständigen Text eingesetzt, sondern im Sinne einer fortlaufenden Fensterfunkion werden einzelne Textpassagen gehasht. So können auch Ausschnitte aus Texten erkannt werden. Mehr Details dazu finden sich beispielsweise in [23].

2.3 Robuste Hash-Funktionen

Es sind mehrere robuste oder wahrnehmungsbezogene Hashes für verschiedene Medientypen bekannt, die unterschiedliche Robustheitsgrade bieten. Da es zu viele Algorithmen gibt, um sie hier zu erwähnen, empfehlen wir Erhebungen wie die von Haouzia et al. [10] oder Neemila und Singh [14]. Es existieren auch Methoden für Audio [8]- und Videostreams [15] sowie für Textdaten [23].

Robuste Hash-Funktionen extrahieren wahrnehmungsrelevante Merkmale aus Multimedia-Inhalten zu Identifikationszwecken. Sie müssen eine Reihe von Anforderungen erfüllen. Die wichtigsten sind:

  • Unterscheidung: Wahrnehmbar unterschiedliche Stücke von Mediendaten sollen unterschiedliche Hash-Werte haben

  • Robustheit: Die robusten Hash-Werte sollen eine gewisse Wahrnehmungsinvarianz aufweisen, d. h. zwei Mediendaten, die für einen durchschnittlichen Zuschauer/Zuhörer hinsichtlich seiner Wahrnehmung ähnlich sind, sollen auch ähnlich sein.

  • Sicherheit: Die Merkmale müssen Angriffe überstehen, die direkt auf die Merkmalsextraktion und nachfolgende Verarbeitungsschritte abzielen. Ähnlich wie bei kryptographischen Hash-Funktionen müssen die robusten Hash-Werte gleichmäßig auf alle möglichen Mediendaten verteilt und paarweise statistisch unabhängig für zwei Mediendaten sein, die sich in der Wahrnehmung unterscheiden.

Die Robustheit birgt das Risiko von Informationslecks: Wenn zwei Bilder sehr ähnlich sind, sind auch ihre Hashes ähnlich. Die Unterscheidung geht nur so weit, dass zwei ähnliche Bilder keinen identischen Hash haben, aber beide Hashes ähnlicher sind als die Hashes von zwei Bildern mit unterschiedlichem Inhalt. Als Beispiel: Porträtfotos mit einem menschlichen Gesicht in der Mitte und einem hellen, einfarbigen Hintergrund haben alle eine ähnliche robuste Hash-Struktur. Dies führt zu falsch-positiven Ergebnissen bei einer robusten Hash-Funktion, die höher als erwartet ist, wenn man den theoretischen Zahlenraum betrachtet, der von einem Hash überspannt wird.

Die Zuverlässigkeit robuster Hashverfahren bei der Wiedererkennung ist hoch. So weist beispielweise und Verfahren aus [24] in dem dort durchgeführten Test eine Falsch-Positiv-Rate von 0 % und eine Falsch-Negativ-Rate von 0.2 % auf.

2.4 Feature Matching

Verfahren, die Feature Matching umsetzen, zeichnen sich durch eine höhere Resistenz gegen Bildveränderungen als robuste Hashverfahren aus. Rotation und auch Verzerrung können sie gut überstehen, und auch eine Beschneiden des Bildes ist oft unproblematisch. Die Verfahren basieren darauf, sogenannte Schlüsselpunkte (Keypoints) an mehreren Stellen in einem Bild mit einem Detektor zu erkennen und Deskriptoren mit einem Merkmals-Extraktor zu extrahieren. In einem weiteren Schritt, dem Merkmalsvergleich, werden die gefundenen Merkmale mit Merkmalen eines anderen Bildes verglichen. Wenn beide Bilder nun das gleiche Objekt enthalten, sollten die Merkmale idealerweise messbar ähnlich sein. Ein Merkmal selbst ist definiert als ein "interessanter" Teil des Bildes. Was genau als "interessanter" Teil des Bildes verstanden wird, variiert je nach Merkmalsdetektor. Der Bildteil, in dem ein Merkmal extrahiert wird, ist oft entweder ein isolierter Punkt, eine kontinuierliche Kurve oder ein verbundener Bereich.

Der Scale Invariant Feature Transform (SIFT) [13] Algorithmus ist einer der bekanntesten und am häufigsten verwendeten Merkmals-Detektoren. Der Speeded Up Robust Features (SURF) Detektor [2] ist teilweise von SIFT inspiriert und ist ein Versuch, schneller und robuster zu sein als SIFT.

Die Verfahren ist allgemein aufwändiger als robuste Hashverfahren und werden daher nur dann eingesetzt, wenn die Anwendung die Resistenz gegen Rotation und Verzerrung erfordert. Auch bei der Erkennung von einzelnen Teilen es Bildes oder dem Einfügen eines Bildes in ein anderes, können diese Verfahren hilfreich sein. So wurden von uns im Rahmen der Erkennung von Bildmontagen 99 % der eingefügten Bildobjekten und 100 % der Bildhintergründe, in denen die Objekte eingefügt wurden, erkannt [21, 22].

2.5 Natural Language Processing

Unter diesem Begriff fallen zahlreiche Ansätze, Informationen aus unstrukturiertem Text zu gewinnen. Methoden reichen dabei von statistischer Analyse des Auftretens von vorher bestimmten Signalworten bis hin zur Erkennung von Kontext oder Autorenschaft anhand Maschinellem Lernens.

Welche Ansätze hier eingesetzt werden, kommt wieder auf die konkrete Anwendung an. Soll durch einen Filter verhindert werden, dass ein einmal geblockter Nutzer erneut Inhalte über einen neuen Nutzernamen hochladen kann, so ist dies eine Aufgabe für die Autorschaftserkennung. Der Schreibstil des geblockten Verfassers wird erlernt und dann neue Texte auf diesen Stil hin geprüft. Dabei wurde beispielsweise in [9] für deutschsprachige Texte eine Accuracy von 79 % erreicht.

Soll verhindert werden, dass Bots Nachrichten in einem Kanal verbreiten können, müssen Bots und Menschen unterschieden werden. Bei der PAN-Challenge, einem internationalen Vergleich von Natural Language Processing Lösungen, lag die die durchschnittliche Erkennungsrate bei einer Unterscheidung zwischen Nachrichten von einem Bot und einem Menschen bei 86 % in englischer Sprache[17].

Ist die Aufgabe, bestimmte Inhalte aus einem Forum herauszuhalten, sind Ansätze notwendig, die eher inhaltlich agieren und unabhängig vom Autor sind. So konnten im Projekt X-SONAR Inhalte mit „Hate Speech“ in Twitter Nachrichten zu 85 % korrekt erkannt werden [27].

Die Erkennung von Verbreitern von Desinformationen gelang in der entsprechenden PAN-Challenge [16] dem Gewinner [3] mit einer durchschnittlichen Accurarcy von 77,8 %. Auch Lösungen, die auf einfachen Mechanismen wie n-Grammen und Support Vector Machines basieren [26], erreichten eine Accurarcy von über 75 % .

Die Liste von technischen Komponenten, mit denen ein Uploadfilter Inhalte verarbeiten kann, ist beliebig erweiterbar. So kann eine Klassifizierung natürlich auch für Videos erfolgen, und auch hier wird heute verbreitet Maschinelles Lernen eingesetzt [25]. Selbst Cover-Versionen von Musikstücken können automatisch erkannt werden, wenn ein System die Audiodaten in Noten übersetzt [28] und dann die Notenfolgen in einer Referenzdatenbank sucht. Letztendlich kann jedes Verfahren, welches automatisiert Metadaten aus einem Inhalt extrahieren kann, potentiell im Rahmen eines Uploadfilters verwendet werden, wenn die Metadaten relevant für die Entscheidung des Filters sind.

2.6 Komplikationen

In der Praxis können die Methoden zur Erkennung auf vielfältige Herausforderungen stoßen, die ihren Einsatz deutlich erschweren. Die oben genannten Ansätze gehen zumeist davon aus, dass der zu untersuchende Inhalt direkt zur Analyse zur Verfügung steht. Allerdings ist dies schon bei relative einfachen Fällen wie der Erkennung von urheberrechtlich geschützten Inhalten auf Videoplattformen oft nicht der Fall. Musikstücke können mit einem robusten Hashverfahren nur schwer erkannt werden, wenn sie im Hintergrund laufen und durch eine Moderation verdeckt werden. Ein Film wird eventuell nicht mehr erkannt, wenn er nur in einem Fenster im Hintergrund läuft oder ein Kommentator im Vordergrund eingeblendet wird.

Dementsprechend müssen die Verfahren wo notwendig durch weitere Mechanismen unterstützt werden. Dazu sind ebenfalls zahlreiche Verfahren bekannt. So können Audioströme separiert werden, also vermischte Klangquellen wieder getrennt werden [7]. Bilder können in Segmente aufgeteilt werden, die individuell betrachtet werden; in Videos kann Vorder- und Hintergrund getrennt betrachtet werden. Auch Verfahren zur Erkennung von Bildern in einem größeren Bild existieren. Sie alle haben gemeinsam, dass ihr Einsatz die Systeme komplexer werden lässt und natürlich auch die Fehlerraten erhöht.

Nicht vergessen werden darf auch, dass Nutzer, die Inhalte hochladen, diese aktiv vor einer Erkennung schützen wollen. Sie verschleiern also den Inhalt. Für alle oben genannte Methoden existieren auch Ansätze, mit denen diese in die Irre geführt werden sollen. Bekannt sind hier die Bemühungen von Nutzern der Videoplattform YouTube, Inhalte durch Spiegelung oder verlangsamte Wiedergabe vor einer Erkennung zu verbergen. In jüngerer Zeit wurde auch hier Ansätze des Maschinellen Lernens betrachtet [19].

3 Herausforderung Schwellwert

In der Diskussion über Uploadfilter werden deren technische Ausprägungen und Eigenschaften oft nicht berücksichtigt. Systeme, die auf Wiedererkennen basieren, weisen deutlich niedrigere Fehlerraten auf (zumeist unter einem Prozent) auf, als solche, die mit Maschinellem Lernen Inhalte klassifizieren. Hier liegen die Fehlerraten oft über 10 %. Trennt man hier beide Ansätze in der Diskussion nicht deutlich voneinander, können unrealistische Erwartungen hinsichtlich des Einsatzes von Uploadfiltern entstehen: Ein Erkennen von „Hate Speech“ oder „Fake News“ kann heute nicht mit der gleichen Zuverlässigkeit und daher Automatisierung arbeiten wie ContentID in YouTube, bei der Inhalte wiedererkennt werden.

Gleichzeitig sind allerdings die Anforderungen an Uploadfilter zu „Hate Speech“ und „Fake News“ höher als die bei der Wiedererkennung von Inhalten. Ein entsprechender Filter müsste alle Nachrichten in sozialen Netzwerken untersuchen und bewerten. Hier kann mit einem Vielfachen der Anzahl von hochgeladenen Bildern und Videos gerechnet werden. Damit gewinnt die Fehlerrate dieser Verfahren weiter an Bedeutung, da die Betreiber Sozialer Medien mit einer Vielzahl generierter Warnungen ihrer Uploadfilter konfrontiert werden, von denen ein großer Anteil falsch klassifiziert ist. Gehen wir beispielsweise davon aus, dass von 1000 Nachrichten eine „Hate Speech“ enthält, so fallen bei grob 90 % korrekter Erkennung hier bei einer Million Nachrichten 900 korrekte Meldungen an. Gleichzeitig werden aber auch von den restlichen 999.000 Nachrichten 10 % falsch klassifiziert und lösen ebenfalls einen Alarm aus. Auf die 900 korrekten Meldungen kommen also 99.000 Fehleinschätzungen. Würde nun ein System voll automatisiert ablaufen, würden bei diesen Werten 10 % aller Nachrichten fehlerhaft blockiert. Prüfen Menschen die Meldungen, so entsteht ein hoher personeller Aufwand.

Diese Werte können allerdings angepasst werden. Über eine Klassifizierung wird zumeist mit Schwellwerten entschieden: Eine Zuordnung geschieht, wenn ein trainiertes Netz sich zu einem gegebenen Prozentsatz sicher ist. So kann beispielsweise festgelegt sein, dass ein Netz sich zu 80 % sicher sein muss, dass ein Text „Hate Speech“ ist, um diesen entsprechend einzuordnen. So wird aus einer prozentualen eine binäre Entscheidung. Wird dieser Schwellwert verändert, geschehen zwei Dinge: Die Erkennungsrate echter Treffen sinkt, da weniger Treffer den Schwellwert überschreiten und zu einer Meldung führen. Gleichzeitig fällt aber die Anzahl der falsch als Treffen eingeordneten Beispiele, da auch diese häufiger am Schwellwert scheitern.

Dementsprechend kann ein Uploadfilter parametrisiert werden, um entweder möglichst wenig Fehlalarm auszulösen oder aber möglichst zuverlässig im Ernstfall eine Meldung zu erkennen. Die Entscheidung, wie viel Aufwand bei einer manuellen Nachsichtung anfällt, ist direkt davon abhängig. Ebenso bei einem automatischen Betrieb die Frage, wie viel Störung in der Nutzung eines Sozialen Netzwerks durch falsch eingeordnete Meldungen akzeptiert werden, um zuverlässig unerwünschte Inhalte auszusperren. Um die Bedeutung und das Verhalten von Schwellwerten besser darzustellen, erfolgt hierzu ein etwas ausführlicher Exkurs.

Schwellwerte stellen die Entscheidungsgrenzen für eine Einordnung eines Uploadfilters dar.

$$\begin{aligned} Entscheidung(x) = {\left\{ \begin{array}{ll} Ablehnung: &{}x < Schwellwert \\ Annahme: &{}x \ge Schwellwert \end{array}\right. } \end{aligned}$$

Dabei kann der Wert x, auf dem die Entscheidung beruht, aus unterschiedlichen Berechnungen stammen. Im Falle eines robusten Hashverfahrens ist das beispielsweise die Hamming Distanz, also die Anzahl der Bits, an denen sich zwei Hashwerte unterscheiden. Hier liegt der Schwellwert oft bei einem prozentualen Anteil der Anzahl der Bits des Hashwerts. So legen Haitsma et al. [8] für ihren Audiohash den Schwellwert bei 75 % Übereinstimmung fest. Bei einem auf Maschinellem Lernen basierenden Klassifikator ist der Schwellwert erlernt und repräsentiert die Stärke der Übereinstimmung des geprüften Datums mit dem Erlernten. Ganz allgemein kann die Entscheidung positiv oder negativ ausfallen, also eine Annahme oder eine Ablehnung erfolgen. Diese Entscheidung kann richtig oder falsch sein. So entstehen vier Klassen von Entscheidungen:

Richtig Positiv (TP)::

korrekte Annahme

Falsch Positiv (FP)::

fehlerhafte Annahme

Richtig Negativ (TN)::

korrekte Ablehnung

Falsch Negativ (FN)::

fehlerhafte Ablehnung

Anhand dieser Klassen wird die Erkennungsleistung eines Einordnungsverfahrens bewertet. Oft wird dazu ein prozentualer Wert berechnet, beispielsweise, wie viele Positiv-Beispiele von einhundert Fällen korrekt erkannt werden. Dies bezeichnet man dann als „Rate“, aus TP wird eine TPR (True Positive Rate). Zusätzlich werden auch abgeleitete bzw. zusammenfassende Werte verwendet. So gibt die häufig genannte „accurarcy“ an, wie viele aller Entscheidungen richtig waren, „precision“ beschreibt, wie viele aller positiven Einordnungen korrekt waren und „recall“, wie viele positive Fälle erkannt wurden. Welcher Wert hier relevant ist, kommt stark auf die jeweilige Anwendung an.

Um die Auswirkung eines Schwellwerts zu zeigen, verwenden wir an dieser Stelle ein abstraktes Beispiel. Wir erzeugen zwei Mengen A und B von Daten, die vermischt und später durch eine Analyse getrennt werden sollen. Das könnten Bilder sein, die durch ein robustes Hashverfahren erkannt werden sollen und bei dem eine Menge die bekannten und die andere die unbekannten Bilder darstellt. Oder Bilder von Katzen und Hunden, die ein trainiertes Netz klassifizieren soll, also dem Bild die Annotation „Hund“ oder „Katze“ zuweisen soll. In Tab. 1 werden einige Charakteristika der Daten aufgezeigt. Erzeugt wurden sie durch einen Generator für Zufallszahlen, der für beide Gruppen unterschiedliche Parameter verwendete. Bei den Daten handelt es sich um jeweils 100 Werte für jede Gruppe. Die entstehenden Werte dienen direkt als Grundlage für die Entscheidung hinsichtlich des Schwellwerts.

Tab. 1 Statistische Eigenschaften der zwei Gruppen zu je 100 Testdaten

Abb. 1 zeigt, dass die Erkennung gut gelingt, beide Mengen sind getrennt. Es wird allerdings deutlich, dass es keinen Schwellenwert geben kann, der beide Gruppen vollständig voneinander abgrenzt. Abhängig vom Schwellwert werden einzelne Elemente der Gruppen jeweils der anderen zugeordnet. Im Fall eines Uploadfilters würden die Elemente der beiden Gruppen Inhalte repräsentieren, die vom Filter entweder durchgelassen oder gesondert behandelt werden müssten. Gruppe B wären die Inhalte, die der Filter erkennen sollte, Gruppe A die, die er als unbedenklich ansehen sollte.

Abb. 1
figure 1

Eine Verteilung von positiven und negativen Testfällen. Die beiden Mengen sind gut getrennt, an ihrer Grenze gibt es aber Überschneidungen. Betrachtet man die Grenze zwischen beiden Mengen um den Wert 85 herum, wird deutlich, dass es keinen Schwellenwert geben kann, der beide Mengen trennt, ohne dabei entweder FP oder FN zu produzieren

Eine Darstellung des Problems bietet Abb. 2. Hier ist die Verteilung der Testergebnisse in Abhängigkeit vom Schwellenwert gestapelt. Bei einem zu hohen Schwellenwert von 100, dem Maximum, welches in den Daten auftritt, werden fast alle Elemente aus Gruppe B fälschlich abgelehnt, es ergibt sich ein großer Anteil von falsch-negativen. Gleichzeitig sind alle Elemente von Gruppe A negativen Daten korrekt zugeordnet. Bei einem Schwellenwert, der unter dem Minimum der Werte von Gruppe A Datensatzes liegt, werden hingegen alle Elemente von Gruppe B korrekt zugeordnet, alle Elemente von Gruppe A aber fälschlich als zu Gruppe B gehörig angesehen.

Abb. 2
figure 2

Die Verteilung von TP, TN, FN und FP verschiebt sich in Abhängigkeit vom Schwellenwert

Die Herausforderung ist es nun, einen Schwellwert zu finden, der für den Zweck des jeweiligen Uploadfilters geeignet ist. Dazu müssen zumindest zwei Fragen bedacht werden:

Welche Annahme kann über die in der Praxis vorkommende Verteilung der Gruppen getroffen werden?

In unserem Beispiel ist diese Verteilung gleich. In der Praxis ist es üblich, dass eine Gruppe deutlich größer als die andere ist. Daraus folgt eine Verzerrung des Verhaltens des Filters. Wenn beispielsweise ein Bild einer Katze zu 99 % erkannt werden kann, wenn es wirklich eine Katze zeigt, aber auch in 5 % der Fälle, in denen keine Katze zu sehen ist, fälschlich eine Katze erkannt wird, dann können diese 5 % schnell zu einem häufigeren Grund für das (vermeintliche) Erkennen einer Katze werden. Ist beispielsweise nur jedes tausendste Bild wirklich von einer Katze, so würde durch korrekte Erkennung einmal eine Katze erkannt werden, aber durch Fehlalarme 50 weitere Bilder hinzukommen.

Welche Bedeutung hat eine falsche Zuordung?

Je nach Anwendung kann eine Ausprägung von Fehlern bei der Zuordnung weniger relevant als der andere sein. Sollen Hasskommentare aus Nachrichten ferngehalten werden, so kann es in der Praxis notwendig sein, eine gewisse Wahrscheinlichkeit des Scheiterns der Filterung zu akzeptieren, um zu verhindern, dass zu viele an sich unbedenkliche Mitteilungen fälschlich blockiert werden.

4 Diskussion

Die vorhergehenden Kapitel umreißen verschiedene Anwendungsfälle und Technologien zu Uploadfiltern und erörtern dann die Herausforderungen, die beim definieren von Schwellwerten auftreten. An dieser Stelle soll nun kurz erörtert werden, welche Konsequenzen das Zusammenspiel dieser Faktoren hat.

Uploadfilter haben unweigerlich in Abhängigkeit ihrer Aufgaben eine unterschiedliche Zuverlässigkeit. Sollen nur Werke wiedererkannt werden, die vollständig und unverändert vorliegen, so können Systeme mit einer vernachlässigbaren Fehlerrate erreicht werden. Das gilt allerdings nur in technischer Hinsicht, ein Uploadfilter kann nicht prüfen, welche Rechte am Werk tatsächlich bestehen [18]. Sobald allerdings zusätzliche Anforderungen hinzukommen, beispielsweise durch Verdeckung oder das Erkennen auch kleiner Ausschnitte eines Werkes, steigen auch die Fehlerraten. Daher darf ein Uploadfilter zum Urheberrechtsschutz nicht als trivial angesehen werden, denn in der Praxis treten zahlreiche Komplikationen bis hin zur bewussten Verschleierung von Werken als Maßnahme gegen eine Erkennung auf.

Sollen Werke in diesem Kontext dann trotzdem erkannt werden, so müssen die Schwellwerte ihrer Wiedererkennung gesenkt werden. Nun werden auch Kopien der Werke erkannt, die zu einem gewissen Grad von den ursprünglichen Werken abweichen. Das führt aber auch dazu, dass das Risiko steigt, ähnliche Werke, für die kein Urheberrechtsschutz besteht, fälschlich als das gesuchte Werk zu erkennen. Daraus folgen Fehlalarme und fälschliche Sperrungen von Inhalten.

Ähnliches gilt für den Schutz von Persönlichkeitsrechten. Ein Foto oder ein Video, dass von einer Person erstellt und unerlaubt verbreitet wird, ist technisch nicht von einem urheberrechtlich geschützten Werk zu unterscheiden und kann mit den identischen Methoden behandelt werden. Auch hier spielt der Schwellwert eine entscheidende Rolle. Die betroffene Person wird ihn möglichst niedrig ansetzen wollen, um sicher zu stellen, dass auch stark veränderte Kopien zuverlässig blockiert werden. Betreiber von Plattformen hingegen wollen gegebenenfalls verhindern, dass zu viele Inhalte blockiert werden und dadurch Kundenunzufriedenheit auslösen.

Bei Aufgaben wie dem Schutz vor Hate Speech oder Desinformationen gibt es im Gegensatz zu den beiden ersten Anwendungsfällen keine direkte Referenz. Hier soll im Vorhinein auf etwas reagiert werden, das inhaltlich gewisse Eigenschaften hat, und nicht nur eine bestimmte Nachricht aus dem Kontext blockiert werden. Letzteres wäre natürlich auch umsetzbar: Geht es nur darum, eine bereits als Hate Speech oder Desinformation erkannte Nachricht, ein Bild oder ein Video nicht weiter zu verbreiten, so können die Methoden der Wiedererkennung eingesetzt werden und die Zuverlässigkeit der technischen Umsetzung steigt.

Gilt es allerdings, ganz allgemein Inhalte mit bestimmten Eigenschaften zu erkennen, steigen die Fehlerraten wie im Kapitel Technik beschrieben stark an und liegen dann durchaus bei über 20 %. Das ist primär dem Umstand geschuldet, dass die Erkennung entsprechender Nachrichten sehr komplex sein kann. Eine direkte Beleidigung durch Schimpfworte oder bekannte Phrasen kann noch automatisiert erkennbar sein, allerdings können auch hier schnell Fehler im Kontext entstehen. Werden beispielsweise Schimpfworte in einem Kommentar gezählt und der Verfasser bemängelt nur die Verwendung dieser, so kann es hier schnell zu einer fälschlichen Blockade kommen. Eher verdeckte Angriffe hingegen stellen eine Erkennung vor große Herausforderung.

Das Problem von Kontext und Verdeckung steigert sich bei Desinformationen noch weiter. Da Desinformationen potentiell über jeden Sachverhalt verbreitet werden können, sind hier Methoden notwendig, die völlig unabhängig vom Kontext sind. Und da Desinformationen häufig auch durch das Weglassen von Informationen entstehen, müsste ein Detektor auch ein Idee eines vollständigen Sachverhalts entwickeln können, um das Fehlen von Fakten zu erkennen.

Es wird deutlich, dass eine einfache Antwort auf die Umsetzung von Uploadfiltern nicht möglich ist, insbesondere, wenn der Begriff weit gefasst wird und sich über alle genannten Szenarien erstreckt. Dementsprechend stellen sich zahlreiche Fragen, von denen zum Schluss drei Stück exemplarisch herausgegriffen werden sollen. Anhand dieser Fragen sollte eine vertiefte Diskussion über den Einsatz von Uploadfiltern erfolgen. Als Grundlage dazu muss eine realistische Einschätzung der technischen Möglichkeiten vorhanden sein, die Beantwortung kann allerdings nur interdisziplinär erfolgen. Dementsprechend kommt der Technik hier die Aufgabe zu, ein Verständnis für die Arbeitsweisen, Voraussetzungen und Entscheidungsfindungen der verschiedenen Verfahren zu vermitteln. Um eine fundierte Entscheidung über die Verwendung von Uploadfiltern treffen zu können, muss allen Beteiligten bekannt sein, welche Eigenschaften diese haben, welche Kosten entstehen und wo derzeit die Grenzen des technisch Machbaren sind.

Wie kann zwischen Wirtschaftlichkeit und Zuverlässigkeit entschieden werden?

Selbst bei den Filtern für Urheberrechtsfälle ist es so, dass eine maximale Erkennung von urheberrechtlich geschütztem Material mit einer hohen Zahl von Falsch-Positiven einhergehen muss. Hier ist eine Abwägung zwischen dem Schutz der Rechteinhaber und den Interessen des Beitreibers und seiner Nutzer notwendig, da Fehler zu hohem Arbeitsaufkommen und potentiellem Abwandern von Nutzer führen werden.

Welcher Anspruch wird an Uploadfilter gestellt?

Sollen Uploadfilter dem Stand der Technik genügen, so muss im Falle von Hate Speech und Desinformationen akzeptiert werden, dass eine automatische Lösung noch immer zahlreiche Fehler machen wird und einen Teil der zu blockierenden Inhalte nicht erkennt. Dies entspricht dem Stand der Technik. Alternativ könnten Qualitätsmaße gefordert werden, die den Stand der Technik überschreiten und nur durch manuelle Zuarbeit umsetzbar sind, beispielsweise durch niedrige Schwellwerte und menschliche Kontrolle.

Wie hoch ist das Risiko einer automatisierten Zensur?

Es ist bekannt, dass bei Algorithmen des Maschinellen Lernens die Gefahr besteht, Vorurteile aus Trainingsdaten zu übernehmen und diese dann unreflektiert anzuwenden. Daher muss es beim Einsatz von Klassifizierungsverfahren, die darüber entscheiden sollen, ob Inhalte blockiert werden sollen, nicht nur auf eine allgemein hohe Korrektheit geachtet werden, sondern auch darauf, dass keine Mindermeinungen benachteiligt werden.