Mit Vektoren gegen Fake News

“Ich sehe Desinfektionmittel, das es in einer Minute auslöscht. Eine Minute. Und es gibt eine Möglichkeit, wie wir so etwas machen können, und es ins Innere des Menschen bringen, fast wie eine Reinigung.” 

Dieser Vorschlag von Ex-Präsident Trump, gegen das Corona-Virus Desinfektionsmittel zu spritzen, hatte fatale Folgen. Alle Experten konnten nur den Kopf schütteln und viele mit etwas Verstand und Hintergrundwissen nahmen Trump schon lange nicht mehr ernst. Andere aber, wie meine Oma zum Beispiel, lassen sich von solchen Nachrichten stark verunsichern. Wie oft ich schon meine nervöse Oma am Telefon überzeugen musste, dass alte Menschen nicht deshalb als erstes geimpft werden, um sie als Versuchskaninchen zu nutzen. Oder dass die Impfung nicht durch und durch schlecht ist, weil die Cousine des Schwagers einer Nachbarin nach der Impfung doch krank geworden ist. Im Zeitalter der digitalen Kommunikation verbreiten sich Fake News schneller denn je und besonders während der Pandemie werden ängstliche Menschen nur noch mehr verunsichert. Und meine Oma muss sich nicht nur die Gerüchte der Nachbarin anhören, sondern bekommt tagtäglich auf Facebook Fake News von dubiosen Webseiten vorgeschlagen (ja, meine Oma ist tatsächlich auf Facebook). 

Jetzt sind Falschmeldungen auf Social Media durchaus kein neues Problem. Aber im Kampf gegen Fake News können wir einiges verbessern. Momentan läuft es so: Wenn ich Fake News sehe, kann ich das melden und wenn die Nachricht oft genug gemeldet wurde, untersucht sie die Armee von Fact-Checkern. Nun kann man sich leicht vorstellen, dass die Armee der Fact-Checker Hilfe benötigen könnte. Am besten von Algorithmen. 

Wort=Zahl, Satz=Vektor 

Algorithmen sind besonders gut darin, große Datenmengen sehr schnell mit anderen großen Datenmengen zu vergleichen. Es ist also sinnvoll, die Maschine genau dafür einzusetzen: Wir füttern die Maschine mit News, sie vergleicht diese mit bereits überprüften News und sagt uns, ob es nun Fake News sind oder nicht. Der naheliegendste Ansatz ist, ähnliche Sätze zu finden. Ist die Schnittmenge an Wörtern zwischen zwei Sätzen sehr groß, dann haben sie höchstwahrscheinlich den selben Inhalt. Möchte man meinen. 

Das beste Gegenmittel gegen Corona ist Ingwertee. 

In Zeiten von Corona hilft eine ruhige Minute mit Ingwertee gut als Gegenmittel gegen Stress. 

Die Schnittmenge der Wörter in diesen Sätzen ist sehr groß. Für uns Menschen ist aber sofort klar, dass die Aussage der beiden Sätze sich komplett unterscheidet. Unser Algorithmus muss also auch den Kontext in den Sätzen verstehen können. Und hier kommt das sogenannte Word Embedding ins Spiel. Hierbei wird ein Satz grammatisch dekompostiert und jedem Wort eine Zahl zugeordnet. Diese Zahlen werden zusammengefasst und damit wird ein Satz zu einem Vektor. Mit Vektoren kann der Algorithmus natürlich viel besser umgehen. Bei einem Vergleich zwischen Vektoren sind sie sich umso ähnlicher, je näher sie im Vektorraum zueinander liegen und je kleiner der Winkel zwischen ihnen ist. Wir haben also eine Methode gefunden, wie eine Maschine Sätze miteinander vergleichen kann und dabei den Kontext mitberücksichtigt. 

Make it cluster 

Damit nicht jeder neue Satz mit jedem Satz aus der bereits bewerteten Datenbank verglichen werden muss (wir kennen alle das quadratische Problem), übernimmt das ein trainiertes neuronales Netz. Das neuronale Netz nimmt den neuen zu untersuchenden Satz beziehungsweise Vektor und sortiert ihn in thematisch gegliederte Cluster ein. Dabei sind die Cluster nach Wahrheitsgehalt sortiert. Das heißt, es gibt ein Cluster namens „Trump: Desinfektionsmittel spritzen -> Fake News“, in dem alle Sätze als falsch identifiziert sind oder es gibt ein Cluster „Masken helfen gegen Ausbreitung des Virus -> Wahre News“, in dem alle Aussagen als richtig identifiziert wurden. Kann ein Satz in keinem Cluster eingegliedert werden, dann fängt es ein neues an. Und wenn dieses neue Cluster groß genug ist, dann ist es vielleicht wert, einen eigenen Fact-Check zu bekommen. Denn wenn nur Onkel Albert irgendeine Verschwörungstheorie auf seiner Facebookseite teilt, dann ist das noch keine Gefahr. Wird diese Verschwörungstheorie aber aufgegriffen und taucht immer wieder auf und wird damit in den Augen des Algorithmus ein Cluster, dann wird sie gefährlich und es sollte etwas gegen das Gerücht getan werden. 

Der Kampf gegen Fake News ist wichtig für die Gesellschaft. Nicht nur deswegen, damit ich meine Oma nicht jeden Tag davon überzeugen muss, dass die neuen Gerüchte falsch sind. Und um dabei effizienter zu werden, brauchen wir jede Hilfe, die wir kriegen können. Auch, beziehungsweise besonders von Algorithmen. Aber nachdem Trump jetzt nicht mehr im Amt ist, sollte die Fake News-Rate signifikant zurückgegangen sein. 

Quellen: 

https://arxiv.org/abs/1908.10084

https://en.wikipedia.org/wiki/Word_embedding

7 Kommentare

  1. It is perfect time to make some plans for the future and it is time to be happy. I’ve read this post and if I could I desire to suggest you some interesting things or suggestions. Perhaps you could write next articles referring to this article. I want to read more things about it!

    Antworten
  2. Nice blog. Found this while searching through

    Antworten
  3. I have read so many posts about the blogger lovers however this post is really a good piece of writing, keep it up

    Antworten
  4. whoah this blog is wonderful i really like reading your articles. Keep up the great paintings! You realize, a lot of people are hunting round for this info, you could help them greatly.

    Antworten
Einen Kommentar abschicken

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Fachschaft Kompakt (02/2023)

Fachschaft Kompakt (02/2023)

Leitung Liebe Kommiliton*innen, Langsam ist so richtig Sommer und wir hoffen, ihr könnt das warme Wetter trotz der anstehenden Prüfungszeit genießen. Wir haben Anfang Juni einen Wiki-Tag organisiert, an dem wir unser FSMB-Wiki überarbeitet haben. Anfang Juli haben wir...

Prickelnde Logistik bei Coca-Cola

Prickelnde Logistik bei Coca-Cola

Bericht einer Exkursion zum Coca-Cola-Abfüllbetrieb in Fürstenfeldbruck Mitte März 2023 organisierte der Lehrstuhl für Fördertechnik Materialfluss Logistik den 30. Deutschen Materialfluss-Kongress (MFK) am Campus Garching. Im Rahmen des Young Engineer Program des MFK...

Newsletter!

3 x im Semester schicken wir euch ein Update über die neuesten Artikel und einen Ausblick auf die kommenden! Meldet euch für den Newsletter an, um keine Reisswolfausgabe zu verpassen!