ball-74877_640

Studie: Filterblase von Google

Der amerikanische Suchmaschinenanbieter DuckDuckGo hat eine Studie veröffentlicht, die die von Google aufgebaute Filterblase untersucht hat. Das englische Original ist unter diesem Link zu finden.

Da nicht alle Mitleser der englischen Sprache mächtig sind, habe ich sie mit Hilfe von deepl.com mal ins deutsche übersetzt:

Messung der „Filterblase“: Wie Google das Klicken beeinflusst

Im Laufe der Jahre wurde das Problem der „Filterblase“ von Google ausführlich diskutiert. Einfach ausgedrückt ist es die Manipulation Ihrer Suchergebnisse auf der Grundlage Ihrer persönlichen Daten. In der Praxis bedeutet dies, dass Links nach oben oder unten verschoben oder zu Ihren Google-Suchergebnissen hinzugefügt werden, was die Filterung anderer Suchergebnisse insgesamt erfordert. Diese redaktionellen Ergebnisse werden durch die persönlichen Informationen, die Google über Sie hat (wie Ihre Suche, Ihr Browsen und Ihren Einkaufsverlauf), beeinflusst und setzen Sie in eine Blase, die auf dem basiert, was die Algorithmen von Google glauben, dass Sie am ehesten darauf klicken werden.

Die Filterblase ist besonders schädlich bei der Suche nach politischen Themen. Das liegt daran, dass sich unentschlossene und neugierige Wähler an Suchmaschinen wenden, um Grundlagenforschung zu Kandidaten und Themen in der kritischen Zeit durchzuführen, in der sie ihre Meinung zu ihnen bilden. Wenn sie Informationen erhalten, die wegen ihrer persönlichen Filterblasen zur Seite geschoben werden, dann kann dies einen signifikanten Einfluss auf die politischen Ergebnisse insgesamt haben.

Bereits 2012 führten wir eine Studie durch, die zeigt, dass Googles Filterblase die US-Präsidentschaftswahl 2012 maßgeblich beeinflusst haben könnte, indem sie im Vorfeld dieser Wahl Dutzende von Millionen von mehr Links für Obama als für Romney eingefügt hat. Unsere Forschung inspirierte eine unabhängige Studie des Wall Street Journal (Paywall):

> Eine Untersuchung des Wall Street Journal ergab, dass die Suchmaschine oft die Ergebnisse von Personen anpasst, die kürzlich nach „Obama“ gesucht haben – aber nicht diejenigen, die kürzlich nach „Romney“ gesucht haben.

Jetzt, nach den US-Präsidentschaftswahlen 2016 und anderen jüngsten Wahlen, gibt es ein berechtigtes neues Interesse daran, zu untersuchen, wie Menschen politisch online beeinflusst werden können. In diesem Zusammenhang haben wir eine weitere Studie durchgeführt, um den Zustand des Filterblasenproblems von Google im Jahr 2018 zu untersuchen.

Zusammenfassung der Ergebnisse

Google hat behauptet, Schritte unternommen zu haben, um sein Problem mit der Filterblase zu reduzieren, aber unsere neueste Forschung zeigt eine ganz andere Geschichte. Basierend auf einer Studie von Personen, die identische Suchbegriffe zur gleichen Zeit eingeben, haben wir das festgestellt:

  1. Die meisten Teilnehmer sahen Ergebnisse, die für sie einzigartig waren. Diese Diskrepanzen konnten nicht durch Änderungen in Ort, Zeit, durch die Anmeldung bei Google oder durch Änderungen des Google-Testalgorithmus an einer kleinen Teilmenge von Nutzern erklärt werden.
  2. Auf der ersten Seite der Suchergebnisse enthielt Google für einige Teilnehmer Links, die für andere Teilnehmer nicht enthalten waren, auch wenn sie abgemeldet und im privaten Browsermodus waren.
  3. Auch die Ergebnisse in den Infoboxen für Nachrichten und Videos variierten stark. Obwohl die Leute gleichzeitig suchten, wurden den Leuten verschiedene Quellen angezeigt, auch wenn man den Standort berücksichtigt.
  4. Der private Browsermodus und die Abmeldung von Google boten nur sehr wenig Filterblasenschutz. Diese Taktiken bieten einfach nicht die Anonymität, die die meisten Menschen erwarten. Tatsächlich ist es einfach nicht möglich, die Google-Suche zu nutzen und die Filterblase zu vermeiden.

filter-bubble-overview

Für diejenigen, die an weiteren Details interessiert sind, haben wir unten alles aufgeschrieben, sowie die zugrunde liegenden Daten und den Code. Wir hoffen, dass diese Arbeit zu einer weiteren Untersuchung dieses wichtigen Themas anregt.

Methodik

Wir haben Freiwillige in den USA gebeten, am Sonntag, den 24. Juni 2018 um 21.00 Uhr ET nach „Waffenkontrolle“, „Einwanderung“ und „Impfungen“ (in dieser Reihenfolge) zu suchen. Freiwillige haben zuerst im privaten Browsermodus gesucht und sich bei Google abgemeldet, und dann wieder nicht im privaten Modus (d.h. im „normalen“ Modus). Wir haben 87 komplette Ergebnislisten zusammengestellt – 76 auf dem Desktop und 11 auf dem Handy. Beachten Sie, dass wir die Studie auf die USA beschränkt haben, da verschiedene Länder unterschiedliche Suchindizes haben.

Bei der Analyse der Suchergebnisse haben wir uns nur die Top-Level-Domains von Websites angesehen, z.B. www.cdc.gov/features/vaccines-travel und www.cdc.gov/vaccines/adults würden beide als nur cdc.gov behandelt.

Erkenntnis Nr. 1: Die meisten Menschen sahen Ergebnisse, die für sie einzigartig waren, auch wenn sie abgemeldet waren und sich im privaten Browsermodus befanden.

Um Varianten der Ergebnisse zu zählen, haben wir die Reihenfolge der wichtigsten Elemente notiert: die organischen (regulären) Links, die News (Top Stories) Infobox und die Videos Infobox. Wir haben Anzeigen, Abschnitte mit verwandten Suchanfragen und andere Infoboxen ignoriert. Auch bei diesen gab es Unterschiede, aber wir haben sie nicht berücksichtigt.

Ein kurzer Hinweis zur Reihenfolge der Links: Man könnte denken, dass, solange den Benutzern dieselben Links angezeigt werden, die Reihenfolge der Links relativ unwichtig ist, aber das ist nicht der Fall. Ein bestimmter Link erhält nur etwa halb so viele Klicks wie der Link davor und doppelt so viele Klicks wie der Link danach. Mit anderen Worten, die Link-Reihenfolge ist sehr wichtig, weil die Leute viel mehr auf den ersten Link klicken als auf den zweiten, und so weiter.

Die Anzahl der Variationen, die wir für jeden Suchbegriff gesehen haben, ist unten aufgeführt. Für diesen Teil der Studie haben wir mobile Ergebnisse ausgeschlossen, da die Anzahl der angezeigten Infoboxen zwischen Handy und Desktop stark variieren kann. Deshalb heißt es 76 Teilnehmer statt der insgesamt 87. Wir haben auch den Standort kontrolliert (mehr dazu unten).

Privater Browsermodus (und abgemeldet):

  • „Waffenkontrolle“: 62 Varianten mit 52/76 Teilnehmern (68%), die einzigartige Ergebnisse erzielen.
  • „Einwanderung“: 57 Variationen mit 43/76 Teilnehmern (57%), die einzigartige Ergebnisse erzielen.
  • „Impfungen“: 73 Varianten mit 70/76 Teilnehmern (92%), die einzigartige Ergebnisse erzielen.

Normaler Modus:

  • „Waffenkontrolle“: 58 Variationen mit 45/76 Teilnehmern (59%), die einzigartige Ergebnisse erzielen.
  • „Einwanderung“: 59 Variationen mit 48/76 Teilnehmern (63%), die einzigartige Ergebnisse erzielen.
  • „Impfungen“: 73 Varianten mit 70/76 Teilnehmern (92%), die einzigartige Ergebnisse erzielen.

serp-variants

Ohne Filterblase würde man erwarten, dass die Variation der Suchergebnisseiten sehr gering ist – fast jeder würde den gleichen einzelnen Satz von Ergebnissen sehen. Das ist nicht das, was wir gefunden haben.

Stattdessen sahen die meisten Menschen Ergebnisse, die für sie einzigartig waren. Wir haben auch etwa die gleiche Variation im privaten Browsermodus gefunden und uns von Google im Vergleich zum normalen Modus abgemeldet.

Nun, eine gewisse Variation der Suchergebnisse wird aufgrund von zwei Faktoren erwartet, die wir kontrolliert haben. Erstens können sich die Suchergebnisse im Laufe der Zeit ändern, wie z.B. die Aufnahme von zeitkritischen Links. Wir haben diesen Faktor kontrolliert, indem wir alle gleichzeitig suchen ließen.

Zweitens können sich die Suchergebnisse nach Standort ändern, wie z.B. die Aufnahme von lokalen Nachrichtenartikeln. Wir haben diesen Faktor kontrolliert, indem wir alle Links von Hand auf diese Möglichkeit überprüft und sie mit der Stadt und dem Zustand des Freiwilligen verglichen haben. Wir sahen nur sehr wenige lokale Links für Waffenkontrolle (1 organischer Link, 1 Nachrichten-Infobox-Link) und Einwanderung (0), aber mehr für Impfungen (15 organische Links, 4 Nachrichten-Infobox-Links).

Um diese lokalen Links zu kontrollieren, haben wir in unserer gesamten Analyse alle durch den gleichen Platzhalter – localdomain.com für organische Links und „Local Source“ für Infoboxen – ersetzt. Diese Anpassung bedeutet, dass zwei Benutzer, deren Ergebnisse sich nur durch eine andere lokale Domäne im gleichen Slot unterscheiden, nicht als unterschiedlich gelten würden. Interessanterweise hatte diese Anpassung keinen signifikanten Einfluss auf die Gesamtvariation.

Ein weiterer Grund, warum Sie vielleicht eine Variation erwarten, ist das Testen des Suchalgorithmus, bei dem Sie den verschiedenen Personen leicht unterschiedliche Ergebnisse zeigen. In diesem Fall würden Sie erwarten, dass die meisten Menschen die gleichen Ergebnisse sehen, während einige wenige Menschen leichte Unterschiede sehen. Was wir dagegen sahen, war, dass die meisten Menschen unterschiedliche Ergebnisse sahen.

Erkenntnis #2: Google integrierte für einige Teilnehmer Links, die für andere nicht berücksichtigt wurden.

Die Suchergebnisse von Google haben in der Regel zehn organische Links. Während die Reihenfolge dieser Links wirklich wichtig ist (d.h. Link #1 erhält ~40% der Klicks, Link #2 ~20%, Link #3 ~10% und so weiter), wollten wir auch wissen, wie viele verschiedene Domains angezeigt werden.

Ohne Filterblase würde man erwarten, dass diese Summe bei etwa zehn liegt. Wir haben deutlich mehr gesehen. Im privaten Browsermodus, bei Google abgemeldet und mit lokalen Domains, die durch localdomain.com ersetzt wurden, sind hier die Summen:

  • „Waffenkontrolle“: 19 verschiedene Domains
  • „Einwanderung“: 15 verschiedene Domains
  • „Impfungen“: 22 verschiedene Domains

domain-occurrences

Wie Sie in der obigen Visualisierung deutlich sehen können, wurden einigen Personen sehr ungewöhnliche Ergebnisse im Vergleich zu den anderen Teilnehmern gezeigt, die einige Bereiche anboten, die von niemand anderem gesehen wurden. Wenn du einer dieser Leute wärst, hättest du keine Möglichkeit zu wissen, was du verpasst.

Erkenntnis #3: Wir sahen erhebliche Unterschiede in den Infoboxen für Nachrichten und Videos.

Wir wollten uns auch die Variation in den Infoboxen der Nachrichten (Top Stories) und Videos ansehen. Wir haben auch erhebliche Unterschiede innerhalb dieser Bereiche festgestellt, obwohl nur drei Slots verfügbar sind. Auch hier handelt es sich um den privaten Browsermodus, der bei Google abgemeldet ist und bei dem lokale Domains durch „Local Source“ ersetzt wurden.

Infobox für Neuigkeiten:

  • „Waffenkontrolle“: 3 Variationen aus 5 Quellen, die für 75/76 Personen vorkommen. Die häufigste Variation wurde von 69 Personen (90%) beobachtet.
  • „Einwanderung“: 6 Variationen aus 7 Quellen, die für 76/76 Personen vorkommen. Die häufigste Variation wurde von 35 Personen (46%) beobachtet.
  • „Impfungen“: 2 Variationen aus 3 Quellen, die für 2/76 Personen erscheinen. Jede Variation wurde von einer Person gesehen (1%).

Videos Infobox:

  • „Waffenkontrolle“: 12 Variationen aus 7 Quellen, die für 75/76 Personen vorkommen. Die häufigste Variation wurde von 24 Personen (32%) beobachtet.
  • „Einwanderung“: 6 Variationen aus 6 Quellen, die für 75/76 Personen vorkommen. Die häufigste Variation wurde von 42 Personen (55%) beobachtet.
  • „Impfungen“: Wird in den Suchergebnissen nicht angezeigt.

Als Beispiel zeigte die Videos-Infobox für die Abfrage „Einwanderung“ die folgenden sechs Varianten. Wie bei den organischen Suchergebnissen ist auch hier die Reihenfolge wichtig, denn der zweite und dritte Slot erhalten deutlich weniger Klicks.

Today, MSNBC, NBC News (gezeigt für 42 Teilnehmern)

MSNBC, Today, NBC News (gezeigt für 26 Teilnehmer)

Today, MSNBC, MSNBC (gezeigt für 4 Teilnehmern)

MSNBC, Today, Today, Today (gezeigt für 1 Teilnehmer)

New York Times, CNN, MSNBC (gezeigt für 1 Teilnehmer)

Today, MSNBC, RealClearPolitics (gezeigt für 1 Teilnehmer)

Denken Sie daran, dass wir Leute gleichzeitig suchen ließen und alle lokalen Links auf die gleichen geändert haben, so dass diese Variation nicht durch Zeit oder Ort erklärt wird. Und wieder waren einige Leute echte Ausreißer, einige sahen die Infoboxen gar nicht.

Erkenntnis #4: Der private Browsermodus und die Abmeldung von Google boten einen nahezu keinen Filterblasenschutz.

Schließlich sahen wir die Unterschiede im privaten Browsermodus (auch bekannt als Inkognito-Modus) und meldeten uns bei Google als ungefähr gleichwertig wie im normalen Modus ab. Die meisten Menschen erwarten, dass sowohl das Abmelden als auch das „Inkognito“ eine gewisse Anonymität gewährleistet. Leider ist dies ein häufiger Irrglaube, da Websites IP-Adressen und Browser-Fingerabdrücke verwenden, um Personen zu identifizieren, die abgemeldet oder im privaten Browsermodus sind.

Wenn die Suchergebnisse in diesen Fällen eher anonym wären, dann würden wir erwarten, dass die Ergebnisse des privaten Browsermodus für jeden ähnlich sind. Das ist nicht das, was wir gesehen haben.

Um dies noch gründlicher zu testen, haben wir die organischen Ergebnisse, ohne Anzeigen und Infoboxen, und:

  1. Jeder Domain einen Buchstaben zugewiesen (z.B. A für nytimes.com, B für wsj.com, etc.).
  2. Eine Reihe von Buchstaben für die Ergebnisse jeder Person erstellt, z.B. ABDFJKMSL.
  3. Vergleicht man diese Zeichenketten, um zu sehen, wie ähnlich sie einander waren.

Um diesen Vergleich durchzuführen, haben wir Domainwechsel zwischen verschiedenen Suchergebnissen gezählt und die Unterschiede auf eine Zahl reduziert. Beispielsweise ist ABC -> ACB eine Änderung. (Technisch gesehen haben wir einen Buchstaben verwendet, um jede Domain innerhalb jedes Suchergebnisses darzustellen und die Damerau-Levenshtein-Entfernung berechnet.)

edit-distances

Wir haben festgestellt, dass beim zufälligen Vergleich der privaten Modi von Personen untereinander mehr als die doppelte Variation bestand, als beim Vergleich des privaten Modus von Personen mit ihrem normalen Modus:

Waffenkontrolle:

  • Durchschnitt des normalen und privaten Browsermodus (gleicher Benutzer): 1.03
  • Durchschnitt des privaten Browsermodus (zufälliger Benutzer): 2.89
  • Durchschnitt des privaten Browsermodus (fünf nächstgelegene Benutzer): 2,65

Einwanderung:

  • Durchschnitt des normalen und privaten Browsermodus (gleicher Benutzer): 1,38
  • Durchschnitt des privaten Browsermodus (zufälliger Benutzer): 3.28
  • Durchschnitt des privaten Browsermodus (fünf nächstgelegene Benutzer): 2,80

Impfungen:

  • Durchschnitt des normalen und privaten Browsermodus (gleicher Benutzer): 2.23
  • Durchschnitt des privaten Browsermodus (zufälliger Benutzer): 4.97
  • Durchschnitt des privaten Browsermodus (fünf nächstgelegene Benutzer): 4,25

edit-distances2

Wir hören oft von einer Verwechslung, dass der private Browsermodus Anonymität im Web ermöglicht, aber dieser Befund zeigt, dass Google die Suchergebnisse unabhängig vom Browsermodus anpasst. Man sollte die Menschen nicht in ein falsches Sicherheitsgefühl versetzen, dass sie im sogenannten „incognito“-Modus anonymisiert wären.

Studiendaten und -code

Die Daten stehen in zwei Teilen zum Download bereit: Grundlegende nicht identifizierbare Teilnehmerdaten und Rohdaten aus den Suchergebnissen.

  • duckduckgo-filter-bubble-study-2018_participants.xls enthält die Anweisungen, die wir an jeden Teilnehmer geschickt haben, sowie grundlegende anonymisierte Daten für jeden Teilnehmer.
  • duckduckgo-filter-bubble-study-2018_raw-search-results.xls enthält ein separates Blatt für Suchergebnisse pro Anfrage und pro Modus (privat und nicht privat). Die Ergebnisse werden so aufgelistet, wie sie auf dem Bildschirm für jeden Teilnehmer angezeigt werden, wobei sowohl organische Bereiche als auch Infoboxen wie Top Stories (Nachrichten), Videos usw. angezeigt werden.

Der Code, den wir zur Analyse der Daten geschrieben haben, ist Open Source und auf unserem GitHub-Repository verfügbar.

Deshalb: Suchmaschine wechseln! Jetzt!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.