Der Preis den man für KI zahlen muss ist die Plünderung aller Inhalte im Internet

133
Der Preis den man für KI zahlen muss ist die Plünderung aller Inhalte im Internet

Midjourney und ChatGPT wirken wie Magie. Sie erschaffen digitale Kunstwerke und Texte auf beeindruckende Weise, und obwohl sie manchmal Fehler machen, sind ihre Ergebnisse oft überzeugend und beeindruckend. Ein Foto sieht aus, als würde der Papst einen Balenciaga-Mantel tragen und wirkt dennoch authentisch, und der Python-Code ist funktionsfähig. Sie erscheinen magisch.

Doch weder diese generativen KI-Modelle noch ihre Wettbewerber sind Magie. Sie sind stochastische Papageien, die statistische Muster nutzen. Sie verstehen nicht wirklich, was sie kreieren oder generieren. Und alles, was sie tun, basiert auf etwas noch Grundlegenderem: dem Stehlen.

Wenn es im Internet ist, kann ich es für meine KI verwenden

Von Beginn an war dies die Praxis. Große KI-Firmen brauchen enorme Datenmengen, um ihre Modelle zu schulen, also haben sie diese einfach aus dem Internet extrahiert. Ohne Ankündigung, ohne Erlaubnis und ohne später zu offenbaren, welche Daten genutzt wurden.

Kein KI-Unternehmen legt offen dar, wie es seine Modelle trainiert hat. Wir wissen nicht genau, welche Informationen sie bezogen haben. Welche Bücher, Webseiten oder Bilder wurden in die Trainings einbezogen? Die Transparenz ist nahezu nicht vorhanden.

Keines der Unternehmen gibt eine vollständige Aufklärung, und sie alle berufen sich auf das Konzept der “Fair Use”-Regelung. Dieses im Common Law verankerte Konzept erlaubt die begrenzte Nutzung urheberrechtlich geschützten Materials ohne vorherige Genehmigung.

Diese massive und unstillbare Datensammlung hat viele KI-Firmen in juristische Probleme gebracht. Klagen wegen mutmaßlicher Verletzungen des Urheberrechts kamen früh und nehmen an Häufigkeit zu.

Angesichts dieser Anforderungen haben KI-Unternehmen begonnen, Vereinbarungen mit Inhaltsanbietern zu treffen. Früher nutzten sie, was immer sie von Plattformen wie Reddit bekommen konnten, aber nun haben Unternehmen wie Google und OpenAI ihre Differenzen beigelegt, nachdem sie verschiedene Arten von Gegenleistungen ausgehandelt hatten. Was mit Reddit geschehen ist, widerfuhr auch Verlagsgruppen wie Prisa oder Le Monde und wird sich in der Zukunft wiederholen: Auf diese Weise sichern sich die großen KI-Unternehmen ab und können ihre Modelle kontinuierlich weiterentwickeln.

Ratlosigkeit und die glasfüllenden Tropfen

Es gibt weitere widersprüchliche Verhaltensweisen. Ein perfektes Beispiel ist Perplexity, das sich langsam zu einer überraschenden Alternative zu Google und sogar Wikipedia entwickelt hat. Wir stehen hier nicht vor einer Suchmaschine, sondern vor einer “Antwortmaschine”, wie The Verge hervorhebt. Das Problematische ist die Art und Weise, wie sie funktioniert. Es handelt sich um nichts Geringeres als Diebstahl. Dieses Startup hat in einem noch größeren Ausmaß als seine Konkurrenten gehandelt, indem es unerhörte Dinge tut, wie zum Beispiel das Plagiieren ganzer Artikel aus anderen Medien, wie es bei einem Thema von Wired der Fall war.

Zweitens umgeht es die Paywalls von Publikationen wie Forbes, um Informationen zu bestimmten Themen zu sammeln. Nicht nur überwindet es diese Bezahlschranken, sondern es zitiert auch selten die ursprüngliche Forschung von Forbes und kopiert die Grafiken und Bilder zu diesem Thema.

Die Entdeckung führte zu einer neuen Kontroverse in diesem Bereich. Wired warf Perplexity direkt vor, eine Maschine für Unsinn zu sein, doch das Unternehmen wich aus, indem es andeutete, dass es Gespräche darüber gibt, wie Einnahmen mit den Publikationen geteilt werden könnten.

Dieses Unternehmen für künstliche Intelligenz ist nicht das einzige, das solche Barrieren überwindet: Kürzlich wurde bekannt, dass auch Poe, der Chatbot der Frage- und Antwortplattform Quora, dies tut. Während einige Experten argumentieren, dass dies eine klare Urheberrechtsverletzung ist, behauptet Quora, dass dies nicht zutrifft und dass sie sich auf Dienste zum späteren Lesen stützen, die gesetzeskonform sind.

Dann gab es die dritte und letzte Enthüllung durch einen Entwickler namens Robb Knight. Wie er in seinem Blog darlegte, missachtete Perplexity die Richtlinien für robots.txt-Dateien, die Internet-Crawlern genau vorschreiben, welche Seiten zu crawlen sind und welche nicht.

Zum Beispiel haben diese kleinen Dateien stets dazu beigetragen, Google davon abzuhalten, bestimmte Bereiche einer Website in seinen Suchergebnissen anzuzeigen. Die Entwickler von Perplexity jedoch ignorierten dies und sammelten alles.

Srinivas machte deutlich: Nicht sie waren es, die die Grenzen überschritten, sondern die Firmen, die sie beauftragt hatten, das Internet zu durchforsten und immer mehr Daten für ihr KI-Modell zu sammeln. Perplexity ist dabei nicht allein; auch OpenAI und Anthropic umgehen und ignorieren robots.txt-Dateien.

Diese Praxis führte dazu, dass sich Reddit gegen Scraper wehrte, ein Konflikt, der schon länger schwelte. Die New York Times verklagte beispielsweise Microsoft und OpenAI, um zu verhindern, dass ein Chatbot den Journalismus untergräbt. Im April 2024 warnte die Zeitung in einem Bericht, dass die Gier von Unternehmen wie OpenAI, Google oder Meta beim Training ihrer Modelle angeblich zu weit gehe.

Doch das ist nicht das Ende der Geschichte.

Microsofts KI-Chef Mustafa Suleyman verteidigte kürzlich in einem CNBC-Interview die wahllose Datensammlung im Internet: “Ich denke, in Bezug auf Inhalte, die bereits im offenen Web sind, ist der Gesellschaftsvertrag für diese Inhalte seit den 90er Jahren, dass es sich um Fair Use handelt. Jeder kann es kopieren, neu erstellen, reproduzieren. Das war die “Freeware”, wenn man so will, das war das Verständnis”.

Diese Behauptung ist beunruhigend, insbesondere weil sie genau die Annahme trifft, die alle großen Internetfirmen zu machen scheinen: dass alles, was wir im Internet posten, für ihre Verwendung bestimmt ist und sie damit tun können, was immer sie möchten.

Und genau das tun sie.

Bild: Freepik


Sie möchten immer die neuesten Nachrichten?
Abonnieren Sie unseren Newsletter