KI-Giganten saugen Webdaten ab: Das Ende des digitalen Gebens und Nehmens? (2026)

Die rasante Entwicklung künstlicher Intelligenz (KI) stellt das Fundament des Internets auf die Probe. Während KI-Giganten wie Anthropic und OpenAI enorme Mengen an Daten für das Training ihrer Modelle benötigen, gerät das traditionelle Geben und Nehmen im Web zunehmend aus dem Gleichgewicht. Aktuelle Daten von Cloudflare werfen ein Schlaglicht auf diese Entwicklung und zeigen, wie der Wertfluss vom Web zu den KI-Unternehmen einseitiger wird.

KI-Giganten und das Web: Ein Ungleichgewicht der Werte

Seit jeher basierte das Internet auf einem ungeschriebenen "Grand Bargain": Website-Betreiber stellten ihre Inhalte kostenlos zur Verfügung, im Gegenzug erhielten sie Traffic und konnten diesen über Werbung, Abonnements oder andere Wege monetarisieren. Mit dem Aufkommen generativer KI-Modelle und KI-Antwort-Engines bricht dieser Deal jedoch zunehmend zusammen. Nutzer erhalten direkte Antworten von Chatbots, was die Notwendigkeit, die ursprünglichen Quellen zu besuchen, verringert.

Cloudflare, ein Unternehmen, das etwa 20 % der weltweiten Websites unterstützt, begann 2025 damit, das Verhalten von Bots großer Technologieunternehmen zu verfolgen. Gemessen wird dabei das Verhältnis von Crawling-Anfragen zu den tatsächlich an Websites gesendeten Verweisen (Referrals). Ein Verhältnis von beispielsweise 100 zu 1 bedeutet, dass die Bots eines Unternehmens eine Website 100 Mal gecrawlt haben, aber nur einen einzigen Verweis zurückgesendet haben. Diese Kennzahl dient als Indikator dafür, wie viel Wert von den Technologieunternehmen aus dem Web entnommen und wie viel zurückgegeben wird.

Cloudflare-Daten enthüllen besorgniserregende Trends

Die Daten der ersten Januarwoche zeigen ein klares Bild: Anthropic sticht mit einem besonders hohen Crawl-to-Refer-Verhältnis hervor. Im Vergleich zur ersten Septemberwoche 2025 hat Anthropic seine Crawling-Aktivitäten sogar noch verstärkt. Auch bei OpenAI hat sich das Verhältnis verschlechtert, was darauf hindeutet, dass das Unternehmen ebenfalls mehr Wert aus dem Web zieht und weniger zurückgibt.

Auf Anfrage von Business Insider reagierte Anthropic nicht auf eine E-Mail zur Stellungnahme. Im September 2025 hatte Anthropic die von Cloudflare berechneten Verhältnisse nicht bestätigen können und methodische "Probleme" angedeutet. Damals verwies das Unternehmen auch auf die Einführung einer Websuchfunktion für seinen Claude AI-Chatbot, die zunehmend Referral-Traffic generiere. OpenAI antwortete ebenfalls nicht auf eine Anfrage.

Googles vergleichsweise niedriges Verhältnis ist wahrscheinlich auf seine traditionelle Suchmaschine zurückzuführen, die weiterhin klare Website-Links in vielen Ergebnissen anzeigt. Allerdings integriert Google zunehmend KI-Chatbot-ähnliche Antworten in seinen Suchdienst, etwa über "AI Overviews" und den "AI mode". Google betont, weiterhin Traffic an das Web zu senden und sich um die Gesundheit dieses Ökosystems zu kümmern.

Die Kosten des kostenlosen Crawlings

Das Ungleichgewicht hat direkte finanzielle Auswirkungen auf Website-Betreiber. Berichte von Business Insider aus Ende 2024 zeigten, dass Bots von Anthropic und OpenAI einige Websites so intensiv crawlen, dass deren Traffic-Kosten dramatisch ansteigen. Ein Webentwickler berichtete, dass die Cloud-Computing-Kosten eines Kunden innerhalb weniger Monate aufgrund dieses KI-Bot-Schwarms auf das Doppelte gestiegen seien. Dies bedeutet, dass KI-Unternehmen nicht nur Wert entnehmen und weniger zurückgeben, sondern einige Website-Betreiber auch mit höheren Rechnungen belasten.

Google schlägt zurück: Klage gegen SerpApi

Die Debatte um Datenzugang und KI-Training hat auch rechtliche Konsequenzen. Google reichte am 19. Dezember 2025 eine Klage gegen SerpApi ein, ein in Texas ansässiges Web-Scraping-Unternehmen. Die Klage, eingereicht beim U.S. District Court for the Northern District of California, wirft SerpApi vor, systematisch Googles Suchergebnisse zu extrahieren und weiterzuverkaufen. Google bezeichnet dies als "rechtswidriges Scraping", das im letzten Jahr "dramatisch zugenommen" habe.

Die Beschwerde alleges, dass SerpApi den Digital Millennium Copyright Act (DMCA) verletzt habe, indem es Googles technologische Schutzmaßnahmen umging, um urheberrechtlich geschützte Inhalte von Suchergebnisseiten zu sammeln und diese Daten gewinnbringend an Dritte zu verkaufen. Laut Google setzte SerpApi ausgeklügelte Methoden ein, um die Erkennung zu umgehen, darunter die Verschleierung ihrer Identität, der Einsatz massiver Bot-Netzwerke und das ständige Ändern von Crawler-Namen. Halimah DeLaine Prado, Googles General Counsel, erklärte: "Wenn unsere technischen Sicherheitsvorkehrungen auf so dreiste Weise umgangen werden, ergreifen wir als letztes Mittel rechtliche Schritte, um dieses Verhalten zu unterbinden."

SerpApis Geschäftsmodell basiert auf der Bereitstellung einer inoffiziellen API für Google-Suchergebnisse, einen Dienst, den Google selbst nicht öffentlich anbietet. Das Unternehmen ermöglicht Entwicklern und Unternehmen den Zugriff auf strukturierte SERP-Daten (Search Engine Results Page), ohne direkt mit Googles Systemen zu interagieren, und berechnet Gebühren für diese im Wesentlichen neu verpackten, gescrapten Informationen. Berichten zufolge verarbeitet SerpApi täglich "Hunderte Millionen automatisierter Anfragen" an Google, die so maskiert werden, dass sie von legitimen menschlichen Nutzern zu stammen scheinen.

Verlage wehren sich: Neue Strategien für Inhalte

Während die Technologiegiganten um Daten ringen, passen sich Verlage an die neue Realität an. Der Financial Times (FT) war 2024 der erste britische Verlag, der eine Lizenzvereinbarung mit OpenAI traf. Matt Rogerson, Director of Global Public Policy and Platform Strategy bei der FT, sieht 2026 als eine Art Neuanfang, da große Tech-Unternehmen ihre Haltung zur KI-Lizenzierung ändern, um zukünftige rechtliche Risiken zu vermeiden. Er glaubt, dass sich das "Netz um das KI-Scraping zuzieht".

Verlage haben in den letzten zwei Jahren versucht, "alle Schlupflöcher oder vermeintlichen Schlupflöcher in ihren Website-Sicherheiten zu schließen", so Rogerson. Er sieht positive Entwicklungen bei B2B-Lizenzierungen: "Man sieht eine zunehmende Anzahl von Institutionen und [Unternehmens-]Firmen, die KI-Zusammenfassungs-Lizenzen erwerben." Diese Unternehmen wissen, dass die Inhalte in KI-Modellen von hoher Qualität, genau und von vertrauenswürdigen Marken stammen müssen, um für ihre Geschäfte wertvoll zu sein.

Das sogenannte "Enterprise AI RAG Licensing" (Retrieval-Augmented Generation) mit Verlagen ist noch ein relativ unerschlossener Markt. Verlage wie die FT, The Economist und Associated Press haben bereits über APIs Zugang zu ihren Inhalten für Unternehmenskunden mit privaten LLMs (Large Language Models) ermöglicht. Obwohl die Einnahmen daraus noch gering sind, sehen diese Publikationen die steigende Nachfrage aus dem Enterprise-RAG-Sektor als eine potenzielle wiederkehrende Einnahmequelle für die Zukunft. Unternehmen suchen zunehmend nach vertrauenswürdigen, rechenschaftspflichtigen Inhalten, die sie sicher nutzen und wiederverwenden können, ohne Daten außerhalb ihrer eigenen privaten LLMs zu teilen.

Ausblick: Eine Neudefinition der digitalen Wertschöpfung

Die Entwicklungen zeigen einen klaren Trend: Der freie Zugang zu Webdaten für KI-Training wird zunehmend hinterfragt und reguliert. Während Cloudflare die Transparenz über die Datennutzung erhöht, Google rechtliche Schritte einleitet und Verlage neue Lizenzierungsmodelle entwickeln, zeichnet sich eine Neudefinition der digitalen Wertschöpfung ab. Das Konzept einer "Bring-your-own-license"-Plattform, bei der Modelle nach ihren inhärenten Fähigkeiten und nicht nach der Menge der "gestohlenen" Daten beurteilt werden, könnte die Zukunft prägen. Es bleibt abzuwarten, wie sich dieses komplexe Zusammenspiel von Technologie, Recht und Wirtschaft in den kommenden Monaten und Quartalen weiterentwickeln wird.

KI-Giganten saugen Webdaten ab: Das Ende des digitalen Gebens und Nehmens?