KI-Modelle scheitern im Wettmarkt: Hype vs. Realität der autonomen KI (2026)

Obwohl Frontier-KI-Modelle leistungsfähiger denn je sind, deuten neue Forschungsergebnisse darauf hin, dass der Hype um autonome KI die Realität übertreffen könnte. Eine aktuelle Studie zeigt, dass selbst führende Modelle in einem simulierten Sportwettenmarkt erhebliche Verluste verzeichneten, was wichtige Fragen über die tatsächlichen Fähigkeiten und die Geschwindigkeit der KI-Entwicklung aufwirft.

KI-Modelle scheitern im Wettmarkt-Test

Die KI-Forschungsfirma General Reasoning hat diese Woche KellyBench veröffentlicht, einen Langzeit-Test, der KI-Agenten in einen simulierten Wettmarkt der englischen Premier League platziert. Ziel war es, über eine ganze Saison hinweg ein Kapital aufzubauen. Die Ergebnisse waren ernüchternd:

Jedes getestete Modell verlor Geld.
Claude schnitt am besten ab, beendete den Test jedoch immer noch mit einem Verlust von 11 %.
Grok 4.20, das Modell von Elons Unternehmen xAI, schnitt am schlechtesten ab und verbrannte fast 90 % seines Kapitals. xAI hat Berichten zufolge mit starkem Führungswechsel und Skalierungsproblemen zu kämpfen, um zu den führenden Modellen aufzuschließen.

Die Modelle wurden anhand einer 44-Punkte-Rubrik bewertet, die mit quantitativen Wett-Experten entwickelt wurde. Kein Modell erreichte mehr als ein Drittel der verfügbaren Punkte. Die Forscher stellten fest: „Modelle haben Schwierigkeiten, über lange Zeithorizonte kohärent zu agieren, oft versäumen sie es, ihre Analyse umzusetzen oder sich an Veränderungen in der Welt anzupassen.“

Die Lücke zwischen Hype und Realität

Die Diskrepanz zwischen Hype und Realität beeinflusst bereits die Märkte. Allein im ersten Quartal 2026 wurden fast 80.000 Tech-Mitarbeiter entlassen, wobei fast die Hälfte dieser Kürzungen der KI zugeschrieben wurde. Das sogenannte Citrini-Szenario geht davon aus, dass KI-Agenten schnell Angestellte im White-Collar-Bereich verdrängen und eine Kredit- und Deflationsspirale auslösen werden.

KellyBench könnte dieser These eine Denkpause verschaffen. Wenn Frontier-Modelle noch nicht einmal einen Fußball-Wettmarkt schlagen können, könnte der Zeitrahmen für die Art autonomer Finanzentscheidungen, die das Citrini-Szenario erfordert, länger sein, als viele annehmen. Auf Kalshi bewerten Händler das Citrini-Szenario derzeit mit etwa 23 %, ein Markt, der über 25 Millionen US-Dollar Volumen angezogen hat. Ein Polymarket-Kontrakt, ob die KI-Blase bis zum 31. Dezember 2026 platzt, liegt derzeit bei 20 %, mit 2,5 Millionen US-Dollar gehandelt. Sollte der Fortschritt der Modelle stagnieren, könnte diese Zahl unterbewertet erscheinen.

Auswirkungen auf den Tech-Sektor und Anleger

KellyBench wird die Aktienkurse heute nicht direkt bewegen. Als Datenpunkt zu den Grenzen der aktuellen KI-Fähigkeiten verschiebt es jedoch die Wahrscheinlichkeit weg vom "Citrini Bull Case" einer schnellen KI-Disruption und hin zu einem Szenario der langsameren Entwicklung.

Dies könnte für Anleger und Unternehmen im Tech-Sektor, wie beispielsweise NVIDIA (NVDA), langfristige Implikationen haben. Es dämpft die Erwartungen an die Geschwindigkeit, mit der KI die Wirtschaft umwälzen wird, und deutet auf einen graduelleren Übergang hin, als es der aktuelle Hype oft suggeriert.

KI-Modelle scheitern im Wettmarkt: Hype vs. Realität der autonomen KI

KI-Modelle scheitern im Wettmarkt-Test

Die Lücke zwischen Hype und Realität

Auswirkungen auf den Tech-Sektor und Anleger

Erwähnte Persönlichkeiten

Elon Musk

Rechtlicher Hinweis

Affiliate-Hinweis