
DeepSeek: Chinas KI-Durchbruch revolutioniert Modell-Skalierung und Effizienz
ℹKeine Anlageberatung • Nur zu Informationszwecken
Das chinesische KI-Startup DeepSeek hat eine neue Trainingsmethode für Künstliche Intelligenz veröffentlicht, die das Potenzial hat, die Skalierung von Modellen zu revolutionieren und die "Evolution grundlegender Modelle" maßgeblich zu beeinflussen. Diese Innovation könnte die Effizienz und Stabilität von Large Language Models (LLMs) erheblich verbessern und damit weitreichende Auswirkungen auf die gesamte Branche haben.
DeepSeek stellt "Manifold-Constrained Hyper-Connections" vor
DeepSeek, ein aufstrebendes chinesisches KI-Unternehmen, hat Anfang 2026 eine Forschungspublikation vorgestellt, die eine neuartige Methode zum Training von Large Language Models (LLMs) beschreibt. Die von DeepSeek als "Manifold-Constrained Hyper-Connections" (mHC) bezeichnete Methode wurde von Gründer Liang Wenfeng mitverfasst und zielt darauf ab, Modelle zu skalieren, ohne dass diese instabil werden oder zusammenbrechen.
Bisher versuchen Forscher oft, die Leistung von Sprachmodellen durch eine stärkere interne Informationsweitergabe zu verbessern, wenn diese wachsen. Dies erhöht jedoch das Risiko einer Instabilität der Informationen. Der mHC-Ansatz ermöglicht es Modellen, eine reichere interne Kommunikation auf eine eingeschränkte Weise zu teilen, wodurch die Trainingsstabilität und die Recheneffizienz auch bei zunehmender Modellgröße erhalten bleiben.
Ein "schlagkräftiger Durchbruch" für die KI-Skalierung
Branchenanalysten bewerten DeepSeeks neue Methode als signifikanten Fortschritt. Wei Sun, Principal Analyst für KI bei Counterpoint Research, bezeichnete den Ansatz als einen "schlagkräftigen Durchbruch". Sie hob hervor, dass DeepSeek verschiedene Techniken kombiniert habe, um die zusätzlichen Trainingskosten zu minimieren, und dass selbst ein geringer Kostenanstieg zu einer deutlich höheren Leistung führen könnte.
Sun interpretierte das Papier auch als ein Statement über DeepSeeks interne Fähigkeiten. Durch die Neugestaltung des gesamten Trainings-Stacks signalisiere das Unternehmen seine Fähigkeit, "schnelle Experimente mit höchst unkonventionellen Forschungsideen" zu verbinden. Dies könnte DeepSeek, so Sun, "erneut ermöglichen, Rechenengpässe zu umgehen und Sprünge in der Intelligenz freizusetzen", ähnlich wie beim "Sputnik-Moment" im Januar 2025 mit dem R1-Modell.
Lian Jye Su, Chief Analyst bei Omdia, einem Technologieforschungs- und Beratungsunternehmen, erwartet einen Welleneffekt in der gesamten Branche. Er prognostiziert, dass konkurrierende KI-Labore eigene Versionen dieses Ansatzes entwickeln werden. Su bemerkte, dass die Bereitschaft, wichtige Erkenntnisse mit der Branche zu teilen, während gleichzeitig einzigartiger Wert durch neue Modelle geliefert wird, ein "neues Vertrauen in die chinesische KI-Industrie" zeige. Offenheit werde als "strategischer Vorteil und wichtiges Unterscheidungsmerkmal" angenommen.
DeepSeeks Aufstieg und der globale KI-Wettlauf
DeepSeek hat sich bereits im Januar 2025 als ernstzunehmender Akteur im globalen KI-Wettbewerb positioniert. Damals stellte das Unternehmen sein R1 Reasoning Model vor, das die Tech-Industrie und den US-Aktienmarkt erschütterte. Das R1-Modell konnte mit Top-Konkurrenten wie ChatGPTs o1 mithalten, jedoch zu einem Bruchteil der Kosten.
Das Unternehmen, das von High-Flyer Quant, einem großen quantitativen Hedgefonds in China, unterstützt wird, profitierte von dessen Zugang zu über 10.000 GPUs, die für das KI-Modelltraining entscheidend sind. DeepSeeks innovativem Ansatz gelang es durch algorithmische Optimierungen, die Effizienz von Nvidia-GPUs erheblich zu steigern und somit Trainings- und Kostenschranken zu senken. Die Veröffentlichung dieser fortschrittlichen Modelle als Open Source, gepaart mit Leistungs-Parität und Null-Preisen, bot chinesischen Technologieunternehmen ein klares Beispiel für Innovationspotenzial trotz Hardware-Einschränkungen.
Dieser Wandel markierte 2025 den Beginn des "Verdampfens des Intelligenzgrabens". Die vorherrschende Meinung, dass KI auf Frontier-Niveau Milliarden von Dollar an Rechenleistung und proprietäre Architekturen erfordert, wurde durch chinesische Reasoning-Modelle wie DeepSeeks R1 widerlegt. Diese Modelle haben bewiesen, dass sie in spezifischen Bereichen wie Mathematik und Softwareentwicklung die Leistung von Modellen, die zehnmal größer sind, erreichen oder übertreffen können, und das zu einem Bruchteil der Kosten.
Ausblick: Das nächste Modell am Horizont?
Die Veröffentlichung der mHC-Forschung fällt in eine Zeit, in der DeepSeek Berichten zufolge an der Veröffentlichung seines nächsten Flaggschiffmodells R2 arbeitet. R2, das ursprünglich Mitte 2025 erwartet wurde, wurde nach Liang Wenfengs Unzufriedenheit mit der Modellleistung und aufgrund von Engpässen bei fortschrittlichen KI-Chips verschoben.
Obwohl das aktuelle Papier R2 nicht direkt erwähnt, hat der Zeitpunkt der Veröffentlichung Spekulationen ausgelöst. DeepSeek hatte bereits vor der Einführung seines R1-Modells grundlegende Trainingsforschung veröffentlicht. Lian Jye Su ist optimistisch und meint, DeepSeeks Erfolgsbilanz deute darauf hin, dass die neue Architektur "definitiv in ihrem neuen Modell implementiert werden wird".
Wei Sun hingegen ist vorsichtiger. Sie geht davon aus, dass es "höchstwahrscheinlich kein eigenständiges R2 geben wird". Da DeepSeek bereits frühere R1-Updates in sein V3-Modell integriert hat, könnte die neue Technik das Rückgrat von DeepSeeks V4-Modell bilden. Alistair Barr von Business Insider argumentierte im Juni, dass DeepSeeks Updates für sein R1-Modell in der Tech-Branche wenig Anklang gefunden hätten, da DeepSeek im Vergleich zu führenden KI-Laboren wie OpenAI und Google noch immer die breite Reichweite, insbesondere in westlichen Märkten, fehle.