Nvidia Groq 3 LPX: KI-Inferenz wird zum nächsten Schlachtfeld

Nvidia Groq 3 LPX: KI-Inferenz wird zum nächsten Schlachtfeld

Aktualisiert:
4 Min. Lesezeit
AI-Generated
Human-verified
Teilen:

Keine Anlageberatung • Nur zu Informationszwecken

Nvidia hat auf der GTC 2026 ein neues Inferenzsystem vorgestellt, den Nvidia Groq 3 LPX. Dieser integriert Technologie des Startups Groq und soll die Inferenz-Workloads um das bis zu 35-fache beschleunigen. Der Schritt unterstreicht Nvidias Ambition, seine Dominanz im sich schnell entwickelnden KI-Markt zu verteidigen, insbesondere im Bereich der KI-Inferenz.

Nvidia setzt auf Inferenz: Ein neuer Chip für die KI-Zukunft

Nvidia-CEO Jensen Huang enthüllte auf der jährlichen GTC-Konferenz am Montag, den 18. März 2026, in San Jose, Kalifornien, das neue Inferenzsystem. Dies ist Nvidias bisher entschlossenster Schritt, um seine Führungsposition zu sichern, da Inferenz zum nächsten Schlachtfeld der Künstlichen Intelligenz wird. Huang prognostiziert eine massive Nachfrage und erwartet bis 2027 mindestens 1 Billion US-Dollar Umsatz mit seinen Blackwell- und Rubin-KI-Systemen, ein Anstieg von rund 500 Milliarden US-Dollar bis 2026. "Der Wendepunkt der Inferenz ist erreicht", so Huang in seiner Keynote.

Die Groq-Integration: Ein strategischer Schachzug

Das Herzstück des neuen Systems ist der Nvidia Groq 3 LPX, der Technologie des KI-Chip-Startups Groq mit Nvidias Vera Rubin Architektur kombiniert. Diese Entwicklung basiert auf einem rund 20 Milliarden US-Dollar schweren Deal, den Nvidia am Weihnachtstag 2025 mit Groq abschloss. Der Deal umfasste die Lizenzierung von Groqs Technologie und die Einstellung führender Ingenieure, darunter Jonathan Ross, Groqs ehemaliger CEO, der nun als Chief Software Architect bei Nvidia tätig ist. Ross war zuvor an der Entwicklung von Googles Tensor Processing Units (TPUs) beteiligt und betonte in einem Podcast: "GPUs sind wirklich großartig beim Trainieren von Modellen. Wenn jemand ein Modell trainieren möchte, sage ich einfach: 'Benutzt einfach GPUs. Sprecht nicht mit uns.'"

Technologische Details und Leistungsversprechen

Der neue Groq-Chip wird von Samsung hergestellt und soll in der zweiten Hälfte des Jahres 2026 ausgeliefert werden. Der Nvidia Groq 3 LPX soll Inferenz-Workloads um das bis zu 35-fache beschleunigen. Er wird als Teil der Vera Rubin Plattform eingeführt, die als vielbeachteter Nachfolger der Grace Blackwell Plattform gilt.

Im Gegensatz zu den meisten KI-Beschleunigern, die auf HBM (High Bandwidth Memory) als Arbeitsspeicher setzen, integriert jeder Groq 3 LPU (Language Processing Unit) 500 MB SRAM. Dieser SRAM bietet eine Bandbreite von 150 TB/s, was für bandbreitenintensive KI-Dekodierungsoperationen vorteilhaft ist. Ein Groq 3 LPX Rack wird 256 Groq 3 LPUs umfassen und 128 GB SRAM mit 40 PB/s Bandbreite für die Inferenzbeschleunigung bereitstellen. Ian Buck, Nvidias Vice President of Hyperscale and High-Performance Computing, erklärte, dass der Groq 3 LPU die Dekodierungsleistung auf "jeder Ebene des KI-Modells bei jedem Token" steigern soll.

Der wachsende Inferenz-Markt und die Konkurrenz

Während Nvidias Graphics Processing Units (GPUs) weiterhin den KI-Bereich dominieren und sowohl für das Training als auch für die Inferenz von KI-Modellen eingesetzt werden können, wächst die Konkurrenz. Eine zunehmende Anzahl von Wettbewerbern, darunter Hyperscaler wie Amazon und Google sowie Chip-Startups wie AMD und Cerebras, entwickeln spezialisierte Systeme. Diese Systeme sind oft günstiger und effizienter für die repetitiven und kostensensiblen Inferenz-Aufgaben. OpenAI hat beispielsweise Alternativen zu Nvidias Hardware evaluiert und im Januar einen gemeldeten 10 Milliarden US-Dollar schweren Compute-Deal mit dem Inferenz-Chip-Startup Cerebras abgeschlossen, nachdem Reuters zuvor über eine Unzufriedenheit mit Nvidias Inferenz-Chips berichtet hatte.

Ausblick: Die Ära der KI-Agenten

Der Aufstieg von KI-Agenten, also Tools, die Aufgaben im Auftrag von Menschen ausführen, könnte die Inferenz-Nachfrage dramatisch erhöhen. Nvidia positioniert die Kombination aus Rubin GPUs und Groq LPUs, um die Anforderungen dieser Multi-Agenten-Systeme zu erfüllen. Ziel ist es, die Token-Generierungsrate von etwa 100 Tokens pro Sekunde für menschliche Interaktion auf 1500 TPS oder mehr für die Kommunikation zwischen KI-Agenten zu steigern. Ian Buck fasst zusammen: "Die Vera Rubin Plattform wird die gesamte Umsatzchance der KI-Fabriken erweitern und die nächste Grenze der agentischen KI eröffnen, mit sieben neuen Chips, die jetzt in voller Produktion sind, um in den größten KI-Fabriken der Welt zu skalieren."

Erwähnte Persönlichkeiten