Amazon verschärft Code-Kontrollen nach Millionen verlorener Bestellungen
ℹKeine Anlageberatung • Nur zu Informationszwecken
Amazon verstärkt seine internen Schutzmechanismen, nachdem es in jüngster Zeit zu Ausfällen im E-Commerce-Betrieb kam. Eine dieser Störungen wurde mit dem KI-Code-Assistenten Q des Unternehmens in Verbindung gebracht. Als Reaktion darauf führt Amazon strengere Kontrollen ein, die von den Ingenieuren eine gründlichere Dokumentation von Code-Änderungen und zusätzliche Genehmigungen erfordern.
Häufung von Systemausfällen bei Amazon
Seit dem dritten Quartal 2025 hat sich laut Dave Treadwell, Amazons SVP für E-Commerce-Dienste, ein "Trend von Vorfällen" abgezeichnet, darunter "mehrere größere" in den letzten Wochen. Dies geht aus einem internen Dokument hervor, das Business Insider vorliegt. Mindestens eine dieser Störungen war mit Amazons KI-Code-Assistenten Q verbunden, während andere tiefere Probleme aufdeckten.
Zu den Problemen gehörten sogenannte "High Blast Radius Changes", bei denen Software-Updates weitreichend verbreitet wurden, weil die Steuerungsebenen (Control Planes) keine geeigneten Schutzvorkehrungen besaßen. In anderen Fällen dauerte es Stunden, Datenkorruption rückgängig zu machen. Einige Fehler wurden auf grundlegende Mechanismen zurückgeführt, wie die Anforderung, dass zwei Personen Code-Änderungen autorisieren müssen, die entweder fehlten oder umgangen wurden.
KI-Assistent Q und weitere Ursachen für Störungen
Am 2. März sahen Kunden auf Amazon-Marktplätzen falsche Lieferzeiten, wenn sie Artikel in ihren Warenkorb legten. Dieser Vorfall führte zu fast 120.000 verlorenen Bestellungen und etwa 1,6 Millionen Website-Fehlern. Amazons KI-Tool Q war laut einer internen Überprüfung einer der Hauptverursacher dieses Ereignisses. Ein internes Dokument stellte fest: "Die Nutzung von GenAI in Control-Plane-Operationen wird die Exposition von Schwachstellen und Orten, an denen Schutzvorkehrungen fehlen, beschleunigen."
Am 5. März verursachte ein weiterer Ausfall einen Rückgang der Bestellungen um 99 % auf den nordamerikanischen Amazon-Marktplätzen, was zu 6,3 Millionen verlorenen Bestellungen führte. Ein Schlüsselfaktor war eine Produktionsänderung, die ohne einen formalen Dokumentations- und Genehmigungsprozess namens "Modeled Change Management" implementiert wurde. Das Dokument merkte an: "Keine automatisierte Validierung vor der Bereitstellung. Ein einzelner autorisierter Bediener konnte eine Konfigurationsänderung mit hoher Reichweite ohne Schutzvorkehrungen ausführen." Ein Amazon-Sprecher erklärte gegenüber Business Insider, dass nur ein am Dienstag überprüfter Vorfall KI-bezogen war und keiner davon KI-geschriebenen Code betraf. Die Financial Times berichtete zuvor, dass Amazons KI-Codierungstool Kiro im Dezember teilweise einen 13-stündigen AWS-Dienstausfall verursacht haben soll.
Amazon reagiert mit verschärften Kontrollen
Als Reaktion auf diese Vorfälle führt Amazon strengere Kontrollen ein. Ingenieure müssen Code-Änderungen gründlicher dokumentieren und zusätzliche Genehmigungen einholen. Gleichzeitig entwickelt das Unternehmen weitere Schutzvorkehrungen, die eine "kontrollierte Reibung" in den Überprüfungsprozess für Code-Änderungen einführen sollen.
Dave Treadwell schrieb in einem internen Dokument: "Wir implementieren temporäre Sicherheitspraktiken, die eine kontrollierte Reibung bei Änderungen in den wichtigsten Teilen des Einzelhandelserlebnisses einführen werden." Er fügte hinzu: "Parallel dazu werden wir in dauerhaftere Lösungen investieren, einschließlich sowohl deterministischer als auch agentischer Schutzvorkehrungen." Diese neuen Schutzmechanismen sollen KI-gesteuerte, "agentische" Tools mit vorhersehbareren, regelbasierten "deterministischen" Systemen kombinieren. Dies adressiert ein Kernproblem von KI-Modellen: Sie sind nicht deterministisch, was sie für Unternehmensabläufe, die 100 % Genauigkeit erfordern, ungeeignet machen kann.
Der 90-Tage-Sicherheits-Reset
Amazon führt nun eine 90-tägige, temporäre Sicherheitsrichtlinie ein, die als Ergänzung zu den bestehenden Richtlinien dienen soll. Diese neue Richtlinie zielt auf etwa 335 "Tier-1-Systeme" ab – Dienste, die direkte Auswirkungen auf Verbraucher haben, seit letztem Jahr mehrere bestellungsbeeinflussende Vorfälle erlebt haben und von VP-Level-Organisationen verantwortet werden.
Im Rahmen der neuen Richtlinie müssen Amazon-Ingenieure ihre Arbeit von zwei Personen überprüfen lassen, bevor sie Code-Änderungen vornehmen. Sie müssen auch ein internes Dokumentations- und Genehmigungstool sowie ein automatisiertes Codierungssystem verwenden, das sich strikt an Amazons zentrale Zuverlässigkeits-Engineering-Regeln hält. Amazon benachrichtigt zudem alle Eigentümer von Tier-1-Systemen sowie Führungskräfte auf Direktor- und VP-Ebene und weist sie an, alle Aktivitäten zur Änderung von Produktionscode in ihren Organisationen zu prüfen. Ein Amazon-Sprecher stellte klar, dass es nicht zutreffend sei, dass Junior- und Mid-Level-Ingenieure für alle KI-unterstützten Änderungen eine Genehmigung von Senior-Ingenieuren einholen müssen.