Reddit: Stundenlanger Ausfall, weil niemand mehr den Code kennt

23. März 2023, 13:29 |  1 Kommentar

Die Analyse eines schwerwiegenden Ausfalls bei Reddit zeigt, wie kritisch institutionelles Wissen sein kann.



Das Entwicklungsteam der Social-Media-Plattform Reddit hat eine ausführliche Analyse zu einem stundenlangen Ausfall des Dienstes am 14. März dieses Jahres veröffentlicht. Interessant daran ist vor allem, dass der mehrstündige Ausfall nicht nur technische Gründe hatte, sondern dass das Beheben erheblich durch fehlendes Wissen über die eigenen Dienste verzögert wurde.

Auslöser des Ausfalls war demnach ein Update von Kubernetes 1.23 auf Version 1.24, das einen trotz zahlreicher Tests nie zuvor gesehenen Fehler auslöste. Erst nach Stunden entschied sich das Team schließlich dazu, ein Zurückrollen der Version und Einspielen eines Back-ups umzusetzen, um den Ausfall zu beheben. Dabei ging zwar auch einiges schief, letztlich funktionierte es aber. Die eigentliche Ursache für den Ausfall war damit allerdings noch nicht gefunden.

Mehr dazu findest Du auf golem.de





Kurze URL:


Bewertung: 3.0/5 (8 Stimmen)


Das könnte Dich auch interessieren:


Ähnliche News:

Weitere News:

Einen Kommentar schreiben

Du willst nicht als "Gast" schreiben? Logg Dich Hier ein.

Code:

Code neuladen

Kommentare
(1)

Bitte bleibe sachlich und fair in deinen Äußerungen. Sollte dein Kommentar nicht sofort erscheinen, ist er in der Warteschlange gelandet und wird meist zeitnah freigeschaltet.




Kommentare:

Du hast bereits für diesen Kommentar abgestimmt...

;-)

Top