...::: C&M News by Ress - Druckansicht :::...

Drucken (Bereits 27 mal)


Reddit: Stundenlanger Ausfall, weil niemand mehr den Code kennt

(23. März 2023/13:29)
Die Analyse eines schwerwiegenden Ausfalls bei Reddit zeigt, wie kritisch institutionelles Wissen sein kann.



Das Entwicklungsteam der Social-Media-Plattform Reddit hat eine ausführliche Analyse zu einem stundenlangen Ausfall des Dienstes am 14. März dieses Jahres veröffentlicht. Interessant daran ist vor allem, dass der mehrstündige Ausfall nicht nur technische Gründe hatte, sondern dass das Beheben erheblich durch fehlendes Wissen über die eigenen Dienste verzögert wurde.

Auslöser des Ausfalls war demnach ein Update von Kubernetes 1.23 auf Version 1.24, das einen trotz zahlreicher Tests nie zuvor gesehenen Fehler auslöste. Erst nach Stunden entschied sich das Team schließlich dazu, ein Zurückrollen der Version und Einspielen eines Back-ups umzusetzen, um den Ausfall zu beheben. Dabei ging zwar auch einiges schief, letztlich funktionierte es aber. Die eigentliche Ursache für den Ausfall war damit allerdings noch nicht gefunden.


Mehr dazu findet ihr auf golem.de


https://ress.at/reddit-stundenlanger-ausfall-weil-niemand-mehr-den-code-kennt-news23032023132901.html
© by RessServerWorks, 2024