Amazon analysiert Cloud-Ausfall
15. August 2011, 23:11
| 0 KommentareAmazon hat den Ausfall seines Cloud-Service AWS, der vor einer Woche passiert ist,
analysiert. Demnach war eine Verkettung mehrerer Umstände für den Zwischenfall verantwortlich. Den Anfang machte ein Stromausfall. Bisher wurde angenommen, dass dieser von einem Blitzschlag verursacht wurde, was der Stromanbieter nach Untersuchungen aber vereint. Die wahre Ursache wird weiterhin gesucht.
Eigentlich hätte nach dem Stromausfall das Rechenzentrum durch Notstromaggregate versorgt werden sollen. Bevor diese jedoch anspringen, müssen die Phasen mit den Systemen synchronisiert werden. Das dafür zuständige Teil, ein Programmable Logic Controller (PLC), funktionierte nicht richtig, wodurch nur ein Teil der Notstromaggregate aktiviert wurden.
Dadurch konnten nicht alle Systeme versorgt werden. So fielen 58 Prozent der EC2-Instanzen und EB-Volumen aus. Auch das EC2-Netzwerk war lahm gelegt, welches für die Anbindung der Server an das Internet zuständig ist. Die Lage verschärfte sich zusätzlich, da die Management -Server weiterhin Anfragen für die Cloud-Server entgegennahmen, obwohl diese aufgrund des Stromausfalls nicht verarbeitet werden konnten. Der Datenstau konnte erst nach einer Stunde aufgelöst werden, als Amazon die Anfragen für die ausgefallenen Systeme manuell deaktivierte. Erst drei Stunden nach dem Stromausfall normalisierte sich die Lage und die meisten Systeme konnten wieder mit Strom versorgt werden.
Ein Hardware-Ausfall, unabhängig von dem Stromausfall, soll auch für Probleme mit den Backups gesorgt haben. Amazon kann deshalb nicht ausschließen, dass es zu Datenverlusten gekommen ist. Amazon will seine PLCs sowie die EC2-Systeme verbessern, um solche Ausfälle zukünftig zu vermeiden. Amazon Cloud-Kunden in der betroffene Zone dürfen als Entschädigung die Dienste zehn Tage kostenlose nutzen.
Quelle: Futurezone