Disaster Recovery Weekend bei der EGELI Informatik

Im letzten November haben wir einen Disaster Recovery Test (Notfallwiederherstellungstest) durchgeführt. Wir definierten dafür den Verlust eines unserer Rechenzentren als Szenario. Ein solcher Test benötigt einerseits Zeit für die Durchführung und andererseits entsprechende Vorbereitungen. Nachdem das zu testende Notfallszenario definiert war, mussten wir einen Zeitplan für die Arbeiten erstellen und zwar so, dass möglichst keine Betriebszeiten aus Kundenverträgen tangiert wurden.

Am besagten Wochenende wurden alle produktiven Systeme aus dem einen Rechenzentrum, im zweiten Rechenzentrum in Betrieb genommen. Da unsere Server virtuell sind, musste keine Hardware vom einen Rechenzentrum ins andere verschoben werden. Dies konnte per Knopfdruck durchgeführt werden. Wichtig dabei war, zu beobachten, ob die Ressourcen im zweiten Rechenzentrum wie geplant für den Betrieb aller Server genügen würden. Nach erfolgreichem Verschieben wurde dann im virtuell leergeräumten Rechenzentrum die Hardware vom Strom genommen um zu überprüfen, ob das zweite Rechenzentrum wirklich autonom lauffähig ist. Nachdem dann alles wieder eingeschaltet war, mussten die virtuellen Server wieder auf beide Rechenzentren verteilt werden und ein abschliessender Funktionstest durchgeführt werden.

Wir konnten die Tests erfolgreich durchführen, es wurden keine grösseren Probleme festgestellt. Dennoch konnten einige kleinere Stolpersteine festgestellt werden. So hatte zum Beispiel unser Überwachungssystem das Problem, dass es maximal nur 100 Alarme gleichzeitig darstellen konnte, was im Normalfall auch gar nicht vorkommt oder dass ein Schlüssel für eine Racktüre nicht am dokumentierten Ort vorgefunden wurde.

Hintergrund

Bei einem Disaster Recovery Test werden grössere Ausfälle von einer oder mehreren Komponente/n nachgestellt. Dies ist immer eine Gratwanderung zwischen Realitätsnähe und möglichst wenig Einfluss auf den laufenden Betrieb und Kundenverträge. Diese Tests sind notwendig um die Prozesse und Anweisungen zu überprüfen, welche in den entsprechenden Notsituationen zum Einsatz kommen. Als professionelles Informatikunternehmen führt die Egeli Informatik AG zweimal jährlich solche Tests mit verschiedenen Szenarien durch. Die Durchführung der Testszenarien gibt uns noch mehr Sicherheit und hilft uns in der stetigen Optimierung der potenziellen Fehlerquellen.