InfraOpt® GmbH

Resilienz als Management-Grundlage

... im Design
... in der Planung
... im Betrieb

Beste Resultate versprechen Rechenzentren, die bereits während des Designs der Resilienz-Analyse unterzogen werden.
Optimierungsschritte können so in die Planung einfließen.
Kontinuierliche Überwachung sichert den unterbrechungsfreien Betrieb über den gesamten Lebenszyklus.

Unser bewährter Prozess:

Eine Dienstleistung in fünf Schritten:

Erstellung des Resilienz-Diagramms
Boolesche Modellierung
Datenaufbereitung
Numerische Analyse
Zielgerichtete Optimierungen

Gibt es das „optimale Rechenzentrum“?

InfraOpt® beantwortet diese Frage mit Ja!

Allerdings ist das optimale Rechenzentrum stets abhängig von den spezifischen Anforderungen unter Berücksichtigung der gegebenen Möglichkeiten.

Eine zentrale Bedeutung spielt dabei die europäische Normenreihe EN 50600 bzw. ihre internationalen Gegenstücke ISO/IEC 22237 und ISO/IEC 30134.

Welchen Nutzen haben die Normen?

Normen beschreiben die anerkannten Regeln der Technik.
Sie umfassen die relevanten Bereiche über den Rechenzentrums-Lebenszyklus.
Es besteht die Möglichkeit der Zertifizierung durch Dritte.

Unser Beitrag zur Normierung

In der Rechenzentrums-Praxis ist es hilfreich, über einheitliche Definitionen von SLA zu verfügen. Deren Einhaltung kann mittels aussagekräftiger Key Performance Indicator (KPI) gemessen werden, welche die verschiedenen Aspekte der Resilienz beziffern.

KPI für Resilienz von Rechenzentren

Durch die „Deutsche Kommission für Elektrotechnik“ (DKE) ist ein Arbeitskreis ins Leben gerufen worden, der sich den KPI für Resilienz widmet. Als internationaler Normierungsvorschlag ISO/IEC TS 22237-31 werden folgende Themen eingebracht:

Definition von SLA mittels Attributen der Resilienz
KPI für verschiedene Aspekte der Resilienz
Berechnungsmethodiken zur Anwendung der KPI

Resilienz als Prozess im Lebenszyklus

Definition des SLA >> Validierung des Designs >> Validierung der Planung >> Überwachung des Betriebs

Resilienz als Grundlage von Service-Level-Agreements

Welche Aspekte sollte ein SLA umfassen?

Verfügbarkeitsklasse gemäß EN 50600-1 bzw. ISO/IEC 22237-1
Berichtszeitraum in Jahren
Maximal zulässige Anzahl von Service-Verletzungen im Berichtszeitraum
Maximal zulässige Zeitspanne der Nichtverfügbarkeit im Berichtszeitraum
Maximale Anzahl von 1-Fehler-Punkten (SPoF) der Infrastruktur
Verfügbarkeit, berechnet am Infrastruktur-Modell

Das Resilienz-Diagramm

Der erste Schritt zur Resilienz-Analyse ist die Erstellung des Resilienz-Diagramms. Erarbeitet von Fachexperten, umfasst es folgende Details:

Alle relevanten Teilsysteme der Infrastruktur
Alle funktionellen Verknüpfungen der Teilsysteme
Referenzen auf die Komponenten, aus welchen die Teilsysteme bestehen
Definition des Operations-Punktes (OP)

Ganzheitliche Planung mithilfe Resilienz-Optimierung

Analysten transformieren das Resilienz-Diagramm in die Simulations-Software InfraOpt64. Die Teilsysteme erhalten Daten und Eigenschaften, so dass ein Modell der zu untersuchenden Infrastruktur entsteht.

An diesem Infrastruktur-Modell können SLA validiert als auch zielgerichtete Optimierungen von Resilienz-Aspekten durchgeführt werden, durch:

Berechnung der Zuverlässigkeit
Berechnung der Inhärenten und Operationalen Verfügbarkeit
Berechnung der 1- und 2-Fehlertoleranz
Berechnung der reduzierten Verfügbarkeit im 1- und 2-Fehlerfall
Blackout Simulation
Design-Variationen mit verschiedenen Redundanzen
Analysen mit verminderter Last
Vergleich verschiedener Teilsysteme
Importanz-Analysen
... u. v. m.

1) Vergleichende Resilienz-Analyse von Rechenzentrums-Infrastrukturen

Analyseergebnisse am OP: Rack im Computerraum

2) Grafischer Vergleich der Analyseergebnisse

2.1) Inhärente Verfügbarkeit

Abbildung 1: Inhärente Verfügbarkeit – höher ist besser

Was bedeutet Inhärente Verfügbarkeit?

Inhärente Verfügbarkeit ist KPI für die Wahrscheinlichkeit, dass die Infrastruktur unter idealen Betriebs- und Wartungsbedingungen erwartungsgemäß funktioniert.

Es werden keine Zeiten für die Initiation der Instandsetzung, Ersatzteilbeschaffung oder Logistik berücksichtigt.

Als Aspekt der Resilienz hat die Inhärente Verfügbarkeit folgende praktische Bedeutung:

Anwendung in den Phasen Design bzw. Planung
Vergleich von Varianten
Bestimmung von Redundanzen
Abhängig von den Metriken MTBF und MTTR

Was bedeutet: Mean Time Between Failure (MTBF)?

MTBF beziffert die durchschnittliche Zeitspanne zwischen aufeinanderfolgenden Ausfällen.

Was bedeutet: Mean Time To Restoration (MTTR)?

MTTR beziffert die durchschnittliche Zeitspanne zur Reparatur oder zum Austausch, ohne Verzögerungen durch Logistik, wie Mobilisierung, Beschaffung etc.

2.2) Operationale Verfügbarkeit

Abbildung 2: Operationale Verfügbarkeit – höher ist besser

Was bedeutet Operationale Verfügbarkeit?

Operationale Verfügbarkeit ist KPI für die Wahrscheinlichkeit, dass die Infrastruktur unter den gegebenen Betriebs- und Wartungsbedingungen erwartungsgemäß funktioniert.

Dabei werden geplante und ungeplante Ereignisse sowie erforderliche Zeiten für Logistik berücksichtigt.

Als Aspekt der Resilienz hat die Operationale Verfügbarkeit folgende praktische Bedeutung:

Sensibel für die Infrastruktur-Optimierung
Grundlage für Wartungs- und Instandsetzungspläne
Nutzbar zur Logistik-Planung und Materialbevorratung
Abhängig von den Metriken MTBM und MDT

Was bedeutet: Mean Time Between Maintenance (MTBM)?

MTBM beziffert die durchschnittliche Zeitspanne zwischen allen Instandhaltungsereignissen, gleichgültig ob geplant oder ungeplant, einschließlich der Zeit für erforderliche Logistik.

Was bedeutet: Mean Down Time (MDT)?

MDT beziffert die durchschnittliche Ausfallzeitspanne, einschließlich der Zeit für erforderliche Logistik.

2.3) Zuverlässigkeit

Abbildung 3: Zuverlässigkeit – höher ist besser

Was bedeutet Zuverlässigkeit?

Zuverlässigkeit ist KPI für die Wahrscheinlichkeit, dass die Infrastruktur fehlerfrei funktioniert, innerhalb einer vorgegebenen Zeitspanne, unter zulässigen Betriebsbedingungen.

Als Aspekt der Resilienz hat die Zuverlässigkeit folgende praktische Bedeutung:

Sensibel für die Infrastruktur-Optimierung
Bestimmung von Redundanzen
Prädiktive Instandsetzung bzw. Austausch
Abhängig von der MTBF und der Betriebszeit

Was ist ein reparierbares System?

Abhängig von inhärenten Redundanzen, muss der Ausfall eines Teilsystems nicht zwangsläufig zum Gesamtausfall des Systems führen. In einem reparierbaren System, wie der RZ-Infrastruktur, kann das fehlerhafte Teilsystem durch Instandsetzung oder Austausch in den Nominalzustand versetzt werden.

2.4) Single Point of Failure

Abbildung 4: Anzahl der SPoF – „0“ ist das Minimum

2.5) Double Point of Failure

Abbildung 5: Anzahl der DPoF – niedriger ist besser

Was bedeutet Fehlertoleranz?

Fehlertoleranz einer Infrastruktur bezeichnet die Fähigkeit, im Fehlerfall eines oder mehrerer Teilsysteme weiterhin bestimmungsgemäß zu funktionieren.

Single Point of Failure (SPoF) bezeichnet ein Teilsystem, dessen Ausfall dazu führt, dass die Funktion der Infrastruktur nicht mehr gegeben ist.

Double Point of Failure (DPoF) bezeichnet zwei Teilsysteme, deren gleichzeitiger Ausfall dazu führt, dass die Funktion der Infrastruktur nicht mehr gegeben ist.

Dabei spielt es zunächst keine Rolle, ob die Ursache von Fehlern Ausfälle oder Wartungsmaßnahmen sind.

Die Fähigkeit Fehler zu absorbieren bzw. nach Fehlern zügig in den Nominalzustand zurück zu kehren, sind Aspekte der Resilienz.

Die KPI der Fehlertoleranz, gemessen als Anzahl der SPoF und DPoF, sind Gegenstand von Optimierungen.

Wie kann Ihr Rechenzentrum von InfraOpt® profitieren?

Das erläutere ich an Praxisbeispielen auch persönlich.
Bitte nehmen Sie den Kontakt auf.
Ich freue mich darauf, Ihr Projekt kennenzulernen.

Uwe Müller

InfraOpt® ...

Synonym für präventives Risikomanagement durch numerische Analysen und Optimierungen für resiliente und ressourcenschonende Rechenzentren.

InfraOpt® GmbH - Evalution, Analyse und Zertifizierung des Rechenzentrum