24.11.2013 Aufrufe

Mit Überwachungssystemen kleine, dezentrale IT ... - APC Media

Mit Überwachungssystemen kleine, dezentrale IT ... - APC Media

Mit Überwachungssystemen kleine, dezentrale IT ... - APC Media

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

<strong>Mit</strong> <strong>Überwachungssystemen</strong> <strong>kleine</strong>,<br />

<strong>dezentrale</strong> <strong>IT</strong>-Räume vor<br />

Handlingsfehlern schützen<br />

White Paper 103<br />

Version 0<br />

von Dennis Bouley<br />

><br />

Zusammenfassung<br />

Unerwartete Ausfälle in <strong>dezentrale</strong>n Server- und<br />

Technikräumen haben schon manchem <strong>IT</strong>-Manager<br />

schlaflose Nächte bereitet. Die meisten können<br />

haarsträubende Geschichten darüber erzählen, wie<br />

Pech, Handlingsfehler oder schlichte Inkompetenz<br />

ihren <strong>IT</strong>-Raum lahmgelegt haben. In diesem<br />

Dokument analysieren wir verschiedene derartige<br />

Vorfälle und empfehlen mehrere, relativ einfach<br />

aufgebaute Überwachungssysteme, mit denen<br />

unerwartete Ausfallereignisse dieser Art verhindert<br />

werden können.<br />

Inhalt<br />

Aktiver Link – bitte auf den<br />

gewünschten Abschnitt klicken<br />

Einleitung 2<br />

Einfach oder aufwendig? 2<br />

Handlingsfehler – ein<br />

unberechenbarer Faktor<br />

Geschichten, die das Leben<br />

schrieb<br />

Die Bestandteile eines<br />

Überwachungssystems<br />

Fortsetzung: Geschichten,<br />

die das Leben schrieb<br />

4<br />

5<br />

5<br />

10<br />

Fazit 11<br />

Ressourcen 12<br />

White Papers sind ab sofort Bestandteil der Schneider Electric White<br />

Paper-Bibliothek, die vom Schneider Electric-Bereich Data Center Science Center<br />

veröffentlicht wird.<br />

DCSC@Schneider-Electric.com


<strong>Mit</strong> <strong>Überwachungssystemen</strong> <strong>kleine</strong>, <strong>dezentrale</strong> <strong>IT</strong>-Räume vor Handlingsfehlern schützen<br />

Einleitung<br />

So mancher <strong>IT</strong>-Manager kann Geschichten von unerwarteten Ausfallereignissen erzählen,<br />

die sich in separaten Serverräumen und entfernten Technikräumen ereignet haben. Bei der<br />

Analyse dieser Berichte fällt eine Gemeinsamkeit auf: fehlende Informationen. Dieser Mangel<br />

an Informationen führt leicht zu Handlingsfehlern, die letztlich Ausfälle verursachen.<br />

Anwender und Administratoren stehen unter erheblichem Stress, wenn ihnen keine<br />

Echtzeitdaten zur Verfügung stehen und Handlingsfehler deswegen nicht verhindert werden<br />

können.<br />

Folgende Statistiken werfen ein Schlaglicht auf die Tragweite des Problems:<br />

• Nach Schätzungen gibt es allein in den USA 2,9 Millionen Server- und Technikräume 1<br />

• Über 70% der dokumentierten Ausfälle in Datacentern und <strong>IT</strong>-Räumen sind direkt auf<br />

Handlingsfehler zurückzuführen 2<br />

In diesem Dokument werden typische Ausfallereignisse in <strong>dezentrale</strong>n Server- und<br />

Technikräumen beschrieben. Im Anschluss daran geben wir Empfehlungen für die Integration<br />

von Überwachungs- und Automatisierungssoftware mit Videoüberwachungssystemen und<br />

Sensoren und zeigen, wie die Häufigkeit, von Handlingsfehlern ausgelösten Ausfällen, in<br />

<strong>kleine</strong>n, separaten Räumen mit diesen intelligenten Überwachungslösungen reduziert werden<br />

kann (siehe Abbildung 1).<br />

Closed<br />

Circuit<br />

TV<br />

Dry<br />

Contact<br />

Humidity<br />

Sensor<br />

Te mp<br />

Sensor<br />

Abbildung 1<br />

Camera<br />

Intelligente Überwachung<br />

auf mehreren Ebenen<br />

kann Ausfälle durch<br />

Handlingsfehler<br />

verhindern<br />

Fluid<br />

Detector<br />

Camera<br />

Camera<br />

Door<br />

Sensor<br />

Management<br />

appliance<br />

UPS<br />

Particle<br />

Sensor<br />

Rem ote<br />

Management<br />

Console<br />

Management<br />

Appliance<br />

Einfach oder<br />

aufwendig?<br />

1 IDC: Building, Planning, and Operating the Next-Generation Data Center, Michelle Bailey, 2008<br />

2<br />

Uptime Institute: Data Center Site Infrastructure Tier Standard: Operational Sustainability, 2010<br />

Schneider Electric – Data Center Science Center<br />

0 2<br />

White Paper 103 Vers.


<strong>Mit</strong> <strong>Überwachungssystemen</strong> <strong>kleine</strong>, <strong>dezentrale</strong> <strong>IT</strong>-Räume vor Handlingsfehlern schützen<br />

Vor der Implementierung von <strong>Überwachungssystemen</strong> in <strong>kleine</strong>n, separaten <strong>IT</strong>-Standorten<br />

wie Technik- und Serverräumen treten zwei Fragen auf. Die erste Frage bezieht sich auf die<br />

Installation. Wie aufwendig ist die Installation eines Überwachungssystems? Das heißt, wie<br />

lange dauert es, Informationen über die Betriebsbedingungen der zu überwachenden Geräte<br />

zu sammeln und diese Daten in das Überwachungssystem einzugeben (z. B. bei Hunderten<br />

von Geräten in einer <strong>IT</strong>-Struktur mit mehreren Standorten)? Wie kann das<br />

Überwachungssystem erkennen, welche Geräte Kameras, Klimaanlagen, USV-Systeme,<br />

Temperatursensoren oder sonstige sind, und wie werden IP-Adressen generiert, damit die<br />

Systeme über das Netzwerk kommunizieren können? Die zweite wichtige Fragestellung: wie<br />

groß ist der Aufwand für Modifikationen an den an einem entfernten Standort installierten<br />

Komponenten für die Stromversorgung, Kühlung und Umgebungsüberwachung? Also zum<br />

Beispiel: welche Möglichkeiten gibt es für die Durchführung von Firmware-Upgrades oder die<br />

Änderung von Temperaturgrenzwerten?<br />

In den letzten Jahren haben sich die Softwarelösungen für die Überwachung<br />

weiterentwickelt, sodass der Anwender die Installation wahlweise selbst durchführen oder<br />

einen externen Dienstleister damit beauftragen kann. Ein Dienstleister kann die Installation<br />

üblicherweise innerhalb von 1 bis 2 Tagen bis zur Übergabe an den Anwender abschließen.<br />

Softwarelösungen für die Überwachung sind entweder als Code für den Download auf eigene<br />

Hardware oder als rackmontierte Server mit vorinstallierter Software erhältlich. Das System<br />

kann sowohl dezentral als auch zentral im Datacenter (z. B. wenn Dutzende oder Hunderte<br />

von Technikräumen überwacht werden sollen) installiert werden. Sobald der Management-<br />

Server angeschlossen ist, kann der Client auf einen Laptop heruntergeladen werden und der<br />

Anwender mit dem Prozess der Identifizierung der Systeme für die Stromversorgung,<br />

Kühlung und Raumüberwachung sowie der zu überwachenden Handlings-Aktivitäten<br />

beginnen. Die meisten modernen USV-Systeme, Kühlsysteme und Sicherheitskameras sind<br />

bereits mit einer Netzwerkkarte für die Kommunikation ausgestattet. Das hat den Vorteil,<br />

dass der Anwender nur noch eine IP-Adresse oder einen Bereich von IP-Adressen, die von<br />

den zu überwachenden Geräten benutzt werden sollen, definieren muss (Beispiel siehe<br />

Abbildung 2). Manche Systeme können danach automatisch das Netzwerk durchsuchen und<br />

alle relevanten Stromversorgungs-, Kühl- und Sicherheitsgeräte lokalisieren. Die „Auto-<br />

Discovery”-Funktion kann die Systeminstallation und –inbetriebnahme beträchtlich<br />

erleichtern. Direkt nach dem Auffinden der Geräte kann das System mit der Überwachung<br />

beginnen.<br />

Abbildung 2<br />

Die Einrichtung von IP-<br />

Adressen für mehrere Geräte<br />

besteht manchmal einfach<br />

aus der Eingabe von<br />

Zahlenreihen (Screenshot<br />

aus der Anwendung<br />

InfraStruxure Central (jetzt<br />

StruxureWare Data Center<br />

Expert) von Schneider<br />

Electric)<br />

Schneider Electric – Data Center Science Center<br />

0 3<br />

White Paper 103 Vers.


<strong>Mit</strong> <strong>Überwachungssystemen</strong> <strong>kleine</strong>, <strong>dezentrale</strong> <strong>IT</strong>-Räume vor Handlingsfehlern schützen<br />

Manche Systeme für Überwachung und Automatisierung erlauben auch die Gruppierung von<br />

Geräten nach Kriterien wie Standorte, Rackreihen im Raum oder Gerätetypen (z. B. für die<br />

Zusammenfassung aller Kühlsysteme, Leistungsverteiler, Messgeräte oder Kameras in einer<br />

Gruppe). Durch die Gruppierung der Geräte hat der Anwender gleichzeitig die Möglichkeit,<br />

Richtlinien und Grenzwerte für eine Gruppe festzulegen. Häufig wird dies genutzt, um<br />

Schwellwerte für Parameter wie Temperatur und Luftfeuchtigkeit festzulegen oder Zustände<br />

wie offen oder geschlossen (z. B. bei Rack-Türen) zu definieren.<br />

Wird einer dieser Schwellwerte überschritten, wird ein Alarm ausgelöst, der an den<br />

Systemadministrator per E-Mail oder Textnachricht übertragen wird. Allerdings sollte<br />

sichergestellt sein, dass nur größere Veränderungen in dem entfernten <strong>IT</strong>-Raum einen Alarm<br />

auslösen, denn anderenfalls müsste sich der Administrator innerhalb von einer Stunde mit<br />

mehreren Alarmmeldungen auseinandersetzen. Das könnte dazu führen, dass er sie nicht<br />

mehr ernst nimmt und schließlich ignoriert. Darum müssen alle Risiken sorgfältig abgewogen<br />

werden, damit ein Alarm, der den Systemadministrator erreicht, immer die nötige Beachtung<br />

erhält.<br />

Auch Aktualisierungsmaßnahmen im Server- oder Technikraum wie z. B. Firmware-Updates<br />

können mit Hilfe moderner Überwachungssysteme erleichtert werden. Der <strong>IT</strong>-Manager ist<br />

dann nicht mehr gezwungen, für die Installation von Firmware-Upgrades Personal an<br />

entfernte Standorte zu entsenden, denn viele der Überwachungssysteme bieten<br />

Unterstützung für Massenkonfiguration. Auf diese Weise können Änderungen von einem<br />

zentralen Standort aus über das Netzwerk durchgeführt werden.<br />

Bedienfehler –<br />

ein<br />

unberechenbare<br />

r Faktor<br />

Dezentralen <strong>IT</strong>-Räumen wird selten das gleiche Maß an Investitionen und Aufmerksamkeit<br />

zuteil wie großen, unternehmenskritischen Datacentern. An großen, zentralen Standorten<br />

stehen verschiedene Fachleute zur Verfügung und modernste Sicherheitstechnologien sowie<br />

vielerlei Redundanzkonfigurationen bieten Schutz vor Ausfällen. Kleine Server- und<br />

Technikräume hingegen werden von Einzelpersonen betreut, die neben der Überwachung<br />

des <strong>IT</strong>-Raums noch andere Aufgaben haben. Zudem werden für solche Räume häufig nur<br />

wenige Sicherheitsvorkehrungen getroffen, und aus allen genannten Gründen unterliegen sie<br />

einem höheren Ausfallrisiko als die größeren, besser ausgestatteten Datencenter. Egal, wie<br />

gut ein Server- oder Technikraum geplant sein mag, ein Risiko für unerwartete Ausfälle<br />

besteht immer. Manche <strong>IT</strong>-Manager denken, dass sie an alle Eventualitäten gedacht haben.<br />

Sie sind stolz auf ihre Serverraumimplementierung – und dann betritt ein harmlos<br />

aussehender Techniker oder Hausmeister den Raum und bringt den Betrieb aus<br />

Unwissenheit innerhalb von Sekunden zum Stillstand.<br />

Power<br />

Energy<br />

Waste<br />

Abbildung 3<br />

Man könnte sagen, dass<br />

Zwischenfälle in <strong>kleine</strong>n,<br />

entfernten <strong>IT</strong>-Räumen<br />

„vorprogrammiert“ sind<br />

Schneider Electric – Data Center Science Center<br />

0 4<br />

White Paper 103 Vers.


<strong>Mit</strong> <strong>Überwachungssystemen</strong> <strong>kleine</strong>, <strong>dezentrale</strong> <strong>IT</strong>-Räume vor Handlingsfehlern schützen<br />

Die folgende Zusammenstellung typischer Vorfälle illustriert anschaulich, wie bereits ein<br />

einfaches Überwachungs- und Automatisierungssystem Ausfälle in Technik- oder<br />

Serverräumen verhindern könnte. Häufig ist in solchen Umgebungen entweder niemand vor<br />

Ort oder aber eine Person, die nicht in der Lage ist, die Störung zu erkennen oder den<br />

Systemadministrator zu alarmieren. Bei der Entdeckung eines Kühlproblems kann eine<br />

Stunde Verzögerung jedoch einen großen Unterschied ausmachen, wenn man einen<br />

Komplettausfall verhindern will. Schnelle Echtzeit-Alarmmeldungen hingegen geben dem<br />

Administrator die Möglichkeit, die Weichen anders zu stellen, bevor es zum Ausfall einer<br />

Anwendung kommt.<br />

Geschichten,<br />

die das Leben<br />

schrieb<br />

Hier eine Reihe von Beispielen für Ausfälle, die durch Bedienfehler verursacht wurden:<br />

• Eingewickelt: Ein Systemadministrator, der für den Serverraum an einem anderen<br />

Firmenstandort verantwortlich war, begab sich vor Ort, um die Ursache für den Ausfall<br />

der Server in diesem Raum herauszufinden. Er entdeckte, dass mit<br />

Renovierungsarbeiten beauftragte Handwerker die Racks in Plastikfolie eingewickelt<br />

hatten, um die <strong>IT</strong>-Systeme vor Staub zu schützen. Die Dienstleister unterließen es<br />

jedoch, die <strong>IT</strong>-Abteilung über diese Vorsichtsmaßnahme zu informieren, sodass die<br />

eingewickelten Server in Betrieb blieben und sich dann wegen Überhitzung<br />

automatisch abschalteten.<br />

• An der Quelle: Ein leitender Manager entschied sich, die Dinge in die eigene Hand zu<br />

nehmen, als er eines Tages keinen Zugang zum Internet hatte. Er ging in den<br />

Serverraum, zog Kabel vom Router ab und stellte mit seinem Laptop eine direkte<br />

Verbindung mit dem Internet her. Dabei umging er sämtliche Firewall- und<br />

Verschlüsselungsdienste, sodass die gesamte <strong>IT</strong> eindringenden Viren und anderen<br />

Schadprogrammen ungeschützt ausgesetzt war.<br />

• Der Lauf der Dinge: Für Reparaturarbeiten bohrte ein Klempner direkt über einem<br />

Exchange-Server ein Loch in die Decke. Danach reparierte er wie geplant eine<br />

Rohrverbindung, die er jedoch leider nicht ausreichend abdichtete. <strong>Mit</strong>ten in der Nacht<br />

begann Wasser aus dem Rohr zu tropfen. Die Dinge nahmen ihren Lauf – das Wasser<br />

sammelte sich an dem Loch in der Decke und ergoss sich über den darunter<br />

stehenden Exchange Server, der dadurch dauerhaft beschädigt wurde.<br />

• Gründlich sauber: Reinigungspersonal wurde in den Serverraum geschickt. Sie sahen<br />

viele Staubflocken und zwar nicht nur um die Racks herum, sondern auch in den<br />

Racks. Die Racktüren waren teils geöffnet. Die Reinigungskräfte taten, wozu sie da<br />

sind: Sie machten die Racks von außen und von innen gründlich mit Glasreiniger<br />

sauber. Niemand hatte ihnen klare Anweisungen zu der Durchführung der Reinigung<br />

gegeben.<br />

• Ein zündender Gedanke: Ein Dienstleister arbeitete in einer Halon-geschützten<br />

Umgebung. Er zündete einen Propangasschweißbrenner an, ohne jemand zu<br />

informieren und ohne das Halon-System auszuschalten...<br />

• Kurze Unterbrechung: Ein Lieferant schaltete einen Stromverteiler ab, um einen<br />

zusätzlichen Leistungsschalter zu installieren. An diesen Stromverteiler war der wichtigste<br />

Server des Standorts angeschlossen.<br />

Vielen Besuchern eines Serverraums ist einfach nicht bekannt, was sie in diesem Raum<br />

tun dürfen und was nicht.<br />

Die Bestandteile<br />

eines Überwachungssystems<br />

Ein Überwachungssystem, dessen Hauptaufgabe es ist, Zwischenfälle in <strong>dezentrale</strong>n<br />

Serverräumen durch Bedienfehler zu vermeiden, muss über vier Hauptbestandteile verfügen:<br />

Videoüberwachung, Sensoren, intelligente Rack-Ausgänge und eine Software zur<br />

Schneider Electric – Data Center Science Center<br />

0 5<br />

White Paper 103 Vers.


<strong>Mit</strong> <strong>Überwachungssystemen</strong> <strong>kleine</strong>, <strong>dezentrale</strong> <strong>IT</strong>-Räume vor Handlingsfehlern schützen<br />

Überwachung und Automatisierung. Tabelle 1 bietet einen Überblick über die im Anschluss<br />

ausführlich beschriebenen Lösungen.<br />

Videoüberwachung und Sensoren<br />

Wie lassen sich die geschilderten Probleme lösen? Es gibt skalierbare Überwachungs- und<br />

Automatisierungssysteme auf dem Markt, die kritische Alarme und Überwachungsvideos<br />

sammeln, organisieren und verteilen können. Ein Beispiel ist in Abbildung 4 zu sehen. Durch<br />

die Überwachung der Stromversorgung, Kühlung, Rück- und Vorderseiten der Racks sowie<br />

des Raums können diese Systeme eine sofortige Fehlermeldung sicherstellen. Dadurch kann<br />

die Situation schnell bewertet werden und es können Maßnahmen zur Beseitigung kritischer<br />

Infrastrukturereignisse, welche die Verfügbarkeit der <strong>IT</strong>-Systeme einschränken könnten,<br />

getroffen werden.<br />

Bei den oben beschriebenen Bedienfehlern, die auf fehlende Kommunikation zurückzuführen<br />

sind, hätte ein Überwachungs- und Automatisierungssystem eine Eskalation folgendermaßen<br />

verhindern können:<br />

• Ein Überwachungs- und Automatisierungssystem für die technische Infrastruktur des<br />

<strong>IT</strong>-Raums, ergänzt durch ein Sicherheitssystem mit Videokameras zur Erfassung<br />

menschlicher Aktivitäten in den Rackreihen, hätte eine Aufzeichnung gestartet, sobald<br />

die Bewegungsmelder aktiviert worden wären. Dadurch wären – auch ohne <strong>IT</strong>-Personal<br />

vor Ort – die Aktivitäten, zum Beispiel der Handwerker beim Einwickeln der Server mit<br />

Folie, aufgezeichnet und ein Alarm an den zuständigen Administrator abgegeben<br />

worden. Der Administrator hätte sich ein Bild über die Vorgänge im Raum machen und<br />

diese per Anordnung sofort stoppen können, um einen Ausfall zu verhindern.<br />

Abbildung 4<br />

Beispiel für die durch<br />

Bewegungsmelder<br />

ausgelöste<br />

Videoaufzeichnung eines<br />

Überwachungssystems, mit<br />

dem Vorfälle durch<br />

Bedienfehler verhindert<br />

werden können (Screenshot<br />

aus der <strong>APC</strong> by Schneider<br />

Electric InfraStruxure<br />

Central (jetzt StruxureWare<br />

Data Center Expert)<br />

Anwendung)<br />

• Ein Überwachungs- und Automatisierungssystem kann darüber hinaus <strong>IT</strong>-Systeme<br />

über potentialfreie Relaisausgänge ein- und ausschalten. Auf diese Weise können die<br />

Schlösser von Racktüren geöffnet und verschlossen werden (siehe Abbildung 5). Die<br />

Relaisausgänge können dabei entweder manuell oder automatisch als Reaktion auf die<br />

Überschreitung von Grenzwerten oder andere Alarmereignisse betätigt werden. Im Fall<br />

der Reinigungskräfte, von denen bekannt war, dass sie den <strong>IT</strong>-Raum außerhalb der<br />

Schneider Electric – Data Center Science Center<br />

0 6<br />

White Paper 103 Vers.


<strong>Mit</strong> <strong>Überwachungssystemen</strong> <strong>kleine</strong>, <strong>dezentrale</strong> <strong>IT</strong>-Räume vor Handlingsfehlern schützen<br />

normalen Arbeitszeiten betreten sollten, hätte man das Automatisierungssystem so<br />

programmieren können, dass alle Racks nach 18.00 Uhr verschlossen sind. Sie hätten<br />

dann manuell oder aus der Ferne, aber nur von einer autorisierten Person, geöffnet<br />

werden können und wären für alle anderen bis zum nächsten Morgen verschlossen<br />

gewesen.<br />

Der Einsatz von Kamerasystemen ist besonders sinnvoll, wenn im Serverraum<br />

Kreditkartentransaktionen unterstützt werden. Konformität mit den Sicherheitsstandards der<br />

Payment Card Industry (PCI) wird immer wichtiger. In einigen Ländern gilt die gesetzliche<br />

Auflage, dass Unternehmen ihre Kunden über jeden Datenschutzverstoß informieren<br />

müssen. Im Lauf der Zeit wird sich die Definition von privaten Daten auch auf<br />

Kreditkartennummern ausweiten. Sobald das der Fall ist, müssen Unternehmen, die keine<br />

oder keine ausreichenden Sicherheitsmaßnahmen in Kraft gesetzt haben, mit Sanktionen<br />

rechnen. Unternehmen mit einem ausgereiften, PCI-konformen Sicherheitssystem hingegen<br />

werden in Zukunft direkte finanzielle Vergünstigungen nutzen können. Videoüberwachung ist<br />

eine der Sicherheitsanforderungen gemäß den PCI-Richtlinien.<br />

Ein Kameramanagementsystem ermöglicht normalerweise die Überwachung der Aktivitäten<br />

von Haustechnikern, Lieferanten, Sicherheitskräften, <strong>Mit</strong>arbeitern der Hausverwaltung und<br />

anderen Personen, die einen Server- oder Technikraum betreten. Das System erfasst, wer zu<br />

welcher Zeit im Raum war, und erkennt, ob der Besucher ein Gerät vom Netz genommen<br />

oder ein neues Gerät angeschlossen hat. Ein Kameramanagementsystem kann so<br />

programmiert werden, dass Daten aufgezeichnet werden, sobald eine Bewegung erkannt<br />

wird. Andererseits bietet es dem Administrator auch die Möglichkeit, sich aus der Ferne in<br />

das System einzuloggen, um die Kamera zu aktivieren, die dem Besucher am nächsten ist<br />

und seine Aktivitäten zu beobachten. Einige Systeme können sogar mit Lautsprechern<br />

ausgestattet werden, sodass der Administrator ein Laptop-Mikrofon nutzen kann, um<br />

Anweisungen oder Warnungen an den Besucher auszusprechen (wie z. B.: „Was immer Sie<br />

tun, fassen Sie den roten Knopf nicht an!“).<br />

Abbildung 5<br />

Rack–Sicherheitstüren<br />

können ferngesteuert<br />

werden, um<br />

unerwünschten Zugang zu<br />

verhindern.<br />

Schneider Electric – Data Center Science Center<br />

0 7<br />

White Paper 103 Vers.


<strong>Mit</strong> <strong>Überwachungssystemen</strong> <strong>kleine</strong>, <strong>dezentrale</strong> <strong>IT</strong>-Räume vor Handlingsfehlern schützen<br />

Intelligente Rack-Stromverteiler<br />

Intelligente Rack-Stromverteiler sind schmale, lange Steckdosenleisten, die innen an der<br />

Gehäuserückwand montiert werden (siehe Tabelle 1). Die schaltbaren „rackmontierten<br />

Stromverteiler“ (oder PDUs für Power Distribution Units) genannten Geräte können über das<br />

Netzwerk angesteuert werden, sodass Anwender z. B. blockierte Geräte aus der Ferne<br />

wieder einschalten können. Durch den schnellen Neustart können Ausfallzeiten minimiert und<br />

Fahrten zum entfernten Standort vermieden werden.<br />

Schaltbare Stromverteiler (Switched Rack PDUs) ermöglichen außerdem die Festlegung<br />

einer Reihenfolge, in der die einzelnen Ausgänge mit Strom versorgt werden. Durch die<br />

zeitverzögerte Ansteuerung kann der Anwender im Voraus festlegen, welche Geräte zuerst<br />

eingeschaltet werden, damit weitere Geräte, die von dem ersten abhängig sind,<br />

ordnungsgemäß funktionieren. Bei der Inbetriebnahme (von Anlagen) hilft diese Funktion der<br />

intelligenten Rack-Stromverteiler, eine Überlastung der Schaltkreise durch zu große<br />

Einschaltströme zu vermeiden, die zu einem Abwurf von Lasten führen kann.<br />

Bei stark ausgelasteten Stromkreisen erleichtert das Überwachungssystem dem<br />

Administrator die Vermeidung von Überlastsituationen durch die Messung des aktuellen<br />

Verbrauchs mit Rack-Stromverteilern mit Messfunktion (Metered Rack PDUs) sowie die<br />

grafische Darstellung von Durchschnitts- und Spitzenwerten des Stromverbrauchs. Dadurch<br />

hat der Systemadministrator den Überblick über den Stromverbrauch jedes Racks und kann<br />

informierte Entscheidungen treffen – z. B. wo weitere Geräte platziert werden können.<br />

Überwachungs- und Automatisierungssoftware<br />

Ein Management- und Automatisierungssystem liefert dem Administrator eine Fülle an Daten,<br />

mit denen Ausfallzeiten durch Bedienfehler leichter verhindert werden können. In Tabelle 1<br />

sind einige Beispiele für ausgewählte Funktionalitäten von Überwachungs- und<br />

Automatisierungssystemen zusammengestellt, die für <strong>dezentrale</strong> <strong>kleine</strong> <strong>IT</strong>-Räume erhältlich<br />

sind.<br />

Schneider Electric – Data Center Science Center<br />

0 8<br />

White Paper 103 Vers.


<strong>Mit</strong> <strong>Überwachungssystemen</strong> <strong>kleine</strong>, <strong>dezentrale</strong> <strong>IT</strong>-Räume vor Handlingsfehlern schützen<br />

Tabelle 1<br />

Lösungsüberblick<br />

Lösungskomponente Aufgaben Vorteile Lösungsbeispiele<br />

Überwachung und<br />

Automatisierung<br />

Alarmfunktionen<br />

Gerätestatus<br />

Reporting<br />

Konfiguration<br />

Steuerung<br />

Die Überschreitung benutzerdefinierter<br />

Schwellwerte, z. B. für Umgebungsparameter wie<br />

Temperatur und Luftfeuchtigkeit, löst die<br />

Alarmabgabe per Textnachricht, E-Mail oder<br />

Systemmeldung aus<br />

Erstellung von Berichten auf mehreren Ebenen,<br />

die Trendverläufe aufzeigen und eine frühe<br />

Erkennung potenzieller Probleme ermöglichen<br />

Unterstützt die Massenkonfiguration gleicher<br />

Werte (z. B. Rackschlösser,<br />

Temperaturgrenzwerte) bei allen Geräten einer<br />

Gruppe<br />

Unterstützt den Neustart blockierter Systeme<br />

über das Netzwerk<br />

Überwachungskameras<br />

Beobachtung<br />

menschlicher<br />

Aktivitäten<br />

Videoaufzeichnung wird durch Bewegungen oder<br />

Alarme ausgelöst<br />

Durch Bewegungsmelder ausgelöste<br />

Aufzeichnungen ermöglichen im Zusammenhang<br />

mit Alarmen der Zugangskontrolle und<br />

Umgebungsüberwachung die visuelle Prüfung zur<br />

schnelleren Ursachenerkennung<br />

Archivierung und Analyse der Daten zu Sicherheitsvorfällen<br />

durch Bedienfehler oder<br />

unautorisierte Zugriffe verhindert Wiederholung<br />

Intelligente<br />

Rack-Ausgänge<br />

An- und<br />

Ausschalten von<br />

Servern über das<br />

Netzwerk<br />

Messung des<br />

Stromverbrauchs<br />

Gewährleistet Datenintegrität auch bei längeren<br />

Netzausfällen<br />

Ausgänge können aus der Ferne angesteuert<br />

werden, sodass freie Ausgänge (zur Vermeidung<br />

des unautorisierten Anschlusses von Geräten)<br />

ausgeschaltet oder blockierte Geräte (zur<br />

Minimierung von Ausfallzeiten und Vermeidung<br />

der Anfahrt zum Standort der Geräte) neu<br />

gestartet werden können<br />

Ermöglicht die Festlegung einer Reihenfolge für<br />

das Einschalten der Stromversorgung an jedem<br />

Ausgang – dadurch werden hohe<br />

Einschaltströme vermieden, die zu Überlastung<br />

und Lastabwurf führen können<br />

Sensoren<br />

Überwachung von<br />

Tür- und<br />

Rackschlössern,<br />

Temperatur und<br />

Luftqualität,<br />

Flüssigkeitserkennung<br />

Erkennung des Zugangs von unautorisiertem<br />

Personal per Türschalter<br />

Erkennung von Wasser oder hoher<br />

Luftfeuchtigkeit im Raum<br />

Erkennung von Rauch und anderen Partikeln<br />

Überwachung der Temperatur an wichtigen<br />

Standorten<br />

Schneider Electric – Data Center Science Center<br />

0 9<br />

White Paper 103 Vers.


<strong>Mit</strong> <strong>Überwachungssystemen</strong> <strong>kleine</strong>, <strong>dezentrale</strong> <strong>IT</strong>-Räume vor Handlingsfehlern schützen<br />

”<br />

Dadurch kann der<br />

Administrator USV-Systeme,<br />

die unzulässige Lasten<br />

unterstützen, sofort<br />

identifizieren und durch<br />

entsprechende Anordnungen<br />

für Abhilfe sorgen, bevor es<br />

zum Ausfall eines der<br />

Kassensysteme kommt.<br />

”<br />

Alarme und Benachrichtigung – Basis einer Alarmfunktion sind Schwellwerte, die als<br />

Auslöser dienen. Wenn z. B. ein Temperaturgrenzwert von 16 °C für den Bodenbereich eines<br />

Racks festgelegt ist, wird bei der Überschreitung dieser Grenze ein Alarm ausgelöst. Dieser<br />

Alarm kann auf verschiedenen, vom Benutzer festgelegten Wegen gemeldet werden. Die<br />

Benachrichtigung kann in Form von E-Mails, Textnachrichten, Meldungen auf einer Website<br />

oder Telefonklingeln erfolgen. Die Benachrichtigung kann sehr detailliert sein, wie z. B. eine<br />

E-Mail an einen Blackberry PDA mit der Temperaturentwicklung der letzten vier Stunden im<br />

Serverraum in grafischer Form. Die Meldung kann aber auch einfach gehalten sein, wie z. B.<br />

eine E-Mail mit dem Hinweis, dass eine bestimmte Racktür, die nicht geöffnet werden soll,<br />

seit mehr als zwei Minuten offen ist.<br />

Gerätestatus – Ein einfach konfiguriertes Überwachungssystem besteht aus einer Software<br />

und einem dedizierten physischen Server. Dieser Server fungiert als zentraler Datenspeicher<br />

für Informationen, die von allen überwachten Geräten im Serverraum gesammelt werden. Die<br />

Daten von Sensoren und Kameras werden in den entsprechenden Verzeichnissen mit den<br />

Systemprofilen und Grenzwerten archiviert. Die Überwachung kann sehr ins Detail gehen.<br />

Ein Rack z. B. kann drei Temperatursensoren enthalten: jeweils für den unteren, mittleren<br />

und oberen Rack-Bereich, weil die Temperaturen in den einzelnen Bereichen stark<br />

unterschiedlich sein können.<br />

Statusalarme können auch zur Überwachung von USV-Batterien genutzt werden, denn der<br />

Ausfall einer einzigen Batterie kann im Ernstfall zum Verlust der kritischen Last führen.<br />

Defekte Batterien sollten so schnell wie möglich ausgetauscht werden, aber häufig überwacht<br />

niemand die Lebensdauer der USV-Batterien an entfernten Standorten. Die Kosten für den<br />

Austausch von Batterien sind minimal im Vergleich zu den Kosten, die durch eine Störung<br />

entstehen, die den Ausfall eines Servers oder des gesamten Serverraums nach sich zieht.<br />

Schon ein einfaches Überwachungssystem kann diese Risiken ausschließen.<br />

Reporting und Analyse – Die von einem Überwachungssystem gesammelten Daten können<br />

zu Berichten aufbereitet werden, die der <strong>IT</strong>-Administrator analysiert. In der Vergangenheit<br />

haben sich Administratoren für die Überprüfung der Temperatur in Serverräumen an<br />

entfernten Standorten zu ungewöhnlichen Zeiten meist auf Sicherheitspersonal oder andere<br />

<strong>IT</strong>-fremde Personen verlassen, die die Temperatur von Wandthermometern abgelesen und<br />

manuell dokumentiert haben. Jetzt kann der Administrator alle aufgezeichneten Daten<br />

überprüfen und z. B. erkennen, dass die Temperatur nachts um 12 °C geschwankt hat. Durch<br />

die Analyse von 48-Stunden-Berichten, Wochen-Berichten oder Berichten über noch längere<br />

Zeiträume kann der Administrator Probleme leichter erkennen und der Haustechnikabteilung<br />

davon berichten, um für Abhilfe zu sorgen (wenn z. B. die Komfortklimaanlage des Gebäudes<br />

genutzt wird, um den Serverraum ganz oder teilweise zu kühlen). Die von dem<br />

Überwachungssystem des <strong>IT</strong>-Raums gesammelten Daten können auf Probleme hinweisen,<br />

die möglicherweise nur Symptome eines größeren Problems sind. Auf der Ebene der<br />

Sicherheit können die vom System erstellten Berichte dem Administrator auch dabei helfen,<br />

zu ermitteln, welche Person Zugang zu welchem Rack hatte und für wie lange.<br />

Ein anderes Anwendungsbeispiel sind Kassensysteme im Einzelhandel. Ein<br />

Überwachungssystem kann alle am Standort eingesetzten USV-Systeme überprüfen und<br />

einen Bericht über die Verteilung der Last auf die einzelnen USV-Systeme generieren. Wenn<br />

der <strong>IT</strong>-Administrator eine Auslastung von nicht mehr als 50% für die USV-Systeme<br />

vorschreibt, können die Systeme, die diesen Grenzwert überschreiten, leicht erkannt werden.<br />

Dadurch kann der Administrator USV-Systeme, die unzulässige Lasten versorgen, sofort<br />

identifizieren und durch entsprechende Anordnungen für Abhilfe sorgen, bevor es zu einem<br />

Ausfall eines der Kassensysteme kommt.<br />

Massenkonfiguration – Bei der Erstinstallation eines zentralen Überwachungs- und<br />

Automatisierungssystems werden alle mit dem System verbundenen Geräte mit ihren<br />

Schneider Electric – Data Center Science Center<br />

0 10<br />

White Paper 103 Vers.


<strong>Mit</strong> <strong>Überwachungssystemen</strong> <strong>kleine</strong>, <strong>dezentrale</strong> <strong>IT</strong>-Räume vor Handlingsfehlern schützen<br />

Kenndaten inventarisiert. Das versetzt den Administrator in die Lage, später eine Konfiguration<br />

oder Änderung auf Gesamtsystemebene (bei der eine Änderung mehrere Geräte betrifft)<br />

durchzuführen oder einzuleiten. Dies lässt sich an dem Beispiel der Türschlösser an den<br />

Serverraumracks zeigen, die dadurch nicht einzeln konfiguriert werden müssen. Er kann eine<br />

einzige Sicherheitseinstellung für alle 50 Racktüren (Vorder- und Rückseite) festlegen, wenn<br />

er dies für richtig hält.<br />

Management – Administratoren stehen bei weitem nicht so stark unter Druck, wenn sie<br />

Zugang zu detaillierten Daten des Überwachungs- und Automationssystems haben. So kann<br />

ein System z. B. ein Abbild der Strompfade sowie der Beziehungen und Abhängigkeiten<br />

zwischen den physischen Systemen erstellen. Dieser Überblick kann die hektische Suche<br />

nach der Ursache von Problemen vermeiden helfen, die im Ernstfall unverzüglich beseitigt<br />

werden müssen. Manche Systeme können auf Basis der verfügbaren Strom- und<br />

Netzwerkanschlüsse auch Empfehlungen für den besten Standort für die Platzierung neuer<br />

<strong>IT</strong>-Systeme geben. Dadurch wird das Risiko unerwarteter Engpässe in der Stromversorgung<br />

von betroffenen Racks vermieden. Ein System könnte auch die Konsequenzen eines<br />

Systemausfalls für die im Rack installierten Systeme vorausberechnen, damit die<br />

Auswirkungen auf unternehmenskritische Anwendungen leichter erkannt werden können.<br />

Dadurch hat der Administrator die Möglichkeit, im Voraus einen Notfallplan festzulegen, damit<br />

Ausfallzeiten minimiert werden.<br />

Mehr Kontrolle über den <strong>IT</strong>-Raum, mehr Warnungen und mehr historische Daten können<br />

dazu beitragen, das Management des Datacenters zu erleichtern und zu verbessern. Wenn in<br />

ein System für die Videoüberwachung und zentrale Überwachung und Automatisierung<br />

investiert werden soll, sind die zusätzlichen Kosten für die Implementierung einer<br />

Überwachung von Temperatur, Luftfeuchtigkeit, Taupunkt und anderen wichtigen<br />

Betriebsparametern eher geringfügig. Die Auswertung von Berichten über Trends im <strong>IT</strong>-Raum<br />

und Videoüberwachungsdaten ermöglicht dem Administrator, die Ursachen von Problemen<br />

zu beseitigen und das Risiko durch Handlingsfehler auf ein Minimum zu reduzieren.<br />

Fortsetzung:<br />

Geschichten,<br />

die das Leben<br />

schrieb<br />

Stromversorgungs- und Kühlsysteme sind durch Bedienfehler besonders gefährdet, weil<br />

großes Unwissen über diese Systeme herrscht. Die im Folgenden geschilderten Vorfälle<br />

veranschaulichen, wie fatal die Folgen sein können:<br />

• In einem Fall fiel das USV-System der Überhitzung zum Opfer, weil auf dem Gerät<br />

aufgestapelte Pakete mit Toilettenpapier die Luftzirkulation behinderten.<br />

• Für ein temporäres Projekt wurde ein <strong>kleine</strong>r Serverraum im oberen Bereich eines<br />

Bürogebäudes eingerichtet. Das Team, das den Raum eingerichtet hatte, hatte<br />

sorgfältig darauf geachtet, dass alle Teile der Installation kostengünstig, aber den<br />

Anforderungen entsprechend waren. Sie nutzten eine der im Gebäude eingesetzten<br />

Klimaanlagen zur Kühlung, weil sie die passende Wärmeabfuhrleistung für die<br />

Abwärme der im Raum installierten Systeme bot. Nach kurzer Zeit musste ein<br />

Serviceeinsatz wegen eines Geräteausfalls angefordert werden. Als der<br />

Servicetechiker vor Ort war, entdeckte er, dass die Temperatur im Raum rund 43 °C<br />

betrug. Unglücklicherweise hatte das Installationsteam den Lufteinlass und –ablass der<br />

Klimaanlage in demselben winzigen Raum installiert.<br />

• Eine freie Steckdose wirkt auf jemanden, der einen Server- oder Technikraum betritt,<br />

wie ein Magnet. Viele Serverräume wurden schon lahmgelegt, weil unautorisierte<br />

Geräte an solche Ausgänge einfach angeschlossen wurden. Staubsauger und<br />

Bohrmaschinen sind perfekte Beispiele für Geräte, die NICHT an einen von einer USV<br />

versorgten Ausgang angeschlossen werden sollten. Bei einem Vorfall gab es einen<br />

Kurzschluss in der Bohrmaschine, wodurch ein Leistungsschalter ausgelöst und die<br />

Stromversorgung für einen großen Teil des Serverraums unterbrochen wurde.<br />

• In der Filiale einer großen Einzelhandelskette war niemand vor Ort, der sich mit der<br />

Funktionsweise des Serverraums auskannte. Als das Kassenpersonal zur Arbeit kam,<br />

Schneider Electric – Data Center Science Center<br />

0 11<br />

White Paper 103 Vers.


<strong>Mit</strong> <strong>Überwachungssystemen</strong> <strong>kleine</strong>, <strong>dezentrale</strong> <strong>IT</strong>-Räume vor Handlingsfehlern schützen<br />

funktionierten die Kassensysteme nicht. Die Firmenzentrale gab ihnen die Anweisung,<br />

die USV zu umgehen und die Kassen mit normalem Netzstrom zu versorgen, bis eine<br />

Batterie zur Filiale gebracht wurde. Nachdem die Batterie geliefert worden war, musste<br />

noch jemand vor Ort geschickt werden, um die Batterie fachgerecht zu installieren. An<br />

diesem Tag gingen Transaktionen im Wert von Tausenden Dollar verloren und<br />

zusätzlich bestand das Risiko eines weitaus größeren Schadens, wenn sich ein<br />

Netzausfall ereignet hätte.<br />

• In einem anderen Einzelhandelsunternehmen waren die POS-Stationen zeitweise nicht<br />

verfügbar. Dies wuchs sich zu einem größeren Problem aus, weil nach jedem Ausfall<br />

der Systeme die Waagen, die für das Wiegen der Waren vor dem Versand genutzt<br />

wurden, anschließend neu kalibriert werden mussten, wodurch sich die<br />

Betriebsunterbrechungen deutlich verlängerten.<br />

• Ein ganzes Rack mit Servern fiel aus, weil ein <strong>IT</strong>-Administrator einen bereits voll<br />

ausgelasteten Stromverteiler versehentlich überlastete.<br />

Jeder, der Erfahrungen mit dem Serverraum-Management an entfernten Standorten<br />

gesammelt hat, kann mit großer Wahrscheinlichkeit Geschichten von kritischen Situationen<br />

erzählen, die durch Handlingsfehler verursacht worden sind und den in diesem Dokument<br />

beschriebenen Vorfällen gleichen. Glücklicherweise stehen verschiedene Lösungen zur<br />

Überwachung <strong>dezentrale</strong>r <strong>IT</strong>-Umgebungen zur Verfügung, die die Sorgen der <strong>IT</strong>-<br />

Administratoren wegen der hohen Ausfallrisiken durch unerwartete Ereignisse reduzieren<br />

können.<br />

Fazit<br />

Serverräume und <strong>kleine</strong>, entfernte Technikräume gibt es in großer Zahl und sie unterliegen<br />

einem hohen Risiko für Ausfallzeiten, die auf Bedienfehler zurückzuführen sind. Das<br />

Management dieser <strong>kleine</strong>ren <strong>IT</strong>-Umgebungen ist zeitaufwendig und problematisch. Viele der<br />

Einrichtungen sind weitgehend sich selbst überlassene <strong>IT</strong>-Räume, die nur minimal überwacht<br />

werden.<br />

Ein Überwachungs- und Automationssystem, das auf den vier Komponenten Software,<br />

Videotechnologie, intelligente Rack-Ausgänge und Sensortechnologie basiert, kann<br />

Sicherheitsvorfälle in <strong>kleine</strong>ren <strong>IT</strong>-Räumen, die durch Bedienfehler ausgelöst werden,<br />

beträchtlich reduzieren. Diese Systeme leiten kritische Daten an fachkundige Administratoren<br />

weiter, die in der Lage sind, die Umgebung aus der Ferne zu managen und Probleme zu<br />

erkennen, bevor es zu Ausfällen kommt.<br />

Über den Autor<br />

Dennis Bouley ist Senior Research Analyst im Data Center Science Center von Schneider<br />

Electric. Er hat einen Bachelor-Abschluss in Journalismus und Französisch der University of<br />

Rhode Island und ein Certificat Annuel der Sorbonne in Paris. Er hat weltweit in<br />

Fachpublikationen zahlreiche Artikel zu Datacentern und physikalischen Infrastrukturen<br />

veröffentlicht. Darüber hinaus ist er Autor mehrerer White Paper für „The Green Grid“.<br />

Schneider Electric – Data Center Science Center<br />

0 12<br />

White Paper 103 Vers.


<strong>Mit</strong> <strong>Überwachungssystemen</strong> <strong>kleine</strong>, <strong>dezentrale</strong> <strong>IT</strong>-Räume vor Handlingsfehlern schützen<br />

Ressourcen<br />

Klicken Sie auf das Symbol, um dem<br />

Link zum Dokument zu folgen<br />

White Paper-Bibliothek<br />

whitepapers.apc.com<br />

TradeOff Tools<br />

tools.apc.com<br />

Kontaktieren Sie Schneider Electric<br />

Feedback und Kommentare zum Inhalt dieses White Papers:<br />

Data Center Science Center<br />

DCSC@Schneider-Electric.com<br />

Wenn Sie Kunde sind und Fragen zu Ihrem Datacenter-Projekt haben:<br />

Wenden Sie sich an einen <strong>Mit</strong>arbeiter von Schneider Electric<br />

Schneider Electric – Data Center Science Center<br />

0 13<br />

White Paper 103 Vers.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!