Geheist und Gespiegelt

Geheist und Gespiegelt

Gestern war es mal wieder soweit. Gleich zwei Seiten – in der Presse (Heise / Spiegel) genannt – waren nicht erreichbar.

Betroffen waren: Jako (gleich mit mehreren Domains) und der Bundeswettbewerb Informatik.

In der Heise Community ist dieses Phänomen schon länger bekannt und wurde „Geheist“ getauft. Selbst einen Eintrag in Wikipedia gibt es zu dieser Wortschöpfung.

Sicher ist, sobald eine Webseite von den Medien genannt wird (im Guten wie im Schlechten), wird der Anbieter mit deutlich erhöhtem Traffic rechnen müssen.

Zwei Gründe führen in der Regel (es gibt deutlich mehr, aber die genannten sind die häufigsten) dazu, dass die Server in die Knie gehen:

  • Anzahl der Connections die der Server/Backend zu bewältigen hat ist schlichtweg zu groß.
  • Anbindung (Bandbreite) reicht für die Auslieferung der Daten nicht aus.

Jako war gestern sicher härter getroffen, da zum Zeitpunkt des „Überlaufs“ (rien ne va plus) über die Webseite keine Bestellungen getätigt werden konnten (lost revenue) oder schlichtweg keine Angebote anzeigen lassen konnten (risked revenue).

Wie das von außen betrachtet aussieht zeigt der folgende Chart. Eine Stunde nach der Veröffentlichung des Artikels habe ich die Webseite gemessen: Ergebnis: Über Stunden Ausfall des Servers – bis man vermutlich um 0:00Uhr einmal rebootet hat. Selbst heute noch steht das Angebot auf wackeligen Beinen.

jako

Wie kann man sich nun aber als Webseiten-Anbieter vor solchen Problemen schützen?

Eine 100% Sicherheit kann natürlich nichts versprechen – aber ein dediziertes Monitoring könnte verwendet werden, um z. B. bei einer gewissen Anzahl von „gleichzeitigen Sessions“ oder bei einer gewissen Bandbreitenauslastung Alarm zu schlagen.

Sicher denken jetzt viele: Ah, das haben wir auch – und trotzdem passiert es.
Vermutlich wurde in einem solchen Fall nicht darüber nachgedacht, was nach einem solchen Alarm passieren soll. In den meisten Fällen die ich kenne, gab es keine definierten Prozesse was denn nun im Alarmfall zu tun sei:
Seitengrößenminimierung, Ersatzseite, Umleitung, dynamische Rechenkapazitätserweiterung etc. etc.?
In vielen Fällen wird häufig gedacht: Ich stelle mir zwei Server hin, die ich im Fall des Falles dazuschalte. Meiner Meinung nach ist das herausgeschmissenes Geld: 2 Server für vielleicht 2 Stunden im Jahr ? (Wartung, Update, Aktualisierung, Test, Hardware)

Hand aufs Herz: Wer hat schon einmal mit einer dynamischen Kapazitätserweiterung (Bandbreite/Rechenleistung) auseinandergesetzt ? Wer hat schon einmal über einen Last-Test seine Kapazitätsgrenzen ermittelt ? Wer hat ein Szenario entwickelt, welches Last-Alarme sinnvoll macht (Prozess) ? Wer hat diesen Prozess schon einmal real durchgespielt ?

Wenn jemand diese 5 Fragen mit „ich“ beantworten kann, dann ist er wirklich gut und das Risiko geheist und gespiegelt zu werden ist minimiert!