++UPDATES+++UPDATES+++UPDATES+++UPDATES+++UPDATES+++UPDATES++


In diesem Dokument stellen wir aktuelle Informationen zur aktuellen Störung bereit. Für die Anregung zu diesem Dokument möchten wir
 David Jardin herzlich danken. Wir werden die Erfahrungen aus dem aktuellen Vorfall auch in Zukunft für eine bessere Kommunikation an unsere Kunden nutzen!

Montag, 15.01.2018

17:46 Uhr:
Unter folgendem Link findet ihr die Stellungnahme zur Netzwerkstörung am 10.01.2018:

https://www.mittwald.de/lp/stellungnahme

Die Stellungnahme wird parallel auch per E-Mail versendet.

Wir danken erneut für eure Geduld!

13:40 Uhr: Aktuell arbeiten wir an der detaillierten Stellungnahme und werden diese im Laufe des heutigen Tages bereit stellen. Erfreulicherweise laufen alle Systeme bis auf wenige Ausnahmen wieder regelkonform.


Samstag, 13.01.2018

14:20 Uhr: Ab jetzt sind wir für Sie per Ticketsystem, E-Mail, über unsere Notfallhotline oder per Twitter-Direktnachricht für Sie erreichbar.

Über unsere reguläre Servicehotline können Sie uns wieder ab Montag um 08:15 Uhr erreichen.

Unser Netzwerk läuft wieder stabil. Im Hintergrund arbeiten wir weiter an der Optimierung der Systeme, um mit weiteren präventiven Maßnahmen die Erreichbarkeit nachhaltig sicherzustellen.


Freitag, 12.01.2018

17:20 Uhr Am Samstag (13.01.18) schalten wir unsere Telefonhotline von 09:00-14:00 Uhr speziell für Kunden mit aktuellen Einschränkungen in der Erreichbarkeit ihrer Webseite ein.

17:10 Uhr Projekte mit Varnish-Caching sind inzwischen wieder aktiv und erreichbar.

16:12 Uhr Lösungen zu den noch nicht erreichbaren Varnish-Systemen wurden entwickelt, erste Projekte sind bereits verfügbar. Wir gehen derzeit davon aus, das die Projekte in den nächsten 60 Minuten verfügbar sind.

15:15 Uhr: Letzte Abstimmungen zu noch nicht erreichbaren Serversystemen finden inzwischen persönlich statt.

Bei Twitter sowie über unsere Notfallhotline stehen wir das gesamte Wochenende über bei Fragen zur Verfügung. Hier im Dokument werden wir die Kommunikation vorerst beenden. Sollten sich wichtige Änderungen ergeben, werden wir selbstverständlich sowohl hier als auch auf den Social-Media-Kanälen informieren. Auch den Link zu unserer Stellungnahme werden wir am Montag hier veröffentlichen.

Wir entschuldigen uns noch einmal ausdrücklich und in aller Form für die Unannehmlichkeiten, die die Störung der zurückliegenden Tage verursacht hat!

12:05 Uhr: Aufgrund vermehrter Zugriffe auf unsere Systeme kann es in den kommenden Minuten zu kurzen Einschränkungen in der Erreichbarkeit von Webseiten kommen.

10:15 Uhr: Die Behebung der aktuellen Probleme im Zusammenhang mit Varnish werden noch etwas Zeit in Anspruch nehmen. Wir informieren an dieser Stelle regelmäßig zum Thema.

9:15 Uhr: Die aktuellen Einschränkungen in der Erreichbarkeit von Kundensystemen mit Varnish werden zum aktuellen Zeitpunkt noch behoben. Auf die jeweiligen Ursachen gehen unsere Entwickler derzeit individuell ein und informieren abschließend gezielt die betroffenen Kunden.

Wir werden am kommenden Montag eine ausführliche Nachbetrachtung zur Störung der letzten Tage veröffentlichen. Darin werden wir näher auf die Ursachen sowie die von uns umgesetzten Lösungen eingehen. Auch Maßnahmen, die ähnliche Vorfälle in Zukunft vermeiden sollen, werden wir beleuchten. Damit werden wir auch zahlreiche Fragen beantworten, die uns in den letzten Tagen per Twitter und Facebook erreicht haben. Heute möchten wir die Energie jedoch zunächst dafür nutzen, die Situation abschließend zu klären und letzte Unregelmäßigkeiten zu beheben.

7:55 Uhr: Ab 8:00 Uhr ist unser Kundenservice telefonisch unter 0800/440-3000 erreichbar. Individuelle Rückfragen klären wir gerne im persönlichen Gespräch.

6:55 Uhr: Bei Webseiten, die den Web-Beschleuniger Varnish nutzen, kommt es aktuell noch zu Einschränkungen in der Erreichbarkeit. Die Ursache für diese Problematik wurde bereits ermittelt und wird in Kürze behoben.

6:50 Uhr: Auch FTP-Verbindungen können nun wieder wie gewohnt hergestellt werden.

6:30 Uhr: Ein erstes Update zum aktuellen Stand. Das Einspielen der Konfigurationsdateien wurde erfolgreich abgeschlossen. Damit sind zum aktuellen Zeitpunkt auch alle vServer inkl. SSL-Zertifikaten grundsätzlich wieder erreichbar. Wie bereits vor einigen Stunden erwähnt, kann es in bestimmten Fällen noch zu Einschränkungen kommen, die wir in den kommenden Stunden klären werden. Betroffene Kunden möchten wir bitten, ein kurzes Ticket zu eröffnen und darin die Domain sowie das jeweilige Problem kurz zu beschreiben. So können wir alle Anfragen schnell und zielgerichtet an das jeweils zuständige Entwicklerteam weiterleiten. Für diese Unterstützung bedanken wir uns bereits im Voraus ganz herzlich.


Weitere Informationen zum aktuellen Stand folgen an dieser Stelle voraussichtlich gegen 8:00 Uhr.

03:15 Uhr: Wir gehen aktuell davon aus, dass bis 8:00 Uhr morgens wieder alle Webseiten und Shops auch inkl. SSL erreichbar sein werden. Im Falle bestimmter Konfigurationen werden noch vereinzelt Störungen auftreten können, die wir im Laufe des Vormittags individuell analysieren und beheben werden.

01:55 Uhr: Im Zuge der aktuellen Arbeiten haben wir weitere Performance-Engpässe ermittelt und eliminiert. Hiermit kann die Geschwindigkeit der Anpassungen weiter gesteigert werden.

00:10 Uhr: FTP ist leider noch nicht wie gewohnt verfügbar. Wir empfehlen die (übergangsweise) Nutzung von SSH oder sFTP über SSH (Port 22). Für die Verbindung kann die Server IP-Adresse als Host verwendet werden.

Donnerstag, 11.01.2018

22:10 Uhr: 80% aller vom Ausfall betroffenen Kundensysteme sind inzwischen wieder erreichbar. Das Team arbeitet natürlich nachwievor daran, die Erreichbarkeit der noch verbleibenden Systeme möglichst zeitnah wiederherzustellen.

20:15 Uhr: Immer mehr vServer mit SSL sind inzwischen erreichbar. Die zahlreichen Optimierungen des heutigen Tages machen sich positiv bemerkbar, der Prozess läuft nun reibungslos. Allen Kunden, deren Webseiten in den kommenden Stunden wieder ans Netz gehen, danken wir für den extra dicken Geduldsfaden!

19:25 Uhr: Wir werden selbstverständlich rund um die Uhr auf den Social Media Kanälen sowie hier im Dokument über den aktuellen Stand berichten. Zudem möchten wir uns ganz herzlich für die zahlreichen positiven Rückmeldungen und die mutmachenden, aufmunternden und motivierenden Nachrichten bedanken, die uns in den letzten Stunden erreicht haben! Diese Unterstützung ist in einer solchen Situation alles andere als selbstverständlich... Das gibt dem gesamten Team viel Energie! Vielen Dank!!

18:05 Uhr: Update zur aktuellen Störung


Den ursprünglich für 22:00 Uhr geplanten Abschluss unserer aktuellen Arbeiten werden wir zeitlich nicht halten können. Aufgrund der Erfahrungen aus der vorherigen Nacht müssen wir beim Einlesen der Konfigurationsdateien deutlich häufiger als erwartet Prüfungen durchführen, um einen reibungslosen Ablauf sicherzustellen. Zudem fertigen wir vom aktuellen Stand der bislang eingelesenen Konfigurationsdatei regelmäßig Backups an. So können wir bei möglichen Störungen schnell auf den zuletzt funktionierenden Stand zurückgehen. Die ursprünglich berechneten Zeiten haben diesen Mehraufwand nicht enthalten. Wir gehen daher aktuell davon aus, dass die letzten Serversysteme nicht vor 8:00 Uhr morgen früh erreichbar sind.

In dieser Zeit werden wir weiterhin wie geplant schrittweise Serversysteme ans Netz bringen können.

Vor einer halben Stunde sind zudem zwei Ersatzhardwarekomponenten eingetroffen, mit denen wir aktuell in einem parallelen Testbetrieb versuchen, einen ordnungsgemäßen Betrieb herzustellen. Da es sich um sehr seltene Spezialhardware handelt, hat sich auch die Suche nach geeigneter Ersatzhardware schwieriger als zunächst erwartet gestaltet.

Neben dem aktuellen Einlesen der Konfigurationsdateien arbeiten wir also parallel an zwei weiteren Lösungsstrategien. Hierbei werden wir inzwischen auch vor Ort von Spezialtechnikern der jeweiligen Anbieter unterstützt.

  

Anbei einige Impressionen aus unserem Team...

17:00 Uhr: Aktuell findet eine Besprechung aller Techniker statt.

15:30 Uhr: Uns erreichen aktuell zahlreiche Anfragen, ob es einen sinnvollen Workaround gibt, um Kundenprojekte mit SSL-Zertifikat temporär auf http:// umzustellen. Auch nach intensiven Recherchen und Tests können wir kein einheitliches Vorgehen empfehlen. Theoretisch ist ein solches Vorhaben zwar technisch möglich, birgt jedoch zahlreiche Fehlerquellen. Zudem sind die häufig notwendigen DNS-Anpassungen ebenfalls mit starken zeitlichen Verzögerungen verbunden.

14:30 Uhr: Falls eine SSH-Verbindung nicht möglich ist, bitte im SSH-Client als Host alternativ p12345.mittwaldserver.info oder die Server-IP verwenden. Diese wird im Kundencenter im jeweiligen Account angezeigt. Dieser Workaround wird in vielen Fällen helfen.


   (Beispieldarstellung - bitte die jeweilige IP dem Kundencenter entnehmen)


14:15 Uhr:
 Inzwischen ist der Großteil der vServer ohne SSL-Zertifikat wieder online.

13:50 Uhr: Auch ein Teil unserer vServer mit SSL-Zertifikat ist inzwischen wieder erreichbar. Allerdings wird der gesamte Vorgang nicht vor den späten Abendstunden abgeschlossen sein.

13:30 Uhr: Das phpMyAdmin im Kundencenter ist nun wieder erreichbar. Die FTP-Verbindungen werden aktuell noch geprüft.

13:10 Uhr: Der Großteil der bislang nicht erreichbaren vServer ist inzwischen ebenfalls wieder online. Laut aktueller Einschätzung unserer Techniker sind in ca. 45 Minuten auch die noch verbleibenden vServer ohne SSL wieder extern erreichbar.

12:37 Uhr: Wir überprüfen aktuell die FTP-Verbindung. Ein Zugriff per SSH ist bereits möglich.

11:40 Uhr: Auch der Kunden-Webmailer unter webmail.webspaceconfig.de ist nun wieder erreichbar.

11:35 Uhr: Die Erreichbarkeit von webmail.webspaceconfig.de wird in Kürze wiederhergestellt.

11:25 Uhr: phpMyAdmin ist aktuell für alle unsere Systeme nicht erreichbar. Unser Webmailer ist unter webmail.mittwald.de nun wieder erreichbar.

11:20 Uhr: Wir konnten die Unregelmäßigkeiten überprüfen und die Ursache ermitteln. Entgegen unseres bisherigen Kenntnisstandes sind aktuell noch einige vServer ohne SSL nicht erreichbar. Wir gehen derzeit davon aus, dass diese innerhalb der nächsten 90 Minuten wieder erreichbar sein werden.

11:06 Uhr: Nach vermehrten Meldungen, dass auch Webhosting-Pakete und vServer ohne SSL noch immer nicht erreichbar sind, kümmern sich unsere Entwickler darum, diese Unregelmäßigkeiten zu prüfen. Den genauen Grund, warum manche Websites noch immer betroffen sind, können wir gerade noch nicht genau festmachen.

10:20 Uhr: Weitere Hintergrundinformationen zum aktuellen Ausfall


Hiermit möchten wir uns gerne zu den technischen Hintergründen des aktuellen Ausfalls äußern.


Unsere Netzwerkinfrastruktur hat mehrere zentrale, redundant ausgelegte Netzwerkkomponenten, über die wir sehr intelligent steuern können, welche IP auf welchen Servern läuft. Ebenfalls werden über diese Netzwerkkomponenten die SSL-Zertifikate verarbeitet und auf den zuständigen Server zur weiteren Verarbeitung weitergeleitet. Diese Komponenten haben umfangreiche Konfigurationsdateien, die zum ordnungsgemäßen Betrieb in das System hineingeladen werden.

Aufgrund eines technischen Problems (Meldung siehe 15:40 Uhr) werden diese Konfigurationen aktuell neu in das System geladen. Da dieser Vorgang pro Kundenkonfiguration (IP & SSL) etwa zwei Sekunden in Anspruch nimmt, ergibt sich daraus eine entsprechende Bearbeitungsdauer. In der Art und Weise der Bearbeitung, zuerst die IP – dann SSL, liegt auch der Grund dafür, dass Webseiten ohne SSL-Zertifikat schneller wieder verfügbar sind als Webseiten mit SSL.

Dedizierte Managed Server als auch Root-Server sind vom aktuellen Ausfall nicht betroffen, da sich diese in einem anderen Netzsegment befinden.

Wir stehen mit dem Hersteller der Netzwerkkomponenten im intensiven Austausch und haben bereits erste Optimierungen und Verbesserungen anwenden können, um das zeitliche Vorgehen zu beschleunigen. Auch darüber hinaus arbeiten wir an zeitlichen Optimierungen, um die Verfügbarkeit aller Systeme möglichst früh wiederherzustellen. Dennoch müssen wir derzeit davon ausgehen, dass die letzten vServer mit SSL (http-Zugriffe funktionieren bereits wieder) erst in den späten Abendstunden wieder verfügbar sein werden.

Weiterhin arbeiten wir aktuell an alternativen Lösungen mit Hardwarekomponenten anderer Hersteller, um eine mögliche weitere Konfiguration aufzusetzen, die eventuell eine schnellere Inbetriebnahme erlaubt. Sobald wir sicher einschätzen können, welche der aktuellen Lösungsansätze am schnellsten zum Ziel führt, werden wir unser Vorgehen entsprechend anpassen.

9:50 Uhr: Wir stoßen aktuell an die Grenzen unserer Telefonleitungskapazitäten. Falls ein Anruf nicht möglich ist, bitte einige Minuten später noch einmal versuchen. Wir halten alle verfügbaren Leitungen für die Störung offen.

9:15 Uhr: Weiterer Austausch der Admins und der Führungsmannschaft hat soeben stattgefunden. Wir arbeiten nach wie vor an der zeitlichen Optimierung, um die Wiederverfügbarkeit aller vServer mit SSL zu beschleunigen. Alle geben gerade alles. Interne Notiz: Ein dickes Kompliment an die Kollegen!

8:40 Uhr: Falls eine FTP-Verbindung zum Account nicht möglich ist, bitte im FTP-Programm als Host alternativ p12345.mittwaldserver.info oder die Server-IP verwenden. Diese wird im Kundencenter im jeweiligen Account angezeigt. Dieser Workaround wird in vielen Fällen helfen.


   (Beispieldarstellung - bitte die jeweilige IP dem Kundencenter entnehmen)

8:20 Uhr: Der Großteil der Webhosting-Tarife mit SSL ist nun wieder erreichbar. Die Verfügbarkeit der vServer mit SSL wird aufgrund der Komplexität und des Umfanges noch einige Zeit in Anspruch nehmen. Wir gehen derzeit davon aus, dass die ersten vServer mit SSL ab ebenfalls 8:30 wieder verfügbar sein werden. In einer ersten vorsichtigen Hochrechnung gehen wir davon aus, dass die letzten vServer mit SSL bis um 22:00 Uhr wieder verfügbar sein sollten. Wir prüfen parallel weitere Möglichkeiten, den Vorgang zu beschleunigen. Ebenfalls prüfen wir derzeit, ob wir genauere Zeitfenster nennen können, wann welcher vServer mit SSL wieder verfügbar sein wird.

Die Leitungen im Kundenservice sind ab sofort wieder geöffnet: 0800/440-3000
Unsere Kolleginnen und Kollegen stehen bei Fragen gerne zur Verfügung.

ältere Informationen...

15:40 Uhr: Ausfall einer zentralen Netzwerkkomponente und Schwenk auf das redundante Gerät. Dabei kam es zu Inkonsistenzen in der Konfiguration und einige Hosts waren nicht erreichbar. Beim Abgleich der Konfigurationen gab es einen Config Verlust auf beiden Geräten. Anschließend war das Neuladen der Konfiguration nicht mehr möglich und alle Hosts im Bereich managed vSserver, Webhosting und E-Mail waren offline. Durchgehend online sind die Server im Bereich dedicated managed Server als auch root.

16.00 Uhr: Verschiedene Lösungsansätze wurden getestet. Der Support des Herstellers wurde kontaktiert. Das Einspielen eines vorhandenen Config File Backups war auf Grund eines Bugs in der Appliance nicht möglich. #höheregewalt

16.30 Uhr: Erfolgreich ist das einspielen jedes einzelnen Hosts via API in das Netzwerk Device. Ein Neuladen der gesamten Config ist immer noch nicht möglich. Pro Host dauert das Laden ca. 4 Sekunden. Wir stehen im Kontakt mit dem Hersteller.

17.00 Uhr: 1. übergreifendes Meeting mit diversen Fachbereichen und der Unternehmensführung. Die Protokolle  HTTP und Mail lassen sich am schnellsten online bringen und werden daher als 1. behandelt.

17.15 Uhr: Die ersten Hosts gehen wieder online. Die Hochrechnung geht von ca. 1.00 Uhr für alle HTTP Hosts aus. HTTPS wird anschließend geladen.

18.30 Uhr: Abstimmung zur Beschleunigung des Going Online und der Gewährleistung eines stabilen Betriebes. Ca. 15 Admins sind aktiv am arbeiten.

19.00 Uhr: Unsere shared Hosting Pakete sind via http wieder erreichbar. https ist noch offline. https://www.mittwald.de/hosting/webhosting


22.00 Uhr: Mailserver sind wieder online. Ca. 30000 Emails in der Queue werden nach und nach versand. Die von extern nicht zugestellten Mails werden je nach Konfiguration des Versenders früher oder später auch zugestellt.

Postfix Standard Konfiguration z.B.:



22:25 Uhr: ca. 55% aller managed vServer (https://www.mittwald.de/hosting/vserver) sind via HTTP wieder erreichbar. Die Zeit bis zur Wiederherstellung von HTTPS (SSL) wird aktuell berechnet. Ein Update dazu ca. um 23.20 Uhr. Wir versuchen Ecommerce Seiten zu bevorzugen.

23.00 Uhr: Nächster Austausch der aktiven Admins und der Führungsmannschaft um weitere Infos aufzubereiten. #inprogress

23.20 Uhr: Noch in Progress...

23.30 Uhr: PrestaShop, Magento und ShopWare werden priorisiert wieder mit HTTPS versorgt. Genaue Zeiten folgen.

23.35 Uhr: ca. 68 % aller managed vServer (https://www.mittwald.de/hosting/vserver) sind via HTTP wieder erreichbar. Wenn alles gut läuft ist http und https um 2.30 Uhr wieder online. HTTPS dauert leider aufgrund des Aufwandes im keyhandling länger.

23:51 Uhr: Die angesammelten E-Mails aus unseren Queues wurden alle erfolgreich verschickt und machen sich auf den Weg zum Empfänger.

00:12 Uhr: Work in Progress



0:35 Uhr: SSH war bis dato nicht erreichbar, ist jetzt jedoch bei allen die via http erreichbar sind auch wieder verfügbar. Unsere Admins sind vorsichtig optimistisch.

1:00 Uhr: Nächster Austausch der aktiven Admins und der Führungsmannschaft um weitere Infos aufzubereiten. #inrogress

1:30 Uhr: Finaler Endspurt von http ca. 85-90% abgeschlossen. HTTPS wird anschließend gestartet. 2.30 Uhr können wir eventuell für https nicht halten.

2:30 Uhr: Updates laufen weiter

3:00 Uhr: Reine HTTP Hosts sind wieder erreichbar. Kunden mit einer eigenen IP sind sind nocht nicht via http und noch nicht via https erreichbar. SIEHE UPDATE 6:30 Uhr

3:50 Uhr: HTTPS Hosts werden wieder angelegt.

Prognose aktuell:

Webhosting Pakete mit HTTPS plus Verfügbarkeit von let`s encrypt sind wieder erreichbar bis ca. 7.00 Uhr. (https://www.mittwald.de/hosting/webhosting)

managed vServer mit HTTPS im Worst Case wieder erreichbar 11.01. um 22.00 Uhr. Shopsysteme werden bevorzugt behandelt. (https://www.mittwald.de/hosting/vserver)

Die Zeiten sind erstmal eine grobe Prognose, unsere Admins arbeiten an einer Beschleunigung der Abarbeitung.”

Alle Accountdaten sind via pXXXX.webspaceconfig.de erreichbar. Die Domains die auf eine
eigene IP zeigen sind teilweise noch offline.

4:45 Uhr: Webhosting Pakete mit HTTPS plus Verfügbarkeit von let`s encrypt sind wahrscheinlich früher erreichbar ca. 6.00 Uhr. (https://www.mittwald.de/hosting/webhosting)

6:30 Uhr: Aufgrund einer erneuten Störung sind einige Webhosting Pakete aktuell wieder nicht erreichbar. Wir prüfen derzeit den momentanen Stand und melden uns sehr zeitnah mit weiteren Informationen. Weitere Workarounds werden aktuell geprüft.

Update/Hintergrundinfos: Aufgrund Auffälligkeiten beim Einspielen der neuen Host-Konfiguration hatten wir uns um 6:00 Uhr dazu entschieden, die Konfiguration vom Stand um 5:00 Uhr wieder neu aufzubauen. Dies wirft uns zeitlich somit eine Stunde nach hinten. Dieser Schritt erfolgte auf Grundlage von Risikoabwägung im Interesse einer schnellen und stabilen Verfügbarkeit.


7:10 Uhr: Weiterer Austausch der Admins und der Führungsmannschaft. Weitere Infos folgen um 7:35.


7:35 Uhr: Die Meldung von 6:30 Uhr wurden soeben mit Hintergrundinformationen geupdated

7:45 Uhr: Weitere Infos folgen in Kürze. Wir prüfen parallel weitere Möglichkeiten, den Vorgang zu beschleunigen.