Hallo, heute mal ein "Gastbeitrag" vom deutschen Netzwerk-Team.

Wir möchten kurz ein Thema  besprechen, welches durch den  Security Fix MS08-067 einmal wieder zu Tage getreten, aber nicht spezifisch für diesen Hotfix ist. Details zum Security Fix MS08-067: http://blogs.technet.com/msrc/archive/2008/10/27/microsoft-out-of-band-security-bulletin-ms08-067-webcast-q-a.aspx

Wir haben in den letzten Tagen eine Reihe von Support Anfragen bekommen im Sinne von: "Nach der Installation von Security Fix X funktioniert Y nicht mehr", wobei "X" hier der Security Fix MS08-67 war und "Y" eine beliebige Applikation oder Funktionalität. Gerade bei "außer der Reihe" Security Fixes steigt bei uns die Anfragelast in Bezug auf augenscheinlich vom Hotfix verursachte Probleme. Oftmals - so auch in diesem Fall - werden etwaige Probleme jedoch nicht von dem konkreten Hotfix verursacht, sondern von Aktionen bzw. Änderungen, die vor der Installation durchgeführt wurden. Da bei solchen kritischen Hotfixes dann oftmals die notwendigen Rollout-Prozeduren nicht befolgt oder nur lückenhaft durchgeführt werden, kommt es infolge dessen immer wieder zu Problemen. Natürlich kann man nie 100% ausschließen, dass ein Problem, welches man nach der Installation eines Security Patches beobachtet, durch den Security Fix versursacht wird. In den allermeisten Fällen ist dem allerdings nicht so.

Wie kann das zustande kommen?

Der erste Grund ist purer Zufall. Probleme treten nicht immer nur nach direkten Aktionen auf, sondern können unter verschiedenen Umständen oder Kombinationen von Ereignissen auftreten. Es muß also nicht an einem Hotfix liegen.

Ein weiterer Grund ist der mit der Installation verbundene Reboot. Ein Reboot an sich verursacht nun allein auch noch kein Problem - wenn allerdings durch den Reboot dann Änderungen aktiv werden, welche seit dem letzen Systemstart vorgenommen wurden, sieht es oftmals so aus.

Ein Beispiel dazu:

  • Das System wird am 1. Oktober gestartet.
  • Am 3. Oktober wird eine Komponente aktualisiert, der eigentlich fällige Reboot aber ausgelassen.
  • Am 8. Oktober wird eine Konfigurationsänderung an einem Applikationsservice vorgenommen, welche beim nächsten Start der Applikation aktiv wird.
  • Am  15. Oktober kommt ein Security Fix.
  • Dieser wird installiert und ein Reboot durchgeführt.
  • Danach gibt es ein Problem. Die letzte Änderung war der Security Fix. Also muss es an diesem liegen - oder etwa doch nicht?

Wie schafft man hier Klarheit?

Zum einen sollte man in jeder Umgebung ein change log auf der bzw. für die jeweilige Maschine führen, in dem etwaige Änderungen penibel eingetragen werden. Man kann hiermit zumindest nachvollziehen, welche Änderungen in der Vergangenheit eventuell im Zusammenhang mit dem Problem stehen könnten.
Zum anderen kann man auch vor der Installation des Security Fixes einen Reboot durchführen. Wenn dann schon etwas nicht mehr wie erwartet funktioniert, kann man mit dem für das jeweils beobachtete Problem angemessenen Troubleshooting beginnen.

Wie man bei einem solchen Troubleshooting vorgehen muß, ist sicherlich immer im Einzelfall zu entscheiden - daher kann hier kein grundsätzlicher Leitfaden gegeben werden. Jedoch ist für ein qualifiziertes Troubleshooting nicht nur die Annahme wichtig, es könnte an einem gerade installierten Hotfix liegen. Vielmehr muß eine solide Datengrundlage geschaffen werden, dazu zählt etwa:

  • das Überwachen der Eventlogs (ok, auf diese Idee wird man bei den meisten Problemen schon gekommen sein ;-) …)
  • das schon vor einem Fehler begonnene Sammeln von Basisdaten eines Systems zum Vergleich im Fehlerfall (Basislinien Erstellung)
  • das Auswerten von applikationsspezifischen Logfiles
  • das Betrachten von Änderungen im Umfeld des betroffenen Systems (Netzwerkumgebung etc.).

Auch wenn diese Punkte erst einmal recht einfach klingen - sehr oft stellen wir fest, daß diese grundlegenden Überwachungen / Prüfungen nicht erfolgen, gerade wenn im Fehlerfall das Problem eine gesamte IT-Umgebung betrifft und daher schnell „eskaliert“ wird.

Als Grundlage zum Betrieb von Serverdiensten stellen wir übrigens einige Operations Guides zur Verfügung, die viele Hinweise zu Best Practices verschiedener Produkte geben und auch einige Punkte enthalten, wie man Fehler verhindern oder eingrenzen kann, siehe http://search.live.com/results.aspx?q=site%3Atechnet.microsoft.com+server+operations+guide .

Viele Grüße
Christian