02. März 2017

Effizientes Eventmanagement für verteilte Cloud-Lösungen

Effizientes Eventmanagement für verteilte Cloud-Lösungen (Bild: pixabay.com/geralt)

Teamübergreifende Koordination von komplexen Systemumgebungen mit Eventmanagement nach ITIL: die Entwicklung unseres Microservice-Moduls synaix EVENT.

In Zeiten von Docker, AWS und Openstack wollen alle in Richtung DevOps. ITIL als Prozessmodell für den Betrieb von Lösungen hört sich da nach einem Koloss aus vergangenen Tagen an.

Doch auch – oder gerade – im Zeichen von continuous integration müssen die interdisziplinären DevOps-Teams, die für eine komplexe Gesamtlösung verantwortlich sind, den Überblick über Meldungen, Alarme und Trigger behalten. Und auch wenn in der Entwickler- und Admin-Welt durch die aktuelle Umgestaltung quasi kein Stein auf dem anderen bleibt: die Anforderung, dass Geschäftsprozesse rockstable und compliant ausgeliefert werden, gilt weiterhin.

Die Entscheidung: ITIL, aber agil!

Wir haben uns in unseren Teams Gedanken gemacht, welches Vorgehen uns bei diesem Spagat unterstützen kann. Durch Analyse unserer Tätigkeiten und Schwachstellen haben wir herausgearbeitet, dass der Ausbau eines sauberen Eventmanagementprozesses aus dem ITIL-Prozessmodell die nächste Evolutionsstufe ist.

Im Sommer 2016 haben wir uns auf den Weg gemacht und einen ersten Prototypen für ein webbasiertes, zentrales Tool zur Bearbeitung von Events erstellt. Eingebettet als Modul in das synWorld Portal konnten die Kollegen aus dem App-Team im September und Oktober erste Erfahrungen sammeln.

Zusammenführung, Bewertung, Koordination: EVENT

Alle Events aus sehr unterschiedlichen Monitoring-, Reporting- und Log-Analyse-Werkzeugen wie z.B. Zabbix oder Graylog werden im neu entwickelten synaix EVENT Tool übersichtlich dargestellt. Die Events werden transparent und nachvollziehbar bewertet und koordiniert und standardisierten Serviceprozeduren (RFP/ CSOA) bis hin zur Eskalation bei Fehlern (INM) zugeordnet.

Information über Kunden und Cloud-Plattformen hinweg

Aus dem Kontext erhalten die Team-Mitglieder weitere Information zu ähnlichen Vorfällen über alle Kunden und Cloud-Plattformen hinweg oder weitere Details zu betroffenen Systemen. So können sich die Bearbeiter schnell einen Überblick verschaffen und den Einordnungs- und Bewertungsschritt in dieser frühen Phase qualitativ hochwertig durchführen. Dies spart eine Menge Aufwand gegenüber der Korrektur von Prozessabläufen in späteren Prozessschritten (INM, PRM).

Aus EVENT kann direkt auf Informationen zum eskalierenden System aus anderen Modulen wie synaix INVENTORY (unsere automatische CMDB) und auch auf die Monitoring-Quellen zugegriffen werden.

Insbesondere die teil-automatisierte Erstellung von Tickets nach dem Bewertungsschritt spart viel Zeit, da alle vorhandenen Informationen automatisch übernommen werden.

Microservice-Architektur ermöglicht schnelle Anpassungen

Sowohl die Abfragen der Quellen als auch das Bereitstellen von Informationen über das Tool sind ausschließlich über APIs organisiert. Diese Microservice-Architektur ermöglicht ein einfaches Austauschen der eingesetzten Monitoring- oder Ausgabetools.

Nach dem Ausprobieren im Team App haben wir im Dezember begonnen, das Modul auch in den anderen Teams einzusetzen. Durch die schnelle Einarbeitung der Feedbacks aus den anderen Teams ist uns eine gute Adaptionskurve gelungen.

Anstelle der früher üblichen getrennten Konzeptions- und Umsetzungsphasen konnten wir durch die agile Vorgehensmethode und die Beschränkung auf schlanke Module sowie die Kommunikation über API-Schnittstellen die schnelle Einführung von neuen Prozessen erreichen.

Reduzierung der Incidents

In nur wenigen Wochen konnten die Serviceprozeduren so noch einmal deutlich verbessert und Incidents reduziert werden.

synaix EVENT hat damit schnell einen festen Platz bei der teamübergreifenden Koordination von komplexen Systemumgebungen erlangt. Wir denken, dass ein so gestalteter ITIL-Eventmanagementprozess ein wichtiger Baustein für das nachvollziehbare und effiziente Management von hoch verfügbaren und auch über mehrere Rechenzentren verteilten Systemen ist.

(Volker Müller)

Keine Kommentare