Day 2 Operations in der Cloud

Seymen Avci

Anwendungen, IT-Systeme und Infrastrukturen durchlaufen alle einen ähnlichen Lebenszyklus: von der Planung (Day 0) über die Implementierung (Day 1) bis hin zum Betrieb (Day 2).

Dieser Blogpost beleuchtet, wie sich die Phasen durch den Einsatz von Cloud-Technologien verändern und wie IT-Teams den resultierenden Herausforderungen im Bereich „Day 2 Operations“ begegnen können.

Day 0, Day 1, Day 2 – Der klassische Lebenszyklus von IT-Systemen

Day 0: In dieser Phase werden die Planung, Vorbereitung und die ersten Schritte für die Implementierung eines neuen Systems oder einer neuen Infrastruktur unternommen. Zu den Aktivitäten an Day 0 gehören in der Regel:

  1. Planung:
    Definieren der Anforderungen, Ziele und Umfang des Projekts. Identifizieren der Ressourcen, die benötigt werden, und Erstellen eines Implementierungsplans.
  2. Evaluierung:
    Bewertung der verfügbaren Optionen, Technologien oder Lösungen, die den Anforderungen entsprechen. Auswahl der am besten geeigneten Lösung für die Implementierung.
  3. Design:
    Erstellen eines detaillierten Designs für das neue System oder die Infrastruktur. Dies beinhaltet die Festlegung der Architektur, Konfiguration und Integration von Komponenten sowie die Definition der erforderlichen Ressourcen.
  4. Beschaffung:
    Anschaffung der erforderlichen Hardware, Software oder Dienstleistungen für die Implementierung - ein Relikt aus der traditionellen IT, das für Cloud-Setups praktisch wegfällt.

Day 1: In dieser Phase findet die Implementierung oder Bereitstellung des Systems statt. Sie umfasst typischerweise:

  1. Installation / Deployment:
    Installation der Hardwarekomponenten (fällt weg im Cloud-Setup) und Installation/Deployment der Softwareanwendungen gemäß dem vorherigen Design und der Planung.
  2. Konfiguration:
    Konfiguration der Systeme und Anwendungen gemäß den spezifischen Anforderungen des Unternehmens. Dies beinhaltet das Einrichten von Netzwerkverbindungen, Benutzereinstellungen, Sicherheitsrichtlinien usw.
  3. Integration:
    Integration des neuen Systems in die vorhandene IT-Infrastruktur oder andere Anwendungen, um die reibungslose Kommunikation und Zusammenarbeit sicherzustellen.
  4. Tests:
    Durchführung von Tests und Überprüfungen, um sicherzustellen, dass das neue System ordnungsgemäß funktioniert und den Anforderungen entspricht. Dies beinhaltet die Überprüfung der Funktionen, die Performance-Tests und die Fehlerbehebung.

Day 2: Im Bereich Day 2 Operations geht es darum, sicherzustellen, dass die Systeme reibungslos laufen, Leistungsziele erreicht werden und die Anforderungen der Benutzer erfüllt werden. Er umfasst die Überwachung, Wartung, Fehlerbehebung, Aktualisierungen, Skalierung und Optimierung.

Zu den Aufgaben im Rahmen von Day 2 Operations gehören hauptsächlich:

  1. Überwachung und Analyse:
    Die fortlaufende Überwachung der Systemleistung, des Ressourcenverbrauchs, der Auslastung und anderer relevanter Metriken, um potenzielle Probleme frühzeitig zu erkennen und zu analysieren.
  2. Fehlerbehebung und Wartung:
    Identifizieren und Beheben von Fehlern, Störungen oder Sicherheitslücken, die im Betrieb auftreten können. Regelmäßige Wartungsarbeiten wie das Einspielen von Patches, Updates oder Konfigurationsänderungen.
  3. Skalierung und Kapazitätsplanung:
    Überwachung des Ressourcenbedarfs und Skalierung der Infrastruktur, um sicherzustellen, dass sie mit steigenden Benutzeranforderungen Schritt halten kann.
  4. Sicherheit und Compliance:
    Gewährleistung der Sicherheit der Systeme und der Einhaltung von gesetzlichen Vorschriften sowie Unternehmensrichtlinien in Bezug auf Datenschutz und Sicherheit.
  5. Optimierung und Verbesserung:
    Identifizierung von Engpässen oder Bereichen, in denen Verbesserungen vorgenommen werden können, um die Leistung, Effizienz oder Benutzererfahrung zu optimieren.

Durch das agile Projektmanagement im Rahmen der DevOps-Strategie bilden Day 0, Day 1 und Day 2 einen Feedback-Loop. Die erhobenen Daten und Erfahrungen aus Day 2 werden genutzt, um Schlüsse für Day 0 der nächsten Iteration des Feedback-Loops zu ziehen.

Day 2 Operations: Aufgaben vor der Cloud

Im Pre-Cloud-Zeitalter war der Betrieb von IT oft manuell und zeitaufwendig. Zu den Day-2-Operations-Aufgaben gehörten:

  • Hardware- und Netzwerkverwaltung: Die IT-Teams mussten physische Server und Netzwerkgeräte im Rechenzentrum verwalten. Dazu gehörte die Überwachung von Hardware- und Netzwerkfehlern, die Wartung von Hardwarekomponenten und die Konfiguration von Netzwerkeinstellungen.
  • Betriebssystem- und Anwendungsverwaltung: Betriebssystem und Anwendungen mussten von den IT-Teams auf jedem Server manuell installiert und konfiguriert werden. Regelmäßige Updates und Patches mussten durchgeführt werden, um sicherzustellen, dass das System sicher und stabil bleibt.
  • Überwachung und Fehlerbehebung: Das System musste von den IT-Teams kontinuierlich überwacht werden, um Probleme frühzeitig zu erkennen. Wenn es zu Fehlern kam, mussten diese manuell untersucht und behoben werden.
  • Backup und Wiederherstellung: Die IT-Teams mussten durch regelmäßige Backups sicherstellen, dass die Systeme im Notfall wiederhergestellt werden können.

Day 2 Operations in der Cloud: Das hat sich verändert

Mit dem Aufkommen der Cloud-Technologie haben sich die Day-2-Operations-Aufgaben erheblich verändert. Die Cloud automatisiert viele zeitaufwendige Aufgaben, die zuvor manuell durchgeführt wurden. Dadurch können IT-Teams sich auf strategische Aufgaben konzentrieren und den Wert für das Unternehmen steigern, anstatt sich mit manuellen Aufgaben zu beschäftigen. Die wichtigsten Änderungen sind folgende:

  • Hardware- und Netzwerkverwaltung: In der Cloud müssen sich IT-Teams nicht mehr um physische Server und Netzwerkgeräte kümmern. Cloud-Provider wie AWS, Azure und Google Cloud bieten virtuelle Server und Netzwerke, die automatisch skaliert, verwaltet und konfiguriert werden können.
  • Betriebssystem- und Anwendungsverwaltung: In der Cloud müssen IT-Teams keine Betriebssysteme und Anwendungen mehr manuell installieren oder konfigurieren. Cloud-Provider bieten vorgefertigte Images, die mit einem Klick bereitgestellt werden können. Außerdem bieten sie automatische Updates und Patches, um sicherzustellen, dass das System sicher und stabil bleibt.
  • Überwachung und Fehlerbehebung: Cloud-Provider bieten Tools und Dienste zur Überwachung von Anwendungen und Systemen in Echtzeit. Dadurch können IT-Teams Probleme schnell erkennen und beheben, bevor sie zu größeren Ausfällen führen.
  • Backup und Wiederherstellung: Cloud-Provider bieten automatische Backups und Wiederherstellungsdienste, die es IT-Teams ermöglichen, schnell auf Ausfälle zu reagieren und Daten wiederherzustellen.
Grafik: Komplexität von Day 2 Operations in verschiedenen Setups

Herausforderung Day 2 Operations im Cloud Native Setup

Ein Cloud-natives Setup bringt viele Vorteile mit sich, zum Beispiel erhöhte Geschwindigkeit in der Softwareentwicklung und das volle Ausschöpfen des Cloud-Potenzials für den Betrieb von Applikationen. Die Komplexität für Entwickler reduziert sich, wird allerdings auf die Systemarchitektur verlagert.

Die Microservices-Architektur bringt Herausforderungen für die Wartung und den Support mit sich, denn verteilte Architektur erschwert die Wartung und den Überblick über das System. Die betriebene Software wird ebenfalls hochfrequenter aktualisiert. Den Überblick über diese Veränderungen und deren Effekte auf den Betrieb zu behalten wird dadurch erschwert.

Die Masse an Tools für Entwicklung, Bereitstellung, Monitoring und Support von und für Software ist enorm. Das Aneignen von Expertise und Überblick kostet Zeit, zumal diese Tools oft voneinander entkoppelt arbeiten.

Eine weitere Herausforderung ist einfach der Shift, den DevOps mit sich bringt, also die Veränderung von zentralisierten IT-Teams hin zu dezentralisierten Entwicklerteams, die mit DevOps- und SecOps-Teams zusammenarbeiten, um ihre Software zu betreiben, getreu dem Prinzip „you built it, you run it“.

Man kann deswegen zu Recht behaupten, dass Cloud Native einen Shift der Komplexität von Day 1 Richtung Day 2 mit sich bringt, welcher durch DevOps immer mehr auf den Schultern der Entwickler lastet. Zudem macht der aktuelle Fachkräftemangel es schwer, hauseigene Expertenteams zu bilden.

DevOps hat nach wie vor eine Berechtigung. Im Cloud-Native-Kontext muss seine Implementierung aber überdacht werden, da die Entwickler durch die Komplexität der Day 2 Operations immer weniger dazu kommen, Software weiterzuentwickeln. Es ist wichtig, eine Ops-Strategie zu entwickeln, die Dev und Ops nicht erneut in die Abschottung voneinander treibt.

Lösungsansätze für Day 2 Operations im Cloud-Native-Kontext

Im Cloud-Native-Kontext müssen Arbeits- und Teamstrukturen überdacht werden, um die Entwickler zu entlasten. Es haben sich zwei Instrumente herauskristallisiert, die die Arbeitslasten für die Teams wieder in ein Gleichgewicht bringen sollen. Die beiden Lösungsansätze schließen sich nicht aus. Im Gegenteil: Sie werden häufig kombiniert.

SRE (Site Reliability Engineer)

  • SRE ist eine Rolle innerhalb eines DevOps-Teams. Diese Rolle hat die Aufgabe, Bottlenecks zu verhindern, indem sie Ops und Dev bei einem Mehraufwand, der den Arbeitsablauf behindern könnte, unterstützen.

IDP (Internal Developer Platform)

  • Eine IDP ist eine Sammlung von Tools, Services und Prozessen, die Softwareentwickler-Teams in ihrer Arbeit unterstützen, diese beschleunigen und dabei die zugrundeliegende Infrastruktur abstrahiert.
  • Das Platform-Engineering-Team ist verantwortlich für die Verwaltung der IDP und stellt den Entwicklern zentralisierte Expertise zur IDP-Nutzung bereit.
  • Die IDP bildet somit eine Schnittstelle für Entwickler und das Platform-Team, um geteilte Verantwortung und Kommunikation zwischen Devs und Ops zu gewährleisten.

Was dabei häufig unterschätzt wird: In einem DevOps-Setup, bei dem Entwicklern Tools für die Entwicklung, Bereitstellung und Überwachung an die Hand gegeben werden, benötigt man weiterhin Teams, die diese Plattform-Tools warten. Dazu gehören Updates, die Fehler in der Funktion oder Sicherheitslücken schließen, aber auch Anpassungen und Erweiterungen der Plattform.

Fazit

Day 2 Operations rückt zu Recht immer mehr in den Fokus von Unternehmen, die Cloud-Technologien einsetzen. Die Komplexität, die auf die Day 2 Operations verlagert wird, behindert Entwicklerteams und wirkt sich dadurch negativ auf die Wettbewerbsfähigkeit des Unternehmens aus. SRE-Subteams oder -Rollen und die Nutzung einer IDP haben sich bewährt, um den Knoten zu lösen.

Möchten Sie mehr darüber erfahren oder suchen Sie Unterstützung beim Betrieb Ihrer Cloud-Systeme? Wir freuen uns darauf, von Ihnen zu hören.

Nachricht an Claranet

Claranet Managed Container Services

Claranet Managed Kubernetes Services

Was Cloud Native bedeutet - und was nicht?

Was ist DevOps? Vorteile, Nachteile und Grenzen

Geschrieben von Seymen Avci - Cloud Native Engineer

Seymen Avci ist Cloud Native Engineer im Claranet Team Cloud & Application Modernisation. Er ist begeistert davon, komplexe Sachverhalte einfach zu erklären. Diese Begeisterung begleitete ihn durch seine Tätigkeiten in Gebieten der molekularen Medizin und Bioinformatik. Seymen liefert nun im Claranet Blog wertvolle Einblicke aus der Praxis.