Logo United Internet AG

Site Reliability Engineer

Job

  • Level
    Erfahren
  • Job Feld
    IT, DevOps
  • Anstellung
    Vollzeit
  • Vertragsart
    Unbefristetes Dienstverhältnis
  • Ort
    Berlin
  • Arbeitsmodell
    Hybrid, Onsite
  • Job Zusammenfassung

    In dieser Rolle arbeitest du eng mit Entwicklungsteams und übernimmst die Verantwortung für die Stabilität, Sicherheit und Performance komplexer Systeme, während du Monitoring-Lösungen pflegst und Infrastruktur automatisierst.

    Job Technologien

    Deine Rolle im Team

    • Wir suchen einen hochqualifizierten und erfahrenen Site Reliability Engineer, der unser Team im 24/7-Shift unterstützt.
    • Die SRE-Abteilung L2 betreibt sämtliche IONOS-Cloud-IaaS- und PaaS-Dienste.
    • Als Site Reliability Engineer bist Du für die Stabilität, Sicherheit und Performance unserer komplexen, verteilten Systeme verantwortlich.
    • Du arbeitest eng mit den Entwicklungsteams zusammen, um skalierbare und zuverlässige Infrastrukturen zu entwerfen, zu implementieren und zu betreiben sowie Prozesse zu automatisieren und zu optimieren.
    • Technischer Level-2-Support mit direktem Kundenkontakt.
    • Pflege von Monitoring-, Logging- und Alerting-Lösungen (z. B. Prometheus, Grafana, Loki) zur proaktiven Erkennung von Problemen im Schichtbetrieb und Mitwirkung bei der Lösung komplexer Issues in verteilten Systemen.
    • Fehlersuche in Netzwerken (LAN/WAN/VPN, DNS, DHCP) und Speichersystemen (File/Object/Block); Bereitstellung und Betrieb hochverfügbarer Services auf Linux und Kubernetes (Helm-Charts).
    • Aufbau und Pflege von Infrastructure-as-Code, Automatisierung und Playbooks mit Ansible, Terraform, GitLab CI/CD, Argo CD sowie Skriptsprachen wie Bash, Python und Go.
    • Zusammenarbeit mit Entwicklungsteams zur Verbesserung von Prozessen und Deployments sowie zur reibungslosen Integration neuer Services und Applikationen in unsere Cloud- und Kubernetes-Umgebung.
    • Gewährleistung eines stabilen und sicheren Plattformbetriebs, inklusive End-to-End-Incident-Management von der ersten Analyse über die Lösung bis hin zur Nachbearbeitung im Rahmen des Problem-Managements.

    Unsere Erwartungen an dich

    Qualifikationen

    • Bereitschaft, in einem 24 × 7-Schichtmodell zu arbeiten (Nacht-, Wochenend- und Feiertagsdienste) und dabei ein starkes Problem-Lösungs- und Troubleshooting-Mindset mitzubringen.
    • Fundierte Kenntnisse in Automatisierungstools (z. B. Ansible, SaltStack), Monitoring- und Observability-Tools (Prometheus, Grafana, Loki) sowie Logging- und Alerting-Lösungen (ELK-Stack).
    • Sehr gute Kenntnisse in mindestens einer Programmiersprache oder Skriptsprache (Go, Python, Bash) für Automatisierungs- und Monitoring-Aufgaben.
    • Tiefe Kenntnisse in Linux MD RAID (mdadm, sedadm) und LVM.
    • Expertise in Linux-Performance-Tuning und Netzwerk-Stack-Debugging (ethtool, perf, tcpdump, ibstat, ibtop).
    • Praxis mit S3, Ceph und software-definierten Netzwerken.
    • Fließend in Deutsch und Englisch (mindestens B2 nach dem CEFR-Standard).

    Erfahrung

    • Mehrjährige Erfahrung als Site Reliability Engineer oder in einer verwandten Rolle (Linux-Systemadministrator, Platform Engineer, DevOps/Infrastructure Engineer, Full-Stack-Developer).
    • Erfahrung mit virtualisierten Umgebungen (QEMU/KVM, OpenStack, Proxmox), Cloud-Storage-Technologien (File, Object, Block) und sicherer Umgang mit Docker & Kubernetes.
    • Erfahrung im Code-Management (Merge-Conflicts, Feature-Branches, Merge-Requests, CI/CD) ist von Vorteil.
    • Erfahrung mit RDMA, InfiniBand und RoCE-Protokollen.
    • Erfahrung mit etablierten Software-Entwicklungspraktiken (Code-Reviews, Build-Prozesse, Packaging, Testing).

    Unser Angebot

    • Zum Ende des Bewerbungsprozesses müssen Kandidaten einer Sicherheitsüberprüfung unterzogen werden.
    • Hybrides Arbeitsmodell.
    • Schichtmodell Arbeitszeiten.
    • An einigen Standorten eine bezuschusste Kantine und verschiedene kostenfreie Getränke.
    • Moderne Büroflächen mit sehr guter Verkehrsanbindung.
    • Diverse Mitarbeiterrabatte für Aktivitäten und Produkte.
    • Mitarbeiterevents wie Sommer- und Winterfeiern, sowie Workshops.
    • Zahlreiche Weiterbildungs- und Entwicklungsmöglichkeiten.
    • Verschiedene Gesundheitsangebote, wie Sport- und Gesundheitskurse.

    Benefits

    Work-Life-Integration

    Gesundheit, Fitness & Fun

    Essen & Trinken

    Themen mit denen du dich im Job beschäftigst

    Job Standorte

    • Standort Berlin

      Deutschland

    Das ist dein Arbeitgeber

    United Internet AG

    United Internet AG

    Indem wir unsere starken Marken 1&1, GMX, WEB.DE und mail.com nutzen und mehr als 30 Millionen aktive Nutzer haben, sind wir der führende Anbieter von Kommunikationsanwendungen in Deutschland. Wir machen die Kommunikation noch sicherer - trotz 500 Millionen eingehender E-Mails pro Tag!

    Description

  • Unternehmenstyp
    Etablierte Firma
  • Arbeitsmodell
    Full Remote, Hybrid, Onsite
  • Branche
    Internet, IT, Telekom
  • Dev Reviews

    by devworkplaces.com

    Gesamt

    (1 Bewertung)
    3.4
    • Engineering

      3.3
    • Workingconditions

      3.8
    • Career Growth

      3.2
    • Culture

      3.2
    Alle Dev Reviews anzeigen
    Logo United Internet AG

    Site Reliability Engineer

    Ort
    Berlin
    Arbeitsmodell
    Hybrid, Onsite
    Diversität
    Für alle Personen geeignet (m/w/d)

    Weitere Jobs