Senior SRE - Services Cloud Managés (F/H)

NUMSPOT recrute !

À propos

Numspot est la plateforme technologique souveraine et sécurisée, alliant innovation, flexibilité et confiance pour accélérer la transformation numérique des acteurs publics et privés. Hybride et portable, elle combine les avantages du cloud public avec une interopérabilité totale (on premise, cloud-environnements) et des standards de sécurité exigeants (ISO 27001 déjà acquis, HDS et SecNumCloud en cours).

Open source first, Numspot garantit autonomie, réversibilité et maîtrise des données, tout en répondant aux enjeux critiques de la data et de l’IA. 100 % immunisée contre les lois extraterritoriales, elle s’appuie sur un actionnariat français de référence des secteurs public et privé (Banque des Territoires, Docaposte, Dassault Systèmes et Bouygues Telecom), et des certifications reconnues pour offrir une confiance numérique absolue.

Descriptif du poste

Senior SRE de la squad et bras droit technique du Head of IT Operations : vous concevez, vous déployez, vous diagnostiquez en production et décidez des standards qui font tenir les services.

Numspot est la plateforme cloud souveraine française portée par Banque des Territoires, Docaposte, Dassault Systèmes et Bouygues Telecom.

Vous évoluez dans une squad de 6 à 8 ingénieurs, autonome de bout en bout sur un portefeuille de services cloud managés : design, build, run, support N3. Pas de transfert vers une équipe ops ni de ticket vers une équipe infra externe : la squad possède le cycle complet.

L'environnement est distribué, conteneurisé, orchestré avec Kubernetes, et soumis à des exigences de résilience et de sécurité élevées (ISO 27001 acquis, HDS et SecNumCloud en cours).

Vous travaillez en binôme étroit avec votre manager, le Head of IT Operations, profil expert et très opérationnel, sur les décisions techniques structurantes.

Ce n'est pas une relation hiérarchique distante : c'est une collaboration entre deux ingénieurs seniors, l'un portant la responsabilité managériale, l'autre l'exécution et l'expertise terrain.

Vos missions

Vous êtes sur le terrain : vous intervenez sur les incidents, vous construisez l'infrastructure, vous passez en revue l'architecture, et vous prenez les décisions techniques quand elles comptent.

Production et fiabilité, votre priorité n°1

On call et incidents. Vous êtes dans la rotation et vous gérez les incidents P0/P1 de bout en bout, sans passer la main.
SLO/SLA. Vous définissez les objectifs de niveau de service, vous calibrez les alertes sur l'impact réel et vous pilotez l'error budget comme un outil de décision.
Observabilité actionnable. Vous construisez et maintenez les dashboards, les corrélations métriques, logs et traces, et les runbooks qui permettent de diagnostiquer en moins de 5 minutes.
MCO/MCS. Vous garantissez le maintien en conditions opérationnelles et de sécurité : durcissement de configuration, mises à jour, gestion des vulnérabilités.
Post mortems. Vous conduisez les analyses post incident et vous transformez les conclusions en actions concrètes dans le backlog.

Build et automatisation, vous construisez ce que vous opérez

IaC et GitOps. Vous écrivez et maintenez l'infrastructure as code (Terraform, Ansible, Helm, ArgoCD) : tout ce qui est déployé est reproductible et versionné.
CI/CD. Vous concevez et fiabilisez les pipelines de déploiement (GitLab CI, FluxCD) : stratégies canary, blue/green, rollback automatisé.
Automatisation. Toute opération manuelle récurrente devient un script, toute intervention répétée devient un service. Vous réduisez la toil systématiquement.
Sécurité intégrée. IAM, gestion des secrets (Vault, Sealed Secrets), RBAC et politiques de sécurité sont intégrés dès la conception.

Architecture et décisions techniques

Conception des services. Vous êtes dans la boucle dès le design : résilience, observabilité et opérabilité sont des contraintes de premier ordre.
Choix technologiques. Vous pesez sur les décisions de la squad avec des arguments factuels, des mesures et une vision à moyen terme.
Standards d'exploitation. Vous définissez les pratiques de la squad (conventions IaC, patterns de résilience, politiques d'alerting) et vous les faites vivre au quotidien.

Culture et transmission

Dogfooding. Vous consommez les services de platform engineering (observabilité, CI/CD, secrets) pour valider leur qualité et remonter des retours concrets à la communauté de pratiques.
Communauté de pratiques. Vous contribuez au partage de pratiques Platform Engineering et DevOps au-delà de votre squad.
Mentoring opérationnel. Vous faites monter les profils junior et médior sur des cas concrets : incidents, revue IaC, diagnostic de production.

Profil recherché

Vous avez opéré des systèmes distribués en production à grande échelle. Vous êtes aussi à l'aise sur un incident Kubernetes à 2h du matin que sur une revue d'architecture le lendemain. Vous cherchez un poste où vous agissez, pas où vous coordonnez.

Indispensable

7 ans et plus d'expérience SRE, DevOps senior ou Platform Engineering sur des environnements cloud native en production.
Kubernetes en production. Administration avancée, troubleshooting profond, réseau (CNI, ingress, service mesh), sécurité (RBAC, PSA), composants internes. Vous savez lire un etcd et comprendre pourquoi un pod ne démarre pas.
Culture SRE opérationnelle. SLO et error budget réellement utilisés pour arbitrer, post mortems conduits, on call géré sérieusement.
IaC en conditions réelles. Terraform, Ansible, Helm, sur des environnements hybrides ou bare metal.
Sécurité opérationnelle. IAM, Vault, Sealed Secrets, Keycloak, OIDC, intégrés nativement dans vos déploiements.
Scripting. Go, Python ou Bash. Vous écrivez des outils, pas seulement des scripts de 20 lignes.
Bases de données en production. PostgreSQL, MongoDB, managées ou autohébergées. Vous savez quoi faire quand ça ne répond plus.

Atouts

Contexte souverain ou haute criticité. HDS, SecNumCloud ou réglementation sectorielle forte : vous connaissez les contraintes que cela impose en exploitation.
Certification CKA ou CKS.
Expérience PaaS ou KaaS. Vous avez conçu ou opéré des services managés exposés à des clients externes.

Ce qui vous caractérise

Vous documentez pour que la connaissance survive à votre départ.
Vous savez quand corriger vite et quand corriger bien, et vous ne laissez pas la correction rapide devenir permanente.
Vous challengez les décisions techniques avec des faits, même hors de votre périmètre direct.
Vous expliquez un incident P0 à un interlocuteur non technique sans perdre en précision.

Stack technique Orchestration : Kubernetes, OpenShift, Helm, Kustomize. CI/CD et GitOps : GitLab CI, ArgoCD, FluxCD. IaC et automatisation : Terraform, Ansible. Observabilité : Prometheus, Grafana, Loki, ELK, OpenTelemetry. Sécurité et IAM : Keycloak, OIDC, OAuth2, Vault, Sealed Secrets. Infrastructure IaaS : compute, réseau, stockage objet et bloc, volumes dynamiques. Bases de données : PostgreSQL, MongoDB, managées ou autohébergées. Pratiques SRE : SLO, SLA, error budget, alerting orienté impact, chaos testing.

Votre trajectoire

Mois 1

Maîtrise de l'architecture des services de la squad : dépendances, flux critiques, points de fragilité.
Cartographie des angles morts d'observabilité, des alertes non actionnables et de la dette d'exploitation.
Premières actions concrètes : dashboards, alerting amélioré, runbooks mis à jour.
Première rotation on call, avec intervention sur des incidents réels.

Mois 3

SLO définis et pilotés sur le périmètre de la squad, alerting calibré, error budget actif.
Réduction mesurable du bruit d'alerting et amélioration du MTTR.
Standards IaC et GitOps durcis et adoptés dans la squad.
Incidents P0/P1 gérés de bout en bout avec post mortems structurés.

Mois 6

Référent technique fiabilité de la squad.
Chantiers structurants pilotés : résilience, capacity planning, sécurité opérationnelle.
Contribution active à la communauté de pratiques au-delà de la squad.
Binôme opérationnel établi avec le Head of IT Operations : vous assurez la continuité des décisions techniques en son absence et vous co-pilotez les chantiers structurants.

Pourquoi NumSpot

Vous opérez une infrastructure critique pour la souveraineté numérique européenne : les problèmes sont réels, les enjeux aussi.
Votre squad possède le cycle complet du design au run : pas de silo ops, pas de ticket vers une équipe externe. Vous construisez ce que vous opérez.
Organisation jeune (créée en 2023, environ 80 personnes) : vos décisions techniques ont un impact immédiat et visible sur le produit.
Le contexte de certification (HDS, SecNumCloud en cours) développe une expertise rare et valorisée sur le marché.
Stack cloud native open source sur des environnements hybrides et bare metal.

Process de recrutement

Étape 1 : appel avec l'équipe RH. Contexte, motivations, fit mutuel.

Étape 2 : entretien technique de 1h30 en visio avec le Head of IT Operations, votre futur manager. Architecture, scénarios d'incidents réels, approche SRE, organisation de la squad.

Étape 3 : entretien avec le CTO. Vision technique, enjeux de souveraineté, positionnement du rôle.

Étape 4 : entretien final avec la DRH. Alignement global, conditions, questions ouvertes.

Informations complémentaires

Type de contrat : CDI
Date de début : 31 août 2026
Lieu : Courbevoie
Télétravail partiel possible

Postuler