Senior SRE de la squad et bras droit technique du Head of IT Operations : vous concevez, vous déployez, vous diagnostiquez en production et décidez des standards qui font tenir les services.
Numspot est la plateforme cloud souveraine française portée par Banque des Territoires, Docaposte, Dassault Systèmes et Bouygues Telecom.
Vous évoluez dans une squad de 6 à 8 ingénieurs, autonome de bout en bout sur un portefeuille de services cloud managés : design, build, run, support N3. Pas de transfert vers une équipe ops ni de ticket vers une équipe infra externe : la squad possède le cycle complet.
L'environnement est distribué, conteneurisé, orchestré avec Kubernetes, et soumis à des exigences de résilience et de sécurité élevées (ISO 27001 acquis, HDS et SecNumCloud en cours).
Vous travaillez en binôme étroit avec votre manager, le Head of IT Operations, profil expert et très opérationnel, sur les décisions techniques structurantes.
Ce n'est pas une relation hiérarchique distante : c'est une collaboration entre deux ingénieurs seniors, l'un portant la responsabilité managériale, l'autre l'exécution et l'expertise terrain.
Vos missions
Vous êtes sur le terrain : vous intervenez sur les incidents, vous construisez l'infrastructure, vous passez en revue l'architecture, et vous prenez les décisions techniques quand elles comptent.
Production et fiabilité, votre priorité n°1
On call et incidents. Vous êtes dans la rotation et vous gérez les incidents P0/P1 de bout en bout, sans passer la main.
SLO/SLA. Vous définissez les objectifs de niveau de service, vous calibrez les alertes sur l'impact réel et vous pilotez l'error budget comme un outil de décision.
Observabilité actionnable. Vous construisez et maintenez les dashboards, les corrélations métriques, logs et traces, et les runbooks qui permettent de diagnostiquer en moins de 5 minutes.
MCO/MCS. Vous garantissez le maintien en conditions opérationnelles et de sécurité : durcissement de configuration, mises à jour, gestion des vulnérabilités.
Post mortems. Vous conduisez les analyses post incident et vous transformez les conclusions en actions concrètes dans le backlog.
Build et automatisation, vous construisez ce que vous opérez
IaC et GitOps. Vous écrivez et maintenez l'infrastructure as code (Terraform, Ansible, Helm, ArgoCD) : tout ce qui est déployé est reproductible et versionné.
CI/CD. Vous concevez et fiabilisez les pipelines de déploiement (GitLab CI, FluxCD) : stratégies canary, blue/green, rollback automatisé.
Automatisation. Toute opération manuelle récurrente devient un script, toute intervention répétée devient un service. Vous réduisez la toil systématiquement.
Sécurité intégrée. IAM, gestion des secrets (Vault, Sealed Secrets), RBAC et politiques de sécurité sont intégrés dès la conception.
Architecture et décisions techniques
Conception des services. Vous êtes dans la boucle dès le design : résilience, observabilité et opérabilité sont des contraintes de premier ordre.
Choix technologiques. Vous pesez sur les décisions de la squad avec des arguments factuels, des mesures et une vision à moyen terme.
Standards d'exploitation. Vous définissez les pratiques de la squad (conventions IaC, patterns de résilience, politiques d'alerting) et vous les faites vivre au quotidien.
Culture et transmission
Dogfooding. Vous consommez les services de platform engineering (observabilité, CI/CD, secrets) pour valider leur qualité et remonter des retours concrets à la communauté de pratiques.
Communauté de pratiques. Vous contribuez au partage de pratiques Platform Engineering et DevOps au-delà de votre squad.
Mentoring opérationnel. Vous faites monter les profils junior et médior sur des cas concrets : incidents, revue IaC, diagnostic de production.