Role Overview

Tomar la referencia técnica de observabilidad del equipo: definir estándares de métricas, logs y trazas sobre Datadog.
Tomar ownership del seguimiento de SLOs/SLIs: coordinar con los squads y mantener el backlog activo.
Optimizar el uso y los costos de Datadog (monitores, ingesta, APM).
Trabajar con NOC como cliente interno: generar espacios colaborativos, runbooks y post-mortems.
Empujar la mejora de métricas de detección y resolución de incidentes.
Identificar oportunidades de automatización en flujos operativos de NOC: reducción de toil, respuestas automáticas y runbooks ejecutables.
Explorar y proponer el uso de IA para correlación de alertas, detección de anomalías y reducción de ruido operativo.
Ser el escalado técnico de NOC cuando lo requieran.
Troubleshooting de aplicaciones en Kubernetes: disponibilidad, performance y conectividad en producción.
Leer y entender código Node.js para identificar y proponer mejoras de confiabilidad o performance.
Participar de la rotación de guardia de infraestructura.
Responder incidentes, coordinar la resolución y documentar el post-mortem.
Contribuir a la mejora continua del proceso de guardia.
Evaluar y optimizar la capacidad y el rendimiento de los sistemas para soportar el crecimiento de la carga.
Colaborar en pruebas de carga y benchmarking para anticipar cuellos de botella.
Implementar prácticas de ingeniería de confiabilidad para aumentar la resiliencia de los sistemas.
Identificar y eliminar puntos únicos de falla.
Reducir el toil mediante automatización de tareas operativas repetitivas.
Contribuir al seguimiento y optimización de costos cloud, con foco en la plataforma de observabilidad.

Requirements

Foco en diagnóstico de incidentes.
Cultura SRE real: SLIs, error budgets, toil: haberlos aplicado.
Experiencia en administración y orquestación de contenedores con Kubernetes, valorando el uso de Helm.
Conocimiento de Node.js: poder leer y entender código de aplicación, identificar problemas y meter mejoras puntuales orientadas a confiabilidad o performance.
Experiencia o afinidad para trabajar con equipos operativos no técnicos (NOC, operaciones)
capacidad de explicar problemas complejos y generar espacios de mejora.
Capacidad para moverse en escenarios cambiantes, con mentalidad orientada a resultados y atención al detalle.
Será deseable que cuentes con:
Experiencia con Docker, Kubernetes, Istio, AWS EKS, AWS RDS, AWS SQS/SES, CloudFront, AWS S3, Helm.
Experiencia en flujos de CI/CD en GitHub Actions y gestión de infraestructura con Terraform / Terragrunt.
Conocimientos en gobernanza de alertas, burn rate múltiple y dashboards de salud por dominio o producto.
Conocimientos en escalabilidad y elasticidad sobre AWS y aplicaciones hosteadas en Kubernetes.
Familiaridad con prácticas de FinOps para seguimiento y optimización de costos en AWS.
Interés o experiencia en AIOps: correlación de alertas, detección de anomalías, automatización de respuestas a incidentes.
Experiencia trabajando con herramientas de IA y automatización: uso de LLMs para acelerar análisis, scripting inteligente o integración de IA en flujos operativos.

Tech Stack

AWS
Cloud
Docker
JavaScript
Kubernetes
Node.js
Terraform

Benefits

10 días hábiles de vacaciones + 5 días MODO.
Prepaga para vos y tu grupo familiar.
Reintegro en app MODO para almuerzos y traslado.
Membresía en Gympass y descuento en Sport Club para actividad física.
Licencias extendidas (por matrimonio, maternidad, paternidad y otras).
Plataforma de capacitaciones y descuentos en universidades para perfeccionar y expandir tus conocimientos.
Día de cumpleaños libre y medio día por cumpleaños de hijos/as.
Actividades de team building.
Posibilidad de desarrollarte en un ambiente flexible, dinámico y en pleno crecimiento.

Site Reliability Engineer

Key skills

About this role

Role Overview

Requirements

Tech Stack

Benefits