Liderar a instrumentação ponta a ponta de métricas, logs estruturados e tracing distribuído, garantindo visibilidade holística do ecossistema.
Implementar, evoluir e gerenciar ferramentas de Application Performance Monitoring para identificar gargalos de código e otimizar proativamente a experiência do usuário.
Definir, implementar e monitorar SLIs, SLOs e Error Budgets, atuando como embaixador da disponibilidade e auxiliando os times a equilibrar a velocidade de inovação com a estabilidade produtiva.
Planejar, arquitetar e executar experimentos práticos de Engenharia do Caos (Chaos Engineering) para validar hipóteses de falha e blindar a arquitetura contra incidentes reais.
Desenhar e gerenciar políticas de alertas preditivos e inteligentes, focando na eliminação da fadiga de alertas e garantindo respostas ultra-rápidas a incidentes críticos.
Atuar de forma transversal apoiando tanto a sustentação de pipelines complexos de Engenharia de Dados quanto as arquiteturas de microsserviços de Backend (APIs REST) hospedadas na AWS.
Requirements
Especialista em Datadog: Domínio avançado da plataforma para criação de dashboards executivos/técnicos, monitores complexos, APM e Log Management.
Infraestrutura Cloud e Orquestração: Experiência sólida e comprovada com o ecossistema AWS, além de proficiência em containerização com Docker e orquestração em larga escala com Kubernetes (EKS).
Cultura de Automação: Vivência prática no desenvolvimento de automações voltadas para infraestrutura e monitoramento dinâmico.
Fundamentos de SRE: Conhecimento prático aprofundado na aplicação dos pilares de Site Reliability Engineering (gerenciamento de ciclo de vida de incidentes, Budgets e métricas de SLI/SLO).
Arquitetura de Sistemas Distribuídos: Compreensão cristalina de padrões de Alta Disponibilidade (HA), Tolerância a Falhas e Resiliência arquitetural.
Diferencial: Infraestrutura como Código (IaC): Experiência prática com ferramentas de provisionamento declarativo como Terraform, Pulumi ou CloudFormation.
Observabilidade em Engenharia de Dados: Familiaridade com a infraestrutura e o comportamento de pipelines de Big Data (Apache Airflow, Spark ou similares) sob a ótica de confiabilidade e monitoramento de cargas de trabalho.
SecOps / DevSecOps: Conhecimento em conceitos de Observability-driven Security.
Certificações ativas de Arquitetura/DevOps AWS ou de Kubernetes.
Tech Stack
Airflow
Apache
AWS
Cloud
Docker
Kubernetes
Spark
Terraform
Benefits
Cartão multi-benefícios – você escolhe como e onde utilizar.
Bolsas de Estudos para cursos de Graduação, Pós, MBA e Idiomas.
Programas de incentivo à Certificações.
Horário de trabalho flexível.
Salários competitivos.
Avaliação de desempenho anual com plano de carreira estruturado.