Vaga: Engenheiro(a) de Dados Sênior – IA / MLOps / Feature Engineering / RAG (AWS)
Estamos buscando um(a) Engenheiro(a) de Dados Sênior para atuar no core da nossa plataforma de Inteligência Artificial, sendo responsável por Data Lakes, Feature Engineering, pipelines de MLOps e construção de RAGs, viabilizando Machine Learning e IA Generativa em produção, em escala.
Este papel é crítico para garantir que dados, features e contextos semânticos estejam prontos, governados e performáticos, sustentando modelos tradicionais de ML e LLMs(Large Language Models).
Missão do Papel
Projetar, construir e operar Data Lakes/Lakehouse, pipelines de dados e features, além de pipelines de RAG, em AWS, integrados a uma plataforma moderna de MLOps (Kubernetes, Kubeflow, MLflow).
Atuar como espinha dorsal da IA em produção, com capacidade de colaborar em ML Engineering e IA Generativa quando necessário.
O que você vai fazer
Data Lakes & Lakehouse
- Projetar e manter Data Lakes/Lakehouse em AWS (S3)
- Definir organização por camadas (raw, curated, analytics, features)
- Implementar versionamento, particionamento e historização de dados
- Garantir dados prontos para Analytics, ML e IA Generativa
Data & Feature Engineering para IA
- Construir pipelines de dados batch e streaming
- Desenvolver pipelines de feature engineering (offline e online)
- Operar Feature Stores e garantir reutilização de features
- Assegurar consistência entre treino e produção (training–serving skew)
RAG – Retrieval-Augmented Generation
- Construir pipelines de ingestão, chunking, enriquecimento e indexação de dados
- Estruturar bases vetoriais para busca semântica
- Integrar Data Lakes + Vector Databases + LLMs
- Garantir atualização contínua, versionamento e governança do contexto
- Suportar AI Agents e aplicações baseadas em RAG
MLOps & Plataforma
- Integrar dados e features com Kubeflow e MLflow
- Apoiar pipelines de treinamento, deploy e inferência
- Operar workloads de dados, ML e RAG em Kubernetes (EKS)
- Garantir SLAs de dados para modelos e aplicações de IA
Colaboração como ML Engineer
- Apoiar desenvolvimento e deploy de modelos quando necessário
- Colaborar em validação, métricas e troubleshooting de modelos
- Atuar como backup técnico em demandas críticas de IA
Observabilidade, Qualidade e Governança
- Implementar data quality checks, monitoramento e alertas
- Monitorar latência, falhas e impacto de dados/embeddings
- Garantir lineage, metadata e documentação
- Atuar junto à governança de dados e IA
O que esperamos de você
Experiência
- 5+ anos em Engenharia de Dados
- Experiência prática com Data Lakes/Lakehouse
- Vivência em pipelines de ML e IA Generativa em produção
- Experiência em RAG, busca semântica ou sistemas baseados em embeddings
- Forte atuação em AWS e Kubernetes
- Capacidade de colaborar como ML Engineer quando necessário
Stack técnica (obrigatório)
Cloud & Dados
- AWS: S3, Glue, Athena, Redshift, IAM, CloudWatch
- Data Lake / Lakehouse
Processamento & Orquestração
- Apache Airflow (MWAA)
- Spark / PySpark
MLOps & IA
- Kubernetes (EKS)
- Kubeflow & MLflow
- Feature Stores
- Vector Databases (OpenSearch, FAISS, Pinecone ou similares)
- AWS Bedrock (integração com LLMs)
Linguagens & DevOps
- Python e SQL avançados
- CI/CD e Infraestrutura como Código
- Git
Como medimos sucesso
- Data Lakes e pipelines entregues em produção
- Pipelines de features reutilizáveis e versionadas
- Pipelines de RAG em produção e atualizados
- Latência de recuperação de contexto (RAG)
- Incidentes de dados, features ou embeddings
- % de modelos e agentes com dados governados
- Eficiência de custos da plataforma de dados e IA
- Processos e Modelos de Feature Enginnering e consequente melhoria de qualidade.
Diferenciais
- Experiência com AI Agents
- Observabilidade com Prometheus, Grafana e AlertManager
- Governança de IA e dados sensíveis
- Experiência em ambientes de alta escala e missão crítica