Projetar, desenvolver e evoluir a arquitetura de dados da organização, garantindo a coleta, processamento, integração, armazenamento e disponibilização de dados de forma escalável, confiável e eficiente. Atuar como referência técnica na construção e otimização de pipelines de dados, promovendo boas práticas de engenharia, automação e governança, para transformar dados em ativos estratégicos que suportem a tomada de decisão e o desenvolvimento de soluções analíticas e operacionais.
Responsabilidades
-Desenvolver processos de ETL em Python.
-Implementar a arquitetura de um pipeline de dados para processamento de dados em larga escala com Apache Spark (PySpark e afins).
-Escrever consultas SQL para extrair, manipular e disponibilizar dados de diferentes bases de dados.
-Identificar e implementar melhorias de performance e qualidade em diferentes pontos da arquitetura de dados já existente.
-Otimizar técnicas para processamento de dados, automação de processos manuais, entregas, validação e adição de dados.
-Projetar integrações com diferentes APIs para alimentação do Data Warehouse e Data Lake com dados.
-Arquitetar e desenvolver novas funcionalidades de acordo com as necessidades explicitadas para análise.
Habilidades/Qualificações:
-5+ anos de experiência profissional em engenharia de dados.
-Vasta experiência com Python e SQL.
-Experiência com orquestração e processamento de dados, como Apache Spark e Airflow.
-Experiência com pipelines de dados baseados em bancos de dados estruturados e não-estruturados.
-Experiência com ferramentas de versionamento de código (Git) e CI/CD orientado a pipelines de dados.
-Experiência com pipelines de dados envolvendo Data Lakes baseados em Object Storage (S3, Min.io).
-Experiência com indexação e busca através de OpenSearch ou Elasticsearch.
-Experiência com modelagem de dados avançada - Data Vault, normalização e desnormalização, modelagem dimensional (Star Schema, Snowflake Schema).
Diferenciais
-Experiência com serviços de cloud computing (AWS, GCP ou Azure), preferencialmente com serviços voltados a dados (S3, Redshift, BigQuery, Dataflow ou equivalentes).