Somos especialistas em transformação tecnológica, unindo expertise humana à IA para criar soluções tech escaláveis. Com mais de 8,000 CI&Ters ao redor do mundo, já formamos parcerias com mais de 1,000 clientes durante nossos 30 anos de história. Inteligência Artificial é nossa realidade.
Importante: se você reside na Região Metropolitana de Campinas, sua presença nos escritórios da cidade será obrigatória, conforme a política de frequencia vigente.
Sobre o Desafio:
O projeto consiste na migração e modernização de um legado massivo (baseado em Azure/Databricks) para uma nova arquitetura no Google Cloud Platform (GCP).
Você atuará na construção de uma fundação de dados moderna, seguindo princípios de Data Mesh, arquitetura medalhão (Raw/Silver/Gold) e forte governança, garantindo a desativação do legado e a habilitação de novas capacidades de IA e Analytics.
Principais Responsabilidades:
1. Migração e Modernização
- Analisar e migrar pipelines e notebooks (Spark/Databricks)
- Refatorar ou reescrever processos para: SQL / Dataform e Dataflow
2. Desenvolvimento de Pipelines (ETL/ELT)
- Criar transformações no BigQuery + Dataform
- Construir camadas: Silver (Trusted) e Gold
- Garantir qualidade, deduplicação e padronização
3. Ingestão de Dados (Batch & Streaming)
- Implementar ingestão com:
- Dataflow (Apache Beam) para eventos (Kafka/Event Hubs)
- Datastream (CDC)
- Trabalhar com a persistência de dados na camada Raw utilizando tabelas Iceberg gerenciadas pelo BigLake.
4. Automação e Infraestrutura
- Provisionar recursos com Terraform (IaC)
- Gerenciar pipelines com CI/CD (GitHub Actions)
- Seguir modelo de Ingestion Factory e repositórios por domínio
5. Qualidade e Governança
- Implementar testes no Dataform
- Garantir:
- Catalogação e linhagem (Dataplex)
- Compartilhamento seguro (Analytics Hub)
Requisitos Obrigatórios:
- SQL avançado (preferencialmente BigQuery)
- Experiência com GCP: BigQuery, GCS, Dataflow, Cloud Composer (Airflow)
- Python + Apache Spark
- Experiência com Databricks
- Conhecimento em:
- Data Lakehouse
- Modelagem de dados
- Particionamento
- Formatos (Parquet, Avro, Iceberg)
- Experiência com: Git e CI/CD
Diferenciais :
- Dataform ou DBT
- Terraform (IaC)
- Streaming e eventos (Kafka / Event Hubs)
- Governança e segurança: Dataplex, IAM, VPC Service Controls
O que você vai encontrar :
- Ambiente com alto volume de dados (petabytes)
- Migração de milhares de objetos
- Uso de tecnologias modernas: BigLake, Analytics Hub, Gemini
- Atuação em Data Mesh com domínios bem definidos
#LI-LL1