Ci&t

[Job-29175] Engenheiro(a) de Dados SENIOR, Brasil

Brazil Full Time
Somos especialistas em transformação tecnológica, unindo expertise humana à IA para criar soluções tech escaláveis. Com mais de 8,000 CI&Ters ao redor do mundo, já formamos parcerias com mais de 1,000 clientes durante nossos 30 anos de história. Inteligência Artificial é nossa realidade.

Importante: se você reside na Região Metropolitana de Campinas, sua presença nos escritórios da cidade será obrigatória, conforme a política de frequencia vigente.

Sobre o Desafio:
 
O projeto consiste na migração e modernização de um legado massivo (baseado em Azure/Databricks) para uma nova arquitetura no Google Cloud Platform (GCP).
Você atuará na construção de uma fundação de dados moderna, seguindo princípios de Data Mesh, arquitetura medalhão (Raw/Silver/Gold) e forte governança, garantindo a desativação do legado e a habilitação de novas capacidades de IA e Analytics.
Principais Responsabilidades:

1. Migração e Modernização

  • Analisar e migrar pipelines e notebooks (Spark/Databricks)
  • Refatorar ou reescrever processos para: SQL / Dataform e Dataflow

2. Desenvolvimento de Pipelines (ETL/ELT)

  • Criar transformações no BigQuery + Dataform
  • Construir camadas: Silver (Trusted) e Gold
  • Garantir qualidade, deduplicação e padronização

3. Ingestão de Dados (Batch & Streaming)

  • Implementar ingestão com:
    • Dataflow (Apache Beam) para eventos (Kafka/Event Hubs)
    • Datastream (CDC)
  • Trabalhar com a persistência de dados na camada Raw utilizando tabelas Iceberg gerenciadas pelo BigLake.

4. Automação e Infraestrutura

  • Provisionar recursos com Terraform (IaC)
  • Gerenciar pipelines com CI/CD (GitHub Actions)
  • Seguir modelo de Ingestion Factory e repositórios por domínio

5. Qualidade e Governança

  • Implementar testes no Dataform
  • Garantir:
    • Catalogação e linhagem (Dataplex)
    • Compartilhamento seguro (Analytics Hub)  
Requisitos Obrigatórios:
  • SQL avançado (preferencialmente BigQuery)
  • Experiência com GCP:  BigQuery, GCS, Dataflow, Cloud Composer (Airflow)
  • Python + Apache Spark
  • Experiência com Databricks
  • Conhecimento em:
    • Data Lakehouse
    • Modelagem de dados
    • Particionamento
    • Formatos (Parquet, Avro, Iceberg)
  • Experiência com:  Git e CI/CD
Diferenciais :
  • Dataform ou DBT
  • Terraform (IaC)
  • Streaming e eventos (Kafka / Event Hubs)
  • Governança e segurança:  Dataplex, IAM, VPC Service Controls
O que você vai encontrar :
  • Ambiente com alto volume de dados (petabytes)
  • Migração de milhares de objetos
  • Uso de tecnologias modernas: BigLake, Analytics Hub, Gemini
  • Atuação em Data Mesh com domínios bem definidos
 
 
 
#LI-LL1