Somos especialistas em transformação tecnológica, unindo expertise humana à IA para criar soluções tech escaláveis. Com mais de 7.400
CI&Ters ao redor do mundo, já formamos parcerias com mais de 1.000 clientes durante nossos 30 anos de história. Inteligência Artificial é nossa realidade.
Importante: se você reside na Região Metropolitana de Campinas, sua presença nos escritórios da cidade será obrigatória, conforme a política de frequencia vigente.
Sua missão será ser o pilar hands-on do core de Data Governance, materializando o blueprint em componentes reutilizáveis. Implementar pipelines, serviços e automações para metadata/lineage, Data Quality as Code, Policy-as-Code e Semantic Layer com observability e performance em GCP.
Responsabilidades
- Construir pipelines e conectores de metadata/lineage (batch/streaming) com versioning e end-to-end traceability.
- Implementar frameworks de Data Quality as Code: testes, monitors, SLO/SLIs de datasets, alerting e auto-remediation.
- Implementar Policy-as-Code e controles em GCP: classificação (Cloud DLP), masking/tokenization, enforcement (policy tags, IAM Conditions, row/column-level security).
- Modelar e publicar Semantic Layer (Looker semantic model), criar data contracts e validators em CI/CD.
- Desenvolver packages/templates reutilizáveis, documentação técnica e runbooks.
- Integrar com plataformas e APIs corporativas, garantindo performance, reliability e cost-efficiency.
- Instrumentar observability (logs, metrics, tracing) e atuar em incident response, fomentando continuous improvement.
Stack (Google-first)
- BigQuery, BigLake, Dataplex, Data Catalog.
- Dataflow (Beam), Dataproc (Spark), Pub/Sub, Datastream; Composer (Airflow) para orchestration.
- Python, PySpark, SQL; tests com PyTest/Great Expectations.
- CI/CD com Cloud Build/Cloud Deploy, Git; IaC com Terraform.
- Segurança: IAM/IAM Conditions, VPC-SC, KMS/CMEK, Secret Manager, Cloud DLP.
- Observability: Cloud Logging, Cloud Monitoring, Error Reporting, Cloud Trace.
Optional: OpenLineage, DataHub/OpenMetadata; Kafka quando necessário.
Requisitos
- 5+ anos em engenharia de dados com forte atuação em Python, SQL e PySpark.
- Experiência prática em ETL/ELT batch e streaming na GCP (Dataflow/Beam, - Pub/Sub, Dataproc/Spark, Datastream) e orchestration com Composer (Airflow).
- Data Quality/Observability (Great Expectations, Soda, Monte Carlo) e metadata/lineage (Data Catalog, DataHub/OpenMetadata, OpenLineage).
- Policy-as-Code em GCP: Cloud DLP, policy tags, IAM/IAM Conditions; segurança e privacidade (LGPD).
- Git, CI/CD (Cloud Build), IaC (Terraform); performance tuning e troubleshooting em BigQuery/Spark.
- Boa comunicação e colaboração com times de produto, segurança e compliance.
Diferenciais
- Looker semantic model, dbt metrics; Kafka; CDC com Datastream.
- GenAI para documentação/discovery/quality (Vertex AI).
- Otimização de custo (slot management, storage lifecycle, partitioning/clustering) e performance tuning.
MidSenior
LI-RW1