Empresa desenvolvendo estratégias de comunicação com base em sua metodologia própria, atuando com as principais plataformas do mercado, conectando marcas e consumidores ao longo de toda a jornada de relacionamento.
Skills
- Como profissional Sênior, espera-se domínio profundo em: visão de negócio, pensamento crítico e adaptabilidade.
- Agnóstico e Flexível: Consegue transitar entre AWS e GCP escolhendo a melhor ferramenta para o problema, sem "bairrismo" tecnológico.
- Visão de Produto de Dados: Entende que o pipeline não é o fim, mas o meio para entregar valor ao negócio. Preocupa-se se o dado chegou no horário certo para o Marketing usar.
- Colaboração Ativa: Atua como o "melhor amigo" do Cientista de Dados, ajudando a otimizar códigos ineficientes sem criar atrito.
- Mentoria e Liderança Técnica: Capacidade de orientar cientistas de dados sobre melhores práticas de escrita de código produtivo e escalabilidade.
- Pensamento Sistêmico: Habilidade para enxergar o fluxo do dado desde a origem (log de navegação) até o impacto final no cliente, antecipando gargalos de infraestrutura.
- Comunicação entre Áreas: Atuar como tradutor entre os requisitos de infraestrutura (TI), as necessidades de modelagem (Data Science) e os objetivos de negócio (Marketing/CRM).
- Resolução de Problemas Complexos: Calma e precisão para atuar em incidentes em produção que afetem a experiência do usuário em tempo real.
- Advogado da Qualidade: Rigor com a governança de dados, segurança e conformidade (LGPD), garantindo que a automação não comprometa a privacidade do cliente.
Atividades
- Engenharia de Pipelines Modernos: Desenvolver fluxos de ETL/ELT utilizando Python e serviços gerenciados de nuvem. Orquestrar a ingestão de dados de múltiplas fontes para nosso Data Lake/Warehouse (BigQuery/S3).
- Infraestrutura como Código (IaC): Provisionar e gerenciar recursos na AWS e GCP utilizando Terraform ou scripts de automação, garantindo ambientes reprodutíveis e seguros.
- Otimização e Custos (FinOps): Monitorar e otimizar o desempenho das queries e processamentos, garantindo eficiência de custo na nuvem (ex: uso correto de instâncias, particionamento de tabelas no BigQuery).
- Governança e Qualidade: Implementar verificações automáticas de qualidade de dados (Data Quality) e garantir a observabilidade dos pipelines (alertas de falha, latência).
- Domínio avançado de Python (Obrigatório). Foco em escrita de código limpo, modular e testável.
- Experiência sólida com PySpark para processamento distribuído.
- Ambiente Cloud (AWS & GCP): ? AWS: Conhecimento em serviços como S3, Lambda, Glue, EMR, Kinesis e SageMaker.
- GCP: Domínio de BigQuery (essencial), Cloud Functions, Dataflow e Vertex AI.
- Conhecimento em Databricks e Snowflake são essenciais.
- Modern Data Warehouse: Experiência avançada em BigQuery, Snowflake ou Redshift, com foco em modelagem (Star Schema, Data Vault 2.0) e controle de custos (FinOps).
- Orquestração: Domínio de ferramentas como Airflow, Prefect ou Dagster para gerenciar dependências complexas de pipelines.
- SQL Avançado para Data Warehousing (foco em performance analítica).
- Docker (containerização de scripts e modelos).
- Terraform (IaC).
- Conhecimentos de CI/CD (GitHub Actions, GitLab CI ou CodePipeline).
Informações adicionais
- Experiência com sistemas de recomendações são indispensáveis para este desafio.
- Inglês e/ou espanhol.
Contratação: CLT
Modalidade: Remoto
Recado da WK
Esta vaga está aberta à aplicação de todas as pessoas - independentes de sua características ou condições humanas quanto à orientação sexual, acessibilidade cultural, social ou qualquer outro fator.
Esta vaga está participando do nosso Programa de Indicação Premiada! Com ele você indica uma pessoa que tenha o perfil descrito na oportunidade e caso ela seja contratada você recebe uma bonificação em dinheiro.
É só enviar o currículo para: [email protected] com o título da vaga no assunto e pronto!