Product Manager IV - Produto Disrupt | Tech
Remoto
⚠️ We'll shut down after Aug 1st - try foo🦍 for all jobs in tech ⚠️
iFood
O jeito mais fácil de pedir delivery de comida e fazer mercado. Leia avaliações de restaurantes, faça seu pedido pela internet e receba em casa.Nosso Modo de Fazer no Time:
Você irá liderar a estratégia, a qualidade e a evolução do “cérebro” de um agente conversacional baseado em GenAI. Seu foco será garantir qualidade mensurável (EVALs), fluxos conversacionais robustos, orquestração de ferramentas (tool use/function calling) e uma arquitetura de agente segura, observável, eficiente em custo e com alta performance.
Seu Cardápio Diário
- Visão & Estratégia do agente: definir o roadmap da inteligência do agente (memória, ferramentas, recuperação de contexto, guardrails, segurança) alinhado a métricas de negócio.
- EVALs & Qualidade:
- Desenhar e operacionalizar a pipeline de EVALs offline e online (ex.: task success rate, groundedness, factuality, safety, toxicity, latency, cost).
- Determinar datasets de avaliação, cenários de red teaming, critérios de aceitação e processos de regressão contínua.
- Fluxos conversacionais:
- Mapear intents, entidades e diagramar fluxos multi-turn (inclusive fallback, desambiguação, handed-off humano).
- Garantir coerência, memória de longo prazo/curto prazo e consistência de persona.
- Arquitetura & Protocolo do agente:
- Co-criar com Engenharia a arquitetura de orquestração (ex.: LangGraph/LangChain, function calling, tool routing, RAG, vector DBs).
- Definir padrões de observabilidade e LLMOps (tracking, tracing, custo, latência, prompt/version management).
- Estabelecer protocolos de segurança, governança de dados e privacidade (PII handling, filtros, políticas de retenção).
- Experimentação & Métricas de produto:
- Conduzir A/B tests, shadow/holdout, testes de guardrails e “canary releases”.
- Equilibrar qualidade x custo x latência e otimizar continuamente (ex.: modelos menores + reranking, caching, distillation).
- Colaboração transversal:
- Trabalhar lado a lado com Engenharia, Data/ML, Design Conversacional, Segurança/Legal
- Comunicar claramente trade-offs técnicos para stakeholders não técnicos;
Ingredientes que Buscamos:
- Experiência sólida (5–8+ anos) em Product Management, com passagem relevante por produtos de IA / NLP / agentes conversacionais.
- Vivência prática com EVALs de LLMs (definição de métricas, datasets, harnesses de avaliação, red teaming, regressão).
- Criação e evolução de fluxos conversacionais (intents, entidades, fallback, handoff humano, multi-turn, persona).
- Entendimento de arquitetura de agentes (RAG, function calling/tool use, memory stores, vector databases, observabilidade).
- Experimentação & métricas: A/B testing, definição de KPIs, instrumentação e leitura crítica de resultados.
- Noções de LLMOps / observabilidade (ex.: Langfuse, Helicone, prompt/version management) e boas práticas de segurança/guardrails.
- Capacidade analítica (SQL ou similar) para investigar dados, definir cortes e validar hipóteses.
- Comunicação clara em português e inglês (você vai interagir com stakeholders e documentação técnica global).
Para Realçar o Sabor:
- Experiência com LangChain / LangGraph / Semantic Kernel ou frameworks equivalentes.
- Contato com frameworks de EVALs (Promptfoo, DeepEval, Giskard, Ragas etc.).
- Experiência com RAG avançado (retrieval strategies, hybrid search, reranking, chunking, evaluation de grounding).
- Vivência com modelos open-source (Llama, Mistral) e provedores proprietários (OpenAI, Anthropic, Google, AWS Bedrock).
- Background técnico (Engenharia/CS/Data) ou capacidade de prototipar rapidamente (Python/JS).
* Salary range is an estimate based on our AI, ML, Data Science Salary Index 💰
Tags: A/B testing Anthropic AWS Generative AI KPIs LangChain LLaMA LLMOps LLMs Machine Learning NLP OpenAI Open Source Python RAG SQL Testing
More jobs like this
Explore more career opportunities
Find even more open roles below ordered by popularity of job title or skills/products/technologies used.