A Patronus AI levanta US$ 50 milhões para criar “mundos digitais” que submetem agentes de IA a testes de resistência

TecnologiaPor Redação Guarulhos Digital em 25/06/2026

A startup Patronus AI, especializada em testes de agentes e fundada por ex-pesquisadores da Meta AI, está enfrentando uma demanda quase insaciável, segundo seu investidor.

Patronus AI lands $50M to build ‘digital worlds’ that stress-test AI agents

Os agentes de IA estão se tornando cada vez mais sofisticados. Eles estão evoluindo da simples resposta a perguntas para a execução autônoma de tarefas complexas com várias etapas.

Mas antes que esses agentes possam ser considerados confiáveis para reservar viagens ou realizar análises financeiras em nome dos usuários, os fornecedores de modelos e as startups que desenvolvem tais agentes querem garantir que eles tenham um desempenho confiável em uma ampla variedade de cenários.

Os laboratórios de IA costumam usar benchmarks para demonstrar a capacidade de seus modelos, mas uma pontuação alta, mesmo em um benchmark voltado para agentes, não prova, na verdade, que uma IA seja capaz de realizar corretamente diversas tarefas complexas do mundo real.

A Patronus AI, uma startup fundada em 2023 pelos ex-pesquisadores de IA da Meta, Anand Kannappan e Rebecca Qian, está ajudando criadores de modelos e empresas a ajustar esses modelos para exatamente isso, construindo ambientes digitais simulados nos quais avaliar o desempenho dos agentes.

A startup sediada em São Francisco deve estar resolvendo um problema importante. Praticamente todos os laboratórios de ponta em IA e muitas startups emergentes são agora clientes, de acordo com Glenn Solomon, diretor-gerente da Notable Capital, que descreve a demanda pelos ambientes simulados da empresa como quase insaciável.

A receita da Patronus cresceu 15 vezes no último ano, despertando grande interesse dos investidores. Na quinta-feira, a empresa anunciou uma rodada da Série B de US$ 50 milhões liderada pela Greenfield Partners, com a participação da Notable Capital, Lightspeed, Datadog e Samsung. A rodada eleva o financiamento total da empresa para US$ 70 milhões.

A Patronus utiliza o que chama de “modelos de mundo digital” para criar réplicas de sites e sistemas internos. Nesses ambientes, os agentes passam por testes de estresse após o treinamento por meio do aprendizado por reforço, que recompensa iterativamente a conclusão bem-sucedida de tarefas e penaliza erros.

Os laboratórios de IA veem grande valor nessas simulações digitais, pois elas dão aos agentes a chance de experimentar cenários diferentes, às vezes imprevisíveis. A empresa compara sua abordagem à forma como a Waymo treinou carros autônomos, construindo primeiro mundos sintéticos para testar os veículos contra riscos raros, como condições climáticas severas ou uma criança correndo atrás de uma bola.

A diferença com os agentes de IA é que eles tendem a tomar atalhos, o que significa que não conseguem concluir a tarefa corretamente. “A Patronus é muito boa em identificar esses atalhos e garantir que os modelos sejam responsabilizados”, disse Solomon.

Atualmente, a Patronus está fornecendo seus mundos digitais simulados para engenharia de software e finanças, mas isso é apenas o começo, segundo Kannappan.

“Hoje estamos muito focados nos problemas que são verificáveis, ou seja, aqueles que você pode checar e confirmar imediatamente, mas há muitas outras áreas que são praticamente não verificáveis ou muito difíceis de verificar”, disse ele.

O fato de esses processos serem verificáveis não significa que sejam simples. “Queremos ser capazes de criar de fato o ambiente no qual seja possível operar um agente que possa funcionar por 10 horas, 10 dias ou 10 semanas”, disse Kannappan.

Quanto aos concorrentes, a Patronus acredita que está competindo principalmente contra as equipes internas que os laboratórios de IA já montaram para avaliar o comportamento dos agentes. Enquanto empresas especializadas em dados humanos, como a Mercor e a Surge, ajudam os criadores de modelos com o aprendizado por reforço, a Patronus opera de maneira diferente, avaliando como os agentes se comportam sem qualquer envolvimento humano.

Fonte: TechCrunch

Compartilhe