
Anthropic launches Claude Sonnet 5 as a cheaper way to run agents
À medida que as capacidades de agência se tornam um requisito básico entre as empresas de modelos de base, a Anthropic está lançando o Claude Sonnet 5, uma versão mais poderosa e com maior capacidade de agência do modelo de tamanho médio do laboratório.
“Ele é capaz de traçar planos, usar ferramentas como navegadores e terminais e operar de forma autônoma em um nível que, há apenas alguns meses, exigia modelos maiores e mais caros”, afirmou a Anthropic em uma postagem no blog.
Essa abordagem reflete o que a OpenAI e o Google têm dito sobre seus próprios lançamentos recentes. O GPT-5.6 Sol, da OpenAI, foi lançado em versão prévia na semana passada e também é o modelo com maior capacidade de agência da empresa até o momento, permitindo que os usuários dividam o trabalho entre subagentes para tarefas autônomas mais longas. O Gemini 3.5 Flash, do Google, lançado em maio, foi apresentado como uma mudança de um chatbot conversacional para uma ferramenta com capacidade de agência que planeja, constrói e itera em tarefas reais com o mínimo de intervenção humana.
A proposta do Sonnet 5 confirma que a capacidade de atuação autônoma é a nova expectativa básica em todas as faixas de preço. Agora, o diferencial não será quem consegue realizar o trabalho de forma mais autônoma, mas com que custo baixo e com que confiabilidade isso pode ser feito sem supervisão humana.
O Sonnet 5 promete desempenho próximo ao do Opus 4.8, mas a custos muito mais baixos. A partir desta terça-feira, o Claude Sonnet 5 será o modelo padrão para os planos gratuito e Pro e estará disponível para todas as assinaturas.
No lançamento, o Sonnet 5 terá o preço de US$ 2 por milhão de tokens de entrada e US$ 10 por milhão de tokens de saída até 31 de agosto; após essa data, o preço subirá para US$ 3 por milhão de tokens de entrada e US$ 10 por milhão de tokens de saída. Isso torna o Sonnet 5 mais barato que o Opus 4.8, bem como o GPT-5.5 da OpenAI e o Gemini 3.1 Pro do Google. (Ele ainda é mais caro que o Gemini 3.5 Flash.)
O novo modelo também demonstra melhorias significativas em relação ao seu antecessor, o Sonnet 4.6, lançado em fevereiro, em desempenho agênico, como raciocínio, uso de ferramentas, programação de software e trabalho de conhecimento, de acordo com a Anthropic.
Por exemplo, em um teste de desempenho, o Sonnet 5 obteve 63,2% em programação autônoma, em comparação com os 69,2% do Opus 4.8 e os 58,1% do Sonnet 4.6. Em um teste de desempenho de trabalho de conhecimento, o Sonnet 5, na verdade, supera ligeiramente o Opus 4.8, que é conhecido por se destacar na resolução dos problemas mais difíceis, como tomar decisões que exigem julgamento sutil e realizar pesquisas aprofundadas.
“O Opus 4.8 ainda é o modelo preferido para maior precisão nessas tarefas, mas o Sonnet 5 oferece aos desenvolvedores opções mais econômicas e de qualidade muito superior àquelas disponíveis anteriormente”, afirma a Anthropic. “Entre o Sonnet 5 e o Opus 4.8, os usuários podem ajustar o nível de esforço para encontrar o equilíbrio certo entre custo e desempenho.”
De acordo com testadores citados na postagem do blog, o Sonnet 5 também se destaca na conclusão de tarefas complexas nas quais versões anteriores do modelo teriam desistido e “verifica sua própria saída sem que isso seja explicitamente solicitado”.
“Demos ao Claude Sonnet 5 uma tarefa em duas partes — atualizar os níveis de conta do Salesforce e enviar um anúncio de lançamento para contatos corporativos — e ele concluiu tudo do início ao fim”, disse Daniel Shepard, engenheiro sênior da Zapier, em um comunicado. “Isso costumava parar no meio do caminho. Para a automação do dia a dia, é uma escolha óbvia.”
Em termos de segurança, o Sonnet 5 também apresenta uma taxa menor de “comportamentos indesejáveis” — como cooperação com uso indevido e engano — do que seu antecessor, tornando-o mais seguro para uso em contextos de agência. Ele é mais eficaz em recusar solicitações maliciosas e contornar tentativas de sequestro em ataques de injeção de prompt. Além disso, apresenta alucinações e comportamentos bajuladores com menor frequência do que o Sonnet 4.6.
Dito isso, ele não está no mesmo nível do Opus 4.8 e do Claude Mythos Preview quando se trata de comportamento desalinhado. “As avaliações também mostram que ele tem uma capacidade muito menor de realizar tarefas perigosas de segurança cibernética do que nossos modelos Opus atuais”, diz a postagem no blog.
O cofundador da Lovable, Fabian Hedin, afirmou em comunicado que o Claude Sonnet 5 “recusa solicitações inseguras de forma clara e consistente”.
“Na Lovable, estamos colocando ferramentas poderosas nas mãos de milhões de desenvolvedores”, disse Hedin. “Um modelo que sabe quando dizer não é tão importante quanto um que sabe como construir.”