
From Fortnite to robots: General Intuition raises $2.3B on bet that video games can train AI agents for the real world
Assim que entrei no andar de P&D da General Intuition, em seu escritório de Nova York, o cofundador e CEO da empresa, Pim de Witte, de 31 anos, chamou minha atenção para um monitor colocado sobre uma mesa alta. Parecia que alguém estava jogando algo parecido com o Fortnite. Mas não era uma pessoa.
“Nosso agente está jogando há 100 horas seguidas”, disse Kent Rollins, diretor de produtos da empresa, com um sorriso radiante.
Antes que eu pudesse me deixar levar pelo espetáculo de uma IA navegando pelo ambiente virtual do jogo, ouvi os passos eletrônicos de um grande robô quadrúpede se aproximando.
“O mesmo cérebro que controla o agente que está jogando também controla o robô”, disse-me de Witte.
Josh Duplantis, um analista de dados que carregava um laptop transmitindo ao vivo as imagens da única câmera do robô, interveio para explicar que o modo padrão do robô era “exploração”.
Contando com essa câmera, seu único olho, o robô gigante parecido com um inseto caminhou até mim, deu a volta em mim e seguiu para dentro do escritório. De vez em quando, ele esbarrava nas pernas das cadeiras ou batia em uma lixeira solta, bem como uma criança pequena que ainda não aprendeu como seu corpo se relaciona com o mundo ao seu redor. Duplantis disse que foram necessários apenas oito minutos de dados robóticos do mundo real para ajustar um modelo de IA para o quadrúpede. Além disso, esses dados foram coletados na rua, e não dentro do escritório onde o robô estava navegando naquele momento.
Um modelo agênico capaz de generalizar desde jogos até simulações e incorporação é a razão de ser da General Intuition. E a capacidade desse modelo de descobrir seu lugar no mundo garantiu o apoio de alguns grandes nomes.
Na quinta-feira, a General Intuition anunciou que levantou US$ 320 milhões com uma avaliação de US$ 2,3 bilhões, confirmando a reportagem anterior do TechCrunch. A rodada eleva o total de financiamento divulgado pela General Intuition para US$ 454 milhões, após a rodada de US$ 134 milhões levantada no lançamento, em outubro passado.
A startup surgiu como uma spin-off da outra empresa de de Witte, a Medal, que permite que jogadores enviem e compartilhem clipes de videogames. As centenas de milhões de horas de jogabilidade enviadas forneceram o conjunto de dados inicial para treinar o modelo da General Intuition em raciocínio espaço-temporal — ou seja, compreender como se mover pelo espaço e pelo tempo.
Mas o ingrediente-chave não foram as imagens de jogo; foram os rótulos de ação incorporados a esses clipes: registros de exatamente quais botões um jogador pressionou e quando. A maioria dos concorrentes, diz de Witte, está tentando inferir ações apenas a partir do vídeo, o que ele argumenta ser insuficiente.
“Vemos isso apenas como a próxima etapa do pré-treinamento do futuro”, disse de Witte. “Temos um único modelo capaz de responder às informações do Fortnite na tela e agir, mas também às dinâmicas do mundo real de uma forma que um LLM jamais poderia.”
Em determinado momento, de Witte me mostrou um laptop rodando o modelo de mundo da General Intuition, um ambiente simulado gerado quadro a quadro, em vez de renderizado por um motor de jogo tradicional. Como costumo fazer ao testar modelos de mundo, acabei esbarrando em uma série de paredes. Em outras demonstrações que experimentei, os agentes que você controla às vezes passam direto por elas, mas esse não passou. A partir de milhões de horas de jogo, ele de alguma forma aprendeu que paredes são paredes, escadas servem para subir e as sombras se alongam conforme o sol se move.
Para a General Intuition, esse modelo de mundo não é o produto; é o ambiente de treinamento (chamado internamente de “a academia”). A empresa, em última análise, quer vender o próprio modelo de agente, e de Witte argumenta que os dados de ação incorporados à jogabilidade ajudam o modelo a distinguir o “eu” do “ambiente” de uma forma que lhe proporciona uma compreensão mais rica da causalidade.
Por mais impressionante que a tecnologia da General Intuition pareça nas demonstrações, a empresa não é a única tentando resolver esse problema. Além disso, ainda não se conseguiu fazer com que tal modelo se mantenha válido no mundo físico, em grande escala. A maioria das abordagens desse tipo requer enormes quantidades de dados do mundo real, que são coletados lentamente e a um custo elevado. A aposta da General Intuition é que a jogabilidade seja um atalho escalável.
Seus investidores também concordam com essa aposta. A última rodada de investimentos da General Intuition foi liderada pela Khosla Ventures, com a participação da General Catalyst, de Jeff Bezos, Eric Schmidt, Nico Rosberg e pesquisadores do Google DeepMind e do MIT.
A grande maioria dos recursos da rodada será destinada à ampliação da capacidade computacional. A General Intuition tem um acordo com a CoreWeave e planeja se concentrar no pré-treinamento da próxima versão do modelo. Uma parte dos recursos foi reservada para tornar sua API mais amplamente disponível até o final do verão.
Vinod Khosla, cuja empresa liderou a rodada, diz que se sentiu atraído pela visão de de Witte e pela posição da empresa em relação aos dados proprietários.
“Se você observar os LLMs, quando o raciocínio surgiu, foi um salto quântico”, disse Khosla em uma entrevista por telefone. “Nos modelos de mundo, acho que o salto quântico é o surgimento da intuição na IA, uma capacidade semelhante à intuição humana. Os dados de ação e reação humanas que você tem nos jogos são a parte fundamental para o surgimento da intuição.”
A General Intuition não é a única empresa a perceber que os dados de ação humana da Medal são uma peça fundamental do quebra-cabeça da construção de modelos de mundo dinâmicos e agentes gerais. Brianna Martin, chefe de gabinete da startup, disse que a empresa surgiu, em parte, depois que a Medal recusou uma oferta de aquisição de um grande laboratório. Desde então, também houve outras ofertas.
De Witte e seus cofundadores, Eloi Alonso, Adam Jelley e Vincent Micheli, não estão interessados em ser adquiridos, e os investidores da startup também não buscam uma saída por enquanto. A quantidade e a qualidade dos dados proprietários que a General Intuition possui por meio da Medal são uma das razões pelas quais Khosla está convencido de que a startup é uma aposta geracional, e não um alvo de fusões e aquisições; que ela poderia se tornar a espinha dorsal para agentes generalizados e modelos de mundo tanto em simulação quanto no mundo real.
“Neste momento, seria uma aquisição de dados, o que é um tanto desinteressante”, disse Khosla.
Parte dessa aposta também envolve confiar nos valores de de Witte.
O empreendedor passou três anos trabalhando na área humanitária, inclusive com a Médicos Sem Fronteiras. Por isso, ele traçou uma linha clara sobre como a tecnologia da General Intuition será utilizada: nenhum agente será empregado para causar danos a seres humanos.
“Não queremos ser um elemento que contribua para a escalada do sistema”, disse de Witte. “Digamos que eu saísse por aí dizendo: ‘Estamos desenvolvendo autonomia letal’. O que você acha que aconteceria em outros países?”
Essa restrição aos casos de uso militar surge em um momento em que o Vale do Silício está cada vez mais otimista em relação à guerra, embora de Witte afirme que fica feliz em ver seus modelos sendo utilizados em missões de busca e resgate.
De Witte é holandês, e grande parte de sua equipe é europeia, o que molda a identidade da empresa. Ele diz que contratou Martin em parte devido à decisão dela de se demitir publicamente da Palantir por causa do trabalho da empresa com a Agência de Imigração e Alfândega dos Estados Unidos.
“Não sei por que o Vale do Silício faz o que faz”, disse ele. “Há um motivo para eu não estar lá.”
A ética de De Witte não se limita apenas a definir o que os modelos não farão. Como jogador que ganhou US$ 1,5 milhão criando e hospedando um servidor privado do RuneScape na adolescência, De Witte também pensa no que acontece com as pessoas que ficam para trás diante do que os modelos de IA são capazes de fazer.
A General Intuition lançou recentemente uma plataforma chamada Nerve, um mercado de empregos que permite que gamers ganhem dinheiro usando seus equipamentos já existentes. Quem se inscreve começa com o rotulamento de dados e pode, eventualmente, avançar para a teleoperação de robôs e outras tarefas. A base de usuários da Medal, observou de Witte, é justamente a geração mais exposta à substituição impulsionada pela IA, e ele quer que eles tenham participação no que está por vir.
De Witte quer que a General Intuition seja um facilitador de ecossistemas, como a Anthropic ou a OpenAI — um provedor de modelos que permite que outros desenvolvam soluções com base em sua tecnologia. Hoje, a startup tem alguns clientes nas áreas de jogos, simulação e robótica.
“Não vamos criar uma empresa de carros autônomos”, disse de Witte. “Vamos tornar 10 vezes mais fácil para a próxima pessoa criar uma empresa de carros autônomos.”
A empresa afirma que, assim que sua API chegar às mãos de mais clientes, ela poderá testar sua capacidade em diversos casos de uso — como testar um robô em um gêmeo digital de um chão de fábrica, operar um robô com aparência humana dentro de um estúdio de jogos ou enviar um quadrúpede para navegar em ambientes perigosos.
Embora o quadrúpede seja a primeira concretização física que a General Intuition testou no mundo real, a empresa também já experimentou drones e outros dispositivos, incluindo testes do modelo em jogos de direção.
“Funciona em qualquer coisa que você possa controlar usando um controle de videogame, teclado ou mouse”, disse de Witte.
A possibilidade de construir um “flywheel” de dados é um dos objetivos.
“Vamos selecionar clientes com os quais possamos diversificar as concretizações para as quais esse modelo de base generalizado serve como espinha dorsal”, disse de Witte. “Portanto, vamos priorizar a escolha de clientes com base na capacidade deles de oferecer dados do mundo real que sejam interessantes e úteis para impulsionar a pesquisa. E se eles tiverem uma equipe interna ágil, na qual possamos ser verdadeiros parceiros integrados e aprender uns com os outros.”
Khosla afirmou que os dados proprietários da General Intuition foram o que a levaram até aqui, e sua capacidade de continuar coletando dados que ninguém mais possui será essencial. Especialmente porque, apesar das demonstrações impressionantes, ainda não se sabe ao certo se a transferência da simulação para o mundo real pode ser sustentada em escala — uma questão que ninguém respondeu completamente até o momento.
Correção: O título anterior informava incorretamente o valor que a General Intuition levantou nesta rodada. O erro foi corrigido.