
The only AI glossary you’ll need this year
A inteligência artificial está remodelando o mundo e, ao mesmo tempo, criando uma linguagem totalmente nova para descrever como isso está acontecendo. Participe de qualquer reunião de produto, apresentação ou painel hoje em dia, e você ouvirá as pessoas falando sobre LLMs, RAG, RLHF e uma dúzia de outros termos que podem deixar até mesmo pessoas muito inteligentes no mundo da tecnologia um pouco inseguras. Este glossário é nossa tentativa de resolver isso: definições em linguagem simples dos termos de IA com os quais você provavelmente se deparará, seja desenvolvendo com essas tecnologias, investindo nelas ou apenas tentando se manter atualizado lendo o TechCrunch ou ouvindo podcasts relacionados. Nós o atualizamos regularmente à medida que o campo evolui, então considere-o um documento vivo, bem parecido com os sistemas de IA que ele descreve.
Inteligência artificial geral, ou AGI, é um termo vago. Mas geralmente se refere à IA que é mais capaz do que o ser humano médio em muitas, se não na maioria, das tarefas. O CEO da OpenAI, Sam Altman, certa vez descreveu a AGI como o “equivalente a um ser humano mediano que você poderia contratar como colega de trabalho”. Enquanto isso, o estatuto da OpenAI define a AGI como “sistemas altamente autônomos que superam os humanos na maioria dos trabalhos economicamente valiosos”. A compreensão do Google DeepMind difere ligeiramente dessas duas definições; o laboratório vê a AGI como “IA que é pelo menos tão capaz quanto os humanos na maioria das tarefas cognitivas”. Confuso? Não se preocupe — os especialistas na vanguarda da pesquisa em IA também estão.
Um agente de IA refere-se a uma ferramenta que usa tecnologias de IA para realizar uma série de tarefas em seu nome — além do que um chatbot de IA mais básico poderia fazer —, como registrar despesas, reservar passagens ou uma mesa em um restaurante, ou até mesmo escrever e manter código. No entanto, como já explicamos anteriormente, há muitas variáveis nesse campo emergente, de modo que “agente de IA” pode ter significados diferentes para pessoas diferentes. A infraestrutura também ainda está sendo desenvolvida para oferecer os recursos previstos. Mas o conceito básico implica um sistema autônomo que pode recorrer a múltiplos sistemas de IA para realizar tarefas com várias etapas.
Pense nos pontos de extremidade de API como “botões” nos bastidores de um software que outros programas podem acionar para fazê-lo realizar ações. Os desenvolvedores usam essas interfaces para criar integrações — por exemplo, permitindo que um aplicativo extraia dados de outro, ou possibilitando que um agente de IA controle serviços de terceiros diretamente, sem que um ser humano precise operar manualmente cada interface. A maioria dos dispositivos domésticos inteligentes e plataformas conectadas possui esses botões ocultos disponíveis, mesmo que usuários comuns nunca os vejam ou interajam com eles. À medida que os agentes de IA se tornam mais capazes, eles estão cada vez mais aptos a localizar e utilizar esses pontos de extremidade por conta própria, abrindo possibilidades poderosas — e, às vezes, inesperadas — para a automação.
Diante de uma pergunta simples, o cérebro humano consegue responder sem nem mesmo pensar muito sobre o assunto — coisas como “qual animal é mais alto, uma girafa ou um gato?”. Mas, em muitos casos, você frequentemente precisa de caneta e papel para chegar à resposta certa, pois há etapas intermediárias. Por exemplo, se um fazendeiro tem galinhas e vacas, e juntas elas somam 40 cabeças e 120 pernas, talvez seja necessário escrever uma equação simples para chegar à resposta (20 galinhas e 20 vacas).
No contexto da IA, o raciocínio em cadeia de pensamento para grandes modelos de linguagem significa dividir um problema em etapas intermediárias menores para melhorar a qualidade do resultado final. Geralmente, leva mais tempo para chegar a uma resposta, mas é mais provável que ela esteja correta, especialmente em um contexto de lógica ou programação. Os modelos de raciocínio são desenvolvidos a partir de modelos de linguagem de grande porte tradicionais e otimizados para o raciocínio em cadeia de pensamento graças ao aprendizado por reforço.
(Veja: Modelo de linguagem de grande porte)
Este é um conceito mais específico do que um “agente de IA”, que significa um programa capaz de realizar ações por conta própria, passo a passo, para atingir um objetivo. Um agente de programação é uma versão especializada aplicada ao desenvolvimento de software. Em vez de simplesmente sugerir código para um humano revisar e colar, um agente de programação pode escrever, testar e depurar código de forma autônoma, lidando com o tipo de trabalho iterativo, de tentativa e erro, que normalmente ocupa o dia a dia de um desenvolvedor. Esses agentes podem operar em bases de código inteiras, identificando bugs, executando testes e implementando correções com supervisão humana mínima. Pense nisso como contratar um estagiário muito rápido que nunca dorme e nunca perde o foco — embora, como acontece com qualquer estagiário, um ser humano ainda precise revisar o trabalho.
Embora seja um termo um tanto polivalente, “computação” geralmente se refere ao poder computacional essencial que permite que os modelos de IA operem. Esse tipo de processamento impulsiona o setor de IA, dando-lhe a capacidade de treinar e implantar seus poderosos modelos. O termo costuma ser uma abreviação para os tipos de hardware que fornecem o poder computacional — itens como GPUs, CPUs, TPUs e outras formas de infraestrutura que constituem a base da indústria moderna de IA.
Um subconjunto do aprendizado de máquina com autoaperfeiçoamento, no qual os algoritmos de IA são projetados com uma estrutura de rede neural artificial (RNA) em múltiplas camadas. Isso lhes permite estabelecer correlações mais complexas em comparação com sistemas mais simples baseados em aprendizado de máquina, como modelos lineares ou árvores de decisão. A estrutura dos algoritmos de aprendizado profundo se inspira nas conexões interligadas dos neurônios no cérebro humano.
Os modelos de IA de aprendizado profundo são capazes de identificar por conta própria características importantes nos dados, em vez de dependerem de engenheiros humanos para definir essas características. A estrutura também suporta algoritmos que podem aprender com erros e, por meio de um processo de repetição e ajuste, aprimorar seus próprios resultados. No entanto, os sistemas de aprendizado profundo exigem uma grande quantidade de pontos de dados para produzir bons resultados (milhões ou mais). Eles também costumam levar mais tempo para serem treinados em comparação com algoritmos mais simples de aprendizado de máquina — portanto, os custos de desenvolvimento tendem a ser mais elevados.
(Veja: Rede neural)
A difusão é a tecnologia que está no cerne de muitos modelos de IA que geram arte, música e texto. Inspirados na física, os sistemas de difusão “destruem” lentamente a estrutura dos dados — por exemplo, fotos, músicas e assim por diante — adicionando ruído até que não reste mais nada. Na física, a difusão é espontânea e irreversível — o açúcar difundido no café não pode ser restaurado à forma de cubo. Mas os sistemas de difusão em IA buscam aprender uma espécie de processo de “difusão reversa” para restaurar os dados destruídos, adquirindo a capacidade de recuperar os dados a partir do ruído.
A destilação é uma técnica usada para extrair conhecimento de um grande modelo de IA por meio de um modelo “professor-aluno”. Os desenvolvedores enviam solicitações a um modelo professor e registram as respostas. Às vezes, as respostas são comparadas com um conjunto de dados para verificar sua precisão. Essas respostas são então usadas para treinar o modelo aluno, que é treinado para se aproximar do comportamento do modelo professor.
A destilação pode ser usada para criar um modelo menor e mais eficiente com base em um modelo maior, com perda mínima de informação. Provavelmente foi assim que a OpenAI desenvolveu o GPT-4 Turbo, uma versão mais rápida do GPT-4.
Embora todas as empresas de IA utilizem a destilação internamente, ela também pode ter sido empregada por algumas delas para alcançar os modelos de ponta. A destilação a partir de um concorrente geralmente viola os termos de serviço das APIs de IA e dos assistentes de chat.
Isso se refere ao treinamento adicional de um modelo de IA para otimizar o desempenho em uma tarefa ou área mais específica do que aquela que era o foco principal de seu treinamento anteriormente — normalmente por meio da alimentação de novos dados especializados (ou seja, orientados para a tarefa).
Muitas startups de IA estão usando grandes modelos de linguagem como ponto de partida para desenvolver um produto comercial, mas estão competindo para ampliar a utilidade para um setor ou tarefa-alvo, complementando os ciclos de treinamento anteriores com ajuste fino baseado em seu próprio conhecimento e experiência específicos do domínio.
(Veja: Modelo de linguagem de grande porte [LLM])
Uma GAN, ou Rede Adversarial Generativa, é um tipo de estrutura de aprendizado de máquina que sustenta alguns desenvolvimentos importantes na IA generativa no que diz respeito à produção de dados realistas — incluindo (mas não se limitando a) ferramentas de deepfake. As GANs envolvem o uso de um par de redes neurais, uma das quais utiliza seus dados de treinamento para gerar uma saída que é passada ao outro modelo para avaliação.
Os dois modelos são essencialmente programados para tentar superar um ao outro. O gerador tenta fazer com que sua saída passe pelo discriminador, enquanto o discriminador trabalha para identificar dados gerados artificialmente. Essa competição estruturada pode otimizar os resultados da IA para que sejam mais realistas, sem a necessidade de intervenção humana adicional. No entanto, as GANs funcionam melhor para aplicações mais específicas (como a produção de fotos ou vídeos realistas), em vez de IA de uso geral.
“Alucinação” é o termo preferido pelo setor de IA para se referir a modelos de IA que inventam coisas — literalmente gerando informações incorretas. Obviamente, isso é um grande problema para a qualidade da IA.
As alucinações produzem resultados da GenAI que podem ser enganosos e podem até levar a riscos na vida real — com consequências potencialmente perigosas (pense em uma consulta de saúde que retorne um conselho médico prejudicial).
Acredita-se que o problema das IAs inventarem informações surja como consequência de lacunas nos dados de treinamento. As alucinações estão contribuindo para um impulso em direção a modelos de IA cada vez mais especializados e/ou verticais — ou seja, IAs específicas de domínio que exigem conhecimentos mais restritos — como forma de reduzir a probabilidade de lacunas de conhecimento e diminuir os riscos de desinformação.
A inferência é o processo de executar um modelo de IA. Trata-se de colocar um modelo em ação para fazer previsões ou tirar conclusões a partir de dados já observados. Para ficar claro, a inferência não pode ocorrer sem treinamento; um modelo precisa aprender padrões em um conjunto de dados antes de poder extrapolar efetivamente a partir desses dados de treinamento.
Muitos tipos de hardware podem realizar inferência, desde processadores de smartphones até GPUs potentes e aceleradores de IA projetados sob medida. Mas nem todos conseguem executar modelos com a mesma eficiência. Modelos muito grandes levariam uma eternidade para fazer previsões, digamos, em um laptop, em comparação com um servidor em nuvem equipado com chips de IA de ponta.
[Veja: Treinamento]
Os grandes modelos de linguagem, ou LLMs, são os modelos de IA usados por assistentes de IA populares, como o ChatGPT, o Claude, o Gemini do Google, o AI Llama da Meta, o Microsoft Copilot ou o Le Chat da Mistral. Quando você conversa com um assistente de IA, interage com um modelo de linguagem de grande porte que processa sua solicitação diretamente ou com a ajuda de diferentes ferramentas disponíveis, como navegação na web ou interpretadores de código.
Os LLMs são redes neurais profundas compostas por bilhões de parâmetros numéricos (ou pesos, veja abaixo) que aprendem as relações entre palavras e frases e criam uma representação da linguagem, uma espécie de mapa multidimensional de palavras.
Esses modelos são criados a partir da codificação dos padrões que encontram em bilhões de livros, artigos e transcrições. Quando você faz uma solicitação a um LLM, o modelo gera o padrão mais provável que se encaixa na solicitação.
(Veja: Rede neural)
O cache de memória refere-se a um processo importante que otimiza a inferência (que é o processo pelo qual a IA trabalha para gerar uma resposta à consulta de um usuário). Em essência, o cache é uma técnica de otimização, projetada para tornar a inferência mais eficiente. A IA é, obviamente, impulsionada por cálculos matemáticos de alta complexidade e, cada vez que esses cálculos são realizados, consomem mais energia. O cache foi projetado para reduzir o número de cálculos que um modelo pode ter que executar, salvando cálculos específicos para futuras consultas e operações do usuário. Existem diferentes tipos de cache de memória, embora um dos mais conhecidos seja o cache KV (ou chave-valor). O cache KV funciona em modelos baseados em transformadores e aumenta a eficiência, gerando resultados mais rápidos ao reduzir o tempo (e o trabalho algorítmico) necessário para gerar respostas às perguntas dos usuários.
(Veja: Inferência)
O Protocolo de Contexto do Modelo, ou MCP, é um padrão aberto que permite que modelos de IA se conectem a ferramentas e dados externos — seus arquivos, bancos de dados ou aplicativos como o Slack e o Google Drive — sem que um desenvolvedor precise criar um conector personalizado para cada combinação. Pense nisso como uma porta USB-C para a IA. A Anthropic lançou o MCP em 2024 e, posteriormente, o transferiu para a Linux Foundation; desde então, ele foi adotado pela OpenAI, pelo Google e pela Microsoft, tornando-se um dos padrões que mais rapidamente se espalharam na história recente da IA.
Mixture of Experts é uma arquitetura de modelo que divide uma rede neural em várias sub-redes especializadas menores, ou “especialistas”, e ativa apenas algumas delas para uma determinada tarefa. Em vez de encaminhar todas as solicitações por todo o modelo — como chamar todo o escritório para cada pergunta —, um modelo MoE possui um “roteador” integrado que seleciona apenas os especialistas certos para a tarefa. Isso torna possível construir modelos enormes que permanecem relativamente rápidos e baratos de operar, já que apenas uma fração da rede está trabalhando a qualquer momento. O modelo Mixtral, da Mistral AI, é um exemplo bem conhecido; acredita-se amplamente que os modelos GPT mais recentes da OpenAI também utilizem alguma versão dessa abordagem, embora a empresa nunca tenha confirmado isso oficialmente.
(Veja: Rede neural, Aprendizado profundo)
Uma rede neural refere-se à estrutura algorítmica multicamadas que sustenta o aprendizado profundo — e, de forma mais ampla, todo o boom das ferramentas de IA generativa após o surgimento de grandes modelos de linguagem.
Embora a ideia de se inspirar nas vias densamente interconectadas do cérebro humano como estrutura de projeto para algoritmos de processamento de dados remonte à década de 1940, foi a ascensão muito mais recente do hardware de processamento gráfico (GPUs) — por meio da indústria de videogames — que realmente liberou o potencial dessa teoria. Esses chips se mostraram bem adequados para treinar algoritmos com muito mais camadas do que era possível em épocas anteriores — permitindo que sistemas de IA baseados em redes neurais alcançassem um desempenho muito melhor em diversos domínios, incluindo reconhecimento de voz, navegação autônoma e descoberta de medicamentos.
(Veja: Modelo de linguagem de grande porte [LLM])
Código aberto refere-se a software — ou, cada vez mais, a modelos de IA — em que o código-fonte é disponibilizado publicamente para que qualquer pessoa possa usá-lo, inspecioná-lo ou modificá-lo. No mundo da IA, a família de modelos Llama, da Meta, é um exemplo de destaque; o Linux é o famoso paralelo histórico no campo dos sistemas operacionais. As abordagens de código aberto permitem que pesquisadores, desenvolvedores e empresas em todo o mundo se baseiem no trabalho uns dos outros, acelerando o progresso e possibilitando auditorias de segurança independentes que os sistemas fechados não conseguem oferecer facilmente. Código fechado significa que o código é privado — você pode usar o produto, mas não ver como ele funciona, como é o caso dos modelos GPT da OpenAI — uma distinção que se tornou um dos debates mais marcantes no setor de IA.
Paralelização significa fazer muitas coisas ao mesmo tempo, em vez de uma após a outra — como ter 10 funcionários trabalhando em diferentes partes de um projeto simultaneamente, em vez de um único funcionário fazer tudo sequencialmente. Na IA, a paralelização é fundamental tanto para o treinamento quanto para a inferência: as GPUs modernas são projetadas especificamente para realizar milhares de cálculos em paralelo, o que é um dos principais motivos pelos quais se tornaram a espinha dorsal de hardware do setor. À medida que os sistemas de IA se tornam mais complexos e os modelos ficam maiores, a capacidade de paralelizar o trabalho entre vários chips e várias máquinas tornou-se um dos fatores mais importantes para determinar com que rapidez e de forma mais econômica os modelos podem ser construídos e implantados. A pesquisa sobre melhores estratégias de paralelização é hoje um campo de estudo por si só.
RAMageddon é o novo termo engraçado para uma tendência nada engraçada que está se espalhando pelo setor de tecnologia: uma escassez cada vez maior de memória de acesso aleatório, ou chips de RAM, que alimentam praticamente todos os produtos tecnológicos que usamos em nosso dia a dia. À medida que o setor de IA floresceu, as maiores empresas de tecnologia e laboratórios de IA — todos competindo para ter a IA mais poderosa e eficiente — estão comprando tanta RAM para alimentar seus data centers que não sobra muito para o resto de nós. E esse gargalo no abastecimento significa que o que resta está ficando cada vez mais caro.
Isso inclui setores como o de jogos (onde grandes empresas tiveram que aumentar os preços dos consoles porque está mais difícil encontrar chips de memória para seus dispositivos), eletrônicos de consumo (onde a escassez de memória pode causar a maior queda nas remessas de smartphones em mais de uma década) e computação corporativa em geral (porque essas empresas não conseguem obter RAM suficiente para seus próprios data centers). Espera-se que o aumento dos preços só pare depois que a temida escassez terminar, mas, infelizmente, não há muitos sinais de que isso vá acontecer tão cedo.
Assim como a IA Geral (AGI), o autoaperfeiçoamento recursivo é um limiar para o quão inteligente a IA pode se tornar e o quão pouco ela pode depender dos humanos. No cenário de RSI, os modelos de IA começam a se aperfeiçoar sem intervenção humana, levando a uma enorme aceleração em capacidades e autonomia. Em algumas interpretações, esse seria um momento cataclísmico semelhante à singularidade, um momento em que os modelos de IA se tornam imunes à intervenção externa. Mas a RSI também descreve uma capacidade básica — um modelo de IA pode projetar seu próprio sucessor? —, o que torna muito mais fácil para os engenheiros tentarem construí-la. Várias startups recentes de IA se propuseram a construir modelos que se aprimoram recursivamente, mas a maioria delas descarta as implicações apocalípticas, apresentando a RSI simplesmente como a próxima fronteira da pesquisa.
A aprendizagem por reforço é uma forma de treinar a IA em que um sistema aprende experimentando coisas e recebendo recompensas por respostas corretas — como treinar seu amado animal de estimação com guloseimas, exceto que o “animal de estimação” nesse cenário é uma rede neural e a “guloseima” é um sinal matemático que indica sucesso. Diferentemente do aprendizado supervisionado, em que um modelo é treinado com um conjunto de dados fixo de exemplos rotulados, o aprendizado por reforço permite que um modelo explore seu ambiente, realize ações e atualize continuamente seu comportamento com base no feedback que recebe. Essa abordagem tem se mostrado especialmente eficaz para treinar a IA a jogar jogos, controlar robôs e, mais recentemente, aprimorar a capacidade de raciocínio de grandes modelos de linguagem. Técnicas como o aprendizado por reforço a partir de feedback humano, ou RLHF, são agora fundamentais para a forma como os principais laboratórios de IA ajustam seus modelos para que sejam mais úteis, precisos e seguros.
Quando se trata da comunicação entre humanos e máquinas, existem alguns desafios óbvios — as pessoas se comunicam usando a linguagem humana, enquanto os programas de IA executam tarefas por meio de processos algorítmicos complexos baseados em dados. Os tokens preenchem essa lacuna: são os blocos básicos da comunicação entre humanos e IA, representando segmentos discretos de dados que foram processados ou produzidos por um LLM. Eles são criados por meio de um processo chamado tokenização, que divide o texto bruto em unidades pequenas que um modelo de linguagem pode processar, de forma semelhante à maneira como um compilador traduz a linguagem humana em código binário que um computador pode entender. Em ambientes corporativos, os tokens também determinam o custo — a maioria das empresas de IA cobra pelo uso do LLM com base no número de tokens, o que significa que, quanto mais uma empresa usa, mais ela paga.
Portanto, mais uma vez, tokens são pequenos fragmentos de texto — geralmente partes de palavras, em vez de palavras inteiras — nos quais os modelos de linguagem de IA dividem a linguagem antes de processá-la; eles são, de certa forma, análogos a “palavras” para fins de compreensão das cargas de trabalho de IA. A taxa de processamento se refere à quantidade que pode ser processada em um determinado período de tempo; portanto, a taxa de processamento de tokens é essencialmente uma medida de quanto trabalho de IA um sistema pode lidar de uma só vez. Uma alta taxa de processamento de tokens é uma meta fundamental para equipes de infraestrutura de IA, já que determina quantos usuários um modelo pode atender simultaneamente e com que rapidez cada um deles recebe uma resposta. O pesquisador de IA Andrej Karpathy descreveu sentir ansiedade quando suas assinaturas de IA ficam ociosas — ecoando o sentimento que teve quando era estudante de pós-graduação e o caro hardware de computador não era totalmente utilizado —, um sentimento que explica por que maximizar a taxa de transferência de tokens se tornou uma espécie de obsessão na área.
O desenvolvimento de IAs de aprendizado de máquina envolve um processo conhecido como treinamento. Em termos simples, isso se refere à alimentação de dados para que o modelo possa aprender com padrões e gerar resultados úteis. Essencialmente, é o processo pelo qual o sistema responde às características dos dados, o que lhe permite adaptar os resultados em direção a um objetivo almejado — seja identificar imagens de gatos ou produzir um haicai sob demanda.
O treinamento pode ser caro porque requer muitas entradas, e os volumes necessários vêm aumentando — razão pela qual abordagens híbridas, como o ajuste fino de uma IA baseada em regras com dados direcionados, podem ajudar a gerenciar custos sem precisar começar do zero.
[Veja: Inferência]
Técnica em que um modelo de IA previamente treinado é usado como ponto de partida para desenvolver um novo modelo para uma tarefa diferente, mas normalmente relacionada — permitindo que o conhecimento adquirido em ciclos de treinamento anteriores seja reaplicado.
O aprendizado por transferência pode gerar ganhos de eficiência ao agilizar o desenvolvimento do modelo. Também pode ser útil quando os dados para a tarefa para a qual o modelo está sendo desenvolvido são um tanto limitados. Mas é importante observar que a abordagem tem limitações. Modelos que dependem do aprendizado por transferência para adquirir capacidades generalizadas provavelmente exigirão treinamento com dados adicionais para terem um bom desempenho em seu domínio de foco
(Veja: Ajuste fino)
A perda de validação é um número que indica o quão bem um modelo de IA está aprendendo durante o treinamento — e quanto menor, melhor. Os pesquisadores a acompanham de perto como uma espécie de boletim em tempo real, usando-a para decidir quando interromper o treinamento, quando ajustar hiperparâmetros ou se devem investigar um possível problema. Uma das principais preocupações que ela ajuda a sinalizar é o sobreajuste, uma condição em que um modelo memoriza seus dados de treinamento em vez de realmente aprender padrões que possa generalizar para novas situações. Pense nisso como a diferença entre um aluno que compreende genuinamente o conteúdo e outro que simplesmente memorizou a prova do ano passado — a perda de validação ajuda a revelar em qual desses dois o seu modelo está se tornando.
Os pesos são essenciais para o treinamento de IA, pois determinam quanta importância (ou peso) é atribuída a diferentes características (ou variáveis de entrada) nos dados usados para treinar o sistema — moldando, assim, a saída do modelo de IA.
Em outras palavras, os pesos são parâmetros numéricos que definem o que é mais relevante em um conjunto de dados para uma determinada tarefa de treinamento. Eles cumprem sua função aplicando multiplicação às entradas. O treinamento do modelo geralmente começa com pesos atribuídos aleatoriamente, mas, à medida que o processo avança, os pesos se ajustam à medida que o modelo busca chegar a um resultado que corresponda mais de perto ao alvo.
Por exemplo, um modelo de IA para prever preços de imóveis, treinado com dados históricos do mercado imobiliário de uma determinada localidade, poderia incluir pesos para características como o número de quartos e banheiros, se o imóvel é independente ou geminado, se possui estacionamento, garagem e assim por diante.
Em última análise, os pesos que o modelo atribui a cada uma dessas entradas refletem o quanto elas influenciam o valor de um imóvel, com base no conjunto de dados fornecido.
Este artigo é atualizado regularmente com novas informações.