O teto das LLMs e o que ninguém viu chegando
Se você acompanha o mundo da tecnologia, provavelmente já ouviu alguém dizer que a inteligência artificial "está chegando num platô". A notícia é: essa galera tem razão — em parte.
O problema é que todo mundo fixou o olhar no modelo e perdeu o jogo que estava acontecendo ao redor dele.
O platô é real. E foi previsto.
Fabio Akita, uma das referências técnicas mais respeitadas no Brasil, já discutia em 2023 os limites dos modelos de linguagem. O argumento central: LLMs são, em essência, máquinas sofisticadas de previsão de texto — uma versão extraordinariamente complexa de autocomplete, baseada em padrões estatísticos. Não inteligência genuína. E aumentar o número de parâmetros não muda essa natureza.
A ciência foi confirmando. Uma pesquisa publicada na PNAS em 2025 mostrou que o scaling de LLMs atinge rendimentos decrescentes em tarefas específicas: ganhos de conhecimento factual platonam em modelos com cerca de 30 bilhões de parâmetros. Mesmo Ilya Sutskever, co-fundador da OpenAI, declarou no NeurIPS 2024: "o pré-treinamento como conhecemos vai chegar ao fim".
O platô das LLMs não é teoria de pessimistas — é o que os dados mostram.
Mas aqui está o que quase ninguém estava olhando enquanto esse debate acontecia.
O jogo mudou de lugar
A grande virada de 2025 não foi um modelo mais inteligente. Foi a descoberta de como extrair muito mais valor dos modelos que já existiam — através do que a indústria passou a chamar de harness: a camada de orquestração, ferramentas e automações que envolve a LLM.
A ironia é boa: foi engenharia humana, bem feita, por programadores reais, que mudou o jogo. Não a IA se tornando mais inteligente.
O que é um harness?
Quando alguém usa um chatbot comum, a troca é simples: você digita, o modelo responde. Uma pergunta, uma resposta.
Um harness é diferente. É uma camada de software que:
- Dá ao modelo acesso a ferramentas — executar código, pesquisar na web, ler arquivos, chamar APIs
- Orquestra múltiplas chamadas em sequência, como um roteiro automatizado
- Analisa os resultados, identifica erros e itera automaticamente
- Age de forma autônoma até completar um objetivo complexo
A diferença não é de grau. É de categoria.
Claude Code e Codex: a prova de conceito
O melhor exemplo de harness bem construído é o Claude Code, da Anthropic — e, logo depois, o Codex, da OpenAI.
Antes deles, usar IA para programar era um processo manual e fragmentado: você pedia um código no chat, copiava, colava no editor, rodava o compilador para ver os erros, rodava os testes, analisava o resultado, voltava ao chat para pedir correções. Um ciclo lento, dependente de intervenção humana a cada passo.
Claude Code e Codex automatizaram esse ciclo inteiro. O modelo lê a base de código existente, cria um plano de múltiplos passos, escreve código, executa, analisa os erros, corrige e itera — de forma autônoma, sem precisar parar em cada etapa.
O resultado é mensurável: benchmarks mostram o mesmo modelo Claude alcançando 55% em testes de codificação quando operado por um harness bem construído, contra 46% sem ele. Mesma inteligência. Resultado radicalmente diferente.
O insight que multiplicou tudo
Existe um momento específico em que essa corrida virou: quando ficou claro que, se a IA consegue escrever e executar um script Python de forma autônoma, ela pode ser capaz de praticamente qualquer coisa.
Executar código é dar superpoderes à IA. Ela passa a conseguir fazer cálculos complexos — superando uma das suas fraquezas históricas —, consultar bases de dados, interagir com sistemas externos, testar hipóteses e iterar sobre os resultados, tudo sem parar para pedir permissão a cada passo.
Conectar ferramentas à LLM não expandiu levemente suas capacidades. Multiplicou.
O mercado ainda está olhando para o chat
A maioria das empresas ainda está na fase de "incluir um chatbot no sistema". Um chat dentro do ERP. Uma IA de atendimento. Um assistente que responde perguntas da base de conhecimento.
Faz sentido como ponto de entrada. A interface de chat é intuitiva e tem demanda comprovada. Mas o que as grandes apostas do momento indicam é que o verdadeiro valor não está no chat genérico — está no harness especializado.
A corrida atual entre Anthropic, OpenAI, Google e xAI não é "quem tem o modelo mais inteligente". É quem tem o melhor harness. Quem consegue fazer a LLM agir de forma mais autônoma, especializada e confiável dentro de um domínio específico.
O mercado ficou encantado com o chat. Os grandes perceberam que o produto real é o harness.
O que vem depois do código
Se o harness focado em programação já mostrou esse nível de resultado, a pergunta óbvia é: por que parar no código?
A mesma lógica se aplica a outras áreas. Um harness para contadores, capaz de interpretar demonstrações financeiras, cruzar dados fiscais e identificar inconsistências regulatórias. Um harness para advogados, que navega jurisprudência, identifica riscos contratuais e prepara minutas dentro de parâmetros legais. Um harness para médicos, que correlaciona sintomas, cruza literatura clínica e sugere condutas dentro de protocolos estabelecidos.
Não é ficção científica. É a extensão natural do que já foi provado com código.
O teto das LLMs pode estar próximo. O teto do que se pode construir com elas — via harness bem elaborados e especializados — está muito mais longe do que a maioria imagina. E quase ninguém ainda está correndo para esse mercado.
Quer entender como isso se aplica ao seu negócio?
A Softworks acompanha de perto as tendências que mudam a forma de operar — e constrói sistemas sob medida antes de qualquer modismo virar commodity.
Conversar com a Softworks