Por que o GPT-5 não será suficiente para implementar Agentes de IA?
Panos
Co-founder & CEO
6 de dezembro de 2024
in
🏆 Leadership Insights
Uma pergunta comum e razoável é: por que investir na construção de arquiteturas complexas de Agentes de IA se futuras versões do GPT podem eventualmente incluir toda a funcionalidade necessária de forma nativa?
Por que não esperar que o GPT-5 resolva tudo?
A resposta está na observação de que o progresso nas arquiteturas de transformadores—o tipo de rede neural por trás dos grandes modelos de linguagem—parece estar desacelerando. Ao observar benchmarks projetados para avaliar o desempenho dos LLMs, como o Massive Multitask Language Understanding (MMLU), notamos um platô perceptível nos avanços recentes. O GPT-4 estabeleceu um recorde em 2023 com uma pontuação impressionante de 86,4%, quase dobrando o desempenho do GPT-3 desde sua estreia em 2020. No entanto, desde o lançamento do GPT-4, modelos mais novos mostraram apenas melhorias marginais em comparação com o salto significativo do GPT-3 para o GPT-4. Por exemplo, o GPT-o1, o modelo de raciocínio mais recente da OpenAI, alcança cerca de 92,3% no MMLU, apenas 6% a mais em relação aos 86,4% do GPT-4. Isso sugere que, embora as melhorias continuem, os avanços transformadores que definiram iterações anteriores estão se tornando mais difíceis de alcançar.
Uma das principais razões pelas quais os modelos mais novos exibem apenas melhorias marginais pode ser encontrada ao olhar para uma publicação recente, intitulada "No 'Zero-Shot' Without Exponential Data". O artigo apresenta evidências de que dados de treinamento adicionais proporcionam retornos decrescentes em melhorias de desempenho dos LLMs, exibindo uma tendência logarítmica à medida que os dados aumentam.
Se essa tendência se mantiver, como as evidências no artigo sugerem, então enfrentamos uma situação onde os LLMs precisarão exponencialmente de mais e mais dados para melhorar em direção à AGI (Inteligência Geral Artificial). O problema é agravado pelo fato de que, com aproximadamente 15 trilhões de tokens, os conjuntos de treinamento atuais dos LLMs já estão se aproximando do limite superior de texto público de alta qualidade disponível. Para o inglês sozinho, as estimativas sugerem um alcance máximo de 40 a 90 trilhões de tokens, o que significa que estamos nos aproximando do ponto de saturação de dados utilizáveis e disponíveis.
Além disso, as tendências históricas indicam que os requisitos de dados dos modelos aumentaram dez vezes com cada nova geração (GPT-2 para GPT-3 para GPT-4, todos exigiram 10x ou mais dados). Embora o GPT-5 ainda possa alcançar melhorias incrementais por meio da coleta de dados expandida e otimizações menores, apenas escalar é não sustentar a mesma trajetória nas gerações futuras. Para modelos no nível do GPT-6 e além, alcançar progresso significativo provavelmente exigirá avanços em arquiteturas novas ou paradigmas totalmente novos que ainda não foram descobertos.
Dado o estado atual da pesquisa e as evidências disponíveis, está longe de ser certo que futuros modelos como o GPT-5 ou GPT-6 entregarão melhorias na mesma magnitude que seus predecessores. O argumento de que "levou três anos para o GPT-4 superar o GPT-3" é fraco quando analisado: o salto de desempenho do GPT-4 foi impulsionado principalmente pela escala—arquiteturas maiores e 10x mais dados de treinamento.
Essa abordagem, no entanto, não só enfrenta retornos decrescentes—como as evidências sugerem—mas também está nos aproximando dos limites práticos de dados textuais de alta qualidade disponíveis. O progresso futuro dependerá menos de simplesmente aumentar a escala e mais da inovação em novas arquiteturas e paradigmas de treinamento totalmente diferentes; sem tais avanços, os rápidos progressos que testemunhamos nos últimos anos podem inevitavelmente desacelerar. Um contra-argumento é que ainda há uma abundância de dados não textuais, como imagens e vídeos, que são fontes ricas de informação. De fato, uma parte significativa da cognição humana vem da observação de situações visualmente, em vez de através do texto. Enquanto modelos que processam imagens e vídeos já estão sendo desenvolvidos e modelos multimodais estão surgindo, essas tecnologias ainda estão em seus estágios iniciais—especialmente no domínio da geração de vídeos. Pesquisadores em grandes departamentos de P&D estão tentando aproveitar esses dados não explorados criando modelos capazes de reconhecer situações em vídeos e imagens, convertendo-os em texto e, assim, enriquecendo os LLMs. Embora isso seja promissor, destaca a necessidade de abordagens inovadoras em vez de confiar apenas na ampliação dos modelos existentes.