Participe de nossos boletins diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais
UM Novo papel por pesquisadores de Pesquisa do Google e a Universidade da Califórnia, Berkeley, Demonstra que uma abordagem surpreendentemente simples de escala de tempo de teste pode aumentar as habilidades de raciocínio de grandes modelos de linguagem (LLMS). A chave? A pesquisa em expansão baseada em amostragem, uma técnica que se baseia na geração de várias respostas e no uso do próprio modelo para verificá-las.
A descoberta principal é que mesmo uma implementação minimalista da pesquisa baseada em amostragem, usando amostragem e auto-verificação aleatórias, pode elevar o desempenho do raciocínio de modelos como Gemini 1.5 Pro além do da previsão de O1 em benchmarks populares. As descobertas podem ter implicações importantes para aplicativos corporativos e desafiar a suposição de que treinamento altamente especializado ou arquiteturas complexas são sempre necessárias para alcançar o desempenho de primeira linha.
Os limites da escala de computação no tempo de teste atual
O método popular atual para escala no tempo de teste no LLMS é treinar o modelo através do aprendizado de reforço para gerar respostas mais longas com traços de cadeia de pensamento (COT). Esta abordagem é usada em modelos como Openai O1 e Deepseek-r1. Embora benéficos, esses métodos geralmente requerem investimentos substanciais na fase de treinamento.
Outro método de escala de tempo de teste é a “autoconsistência”, onde o modelo gera várias respostas à consulta e escolhe a resposta que aparece com mais frequência. A autoconsistência atinge seus limites ao lidar com problemas complexos, como nesses casos, a resposta mais repetida não é necessariamente a correta.
A pesquisa baseada em amostragem oferece uma alternativa mais simples e altamente escalável à escala do tempo de teste: deixe o modelo gerar várias respostas e selecionar o melhor através de um mecanismo de verificação. A pesquisa baseada em amostragem pode complementar outras estratégias de escala de computação no tempo de teste e, como os pesquisadores escrevem em seu artigo, “também tem a vantagem única de ser embaraçosamente paralelo e permitir a escala arbitrariamente: basta provar mais respostas”.
Mais importante, a pesquisa baseada em amostragem pode ser aplicada a qualquer LLM, incluindo aqueles que não foram explicitamente treinados para o raciocínio.
Como funciona a pesquisa baseada em amostragem
Os pesquisadores se concentram em uma implementação minimalista da pesquisa baseada em amostragem, usando um modelo de idioma para gerar respostas candidatas e verificá-las. Este é um processo de “auto-verificação”, onde o modelo avalia suas próprias saídas sem depender de respostas externas de verdade no solo ou sistemas de verificação simbólica.

O algoritmo funciona em algumas etapas simples:
1 – O algoritmo começa gerando um conjunto de soluções candidatas para o problema determinado usando um modelo de idioma. Isso é feito dando ao modelo o mesmo prompt várias vezes e usando uma configuração de temperatura diferente de zero para criar um conjunto diversificado de respostas.
2 – Cada resposta do candidato sofre um processo de verificação no qual o LLM é solicitado várias vezes para determinar se a resposta está correta. Os resultados da verificação são calculados para criar uma pontuação final de verificação para a resposta.
3-O algoritmo seleciona a resposta de pontuação mais alta como a resposta final. Se vários candidatos estiverem dentro de um alcance um do outro, o LLM será solicitado a compará -los emparelhá -los e escolher o melhor. A resposta que vence as comparações mais pareadas é escolhida como a resposta final.
Os pesquisadores consideraram dois eixos-chave para escala no tempo de teste:
Amostragem: o número de respostas que o modelo gera para cada problema de entrada.
Verificação: o número de pontuações de verificação calculadas para cada solução gerada
Como a pesquisa baseada em amostragem se compara a outras técnicas
O estudo revelou que o desempenho do raciocínio continua a melhorar com a pesquisa baseada em amostragem, mesmo quando a computação no tempo de teste é escalada muito além do ponto em que a autoconsistência satura.
Em uma escala suficiente, essa implementação minimalista aumenta significativamente a precisão do raciocínio sobre os benchmarks de raciocínio, como AIME e matemática. Por exemplo, o desempenho do Gemini 1.5 Pro superou o de O1-Preview, que foi explicitamente treinado em problemas de raciocínio, e o Gemini 1.5 Flash superou o Gemini 1.5 Pro.

“Isso não apenas destaca a importância da pesquisa baseada em amostragem por uma capacidade de escala, mas também sugere a utilidade da pesquisa baseada em amostragem como uma linha de base simples na qual comparar outras estratégias de escala de computação no tempo de teste e medir melhorias genuínas nos recursos de pesquisa dos modelos”, escrevem os pesquisadores.
Vale ressaltar que, embora os resultados da amostragem baseada em pesquisa sejam impressionantes, os custos também podem se tornar proibitivos. Por exemplo, com 200 amostras e 50 etapas de verificação por amostra, uma consulta da Aime gerará cerca de 130 milhões de tokens, que custam US $ 650 com Gemini 1,5 Pro. No entanto, essa é uma abordagem muito minimalista para a pesquisa baseada em amostragem e é compatível com as técnicas de otimização propostas em outros estudos. Com métodos de amostragem e verificação mais inteligentes, os custos de inferência podem ser reduzidos consideravelmente por usando modelos menores e gerando menos tokens. Por exemplo, usando o flash Gemini 1.5 para executar a verificação, os custos caem para US $ 12 por pergunta.
Estratégias eficazes de auto-verificação
Há um debate em andamento sobre se os LLMs podem verificar suas próprias respostas. Os pesquisadores identificaram duas estratégias principais para melhorar a auto-verificação usando a computação de tempo de teste:
Comparando diretamente os candidatos de resposta: Discordâncias entre soluções candidatas indicam fortemente erros em potencial. Ao fornecer ao verificador várias respostas a serem comparadas, o modelo pode identificar melhor erros e alucinações, abordando uma fraqueza central do LLMS. Os pesquisadores descrevem isso como uma instância de “escala implícita”.
Reescrita específica da tarefa: Os pesquisadores propõem que o estilo de saída ideal de um LLM dependa da tarefa. A cadeia de pensamentos é eficaz para resolver tarefas de raciocínio, mas as respostas são mais fáceis de verificar quando são escritas em um estilo mais formal e matematicamente convencional. Os verificadores podem reescrever as respostas candidatas em um formato mais estruturado (por exemplo, à prova de teoremma) antes da avaliação.
“Prevemos os recursos de auto-verificação do modelo para melhorar rapidamente a curto prazo, à medida que os modelos aprendem a alavancar os princípios de adequação de escalamento e saída de saída implícitos e impulsionar as taxas de escala aprimoradas para a pesquisa baseada em amostragem”, escrevem os pesquisadores.
Implicações para aplicações do mundo real
O estudo demonstra que uma técnica relativamente simples pode obter resultados impressionantes, potencialmente reduzindo a necessidade de arquiteturas de modelos complexas e caras ou regimes de treinamento.
Essa também é uma técnica escalável, permitindo que as empresas aumentem o desempenho, alocando mais recursos de computação para amostragem e verificação. Ele também permite que os desenvolvedores empurrem os modelos de linguagem de fronteira além de suas limitações em tarefas complexas.
“Dado que complementa outras estratégias de escala de computação no tempo de teste, é paralelável e permite dimensionar arbitrariamente e admite implementações simples que são comprovadamente eficazes, esperamos que a pesquisa baseada em amostragem desempenhe um papel crucial à medida que os modelos de idiomas têm a tarefa de resolver problemas cada vez mais complexos com orçamentos computados cada vez mais grandes”, escreve os pesquisadores.