
Uma semana depois do futuro lendário Meltdown do mercado Deepseek geradoo ruído está diminuindo. Com mais dados chegando à luz, podemos finalmente começar a analisar o que é o que, longe do frenesi das pessoas de dinheiro e das manchetes chiques.
A redução de preços de 30x é uma avaliação justa?
Não. Muitas manchetes compartilharam um valor de custo de treinamento de US $ 6 milhões para o DeepSeek V3. Isso está errado. Os US $ 6 milhões não incluem “Custos associados a pesquisas anteriores e experimentos de ablação em arquiteturas, algoritmos e dados”. O custo de pré-treinamento é uma parte muito estreita do custo total. Excluídos são peças importantes do quebra-cabeça, como P&D e TCO do próprio hardware. Excluído também são subsídios potenciais do estado chinês.
Além disso, a comparação dos custos de treinamento entre os modelos treinados em momentos diferentes é inerentemente falha: os custos de treinamento têm melhorado sem parar. Os primeiros motores sempre gastaram mais … e parece que Deepseek pode ter “destiladoModelos de Openai. Os recém -chegados estão no ombro dos gigantes, é assim que a ciência funciona.
Como co-fundador Coere Nick Frosst disse no final de janeiro“Está claro há algum tempo que inovar e criar maiores eficiências – em vez de apenas jogar computação ilimitada no problema – estimulará a próxima rodada de avanços tecnológicos. Este é um momento esclarecedor quando as pessoas estão percebendo o que há muito tempo é óbvio”.
O que sabemos sobre o DeepSeek Performance?
Sabemos que R1 é comparável ao O1 OpenAI de uma perspectiva de qualidade (em alguns benchmarks, não tudo), embora ocorra O3.
Também sabemos que os modelos de Deepseek incorporam avanços importantes, destacando um caminho para a IA mais econômica.
Nota: FP8 Treinamento de precisão mista, atenção latente de várias cabeças (MLA), previsão de vários toques (MTP) e balanceamento de carga livre de perda de perda auxiliar … todos os quais aumentam a eficiência.
No entanto, é improvável que existem vários fatores que garantam que os requisitos gerais de GPU da Deepseek diminuam:
-
O treinamento de precisão mista do FP8 é excelente para modelos de idiomas grandes (LLMs) devido à sua eficiência no manuseio de conjuntos de dados e contagens de parâmetros maciços. Para tarefas mais complexas, no entanto, que requerem maior estabilidade numérica, precisão ou faixa dinâmica, o mesmo não pode ser dito.
-
A previsão de vários toques permite que a DeepSeek preveja vários tokens simultaneamente, melhorando a taxa de transferência de inferência em até 1,8x. Isso reduz a carga de GPU por tarefa durante aplicativos em tempo real, como chatbots ou assistentes de codificação. No entanto, isso vem com desafios como erros de previsão, baixas taxas de aceitação e aumento da complexidade da verificação. Esses problemas o tornam menos adequado para aplicações que exigem precisão estrita, controle de granulação fina ou dependência de alto contexto (por exemplo, geração de código, construções lógicas formais).
Este mercado é aquecido e procurando um motivo para espirrar. O fato de que essa notícia veio da China é um gatilho maior que as melhorias tecnológicas.
Então … as melhorias de treinamento são reais?
-
Em primeiro lugar, não temos energia, capital, data centers ou chips suficientes para atender à demanda atualmente prevista nos casos mais otimistas (80 GW+). Assim, as melhorias tiveram que acontecer.
-
Além disso, o mercado não pode realmente Apoie os racks de 300kW com a tecnologia atual (o resfriamento líquido é ótimo, mas caro e carrega riscos). Se as melhorias de eficiência diminuirem a curva de aumentar as densidades de energia, teremos muita sorte – a alternativa é um monte de capacidade de data center rapidamente obsoletas e aumentando rapidamente os custos de construção da MW.
-
A melhoria de 30% não significa que precisamos de 30% menos chips ou data centers. Isso significa que obtemos 30% mais energia. Goldman Sachs lamentou que a IA não esteja entregando ROI suficiente – bem, isso aumenta o ganho significativamente. Há uma falácia lógica, que um ganho de 10% de eficiência significa 10% menos data center e 10% menos máquinas de servidor. E, no entanto, isso foi repetidamente refutado.
Espere, você está falando sobre esse paradoxo de Jevon sobre o qual continuo ouvindo?
Sim. É um modelo excessivo, mas útil. Qualquer mudança para algoritmos mais baratos, mais poderosos e menos intensivos em energia tem o potencial de expandir significativamente a adoção da IA / o mercado total de endereços, o que poderia, em última análise, impulsionar a demanda por infraestruturas de data center em larga escala e distribuído.
Isso, por sua vez, significa que as empresas de IA podem alcançar recursos muito poderosos com muito menos investimento do que se pensava anteriormente. E sugere que em breve possamos ver uma enxurrada de investimento em startups menores de IA e muito mais concorrência pelos gigantes do Vale do Silício (que, devido aos enormes custos de treinamento de seus modelos, estão competindo entre si até agora).
As eficiências reduzem o custo por tarefa, mas a utilização total da GPU aumenta à medida que mais tarefas, modelos maiores e aplicativos mais amplos são adotados.
Essa visão foi apoiada por alguns jogadores do ecossistema. ““Porque o valor de ter um sistema mais inteligente é tão alto,” escreveu Cofundador antrópico Dario amodei, ele “faz com que as empresas gastem mais, não menos, em modelos de treinamento”. Baxtel vice -presidente de vendas e operações Mitch Lenzi opinaria, dizendo que “A inovação na IA não reduz a demanda – alimenta -a. À medida que a IA se torna mais acessível e econômica, a indústria verá a expansão contínua, mantendo a necessidade de infraestrutura de data center de alto desempenho”.
Falando em custo por tarefa: que tal inferir?
Treinar um modelo é apenas o começo. Usá -lo também usa computação / energia. Da mesma maneira que criar o Google é uma coisa, mas pesquisar é outra.
A primeira coisa a dizer sobre isso é que o custo da inferência sempre é necessário diminuir para atingir a adoção da IA em massa. De fato, os custos de inferência vêm diminuindo todos os meses; Os ganhos em eficiência são um dado, e a paisagem não é drasticamente alterada para quem a entende. Novos avanços (provavelmente devido a tensões geopolíticas) podem acelerar apenas o que já está em andamento.
MAS… Existem algumas indicações de que os modelos Deepseek são menos eficientes para a inferência do que eles deixaram transparecer. De fato, a energia que economiza no treinamento é compensada por suas técnicas mais intensivas para responder a perguntas e pelas longas respostas que produzem.
Alguns testes preliminares mostraram que, em geral, quando testados em 40 prompts, a Deepseek tem uma energia semelhante eficiência Para meta -modelos, mas tende a gerar respostas muito mais longas e, portanto, usa 87% mais energia.
A pesquisadora Sasha Luccioni comentou que ““Se começássemos a adotar esse paradigma amplamente, o uso de energia de inferência dispararia. Se todos os modelos lançados forem mais intensivos e se tornarem uma cadeia de pensamentos, isso anula completamente quaisquer ganhos de eficiência”.
Então … o que vai mudar, realmente?
O que mudará é o tipo de data centers criados. No lado do data center, a mudança da capacidade de construção principalmente para a construção de sites de inferência foi discutida há algum tempo. Os avanços vistos aqui não aceleram significativamente essa tendência. O setor passará do treinamento 80/20: Inferência de nova construção em 2025 para 80/20 Treinamento de inferência New-Consr. em 2029.
O maior risco para os atuais jogadores de “infraestrutura de IA” é que uma versão destilada dos modelos Deepseek pode ser executada localmente na borda em uma estação de trabalho de ponta. Isso significa que um modelo semelhante será executado em um superphone em C.2 anos. Se a inferência se mover para o limite, porque é “bom o suficiente”, estamos vivendo em um mundo muito diferente com vencedores muito diferentes – ou seja, o maior ciclo de atualização de PC e smartphone que já vimos.
MAS O lote reduz maciçamente os custos e aumenta mais os tokens/segundo, portanto, a inferência na nuvem ainda tem muita vantagem. Precisamos nos preparar para mais IA no dispositivo, vinculando-se ao centro de dados, provavelmente com densidades mais baixas.
Para concluir…
Os maiores vencedores são os construtores.
A computação mais eficiente não significa que você precisa de menos computação: permite que o setor aplique mais computação em tempo de inferência, a fim de gerar um nível mais alto de inteligência e uma qualidade de serviço mais alta (crucial para a IA agêntica, à qual o setor está recorrendo). À medida que a inteligência fica mais barata, lançaremos mais inteligência de força bruta em todos os principais problemas do mundo.
As inovações da Deepseek são reais, mas não abrem a economia da infraestrutura de IA. O investimento do CAPEX continua a ser fundamentado, a inferência está se movendo em direção à borda, mas a inferência da nuvem continuará dominando devido às vantagens em lotes. Esta é uma evolução, não uma revolução.
É por isso que muitos participantes do mercado foram tranquilizadores. Mark Zuckerberg, durante a última chamada de pós-aprimoramento de Meta, disse que ele continua ““Pensar que investir muito em Capex & Infra. vai ser uma vantagem estratégica ao longo do tempo”Ele está certo. Com o tempo.
MAShá uma chance de o “deflator” de melhores modelos supera o aumento do uso no therm curto. Há um estudo de caso pertinente: DWDM (multiplexação de Divisão de Divisão de Venção de onda) aumenta massivamente o suprimento de fibra. E assim, enquanto o caso Jevons Paradox estava 100% correto no a longo prazo, 97% da fibra estabelecida em 2001 estava desenhada. A maior parte dessa fibra agora está iluminada hoje, mas o Jevons Paradox (exagerado hoje) pode ser de longo prazo e, no curto prazo, as empresas são totalmente divorciadas da realidade.
Confuso? Sim. Mas sejamos honestos, esse é o ponto. Cada dia traz novas ofertas, oportunidades, desafios e produtos na esfera da IA. Estamos recebendo um assento no lado do anel para uma tecnologia que está constantemente mudando, evoluindo e desafiando a maneira como trabalhamos e interagimos com a tecnologia. Esta é uma bênção.