Participe de nossos boletins diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais
Startup da IA francesa Pleias fez ondas no final do ano passado com o Lançamento de sua família Pleias 1.0 de pequenos modelos de idiomas de pequenos pequenos – Entre os primeiros e apenas até o momento a serem construídos inteiramente ao raspar dados “abertos”, ou seja, dados rotulados explicitamente como domínio público, código aberto ou sem licença e não protegidos por direitos autorais.
Agora a empresa tem anunciou o comunicado de dois modelos de raciocínio em pequena escala de código aberto projetados especificamente para geração de recuperação upmentada (RAG), síntese de citação e saída multilíngue estruturada.
O lançamento inclui dois modelos principais-PLEIAS-RAG-350M e PLEIAS-RAG-1B-cada um também disponível no formato GGUF otimizado para CPU, fazendo um total de quatro variantes prontas para implantação.
Todos eles são baseados no Pleias 1.0 e podem ser usados independentemente ou em conjunto com outros LLMs que a organização já pode ou planejar para implantar. Todos parecem estar disponíveis sob uma licença permissiva de código aberto Apache 2.0, o que significa que eles são Elegível para as organizações tomarem, modificarem e implantarem para casos de uso comercial.
Rag, como você se lembra, é a técnica amplamente usada que empresas e organizações podem implantar para conectar um modelo de idioma grande de IA (LLM), como GPT-4O do OpenaiAssim, Gemini 2.5 Flash do GoogleAssim, Soneto Claude 3.7 do Anthropic 3.7 ou COMANDO DE COLEREou alternativas de código aberto como Llama 4 e Deepseek V3 a bases de conhecimento externas, como documentos corporativos e armazenamentos em nuvem.
Isso geralmente é necessário para empresas que desejam criar chatbots e outros aplicativos de IA que referenciam suas políticas internas ou catálogos de produtos (uma alternativa, provocando um longo contexto LLM com todas as informações necessárias, pode não ser adequado para casos de uso corporativo onde os custos de segurança e transmissão por token são preocupações).
A família Modelo Pleias-Rag é o mais recente esforço para preencher a lacuna entre precisão e eficiência em pequenos modelos de idiomas.
Esses modelos visam empresas, desenvolvedores e pesquisadores que procuram alternativas econômicas a modelos de linguagem em larga escala, sem comprometer a rastreabilidade, recursos multilíngues ou fluxos de trabalho de raciocínio estruturado.
A base de usuário-alvo é na verdade o continente doméstico da Europa de Pleias, como o co-fundador Alexander Doria disse à VentureBeat por mensagem direta na rede social X:
“Uma motivação primária tem sido a dificuldade de escalar aplicações de pano na Europa. A maioria das organizações privadas tem pouca GPUs (pode ter mudado, mas há pouco menos de 2% de todos [Nvidia] H100 [GPUs] estavam na Europa). E, no entanto, simultaneamente, há um forte incentivo ao auto-hospedeiro por razões regulamentadas, incluindo o GDPR.
““Os SLMs progrediram significativamente no ano passado, mas são frequentemente concebidos como ‘mini-chatbots’ e observamos uma queda significativa de desempenho em idiomas não ingleses, tanto em termos de compreensão da fonte quanto de qualidade da geração de texto. Então, ficamos satisfeitos em atingir a maioria de nossos objetivos:
- Uma alternativa real aos modelos 7-8B para RAG, mesmo na CPU e outras infra-quedas restritas.
- Modelos totalmente verificáveis com suporte de citação.
- Preservação do desempenho da linguagem europeia. ”
No entanto, é claro que os modelos estão sendo de código aberto sob a licença Apache 2.0 significa que qualquer pessoa pode levá -los e usá -los livremente em qualquer lugar do mundo.
Focado no aterramento, citações e fatos
Uma característica fundamental dos novos modelos Pleias-Rag é seu suporte nativo para a citação de origem com citações literais, totalmente integradas ao processo de inferência do modelo.
Diferentemente dos métodos de citação post-hoc ou de pipelines de chunking externos, os modelos Pleias-Rag geram citações diretamente, usando uma sintaxe inspirada no formato de referência da Wikipedia.
Essa abordagem permite trechos de citação mais curtos e legíveis, mantendo a verificabilidade.
O aterramento da citação desempenha um papel funcional nas configurações regulamentadas.
Para setores como assistência médica, jurídica e finanças-onde a tomada de decisão deve ser documentada e rastreável-essas referências internas oferecem um caminho direto para a auditabilidade. Pleias posiciona essa escolha de design como um imperativo ético, alinhando -se com as crescentes demandas regulatórias por IA explicável.
Proto Agentic?
Os modelos Pleias-Rag são descritos como “proto-agente”-eles podem avaliar autonomamente se uma consulta é compreensível, determinar se é trivial ou complexa e decidir se responder, reformar ou recusar com base na adequação da fonte.
Sua saída estruturada inclui detecção de idiomas, relatórios de consulta e análise de origem e uma resposta fundamentada.
Apesar de seu tamanho relativamente pequeno (o PLEIAS-RAG-350M possui apenas 350 milhões de parâmetros), os modelos exibem comportamento tradicionalmente associados a sistemas agênticos maiores.
Segundo Pleias, esses recursos decorrem de um pipeline de treinamento intermediário especializado que combina a geração de dados sintéticos com os avisos de raciocínio iterativo.
O PLEIAS-RAG-350M é projetado explicitamente para ambientes restritos. Ele tem um bom desempenho nas CPUs padrão, incluindo infraestrutura de classe móvel.
De acordo com os benchmarks internos, a versão GGUF não quantizada produz saídas completas de raciocínio em aproximadamente 20 segundos nas configurações de RAM de 8 GB. Sua pequena pegada o coloca em um nicho com muito poucos concorrentes, como Qwen-0.5 e Smollm, mas com uma ênfase muito mais forte na síntese de fonte estruturada.
Desempenho competitivo em tarefas e idiomas
Nas avaliações de benchmark, o PLEIAS-RAG-350M e o PLEIAS-RAG-1B superam a maioria dos modelos de peso aberto abaixo de 4 bilhões de parâmetros, incluindo LLAMA-3.1-8B e QWEN-2.5-7B, em tarefas como Hotpotqa, 2wikimultihopqa e musique.
Esses benchmarks de pano de vários hop testam a capacidade do modelo de raciocinar em vários documentos e identificar distratores-requisitos comuns em sistemas de conhecimento de grau de empresa.
A força dos modelos se estende a cenários multilíngues. Nos conjuntos de referência traduzidos em francês, alemão, espanhol e italiano, os modelos Pleias mostram degradação insignificante no desempenho.
Isso os diferencia de outros SLMs, que normalmente experimentam uma perda de desempenho de 10 a 35% ao lidar com consultas não inglesas.
O suporte multilíngue decorre do design cuidadoso do tokenizer e do treinamento adversário sintético, que inclui exercícios de troca de idiomas. Os modelos não apenas detectam o idioma de uma consulta de usuário, mas também visam responder no mesmo idioma – um recurso importante para implantações globais.
Além disso, Doria destacou como os modelos poderiam ser usados para aumentar o desempenho de outros modelos existentes que uma empresa já pode estar usando:
“Prevemos os modelos a serem usados na configuração de orquestração, especialmente porque o custo de computação é baixo. Um resultado muito interessante no lado da avaliação: até o modelo de 350m acabou sendo bom em respostas totalmente diferentes das respostas [Meta] Lhama e [Alibaba] Qwen estava se apresentando em. Portanto, há uma complementaridade real que atribuímos ao nosso pipeline de raciocínio, que vai além da relação custo-benefício… ””
Acesso e licenciamento aberto
De acordo com Doria e um artigo técnico Detalhando o treinamento da família Pleias-Rag, os modelos foram treinados em: “Corpus comum para criar o conjunto de treinamento de trapos (todos os 3 milhões de exemplos vieram dele). Usamos [Google] Gemma no topo para geração de traços sintéticos de raciocínio desde a licença permitia reutilização/reciclagem. ”
Ambos os modelos são lançados sob a licença Apache 2.0, permitindo reutilização e integração comercial em sistemas maiores.
Pleias enfatiza a adequação dos modelos para integração em assistentes agrupados por busca, ferramentas educacionais e sistemas de suporte ao usuário. A empresa também fornece uma biblioteca de API para simplificar a formatação estruturada de entrada e saída para os desenvolvedores.
A liberação dos modelos faz parte de um impulso mais amplo de Pleias para reposicionar pequenos LLMs como ferramentas para o raciocínio estruturado, e não como os bots de conversação de uso geral.
Ao alavancar uma arquitetura de memória externa e métodos de citação sistemática, a série Pleias-Rag oferece uma alternativa audível e transparente a modelos de fronteira mais opacos.
Perspectivas futuras
Olhando para o futuro, Pleias planeja expandir os recursos dos modelos por meio de manuseio de contexto mais longo, integração de pesquisa mais rígida e ajuste de personalidade para uma apresentação de identidade mais consistente.
O aprendizado de reforço também está sendo explorado, principalmente em domínios como a precisão da citação, onde a verificação das citações pode ser medida algoritmicamente.
A equipe também está colaborando ativamente com parceiros como a Wikimedia Foundation para apoiar integrações de pesquisa direcionadas usando fontes confiáveis.
Por fim, o uso atual de implementações, modelos e fluxos de trabalho específico para RAG pode cair à medida que os modelos de IA mais avançados são treinados e implantados, os que incorporam o uso de ferramentas de pano e agêntico nativamente. Como Doria disse a VentureBeat via DM:
““A longo prazo, minha convicção é que os modelos clássicos do RAG e de longo contexto serão interrompidos pelos agentes de pesquisa. Começamos a avançar nessa direção: é por isso que o modelo já vem equipado com muitos recursos atualmente externalizados em aplicações de pano (reformulação de consultas, reranger, etc.). Obviamente, pretendemos ir além e integrar capacidades de pesquisa e capacidades de processamento de origem diretamente no próprio modelo. Minha convicção é que o RAG desaparecerá de certa forma, pois é automatizado por modelos Agentic capazes de direcionar seus próprios fluxos de trabalho.““
Com o PLEIAS-RAG-350M e 1B, a empresa está apostando que pequenos modelos-quando combinados com fortes saídas de andaimes e verificáveis-podem competir com contrapartes muito maiores, especialmente em implantações multilíngues e limitadas por infraestrutura.