De alucinações a hardware: lições de um projeto de visão computacional do mundo real que se foi de lado

Junte -se ao evento confiável pelos líderes corporativos por quase duas décadas. A VB Transform reúne as pessoas que construíram a estratégia de IA da empresa real. Saber mais

Os projetos de visão computacional raramente vão exatamente como planejado, e este não foi exceção. A idéia era simples: construir um modelo que pudesse olhar para uma foto de um laptop e identificar qualquer dano físico – coisas como telas rachadas, teclas ausentes ou dobradiças quebradas. Parecia um caso de uso direto para modelos de imagem e Modelo de linguagem grandeS (LLMS), mas rapidamente se transformou em algo mais complicado.

Ao longo do caminho, encontramos questões com alucinações, saídas e imagens não confiáveis que nem eram laptops. Para resolvê -las, acabamos aplicando uma estrutura Agentic de maneira atípica – não para automação de tarefas, mas para melhorar o desempenho do modelo.

Neste post, percorreremos o que tentamos, o que não funcionou e como uma combinação de abordagens acabou nos ajudando a construir algo confiável.

Onde começamos: impulsionamento monolítico

Nossa abordagem inicial era bastante padrão para um modelo multimodal. Usamos um único prompt para passar uma imagem em um LLM com capacidade de imagem e pediu para identificar danos visíveis. Essa estratégia de solicitação monolítica é simples de implementar e funciona decentemente para tarefas limpas e bem definidas. Mas os dados do mundo real raramente jogam.

Tornamos três grandes questões desde o início:

Alucinações: O modelo às vezes inventava danos que não existiam ou rotulavam mal o que estava vendo.
Detecção de imagem lixo: Não tinha maneira confiável de sinalizar imagens que nem sequer eram laptops, como fotos de mesas, paredes ou pessoas ocasionalmente escorregavam e recebiam relatórios de danos sem sentido.
Precisão inconsistente: A combinação desses problemas tornou o modelo não confiável para o uso operacional.

Este foi o ponto em que ficou claro que precisaríamos iterar.

Primeira correção: mistura de resoluções de imagem

Uma coisa que notamos foi a quantidade de qualidade de imagem que afetou a saída do modelo. Os usuários carregaram todos os tipos de imagens que variam de nítido e alta resolução a embaçada. Isso nos levou a se referir a pesquisar Destacando como a resolução da imagem afeta os modelos de aprendizado profundo.

Treinamos e testamos o modelo usando uma mistura de imagens de alta e baixa resolução. A idéia era tornar o modelo mais resistente à ampla gama de qualidades de imagem que encontraria na prática. Isso ajudou a melhorar a consistência, mas os principais problemas de alucinação e manuseio de imagens lixo persistiram.

O desvio multimodal: LLM somente de texto é multimodal

Incentivado por experimentos recentes na combinação de legendas de imagem com LLMs somente de texto-como a técnica coberta em O loteonde as legendas são geradas a partir de imagens e depois interpretadas por um modelo de idioma, decidimos tentar.

Aqui está como funciona:

O LLM começa gerando várias legendas possíveis para uma imagem.
Outro modelo, chamado modelo de incorporação multimodal, verifica o quão bem cada legenda se encaixa na imagem. Nesse caso, usamos o Siglip para pontuar a semelhança entre a imagem e o texto.
O sistema mantém as poucas legendas com base nessas pontuações.
O LLM usa essas legendas para escrever novas, tentando se aproximar do que a imagem realmente mostra.
Ele repete esse processo até que as legendas parem de melhorar ou atinja um limite definido.

Embora inteligente em teoria, essa abordagem introduziu novos problemas para o nosso caso de uso:

Alucinações persistentes: As próprias legendas às vezes incluíam danos imaginários, que o LLM relatou com confiança.
Cobertura incompleta: Mesmo com várias legendas, alguns problemas foram totalmente perdidos.
Aumento da complexidade, pouco benefício: As etapas adicionadas tornaram o sistema mais complicado sem superar de forma confiável a configuração anterior.

Foi um experimento interessante, mas em última análise não é uma solução.

Um uso criativo de estruturas agênticas

Este foi o ponto de virada. Enquanto as estruturas Agentic geralmente são usadas para orquestrar fluxos de tarefas (pense em agentes que coordenam os convites do calendário ou ações de atendimento ao cliente), nos perguntamos se dividindo a tarefa de interpretação da imagem em menor, agentes especializados Pode ajudar.

Construímos uma estrutura Agentic estruturada assim:

Agente de orquestrador: Ele verificou a imagem e identificou quais componentes do laptop eram visíveis (tela, teclado, chassi, portas).
Agentes de componentes: Agentes dedicados inspecionaram cada componente para tipos de danos específicos; Por exemplo, um para telas rachadas, outra para a falta de teclas.
Agente de detecção de lixo: Um agente separado sinalizou se a imagem era até um laptop em primeiro lugar.

Essa abordagem modular e orientada por tarefas produziu resultados muito mais precisos e explicáveis. As alucinações caíram dramaticamente, as imagens de lixo foram sinalizadas com segurança e a tarefa de cada agente era simples e focada o suficiente para controlar bem a qualidade.

Por mais eficaz que fosse, não era perfeito. Duas limitações principais apareceram:

Aumento da latência: Executar vários agentes seqüenciais adicionados ao tempo total de inferência.
Lacunas de cobertura: Os agentes só poderiam detectar problemas que foram explicitamente programados para procurar. Se uma imagem mostrasse algo inesperado que nenhum agente foi encarregado de identificar, ela passaria despercebida.

Precisávamos de uma maneira de equilibrar a precisão com a cobertura.

A solução híbrida: combinando abordagens agênticas e monolíticas

Para preencher as lacunas, criamos um sistema híbrido:

O estrutura Agentic Run First, lidando com a detecção precisa de tipos de danos conhecidos e imagens de lixo. Limitamos o número de agentes aos mais essenciais para melhorar a latência.
Então, a Prompt de imagem monolítica LLM Digitalizou a imagem para qualquer outra coisa que os agentes possam ter perdido.
Finalmente, nós ajustou o modelo Usando um conjunto de imagens com curadoria para casos de uso de alta prioridade, como cenários de danos relatados com frequência, para melhorar ainda mais a precisão e a confiabilidade.

Essa combinação nos deu a precisão e a explicação da configuração agêntica, a ampla cobertura do aviso monolítico e o aumento da confiança do ajuste fino direcionado.

O que aprendemos

Algumas coisas ficaram claras quando encerramos este projeto:

Estruturas Agentic são mais versáteis do que recebem crédito por: Enquanto eles geralmente estão associados ao gerenciamento do fluxo de trabalho, descobrimos que eles poderiam aumentar significativamente o desempenho do modelo quando aplicados de maneira estruturada e modular.
Misturando diferentes abordagens batidas dependendo de apenas uma: A combinação de detecção precisa baseada em agentes, juntamente com a ampla cobertura do LLMS, além de um pouco de ajuste fino, onde mais importava, nos deu resultados muito mais confiáveis do que qualquer método único.
Modelos visuais são propensos a alucinações: Mesmo as configurações mais avançadas podem tirar conclusões ou ver coisas que não estão lá. É preciso um design atencioso do sistema para manter esses erros sob controle.
Variedade da qualidade da imagem faz a diferença: Treinamento e teste com imagens claras e de alta resolução e cotidianas e de qualidade inferior ajudaram o modelo a permanecer resiliente quando confrontado com fotos imprevisíveis e do mundo real.
Você precisa de uma maneira de capturar imagens de lixo: Uma verificação dedicada para imagens de lixo ou não relacionado foi uma das mudanças mais simples que fizemos e teve um impacto enorme na confiabilidade geral do sistema.

Pensamentos finais

O que começou como uma idéia simples, usando um prompt de LLM para detectar danos físicos em imagens de laptop, rapidamente se transformou em um experimento muito mais profundo na combinação de diferentes técnicas de IA para enfrentar problemas imprevisíveis e do mundo real. Ao longo do caminho, percebemos que algumas das ferramentas mais úteis não foram originalmente projetadas para esse tipo de trabalho.

Estruturas agênticas, muitas vezes vistas como utilitárias de fluxo de trabalho, se mostraram surpreendentemente eficazes quando reaproveitadas para tarefas como detecção de danos estruturados e filtragem de imagens. Com um pouco de criatividade, eles nos ajudaram a construir um sistema que não era apenas mais preciso, mas mais fácil de entender e gerenciar na prática.

Shruti Tiwari é um gerente de produto da AI da Dell Technologies.

Vadiraj Kulkarni é um cientista de dados da Dell Technologies.

Insights diários sobre casos de uso de negócios com VB diariamente

Se você deseja impressionar seu chefe, o VB Daily o cobriu. Damos a você uma informação interna sobre o que as empresas estão fazendo com a IA generativa, desde mudanças regulatórias a implantações práticas, para que você possa compartilhar informações para o ROI máximo.

Leia o nosso política de Privacidade

Obrigado por assinar. Confira mais Boletins VB aqui.

Ocorreu um erro.