AI generativa Os modelos estão se aproximando de agir no mundo real. As grandes empresas de IA já estão apresentando Agentes da IA Isso pode cuidar do trabalho ocupado baseado na Web para você, encomendar suas compras ou fazer sua reserva para o jantar. Hoje, Google DeepMind anunciadodois generativos Modelos de IA Projetado para alimentar os robôs de amanhã.
Os modelos são construídos em Google Geminium modelo de fundação multimodal que pode processar dados de texto, voz e imagem para responder a perguntas, dar conselhos e geralmente ajudar. DeepMind chama o primeiro dos novos modelos, Gemini Robóticaum “modelo avançado de ação em linguagem de visão”, o que significa que ele pode receber todas as mesmas entradas e, em seguida, sair instruções para as ações físicas de um robô. Os modelos foram projetados para funcionar com qualquer sistema de hardware, mas foram testados principalmente nos dois braços Aloha 2 sistema que o DeepMind introduziu no ano passado.
Em um vídeo de demonstração, uma voz diz: “Pegue o basquetebol e Slam Dunk It ”(às 2:27 no vídeo abaixo). Então a braço de robô Chega cuidadosamente uma bola de basquete em miniatura e a joga em uma rede em miniatura-e, embora não fosse um enterro no nível da NBA, foi o suficiente para empolgar os pesquisadores de profundidade.
https://www.youtube.com/watch?v=uyi0k7puyksGoogle DeepMind Lançou este vídeo de demonstração mostrando os recursos do seu modelo de Fundação Gemini Robotics para controlar os robôs. Robótica Gemini
“Este exemplo de basquete é um dos meus favoritos”, disse Kanishka Raoo engenheiro de software principal do projeto, em um briefing de imprensa. Ele explica que o robô “nunca viu nada relacionado ao basquete”, mas que seu modelo de fundação subjacente tinha um entendimento geral do jogo, sabia como significava uma rede de basquete e entendeu o que significava o termo “slam dunk”. O robô era, portanto, “capaz de conectar aqueles [concepts] para realmente realizar a tarefa no mundo físico ”, diz Rao.
Quais são os avanços da Gemini Robotics?
Carolina Paradachefe de robótica do Google Deepmind, disse no briefing que os novos modelos melhoram sobre os robôs anteriores da empresa em três dimensões: generalização, adaptabilidade e destreza. Todos esses avanços são necessários, disse ela, para criar “uma nova geração de robôs úteis”.
Generalização significa que um robô pode Aplique um conceito que aprendeu em um contexto a outra situação, e os pesquisadores analisaram a generalização visual (por exemplo, ele ficará confuso se a cor de um objeto ou fundo alterada), generalização de instruções (ele pode interpretar comandos que são redigidos de maneiras diferentes) e a generalização da ação (ele pode executar uma ação que nunca havia feito antes).
Parada também diz que os robôs movidos por Gêmeos podem se adaptar melhor à mudança de instruções e circunstâncias. Para demonstrar esse ponto em um vídeo, um pesquisador disse a um braço de robô para colocar um monte de uvas plásticas em um recipiente de Tupperware transparente e depois passou a mudar três recipientes na mesa em uma aproximação de um shyster’s jogo de concha. O braço do robô seguiu obedientemente o recipiente claro até que pudesse cumprir sua diretiva.
https://www.youtube.com/watch?v=GVZ78JHKZROO Google Deepmind diz que a Gemini Robotics é melhor do que os modelos anteriores na adaptação às mudanças de instruções e circunstâncias.Google DeepMind
Quanto à destreza, os vídeos de demonstração mostraram os braços robóticos dobrando um pedaço de papel em um origami Fox e executando outras tarefas delicadas. No entanto, é importante observar que o desempenho impressionante aqui está no contexto de Um conjunto estreito de dados de alta qualidade nos quais o robô foi treinado para essas tarefas específicas; portanto, o nível de destreza que essas tarefas representam não está sendo generalizado.
O que é raciocínio incorporado?
O segundo modelo introduzido hoje é a Gemini Robotics-Er, com o ER em resistência ao “raciocínio incorporado”, que é o tipo de mundo físico intuitivo entender que os humanos se desenvolvem com a experiência ao longo do tempo. Somos capazes de fazer coisas inteligentes, como olhar para um objeto que nunca vimos antes e fazer um palpite educado sobre a melhor maneira de interagir com ele, e é isso que o DeepMind procura imitar com a Gemini Robotics-Er.
Parada deu um exemplo da capacidade de Gemini Robotics-Er de identificar um ponto de alcance apropriado para pegar um café xícara. O modelo identifica corretamente a alça, porque é aí que os humanos tendem a agarrar canecas de café. No entanto, isso ilustra uma fraqueza potencial de confiar no centro-humano dados de treinamento: Para um robô, especialmente um robô que pode ser capaz de lidar confortavelmente com uma caneca de café quente, uma alça fina pode ser um ponto de agarrar muito menos confiável do que uma compreensão mais envolvente da própria caneca.
A abordagem do DeepMind para a segurança robótica
Vikas SindhwaniO chefe de segurança robótica de Deepmind, diz que a equipe adotou uma abordagem em camadas de segurança. Começa com controles clássicos de segurança física que gerenciam coisas como Evitação de colisão e estabilidade, mas também inclui sistemas de “segurança semântica” que avaliam suas instruções e as consequências de segui -las. Esses sistemas são mais sofisticados no modelo de robótica Gemini, diz Sindhwani, que é “treinado para avaliar se é ou não uma ação potencial ou não em um determinado cenário”.
E como “a segurança não é um empreendimento competitivo”, diz Sindhwani, o DeepMind está lançando um novo conjunto de dados e o que chama de Benchmark Asimovo que se destina a medir a capacidade de um modelo de entender as regras de vida do senso comum. O benchmark contém perguntas sobre cenas visuais e cenários de texto, perguntando as opiniões dos modelos sobre coisas como a conveniência de misturar alvejante e vinagre (uma combinação que produz gás de cloro) e colocando um brinquedo macio em um fogão quente. No briefing da imprensa, Sindhwani disse que os modelos Gemini tinham “forte desempenho” naquele referência e o Relatório Técnico mostrou que os modelos obtiveram mais de 80 % das perguntas corretas.
As parcerias robóticas da DeepMind
Em dezembro, a DeepMind e a Humanóide Robotics Company Apptronik anunciou a parceriae Parada diz que as duas empresas estão trabalhando juntas “para construir a próxima geração de Robôs humanóides com Gêmeos em sua essência. ” O DeepMind também está disponibilizando seus modelos para um grupo de elite de “testadores confiáveis”: Robôs ágeisAssim, Robótica de agilidadeAssim, Boston Dynamicse Ferramentas encantadas.
Dos artigos do seu site
Artigos relacionados ao redor da web