Skip to content

Torvyn

Obter Atualização

  • Lar
  • criptomoeda
  • Lei Educacional
  • Esportes
  • Tecnologia
  • Realidade Virtual
  • Mais
    • Sobre nós
    • Contate-nos
    • Isenção de responsabilidade
    • política de Privacidade
    • Termos e Condições
  • Toggle search form
Curiosidade conduzida por IA – curiosidade matou o gato, mas não a máquina – não

Curiosidade conduzida por IA – curiosidade matou o gato, mas não a máquina – não

Posted on March 17, 2025 By Rehan No Comments on Curiosidade conduzida por IA – curiosidade matou o gato, mas não a máquina – não

Ai curioso: algoritmos alimentados com motivação intrínseca.

O que significa IA orientada por curiosidade? A pesquisa e a inovação na IA nos acostumavam com a novidade e os avanços praticamente lançados diariamente. Agora estamos quase acostumados a algoritmos que podem reconhecer cenas e ambientes em tempo real e se movem de acordo, quem pode entender a linguagem natural (NLP), aprenda trabalho manual diretamente da observação“Invente” vídeo com personagens conhecidos reconstruindo sincronizado imita para áudio, para imite a voz humana até mesmo em diálogos não triviais, e até Desenvolva novos algoritmos de IA sozinhos(!).

As pessoas falam demais. Os seres humanos não são descendentes de macacos. Eles vêm de papagaios. (A sombra do vento – Carlos Ruiz Zafón)

Tudo muito bonito e impressionante (ou perturbador, dependendo do ponto de vista). No entanto, havia algo que ainda estava faltando: afinal, mesmo com a capacidade de se auto-melhorar para obter resultados comparáveis ​​ou até superiores aos dos seres humanos, todas essas performances sempre começaram a partir de informações humanas. Ou seja, são sempre os humanos que decidem tentar a mão em uma determinada tarefa, preparar os algoritmos e “empurrar” a IA em direção a uma determinada direção. Afinal, mesmo os carros totalmente autônomos sempre precisam receber um destino para chegar. Em outras palavras, não importa o quão perfeita ou autônoma seja a execução: a motivação ainda é substancialmente humana.

Não importa o quão perfeita ou autônoma seja a execução: a motivação ainda é substancialmente humana.

O que é “motivação”? Do ponto de vista psicológico, é a “primavera” que nos leva a um certo comportamento. Sem entrar na miríade de teorias psicológicas a esse respeito (o artigo por Ryan e Deci pode ser um bom ponto de partida para aqueles interessados ​​em analisá -lo, além do Entrada da Wikipedia), podemos distinguir genericamente entre motivação extrínsecaonde o indivíduo é motivado por recompensas externas e Motivação intrínsecaonde o impulso para agir deriva de formas de gratificação interior.

Essas “recompensas” ou gratificações são chamadas convencionalmente ” reforços “, Que pode ser positivo (recompensa) ou negativo (punições) e são um mecanismo poderoso de aprendizado, por isso não é surpreendente que também tenha sido explorado no aprendizado de máquina,

Aprendizagem de reforço

DeepMind’s ALPHAGO foi o exemplo mais incrível dos resultados que podem ser alcançados com o aprendizado de reforço, e mesmo antes que o próprio DeepMind tenha apresentado resultados surpreendentes com um algoritmo que aprendi a jogar videogame sozinho (O algoritmo não sabia quase nada das regras e do ambiente do jogo).

https://www.youtube.com/watch?v=tmpftpjtdgg

No entanto, esse tipo de algoritmo exigia uma forma imediata de reforço para a aprendizagem: [right attempt] – [reward] – [more likely to repeat it] – [wrong attempt] – [punishment] – [less chance of falling back]. A máquina recebe feedback sobre o resultado (por exemplo, a pontuação) instantaneamente, por isso é capaz de elaborar estratégias que levam à otimização para a maior quantidade de “recompensas” possíveis. Essa situação, em certo sentido, se assemelha ao problema com os incentivos corporativos: eles são muito eficazes, mas nem sempre na direção que seria esperada (por exemplo, a tentativa de fornecer aos programadores incentivos por linhas de código, o que se mostrou muito eficaz para incentivar a duração do código, em vez da qualidade, que era a intenção).

No entanto, no mundo real, os reforços externos são frequentemente raros ou mesmo ausentes e, nesses casos, a curiosidade pode funcionar como um reforço intrínseco (motivação interna) para desencadear uma exploração do ambiente e aprender habilidades que podem ser úteis mais tarde.

No ano passado, um grupo de pesquisadores da Universidade de Berkeley publicou um papel notável, provavelmente destinado a avançar os limites do aprendizado de máquina, cujo título era Exploração orientada por curiosidade por previsão auto-supervisionada. A curiosidade nesse contexto foi definida como “o erro na capacidade de um agente de prever a conseqüência de suas próprias ações em um espaço de recurso visual aprendido por um modelo de dinâmica inversa auto-supervisionada”. Em outras palavras, o agente cria um modelo do ambiente que ele está explorando, e o erro nas previsões (a diferença entre modelo e realidade) consistiria no reforço intrínseco, incentivando a curiosidade da exploração.

A pesquisa envolveu três configurações diferentes:

  • “Recompensa extrínseca esparsa”, ou reforços extrínsecos fornecidos com baixa frequência.
  • Exploração sem reforços extrínsecos.
  • Generalização de cenários inexplorados (por exemplo, novos níveis do jogo), onde o conhecimento obtido com a experiência anterior facilita uma exploração mais rápida que não começa do zero.

https://www.youtube.com/watch?v=j3fhoyhun3a

Como você pode ver no vídeo acima, o agente com curiosidade intrínseca é capaz de completar o nível 1 de Supermario Bros e Vizdoom Sem problemas, enquanto aquele sem ele geralmente tende a colidir com as paredes ou ficar preso em algum canto.

Módulo de Curiosidade Intrínseca (ICM)

O que os autores propõem é o módulo de curiosidade intrínseca (ICM), que usa a metodologia de gradientes assíncronos A3C Proposto por Minh et al. por determinar as políticas a serem adotadas.

O conceito de ICM. O símbolo αT significa uma certa ação no instante tAssim, π representa a política do agente, re é o reforço extrínseco, reu é o reforço intrínseco, st é o estado do agente no instante tenquanto E é o ambiente externo.

Aqui acima, apresentei o diagrama conceitual do módulo: à esquerda, mostra como o agente interage com o ambiente em relação à política e aos reforços que recebe. O agente está em um determinado estado ste executa a ação αT De acordo com o plano π. A ação αT acabará recebendo reforços intrínsecos e extrínsecos (ret+reut) e modificará o ambiente E levando a um novo estado sT+1… e assim por diante.

À direita, há uma seção transversal de ICM: um primeiro módulo converte os estados brutos st do agente em características φ (st) que pode ser usado no processamento. Posteriormente, o módulo de dinâmica inversa (modelo inverso) usa as características de dois estados adjacentes φ (st) e φ (sT+1) para Preveja a ação que o agente realizou para mudar de um estado para outro.

Ao mesmo tempo, outro subsistema (modelo avançado) também é treinado, que prevê o próximo recurso a partir da última ação do agente. Os dois sistemas são otimizados juntos, o que significa que o modelo inverso aprende recursos relevantes apenas para as previsões do agente, e o modelo avançado aprende a fazer previsões sobre esses recursos.

E daí?

O ponto principal é que, como não há reforços para recursos ambientais que são inconseqüentes às ações do agente, a estratégia aprendida é robusta a aspectos ambientais incontroláveis ​​(veja o exemplo com ruído branco no vídeo).

Para entender melhor um ao outro, o reforço real do agente aqui é a curiosidade, ou seja, o erro na previsão de estímulos ambientais: quanto maior a variabilidade, mais erros o agente cometerá na previsão do ambiente, maior o reforço intrínseco, mantendo o agente “curioso”.

Cinco padrões de exploração. Os amarelos estão relacionados a agentes treinados com o módulo de curiosidade sem reforços extrínsecos, enquanto os blues são explorações aleatórias. Pode -se observar que o primeiro explora uma série de quartos muito maiores que o último.

A razão para a extração dos recursos mencionados acima é que fazer previsões baseadas em pixels não é apenas muito difícil, mas torna o agente muito frágil para ruído ou elementos que não são muito relevantes. Apenas para dar um exemplo, se, durante uma exploração, o agente ficaria na frente das árvores com folhas soprando ao vento, o agente corre o risco de fixar as folhas pela única razão pela qual eles são difíceis de prever, negligenciando todo o resto. Em vez disso, o ICM nos fornece recursos extraídos autonomamente do sistema (basicamente de uma maneira auto-supervisionada), resultando na robustez que estávamos mencionando.

Generalização

O modelo proposto pelos autores faz uma contribuição significativa para a pesquisa sobre a exploração orientada à curiosidade, como usando recursos auto-extraídos em vez de prever pixels, tornam o sistema quase imune a ruído e elementos irrelevantes, evitando entrar em becos cegos.

No entanto, isso não é tudo: esse sistema, de fato, capaz de usar o conhecimento adquirido durante a exploração para melhorar o desempenho. Na figura acima, o agente consegue completar o nível 2 do Supermario Bros muito mais rápido, graças à exploração “curiosa” realizada no nível 1, enquanto em Vizdoom ele conseguiu andar no labirinto muito rapidamente sem colidir com as paredes.

Em Supermario, o agente é capaz de completar 30% do mapa sem qualquer tipo de reforço extrínseco. A razão, no entanto, é que, com 38%, há um abismo que só pode ser superado por uma combinação bem definida de 15 a 20 chaves: o agente cai e morre sem qualquer tipo de informação sobre a existência de outras partes do ambiente explorável. O problema não está por si só conectado ao aprendizado por curiosidade, mas é certamente um obstáculo que precisa ser resolvido.

Notas

A política de aprendizado, que neste caso é o Crítico de ator de vantagem assíncrona (A3C) Modelo de Minh et al. O subsistema de políticas é treinado para maximizar os reforços ret+reut (onde ret está perto de zero).

Links

Richard M. Ryan, Edward L. Deci: Motivações intrínsecas e extrínsecas: definições clássicas e novas direções. Psicologia Educacional Contemporânea 25, 54–67 (2000), doi: 10.1006/cps.1999.1020.

Em busca dos fundamentos evolutivos da motivação humana

D. Pathak et al. Exploração orientada a curiosidade por previsão auto-supervisionada. ARXIV 1705.05363

Máquinas inteligentes aprendem a ser curiosas (e jogar Super Mario Bros.)

Im de Abril, R. Kanai: Aprendizagem de reforço orientado a curiosidade com regulamentação homeostática – Arxiv 1801.07440

Os pesquisadores criaram uma IA que é naturalmente curiosa

V. Mnih et al.: Métodos assíncronos para aprendizado de reforço profundo – ARXIV: 1602.01783

Crítico de ator de vantagem assíncrona (A3C) – Github (código -fonte)

Métodos assíncronos para aprendizado de reforço profundo – O papel da manhã

Alphago Zero Cheat Sheet

Os 3 truques que fizeram do Alphago zero funcionar

Andrea Missinato

Andrea trabalha nele há quase 20 anos, cobrindo sobre tudo, do desenvolvimento à análise de negócios, ao gerenciamento de projetos.
Hoje podemos dizer que ele é um gnomo despreocupado, apaixonado por neurociências, inteligência artificial e fotografia

Tecnologia

Post navigation

Previous Post: Atualize sua tecnologia de viagem por menos: iPad 9 + Beats Flex por apenas US $ 239,99
Next Post: Como explorar os confrontos de Mid -Major vs. Power Conference nas apostas da NCAAB – The Sports Mirror – Sports News, Transferências, Pontuações

Mais Artigos Relacionados

Shapeheart Smartphone titular com bolsa magnética Shapeheart Smartphone titular com bolsa magnética Tecnologia
Kindle Scribe agora disponível na Austrália: um divisor de águas para profissionais e amantes de livros Kindle Scribe agora disponível na Austrália: um divisor de águas para profissionais e amantes de livros Tecnologia
Os primeiros passos são pesados ​​no surfista de prata Os primeiros passos são pesados ​​no surfista de prata Tecnologia
Quase 80% das empresas em S’pore aumentaram os salários dos funcionários em 2024 Quase 80% das empresas em S’pore aumentaram os salários dos funcionários em 2024 Tecnologia
Um guia para iniciantes para executar tarefas para a conclusão em um cronograma Um guia para iniciantes para executar tarefas para a conclusão em um cronograma Tecnologia
Como implantar uma imagem de contêiner no Amazon Elastic Container Service (ECS) com Fargate: um tutorial para iniciantes Como implantar uma imagem de contêiner no Amazon Elastic Container Service (ECS) com Fargate: um tutorial para iniciantes Tecnologia

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

Últimas postagens

  • Minha entrevista com a peça para o Sonho com o fone de ouvido, Android XR, Licensing Enterprise, China e muito mais!
  • Uma residência em um Cardinal Way, com Will Leitch
  • O próximo fone de ouvido da Meta é supostamente fino, poderoso e usa uma unidade de computação em estilo de disco, chegando em 2026
  • Atletismo RHP Michael Kelly restabeleceu após uma proibição de apostas em 1 ano
  • LayerZero (ZRO): Bridging the Blockchain Divide

Categorias

  • criptomoeda
  • Esportes
  • Lei Educacional
  • Realidade Virtual
  • Tecnologia

Direitos Autorais © 2025 Torvyn.

Powered by PressBook Blog WordPress theme