Skip to content

Torvyn

Obter Atualização

  • Lar
  • criptomoeda
  • Lei Educacional
  • Esportes
  • Tecnologia
  • Realidade Virtual
  • Mais
    • Sobre nós
    • Contate-nos
    • Isenção de responsabilidade
    • política de Privacidade
    • Termos e Condições
  • Toggle search form
Google duplex – realismo

Google duplex – realismo

Posted on April 10, 2025 By Rehan No Comments on Google duplex – realismo

Google Duplex, um salto gigante para ai … ou outro passo em direção à Fake Ultimate Deep?

No início de maio, em Google I/O 2018 KeyNotes SUNDAI PICHARD apresentado Google duplex.

Esse é um pequeno passo para um homem, um salto gigante para a humanidade. Neil Amrstrong, 20/7/1969

Como você pode ver no vídeo abaixo, o Duplex não é apenas capaz de imitar a fala natural (quase) perfeitamente, mas também é capaz de entender o contexto da fala e se adaptar ao interlocutor.

https://www.youtube.com/watch?v=jvbhu_bva_g

Em posts anteriores, falando sobre Gan e Falsificações profundasRelatei a capacidade dos sistemas atuais da IA ​​de reconstruir rostos com imitadores faciais e sincronização labial, aprendendo com filmagens da pessoa em questão, fazendo-o fazer quase qualquer discurso graças ao WavenetTecnologia de texto para fala.

Mas parece que gerar áudio a partir de textos pré-embalados, já é história: agora o wavenet foi equipado com vozes humanas, como a de John Legend (abaixo), para parecer ainda mais natural.

John Legend enquanto treina Wavenet para reconhecer e usar sua voz.>>

Nos exemplos relatados por Pichard na conferência, a Duplex conseguiu fazer vários tipos de reservas, sendo capaz de interagir adequadamente. O resultado (pelo menos nesses contextos) é indistinguível de uma voz humana. Obviamente, atualmente, a chave era limitar o campo a um domínio específico, como reservas. Estamos (por enquanto) longe de um sistema capaz de iniciar e manter conversas de natureza mais geral, também porque a conversa humana requer algum nível de terreno comum entre os interlocutores, a fim de antecipar a direção da conversa.

Afinal, mesmo os humanos têm grande dificuldade em manter conversas em áreas totalmente desconhecidas. Claro, o mais autoconfiante pode improvisar, mas a improvisação não passa de uma tentativa de trazer o diálogo de volta a uma faixa mais “confortável”.

Como funciona

Arquitetura

No coração de duplex, há um Rede neural recorrente (RNN) construído usando Tensorflow estendido (TFX)que, de acordo com o Google, é uma plataforma de aprendizado de máquina de “uso geral”. Esse RNN foi treinado em um conjunto de conversas telefônicas apropriadamente anonimizadas.

A conversa é transformada com antecedência pelo ASR (reconhecimento automático de fala) em texto. Este texto é então fornecido como entrada para o Duplex RNN, juntamente com a estrutura de áudio, e os parâmetros contextuais da conversa (por exemplo, o tipo de nomeação desejado, o tempo desejado etc.). O resultado será o texto das frases a serem pronunciadas, que serão apropriadamente “lidas em voz alta” via TTS (texto em fala).

Google duplex funciona usando uma combinação de Wavenet para a parte ASR (reconhecimento automático de fala) e Tacotron para o TTS.

Arquitetura do Google Duplex
Google Duplex – Arquitetura

Naturalidade

Parecer mais natural, o duplex insere quebras ad hoc, como “MMH”, “Ah”, “Oh!”, O que reproduz as mesmas “disfluências” humanas, parecendo mais familiares para as pessoas.

Além disso, o Google também trabalhou na latência das respostas, que devem se alinhar com as expectativas do interlocutor. Por exemplo, os seres humanos tendem a esperar baixas latências em resposta a estímulos simples, como saudações ou frases como “eu não entendi”. Em alguns casos, o Duplex nem espera pelo resultado do RNN, mas usa aproximações mais rápidas, talvez combinadas com respostas mais hesitantes, para simular uma dificuldade em entender.

Questões éticas e morais

Embora, sem dúvida, essa tecnologia e esses resultados despertaram espanto, também é verdade que essa indistinguibilidade virtual precisa da voz humana levanta mais de uma perplexidade.

Por um lado, existe sem dúvida a utilidade potencial desse sistema, como a possibilidade de fazer reservas automaticamente quando é inviável (por exemplo, quando você está no trabalho) ou como ajuda a pessoas com deficiência como surdez ou disfasia. Por outro lado, especialmente considerando o progresso feito por tecnologias complementares, como a síntese de vídeo, deixa claro que o risco de criar falsificações profundas tão realistas a ponto de ser totalmente indistinguível da realidade está se tornando mais do que uma possibilidade.

Muitos argumentam que seria necessário avisar o interlocutor que ele está conversando com uma inteligência artificial. No entanto, essa abordagem parece irrealista (devemos torná -la obrigatória por lei – qual lei? Por que jurisdição? E como implementá -la de qualquer maneira?), Mas também poderia minar a eficácia do sistema, pois as pessoas tendem a se comportar de maneira diferente quando sabem como falar com uma máquina, não importa o quão realista.

https://www.youtube.com/watch?v=hu0zt9rjaiy

Notas

Segundo o Google, isso permite que você tenha menos de 100 ms de latência de resposta nesses casos. Paradoxalmente, em outros casos, descobriu -se que Apresentando Mais latência (por exemplo, no caso de respostas a perguntas particularmente complexas) ajudou a fazer a conversa parecer mais natural.

Links

Google Duplex: um sistema de IA para realizar tarefas do mundo real por telefone

Comentário: Google Duplex não é a única coisa anunciada na E/S que tem implicações sociais

O Google Assistant Routines inicia o lançamento inicial, substitui ‘My Day’

O Google E/S é um festival de desenvolvedor que foi realizado de 8 a 10 de maio no anfiteatro da costa em Mountain View, CA

O futuro do Google Assistant: ajudando você a fazer as coisas para devolver o tempo

O Google Duplex é ético e moral?

Decidir se deve temer ou celebrar a demonstração da IA ​​alucinante do Google

Google duplex venceu o teste de Turing: estamos condenados?

Andrea Missinato

Andrea trabalha nele há quase 20 anos, cobrindo sobre tudo, do desenvolvimento à análise de negócios, ao gerenciamento de projetos.
Hoje podemos dizer que ele é um gnomo despreocupado, apaixonado por neurociências, inteligência artificial e fotografia

Tecnologia

Post navigation

Previous Post: Por que a Rally de Cripto
Next Post: Echtgeld Sr. Bet Ausschüttung Erfahrung Online Casino

Mais Artigos Relacionados

Como ver todos os pedidos seguidos no Instagram Como ver todos os pedidos seguidos no Instagram Tecnologia
Alguns prestadores de cuidados infantis perderam tudo no fogo da Eaton. Por que eles não podem obter dinheiro de alívio? Alguns prestadores de cuidados infantis perderam tudo no fogo da Eaton. Por que eles não podem obter dinheiro de alívio? Tecnologia
Tendências, desafios e soluções resilientes Tendências, desafios e soluções resilientes Tecnologia
Netgear Nighthawk RS200 Router Review Netgear Nighthawk RS200 Router Review Tecnologia
Notícias da supercondutividade: o que torna o Floquet Majorana Fermions especial para a computação quântica? Notícias da supercondutividade: o que torna o Floquet Majorana Fermions especial para a computação quântica? Tecnologia
Oculus Quest Battery Life – Tecnologia do computador Oculus Quest Battery Life – Tecnologia do computador Tecnologia

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

Últimas postagens

  • A Netflix tem como alvo o domínio mundial: as ações poderiam atingir US $ 1 trilhão até 2030?
  • Como a dislexia de Theo Huxtable educou uma geração sobre dificuldades de aprendizagem
  • Accrington Derrote Oldham por 3-1 em empate preliminar da Cup Cup-Grill Sport
  • Digest do produto #002: novas cadeias, UX aprimorado
  • Cisco acertou com a violação de dados causada por um ataque de phishing de voz

Categorias

  • criptomoeda
  • Esportes
  • Lei Educacional
  • Realidade Virtual
  • Tecnologia

Direitos Autorais © 2025 Torvyn.

Powered by PressBook Blog WordPress theme