Skip to content

Torvyn

Obter Atualização

  • Lar
  • criptomoeda
  • Lei Educacional
  • Esportes
  • Tecnologia
  • Realidade Virtual
  • Mais
    • Sobre nós
    • Contate-nos
    • Isenção de responsabilidade
    • política de Privacidade
    • Termos e Condições
  • Toggle search form
Google duplex – realismo

Google duplex – realismo

Posted on April 10, 2025 By Rehan No Comments on Google duplex – realismo

Google Duplex, um salto gigante para ai … ou outro passo em direção à Fake Ultimate Deep?

No início de maio, em Google I/O 2018 KeyNotes SUNDAI PICHARD apresentado Google duplex.

Esse é um pequeno passo para um homem, um salto gigante para a humanidade. Neil Amrstrong, 20/7/1969

Como você pode ver no vídeo abaixo, o Duplex não é apenas capaz de imitar a fala natural (quase) perfeitamente, mas também é capaz de entender o contexto da fala e se adaptar ao interlocutor.

https://www.youtube.com/watch?v=jvbhu_bva_g

Em posts anteriores, falando sobre Gan e Falsificações profundasRelatei a capacidade dos sistemas atuais da IA ​​de reconstruir rostos com imitadores faciais e sincronização labial, aprendendo com filmagens da pessoa em questão, fazendo-o fazer quase qualquer discurso graças ao WavenetTecnologia de texto para fala.

Mas parece que gerar áudio a partir de textos pré-embalados, já é história: agora o wavenet foi equipado com vozes humanas, como a de John Legend (abaixo), para parecer ainda mais natural.

John Legend enquanto treina Wavenet para reconhecer e usar sua voz.>>

Nos exemplos relatados por Pichard na conferência, a Duplex conseguiu fazer vários tipos de reservas, sendo capaz de interagir adequadamente. O resultado (pelo menos nesses contextos) é indistinguível de uma voz humana. Obviamente, atualmente, a chave era limitar o campo a um domínio específico, como reservas. Estamos (por enquanto) longe de um sistema capaz de iniciar e manter conversas de natureza mais geral, também porque a conversa humana requer algum nível de terreno comum entre os interlocutores, a fim de antecipar a direção da conversa.

Afinal, mesmo os humanos têm grande dificuldade em manter conversas em áreas totalmente desconhecidas. Claro, o mais autoconfiante pode improvisar, mas a improvisação não passa de uma tentativa de trazer o diálogo de volta a uma faixa mais “confortável”.

Como funciona

Arquitetura

No coração de duplex, há um Rede neural recorrente (RNN) construído usando Tensorflow estendido (TFX)que, de acordo com o Google, é uma plataforma de aprendizado de máquina de “uso geral”. Esse RNN foi treinado em um conjunto de conversas telefônicas apropriadamente anonimizadas.

A conversa é transformada com antecedência pelo ASR (reconhecimento automático de fala) em texto. Este texto é então fornecido como entrada para o Duplex RNN, juntamente com a estrutura de áudio, e os parâmetros contextuais da conversa (por exemplo, o tipo de nomeação desejado, o tempo desejado etc.). O resultado será o texto das frases a serem pronunciadas, que serão apropriadamente “lidas em voz alta” via TTS (texto em fala).

Google duplex funciona usando uma combinação de Wavenet para a parte ASR (reconhecimento automático de fala) e Tacotron para o TTS.

Arquitetura do Google Duplex
Google Duplex – Arquitetura

Naturalidade

Parecer mais natural, o duplex insere quebras ad hoc, como “MMH”, “Ah”, “Oh!”, O que reproduz as mesmas “disfluências” humanas, parecendo mais familiares para as pessoas.

Além disso, o Google também trabalhou na latência das respostas, que devem se alinhar com as expectativas do interlocutor. Por exemplo, os seres humanos tendem a esperar baixas latências em resposta a estímulos simples, como saudações ou frases como “eu não entendi”. Em alguns casos, o Duplex nem espera pelo resultado do RNN, mas usa aproximações mais rápidas, talvez combinadas com respostas mais hesitantes, para simular uma dificuldade em entender.

Questões éticas e morais

Embora, sem dúvida, essa tecnologia e esses resultados despertaram espanto, também é verdade que essa indistinguibilidade virtual precisa da voz humana levanta mais de uma perplexidade.

Por um lado, existe sem dúvida a utilidade potencial desse sistema, como a possibilidade de fazer reservas automaticamente quando é inviável (por exemplo, quando você está no trabalho) ou como ajuda a pessoas com deficiência como surdez ou disfasia. Por outro lado, especialmente considerando o progresso feito por tecnologias complementares, como a síntese de vídeo, deixa claro que o risco de criar falsificações profundas tão realistas a ponto de ser totalmente indistinguível da realidade está se tornando mais do que uma possibilidade.

Muitos argumentam que seria necessário avisar o interlocutor que ele está conversando com uma inteligência artificial. No entanto, essa abordagem parece irrealista (devemos torná -la obrigatória por lei – qual lei? Por que jurisdição? E como implementá -la de qualquer maneira?), Mas também poderia minar a eficácia do sistema, pois as pessoas tendem a se comportar de maneira diferente quando sabem como falar com uma máquina, não importa o quão realista.

https://www.youtube.com/watch?v=hu0zt9rjaiy

Notas

Segundo o Google, isso permite que você tenha menos de 100 ms de latência de resposta nesses casos. Paradoxalmente, em outros casos, descobriu -se que Apresentando Mais latência (por exemplo, no caso de respostas a perguntas particularmente complexas) ajudou a fazer a conversa parecer mais natural.

Links

Google Duplex: um sistema de IA para realizar tarefas do mundo real por telefone

Comentário: Google Duplex não é a única coisa anunciada na E/S que tem implicações sociais

O Google Assistant Routines inicia o lançamento inicial, substitui ‘My Day’

O Google E/S é um festival de desenvolvedor que foi realizado de 8 a 10 de maio no anfiteatro da costa em Mountain View, CA

O futuro do Google Assistant: ajudando você a fazer as coisas para devolver o tempo

O Google Duplex é ético e moral?

Decidir se deve temer ou celebrar a demonstração da IA ​​alucinante do Google

Google duplex venceu o teste de Turing: estamos condenados?

Andrea Missinato

Andrea trabalha nele há quase 20 anos, cobrindo sobre tudo, do desenvolvimento à análise de negócios, ao gerenciamento de projetos.
Hoje podemos dizer que ele é um gnomo despreocupado, apaixonado por neurociências, inteligência artificial e fotografia

Tecnologia

Post navigation

Previous Post: Por que a Rally de Cripto
Next Post: Echtgeld Sr. Bet Ausschüttung Erfahrung Online Casino

Mais Artigos Relacionados

O aspirador de pó de robô poderia regar plantas ou brincar com o gato ‘ O aspirador de pó de robô poderia regar plantas ou brincar com o gato ‘ Tecnologia
Quase 80% das empresas em S’pore aumentaram os salários dos funcionários em 2024 Quase 80% das empresas em S’pore aumentaram os salários dos funcionários em 2024 Tecnologia
Fifine Ampligame AM8 Microfone dinâmico Unboxing »JaypeeOnline Fifine Ampligame AM8 Microfone dinâmico Unboxing »JaypeeOnline Tecnologia
Os primeiros passos são pesados ​​no surfista de prata Os primeiros passos são pesados ​​no surfista de prata Tecnologia
Os principais benefícios dos serviços de modernização legados para empresas Os principais benefícios dos serviços de modernização legados para empresas Tecnologia
Caráter AI desbloqueado: um guia abrangente Caráter AI desbloqueado: um guia abrangente Tecnologia

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

Últimas postagens

  • Ferramenta on -line gratuita de calculadora de criptomoedas em 2024
  • Planejamento da Microsoft Mandato de retorno a escritório: Relatório
  • Memecoin (meme) salta 29% em meio a um pico de volume significativo
  • Salesforce Lightning Web Component (LWC) Perguntas e respostas da entrevista – DevFacts | Blog de tecnologia | Comunidade de desenvolvedores
  • A arena Hisense ganha vida no Mall of the Emirates com futebol, inovação e diversão em família

Categorias

  • criptomoeda
  • Esportes
  • Lei Educacional
  • Realidade Virtual
  • Tecnologia

Direitos Autorais © 2025 Torvyn.

Powered by PressBook Blog WordPress theme