Google duplex – realismo

Google Duplex, um salto gigante para ai … ou outro passo em direção à Fake Ultimate Deep?

No início de maio, em Google I/O 2018 KeyNotes SUNDAI PICHARD apresentado Google duplex.

Esse é um pequeno passo para um homem, um salto gigante para a humanidade. Neil Amrstrong, 20/7/1969

Como você pode ver no vídeo abaixo, o Duplex não é apenas capaz de imitar a fala natural (quase) perfeitamente, mas também é capaz de entender o contexto da fala e se adaptar ao interlocutor.

https://www.youtube.com/watch?v=jvbhu_bva_g

Em posts anteriores, falando sobre Gan e Falsificações profundasRelatei a capacidade dos sistemas atuais da IA de reconstruir rostos com imitadores faciais e sincronização labial, aprendendo com filmagens da pessoa em questão, fazendo-o fazer quase qualquer discurso graças ao WavenetTecnologia de texto para fala.

Mas parece que gerar áudio a partir de textos pré-embalados, já é história: agora o wavenet foi equipado com vozes humanas, como a de John Legend (abaixo), para parecer ainda mais natural.

Nos exemplos relatados por Pichard na conferência, a Duplex conseguiu fazer vários tipos de reservas, sendo capaz de interagir adequadamente. O resultado (pelo menos nesses contextos) é indistinguível de uma voz humana. Obviamente, atualmente, a chave era limitar o campo a um domínio específico, como reservas. Estamos (por enquanto) longe de um sistema capaz de iniciar e manter conversas de natureza mais geral, também porque a conversa humana requer algum nível de terreno comum entre os interlocutores, a fim de antecipar a direção da conversa.

Afinal, mesmo os humanos têm grande dificuldade em manter conversas em áreas totalmente desconhecidas. Claro, o mais autoconfiante pode improvisar, mas a improvisação não passa de uma tentativa de trazer o diálogo de volta a uma faixa mais “confortável”.

Como funciona

Arquitetura

No coração de duplex, há um Rede neural recorrente (RNN) construído usando Tensorflow estendido (TFX)que, de acordo com o Google, é uma plataforma de aprendizado de máquina de “uso geral”. Esse RNN foi treinado em um conjunto de conversas telefônicas apropriadamente anonimizadas.

A conversa é transformada com antecedência pelo ASR (reconhecimento automático de fala) em texto. Este texto é então fornecido como entrada para o Duplex RNN, juntamente com a estrutura de áudio, e os parâmetros contextuais da conversa (por exemplo, o tipo de nomeação desejado, o tempo desejado etc.). O resultado será o texto das frases a serem pronunciadas, que serão apropriadamente “lidas em voz alta” via TTS (texto em fala).

Google duplex funciona usando uma combinação de Wavenet para a parte ASR (reconhecimento automático de fala) e Tacotron para o TTS.

Arquitetura do Google Duplex — Google Duplex – Arquitetura

Naturalidade

Parecer mais natural, o duplex insere quebras ad hoc, como “MMH”, “Ah”, “Oh!”, O que reproduz as mesmas “disfluências” humanas, parecendo mais familiares para as pessoas.

Além disso, o Google também trabalhou na latência das respostas, que devem se alinhar com as expectativas do interlocutor. Por exemplo, os seres humanos tendem a esperar baixas latências em resposta a estímulos simples, como saudações ou frases como “eu não entendi”. Em alguns casos, o Duplex nem espera pelo resultado do RNN, mas usa aproximações mais rápidas, talvez combinadas com respostas mais hesitantes, para simular uma dificuldade em entender.

Questões éticas e morais

Embora, sem dúvida, essa tecnologia e esses resultados despertaram espanto, também é verdade que essa indistinguibilidade virtual precisa da voz humana levanta mais de uma perplexidade.

Por um lado, existe sem dúvida a utilidade potencial desse sistema, como a possibilidade de fazer reservas automaticamente quando é inviável (por exemplo, quando você está no trabalho) ou como ajuda a pessoas com deficiência como surdez ou disfasia. Por outro lado, especialmente considerando o progresso feito por tecnologias complementares, como a síntese de vídeo, deixa claro que o risco de criar falsificações profundas tão realistas a ponto de ser totalmente indistinguível da realidade está se tornando mais do que uma possibilidade.

Muitos argumentam que seria necessário avisar o interlocutor que ele está conversando com uma inteligência artificial. No entanto, essa abordagem parece irrealista (devemos torná -la obrigatória por lei – qual lei? Por que jurisdição? E como implementá -la de qualquer maneira?), Mas também poderia minar a eficácia do sistema, pois as pessoas tendem a se comportar de maneira diferente quando sabem como falar com uma máquina, não importa o quão realista.

https://www.youtube.com/watch?v=hu0zt9rjaiy

Notas

Segundo o Google, isso permite que você tenha menos de 100 ms de latência de resposta nesses casos. Paradoxalmente, em outros casos, descobriu -se que Apresentando Mais latência (por exemplo, no caso de respostas a perguntas particularmente complexas) ajudou a fazer a conversa parecer mais natural.

Links

Google Duplex: um sistema de IA para realizar tarefas do mundo real por telefone

Comentário: Google Duplex não é a única coisa anunciada na E/S que tem implicações sociais

O Google Assistant Routines inicia o lançamento inicial, substitui ‘My Day’

O Google E/S é um festival de desenvolvedor que foi realizado de 8 a 10 de maio no anfiteatro da costa em Mountain View, CA

O futuro do Google Assistant: ajudando você a fazer as coisas para devolver o tempo

O Google Duplex é ético e moral?

Decidir se deve temer ou celebrar a demonstração da IA alucinante do Google

Google duplex venceu o teste de Turing: estamos condenados?

Andrea trabalha nele há quase 20 anos, cobrindo sobre tudo, do desenvolvimento à análise de negócios, ao gerenciamento de projetos.
Hoje podemos dizer que ele é um gnomo despreocupado, apaixonado por neurociências, inteligência artificial e fotografia