Google Duplex, um salto gigante para ai … ou outro passo em direção à Fake Ultimate Deep?
No início de maio, em Google I/O 2018 KeyNotes SUNDAI PICHARD apresentado Google duplex.
Esse é um pequeno passo para um homem, um salto gigante para a humanidade. Neil Amrstrong, 20/7/1969
Como você pode ver no vídeo abaixo, o Duplex não é apenas capaz de imitar a fala natural (quase) perfeitamente, mas também é capaz de entender o contexto da fala e se adaptar ao interlocutor.
https://www.youtube.com/watch?v=jvbhu_bva_g
Em posts anteriores, falando sobre Gan e Falsificações profundasRelatei a capacidade dos sistemas atuais da IA de reconstruir rostos com imitadores faciais e sincronização labial, aprendendo com filmagens da pessoa em questão, fazendo-o fazer quase qualquer discurso graças ao WavenetTecnologia de texto para fala.
Mas parece que gerar áudio a partir de textos pré-embalados, já é história: agora o wavenet foi equipado com vozes humanas, como a de John Legend (abaixo), para parecer ainda mais natural.

Nos exemplos relatados por Pichard na conferência, a Duplex conseguiu fazer vários tipos de reservas, sendo capaz de interagir adequadamente. O resultado (pelo menos nesses contextos) é indistinguível de uma voz humana. Obviamente, atualmente, a chave era limitar o campo a um domínio específico, como reservas. Estamos (por enquanto) longe de um sistema capaz de iniciar e manter conversas de natureza mais geral, também porque a conversa humana requer algum nível de terreno comum entre os interlocutores, a fim de antecipar a direção da conversa.
Afinal, mesmo os humanos têm grande dificuldade em manter conversas em áreas totalmente desconhecidas. Claro, o mais autoconfiante pode improvisar, mas a improvisação não passa de uma tentativa de trazer o diálogo de volta a uma faixa mais “confortável”.
Como funciona
Arquitetura
No coração de duplex, há um Rede neural recorrente (RNN) construído usando Tensorflow estendido (TFX)que, de acordo com o Google, é uma plataforma de aprendizado de máquina de “uso geral”. Esse RNN foi treinado em um conjunto de conversas telefônicas apropriadamente anonimizadas.
A conversa é transformada com antecedência pelo ASR (reconhecimento automático de fala) em texto. Este texto é então fornecido como entrada para o Duplex RNN, juntamente com a estrutura de áudio, e os parâmetros contextuais da conversa (por exemplo, o tipo de nomeação desejado, o tempo desejado etc.). O resultado será o texto das frases a serem pronunciadas, que serão apropriadamente “lidas em voz alta” via TTS (texto em fala).
Google duplex funciona usando uma combinação de Wavenet para a parte ASR (reconhecimento automático de fala) e Tacotron para o TTS.

Naturalidade
Parecer mais natural, o duplex insere quebras ad hoc, como “MMH”, “Ah”, “Oh!”, O que reproduz as mesmas “disfluências” humanas, parecendo mais familiares para as pessoas.
Além disso, o Google também trabalhou na latência das respostas, que devem se alinhar com as expectativas do interlocutor. Por exemplo, os seres humanos tendem a esperar baixas latências em resposta a estímulos simples, como saudações ou frases como “eu não entendi”. Em alguns casos, o Duplex nem espera pelo resultado do RNN, mas usa aproximações mais rápidas, talvez combinadas com respostas mais hesitantes, para simular uma dificuldade em entender.
Questões éticas e morais
Embora, sem dúvida, essa tecnologia e esses resultados despertaram espanto, também é verdade que essa indistinguibilidade virtual precisa da voz humana levanta mais de uma perplexidade.
Por um lado, existe sem dúvida a utilidade potencial desse sistema, como a possibilidade de fazer reservas automaticamente quando é inviável (por exemplo, quando você está no trabalho) ou como ajuda a pessoas com deficiência como surdez ou disfasia. Por outro lado, especialmente considerando o progresso feito por tecnologias complementares, como a síntese de vídeo, deixa claro que o risco de criar falsificações profundas tão realistas a ponto de ser totalmente indistinguível da realidade está se tornando mais do que uma possibilidade.
Muitos argumentam que seria necessário avisar o interlocutor que ele está conversando com uma inteligência artificial. No entanto, essa abordagem parece irrealista (devemos torná -la obrigatória por lei – qual lei? Por que jurisdição? E como implementá -la de qualquer maneira?), Mas também poderia minar a eficácia do sistema, pois as pessoas tendem a se comportar de maneira diferente quando sabem como falar com uma máquina, não importa o quão realista.
https://www.youtube.com/watch?v=hu0zt9rjaiy
Notas
Segundo o Google, isso permite que você tenha menos de 100 ms de latência de resposta nesses casos. Paradoxalmente, em outros casos, descobriu -se que Apresentando Mais latência (por exemplo, no caso de respostas a perguntas particularmente complexas) ajudou a fazer a conversa parecer mais natural.
Links
Google Duplex: um sistema de IA para realizar tarefas do mundo real por telefone
Comentário: Google Duplex não é a única coisa anunciada na E/S que tem implicações sociais
O Google Assistant Routines inicia o lançamento inicial, substitui ‘My Day’
O futuro do Google Assistant: ajudando você a fazer as coisas para devolver o tempo
O Google Duplex é ético e moral?
Decidir se deve temer ou celebrar a demonstração da IA alucinante do Google
Google duplex venceu o teste de Turing: estamos condenados?
Andrea trabalha nele há quase 20 anos, cobrindo sobre tudo, do desenvolvimento à análise de negócios, ao gerenciamento de projetos.
Hoje podemos dizer que ele é um gnomo despreocupado, apaixonado por neurociências, inteligência artificial e fotografia