A ficção científica nos ensinou que tudo é possível. De cães robôs que lançam chamas a conversar com humanoides e IA, o ChatGPT da OpenAI está tentando tornar o último uma realidade com sua nova função de voz, borrando a linha entre interação humana e máquina.
O ChatGPT tem chat de voz?
O ChatGPT agora tem um modo de bate-papo por voz para que os usuários possam se comunicar com seu assistente. Desde pedir uma história para dormir, ou resolver um debate na mesa de jantar, o recurso pode gerar áudio semelhante ao humano a partir de apenas texto e alguns segundos de amostra de fala.
No final de julho, o novo modo de voz avançado começou a ser lançado para um número seleto de usuários que eram assinantes de sua assinatura premium, ChatGPT Plus, que foi apresentada em seu evento de lançamento GPT-4o em 13 de maio. No entanto, foi adiado depois que pareceu que a voz soava semelhante à da atriz Scarlett Johansson.
Em Ela, Theodore, interpretado por Joaquin Phoenix, se apaixona pela assistente de operação de seu telefone, dublada pela estrela de Hollywood.
A OpenAI então publicou uma postagem de blog estabelecendo que “vozes de IA não devem imitar deliberadamente a voz distinta de uma celebridade”, bem como negando que seus tons de voz ‘Sky’ fossem uma imitação do talento feminino de maior bilheteria de todos os tempos. Em vez disso, a empresa de IA alegou que “pertence a uma atriz profissional diferente usando sua própria voz natural”.
O CEO Sam Altman declarou em 20 de maio que “a voz de Sky não é de Scarlett Johansson e nunca foi pretendido que se parecesse com ela.
“Escalamos o dublador por trás da voz da Sky antes de qualquer contato com a Sra. Johansson. Por respeito à Sra. Johansson, paramos de usar a voz da Sky em nossos produtos. Lamentamos à Sra. Johansson que não tenhamos nos comunicado melhor.”
Apesar da distância que a OpenAI tentou estabelecer entre sua criação e a semelhança com o personagem operador de Johansson em Ela, Altman fez referência ao nome do filme quando eles revelaram o novo modelo, causando suspeitas.
De acordo com o The Verge, a porta-voz da OpenAI, Taya Christianson, disse que o novo modo do ChatGPT usará apenas quatro vozes predefinidas criadas com dubladores, acrescentando: “Fizemos com que o ChatGPT não possa imitar as vozes de outras pessoas, tanto indivíduos quanto figuras públicas, e bloquearemos saídas que sejam diferentes de uma dessas vozes predefinidas”.
De acordo com Christianson, o novo modo deverá estar disponível para todos os usuários do ChatGPT Plus no outono.
O ChatGPT pode gerar vozes?
Um dos principais novos recursos do ChatGPT é que ele pode entender e responder ao contexto. Isso significa que ele pode gerar conteúdo de narração voltado para gêneros de vídeo, estilos e até pessoas específicas.
O modelo usa técnicas de aprendizado profundo para analisar e produzir texto em linguagem natural. Em essência, ele é treinado em uma quantidade massiva de dados de texto e usa essas informações para gerar um novo texto que seja comparável à consulta.
Em termos de criação de conteúdo de voice-over, ele pode ser alimentado com um script ou uma ideia geral do que é necessário e ele fabrica um voice-over que é similar à voz humana. Ele também pode ser ajustado em uma voz específica para gerar um voice-over mais parecido com o humano.
De acordo com a OpenAI, a empresa colaborou com dubladores profissionais para criar cada uma das vozes.
Como ativar a voz ChatGPT
Para começar a usar a voz, vá para Configurações > Novos Recursos no aplicativo móvel e escolha conversas por voz. Em seguida, toque no botão de fone de ouvido localizado no canto superior direito da tela inicial e escolha sua voz preferida entre cinco vozes diferentes.
Os nomes das vozes são Sky, Juniper, Cove, Ember e Breeze, todas com variações de sotaque americano.
A empresa de IA revelou que, no início de 2023, fez parceria com diretores de elenco e produtores independentes, conhecidos e premiados. “Trabalhamos com eles para criar um conjunto de critérios para as vozes do ChatGPT, considerando cuidadosamente a personalidade única de cada voz e seu apelo ao público global”, disse a OpenAI.
Exemplos de vozes podem ser ouvidas narrando uma história sobre uma gata e seus gatinhos.
Como criar uma narração com ChatGPT
O novo recurso de conversação está disponível atualmente apenas no aplicativo ChatGPT para assinantes do ChatGPT Plus no iOS e Android. O primeiro passo é baixar e instalar o aplicativo em um telefone. Após a instalação, um novo bate-papo pode ser iniciado tocando no botão “Novo bate-papo”. Se o botão não estiver visível, toque nas três linhas horizontais, que podem ser chamadas de um botão “hambúrguer”, para acessar o menu principal do aplicativo.
Em um novo tópico de bate-papo, o usuário deve fornecer ao ChatGPT o texto a ser lido. O texto pode ser escrito por ele mesmo, obtido de materiais existentes ou gerado pelo próprio ChatGPT.
Se eles optarem por usar texto externo, ele deverá ser colado no chat com uma instrução para o ChatGPT reter o texto sem processá-lo por enquanto.
Para gravar o áudio, use o gravador de tela integrado em dispositivos como um telefone Samsung. O gravador de tela específico pode variar de acordo com a marca, e outros aplicativos de gravação estão disponíveis na Google Play Store se o aplicativo padrão não for adequado.
Após o início da gravação, ative o modo de conversação do ChatGPT tocando no ícone de fone de ouvido no canto superior direito do aplicativo. O usuário deve então instruir o ChatGPT a repetir o texto fornecido na íntegra. É importante formular essa instrução corretamente porque, em alguns casos, pode ficar confuso. Pedir para o ChatGPT “ler o texto que forneci em voz alta” pode acabar com resultados diferentes, pois ele não reconhece que sua saída de texto está sendo convertida em som.
Após salvar a gravação, o usuário tem várias opções para usá-la. O arquivo de vídeo pode ser importado para um software de edição de vídeo, onde o componente de vídeo pode ser removido e a parte de áudio pode ser mantida.
Quais recursos de voz adicionais o ChatGPT tem?
Existem algumas opções extras úteis com o chat de voz. Para pausar a conversa, toque no ícone de pausa. Se precisar interromper a conversa enquanto o ChatGPT estiver falando, você tem duas opções: toque para interromper ou toque no ícone de parar.
Para retomar a conversa, toque no ícone de retomar e comece a falar novamente.
Se a conversa estiver silenciada, você pode reativá-la tocando no ícone correspondente.
Quando estiver pronto para sair da conversa de voz, toque no ícone X. Isso encerrará o modo de voz e retornará você para uma conversa baseada em texto com o ChatGPT.
Em termos de duração, uma conversa de voz pode ser pausada, e não há limite de tempo imposto. No entanto, você só pode se envolver em uma conversa de voz por vez. Você permanecerá na sua conversa atual até iniciar uma nova ou alternar para outra conversa existente.
Não há limite de volume para conversas de voz como configuração no ChatGPT, pois isso é definido no próprio dispositivo.
Todos os usuários que tiverem conversas de voz verão um banner após o término da conversa de voz. Esta pesquisa de feedback coleta informações sobre a experiência da chamada de voz, não sobre a conversa ou seu conteúdo.
Somente usuários do Plus verão as opções de classificação com os polegares para cima/baixo incluídos nesse banner.
Depois que você entra em uma conversa de voz, ela fica viva-voz até você sair da conversa de voz. Há controles manuais que permitem pausar, retomar e sair da conversa de voz.
O ChatGPT é gratuito?
Todos os usuários do ChatGPT têm acesso a chats de voz por meio do aplicativo móvel, e ele já está disponível gratuitamente. O GPT-4o e o GPT-4 estão disponíveis para uso em conversas de voz, no entanto, o GPT-4 tem limites de mensagens para os planos Plus e Team.
Enquanto isso, espera-se que a voz e visão em tempo real GPT-4o seja lançada em um Alpha limitado para usuários do ChatGPT Plus em algumas semanas. A empresa afirma que estará amplamente disponível para usuários do ChatGPT Plus nos próximos meses.