Entre as muitas novas atualizações da OpenAI, a empresa de tecnologia por trás do ChatGPT anunciou o lançamento de seu novo recurso de modo de voz avançado, permitindo que os usuários tenham conversas naturais com seu chatbot.
A empresa disse que ainda não está disponível em países da União Europeia, incluindo Islândia, Liechtenstein, Noruega, Suíça ou Reino Unido.
O cofundador e CEO da OpenAI, Sam Altman, escreveu em uma postagem no X: “Espero que você ache que valeu a pena esperar.”
o lançamento do modo de voz avançado começa hoje! (será concluído ao longo da semana)
espero que você ache que valeu a pena esperar https://t.co/rEWZzNFERQ
-Sam Altman (@sama) 24 de setembro de 2024
Veja o que você precisa saber sobre isso e como ativar o modo de voz avançado no ChatGPT.
O que é o modo de voz avançado no ChatGPT?
Conversas de voz permitem que os usuários tenham uma conversa falada com o ChatGPT, o que significa que você pode ter interações e conversas mais naturais. Quando você pode fazer perguntas ou ter discussões por meio de entrada de voz, o ChatGPT dará uma resposta falada.
Atualmente, existem dois tipos de conversas de voz: padrão e avançada.
O Advanced Voice será lançado para todos os usuários Plus e Team no aplicativo ChatGPT ao longo da semana.
Enquanto você esperava pacientemente, adicionamos Instruções Personalizadas, Memória, cinco novas vozes e sotaques aprimorados.
Também pode dizer “Desculpe o atraso” em mais de 50 idiomas. pic.twitter.com/APOqqhXtDg
— OpenAI (@OpenAI) 24 de setembro de 2024
O ReadWrite relatou que a OpenAI lançou seu novo modo de voz padrão no mês passado. A voz padrão usa vários modelos de linguagem grandes (LLMs) para gerar sua resposta, incluindo a transcrição do que você diz em texto antes de enviá-lo aos modelos da OpenAI para resposta. Embora a voz padrão não seja geralmente multimodal como a voz avançada, as conversas de voz padrão também usam GPT-4o junto com GPT-4o mini. Cada prompt na voz padrão conta para seus limites de mensagem.
Onde o modo avançado difere é que ele usa os recursos e capacidades de áudio nativos do GPT-4o. Como resultado, a OpenAI espera produzir conversas mais naturais e em tempo real que captem dicas não verbais, como a velocidade com que o usuário está falando e pode responder com emoção.
No entanto, o uso de voz avançada por usuários Plus e Team é limitado diariamente.
Como ativar o modo de voz no ChatGPT?
Em julho, a OpenAI introduziu um Modo de Voz Avançado somente de áudio para um pequeno grupo de usuários do ChatGPT Plus, com planos de expandi-lo para todos os assinantes neste outono.
Embora o compartilhamento de tela e vídeo fizesse parte da demonstração inicial, eles não estão disponíveis nesta versão alfa, e a OpenAI não forneceu um cronograma para sua inclusão.
Os assinantes do Plus receberão uma notificação por e-mail quando o recurso estiver disponível para eles. Uma vez ativado, os usuários podem alternar entre os Modos de Voz Padrão e Avançado na parte superior do aplicativo ao usar o recurso de voz do ChatGPT.
Para iniciar uma conversa de voz, toque no ícone Voz no canto inferior direito da tela.
Se estiver usando voz avançada, você verá um orbe azul no centro da tela quando a conversa começar. Para voz padrão, o orbe será preto.
Durante a conversa, você pode silenciar ou ativar seu próprio som tocando no ícone do microfone no canto inferior esquerdo. E quando estiver pronto para encerrar o chat, basta tocar no ícone de saída no canto inferior direito.
Se for a primeira vez que você inicia um chat de voz, ou a primeira vez que usa voz avançada, você será solicitado a escolher uma voz. Só um aviso, o volume no seletor pode ser um pouco diferente do que você ouve na conversa.
Você sempre pode alterar sua voz nas configurações mais tarde, e usuários avançados de voz podem até mesmo ajustar sua voz diretamente na tela de conversa usando o menu de personalização no canto superior direito.
Certifique-se de ter dado permissão ao aplicativo ChatGPT para usar seu microfone para que tudo funcione perfeitamente.
E se esse recurso ainda não estiver disponível para você, você verá um ícone de fones de ouvido em vez dos botões de silenciar/desativar o som. Com ambas as versões, você pode interromper a conversa, direcionando-a de uma forma que pareça mais apropriada para você.
A voz do ChatGPT está disponível?
Se você estiver conectado ao ChatGPT por meio dos aplicativos iOS, macOS ou Android, você já tem acesso ao recurso de voz padrão. No entanto, a voz avançada está disponível atualmente apenas para usuários Plus e Team.
Há um limite diário para usar a voz avançada, que pode mudar com o tempo, mas você receberá um aviso quando estiver perto do limite — começando com um aviso de 15 minutos. Quando você atingir o limite, sua conversa mudará para a voz padrão automaticamente.
A voz avançada ainda não suporta coisas como imagens, então os usuários só podem continuar uma conversa de voz avançada com texto ou voz padrão, e não vice-versa. Conversas iniciadas em voz padrão sempre podem ser retomadas usando voz padrão ou texto, mas não voz avançada. A voz avançada também não está disponível com GPTs — você terá que alternar para voz padrão para isso.
O OpenAI também não introduziu certos recursos acessíveis. Consequentemente, as legendas não estão disponíveis durante conversas de voz, mas a transcrição aparecerá no seu chat de texto depois. Além disso, você só pode ter um chat de voz por vez.
A voz avançada pode criar e acessar memórias, bem como instruções personalizadas, assim como a voz padrão, que também possui esses recursos.
O chat de voz ChatGPT é seguro?
Em agosto, a OpenAI revelou que havia algumas falhas de segurança no modo de voz do ChatGPT, mas garantiu que estava no topo disso. A OpenAI publicou um relatório sobre os recursos de segurança do GPT-4o, abordando problemas conhecidos que ocorrem ao usar o modelo.
Os “desafios de segurança” com o modo de voz do ChatGPT incluem preocupações típicas como gerar respostas inapropriadas, como conteúdo erótico ou violento e fazer suposições tendenciosas. A OpenAI treinou o modelo para bloquear tais saídas, mas o relatório destaca que sons não verbais, como gemidos eróticos, gritos violentos e tiros, não são totalmente filtrados. Isso significa que prompts envolvendo esses sons sensíveis ainda podem desencadear respostas.
Outro desafio é se comunicar com o modelo vocalmente. Os testadores descobriram que o GPT-4o poderia ser enganado para copiar a voz de alguém ou soar acidentalmente como o usuário. Para evitar isso, o OpenAI permite apenas vozes pré-aprovadas – não incluindo uma voz parecida com a de Scarlett Johansson, que a empresa já removeu. Além disso, embora o GPT-4o possa reconhecer outras vozes, ele foi treinado para rejeitar tais solicitações por motivos de privacidade, a menos que esteja identificando uma citação famosa.
Os membros da equipe vermelha também sinalizaram que o GPT-4o poderia ser manipulado para falar de forma persuasiva, o que representa um risco maior ao espalhar desinformação ou teorias da conspiração, dado o impacto das palavras faladas. O modelo foi treinado para recusar solicitações de conteúdo protegido por direitos autorais e tem filtros extras para bloquear música. E, como um fato engraçado, ele é programado para não cantar de forma alguma. No entanto, neste exemplo de um usuário no X, a voz os ajuda a afinar sua guitarra cantarolando a nota.
Voz avançada no ChatGPT afina minha guitarra. pic.twitter.com/1H6mYZTCq7
– Pietro Schirano (@skirano) 24 de setembro de 2024
Como posso parar de compartilhar áudio?
Você pode parar de compartilhar seu áudio a qualquer momento indo para a página de controles de dados nas suas configurações do ChatGPT. Basta desativar a configuração “Melhorar a voz para todos”.
Se você não vir “Melhorar a voz para todos” nas configurações do Controle de Dados, isso significa que você não compartilhou seu áudio com o OpenAI e ele não está sendo usado para treinar modelos.
Se você optar por parar de compartilhar, o áudio de futuros chats de voz não será usado para treinamento de modelos. No entanto, clipes de áudio que foram previamente desassociados da sua conta ainda podem ser usados para treinar os modelos da OpenAI.
A OpenAI também mencionou que, mesmo que você pare de compartilhar áudio, ela “ainda pode usar transcrições desses chats para treinar nosso modelo” se a configuração “Melhorar o modelo para todos” ainda estiver ativada. Para cancelar totalmente, desabilite “Melhorar o modelo para todos”.
Os clipes de áudio dos seus chats de voz avançados serão armazenados enquanto o chat permanecer no seu histórico de chat. Se você excluir o chat, os clipes de áudio também serão excluídos em 30 dias, a menos que sejam necessários por motivos de segurança ou legais. Se você compartilhou seus clipes de áudio com a OpenAI para ajudar a treinar modelos, esses clipes ainda poderão ser usados, mas somente após serem desassociados da sua conta.