O ChatGPT, que pode ser
considerado um desbravador dentre as ferramentas mais famosas de inteligência
artificial, está ganhando recursos novos (voz e imagem) para manter e atrair
usuários. A OpenAI, empresa criadora do ChatGPT, anunciou recentemente que a IA
vai permitir uma conversa por voz e que o usuário mostre à ferramenta uma
imagem sobre o que ele está falando. Você vai poder, por exemplo, tirar uma
foto de um ponto turístico durante uma viagem e conversar em tempo real com o
ChatGPT sobre o local, descobrindo o que é mais interessante.
Voz
Agora você pode usar a
voz para conversar com o ChatGPT. Fale com ele em qualquer lugar, peça uma
história para dormir para sua família ou resolva um debate na mesa de jantar
(já imaginou?).
O novo recurso de voz é
desenvolvido por um novo modelo de conversão de texto em fala, capaz de gerar
áudio semelhante ao humano a partir de apenas texto e alguns segundos de fala
de amostra. De acordo com a OpenAI, participaram dubladores profissionais para
criar cada uma das vozes. Também foi usado o Whisper – sistema de
reconhecimento de fala de código aberto, para transcrever as palavras faladas
em texto.
Para começar com a voz,
vá para Configurações → Novos recursos no aplicativo móvel e opte por conversas
por voz. Em seguida, toque no botão do fone de ouvido localizado no canto
superior direito da tela inicial e escolha sua voz preferida entre cinco vozes
diferentes.
Imagem
Em relação à imagem, as
opções também são infinitas. Exemplo; explore o conteúdo da sua geladeira para
planejar uma refeição; ou analise um gráfico complexo para dados relacionados
ao trabalho. Dica: para se concentrar em uma parte específica da imagem, você
pode usar a ferramenta de desenho disponível no aplicativo do ChatGPT.
Para começar, toque no
botão de foto para capturar ou escolher uma imagem. Se você estiver no iOS ou
Android, toque no botão de adição primeiro. Você também pode discutir várias
imagens ou usar a ferramenta de desenho para orientar o assistente.
A OpenAI explica que o entendimento
da imagem é alimentado por GPT-3.5 e GPT-4 multimodais. Esses modelos aplicam
suas habilidades de raciocínio de linguagem a uma ampla gama de imagens, como
fotografias, capturas de tela e documentos contendo texto e imagens.
Implantação gradual
A OpenAi disse que está lançando
voz e imagens nos usuários do ChatGPT para Plus e Enterprise nas próximas semanas.
A voz está chegando no iOS e Android (opt-in nas suas configurações) e as
imagens estarão disponíveis em todas as plataformas.
A empresa informou que o
lançamento gradual permite realizar melhorias e refinar as mitigações de risco
ao longo do tempo, além de preparar todos para sistemas mais poderosos no
futuro.
Vamos acompanhar.


Nenhum comentário:
Postar um comentário