ChatGPT com voz e imagem

O ChatGPT, que pode ser considerado um desbravador dentre as ferramentas mais famosas de inteligência artificial, está ganhando recursos novos (voz e imagem) para manter e atrair usuários. A OpenAI, empresa criadora do ChatGPT, anunciou recentemente que a IA vai permitir uma conversa por voz e que o usuário mostre à ferramenta uma imagem sobre o que ele está falando. Você vai poder, por exemplo, tirar uma foto de um ponto turístico durante uma viagem e conversar em tempo real com o ChatGPT sobre o local, descobrindo o que é mais interessante.

Voz

Agora você pode usar a voz para conversar com o ChatGPT. Fale com ele em qualquer lugar, peça uma história para dormir para sua família ou resolva um debate na mesa de jantar (já imaginou?).

O novo recurso de voz é desenvolvido por um novo modelo de conversão de texto em fala, capaz de gerar áudio semelhante ao humano a partir de apenas texto e alguns segundos de fala de amostra. De acordo com a OpenAI, participaram dubladores profissionais para criar cada uma das vozes. Também foi usado o Whisper – sistema de reconhecimento de fala de código aberto, para transcrever as palavras faladas em texto.

Para começar com a voz, vá para Configurações → Novos recursos no aplicativo móvel e opte por conversas por voz. Em seguida, toque no botão do fone de ouvido localizado no canto superior direito da tela inicial e escolha sua voz preferida entre cinco vozes diferentes.

Imagem

Em relação à imagem, as opções também são infinitas. Exemplo; explore o conteúdo da sua geladeira para planejar uma refeição; ou analise um gráfico complexo para dados relacionados ao trabalho. Dica: para se concentrar em uma parte específica da imagem, você pode usar a ferramenta de desenho disponível no aplicativo do ChatGPT.

Para começar, toque no botão de foto para capturar ou escolher uma imagem. Se você estiver no iOS ou Android, toque no botão de adição primeiro. Você também pode discutir várias imagens ou usar a ferramenta de desenho para orientar o assistente.

A OpenAI explica que o entendimento da imagem é alimentado por GPT-3.5 e GPT-4 multimodais. Esses modelos aplicam suas habilidades de raciocínio de linguagem a uma ampla gama de imagens, como fotografias, capturas de tela e documentos contendo texto e imagens.

Implantação gradual

A OpenAi disse que está lançando voz e imagens nos usuários do ChatGPT para Plus e Enterprise nas próximas semanas. A voz está chegando no iOS e Android (opt-in nas suas configurações) e as imagens estarão disponíveis em todas as plataformas.

A empresa informou que o lançamento gradual permite realizar melhorias e refinar as mitigações de risco ao longo do tempo, além de preparar todos para sistemas mais poderosos no futuro.

Vamos acompanhar.

Jornalista

Notícias

Dicas

Artes

Vídeos

ChatGPT com voz e imagem

Raphael Martiniano

Nenhum comentário:

Postar um comentário

Ebook 'Inteligência Artificial - O básico para começar'

Newsletter

Receba novos posts por e-mail:

Tradutor

CONTEÚDO PATROCINADO

Pesquisar este blog

Recent

Popular

Comments

Arquivo

Tags

Envie sua mensagem!

Google Ads

Autor

Jornalista

Author Social Links

ANÚNCIO CENTRAL HOME

Notícias

Dicas

Artes

Vídeos

ANÚNCIO INTERNO DO POST

ChatGPT com voz e imagem

Raphael Martiniano

Nenhum comentário:

Postar um comentário

ANÚNCIO INTERNO DO POST 02

Ebook 'Inteligência Artificial - O básico para começar'

Newsletter

Receba novos posts por e-mail:

Tradutor

CONTEÚDO PATROCINADO

Pesquisar este blog

Recent

Popular

Comments

Arquivo

Tags

Envie sua mensagem!

Google Ads

Autor