15 maio, 2024

OpenAI e Google lançam novidades na corrida da IA


A corrida para oferecer a melhor e mais ampla solução tecnológica em inteligência artificial segue acirrada entre as grandes big techs. Nesta semana, OpenAI (criadora do ChatGPT) e a Google (que criou o atual Gemini) anunciaram avanços em suas ferramentas, que prometem melhorar ainda mais a experiência dos usuários. Trouxemos um resumo de cada um dos anúncios.



GPT-4o

 

A toda poderosa OpenAI, do famoso Sam Altman, lançou o GPT-4o (“o” para “omni”), uma atualização da sua ferramenta ChatGPT 4, só que será de acesso para todos, incluindo usuários que utilizam a forma gratuita da IA e agora poderão aproveitar o chat mais avançado, com melhor lógica e informações mais atualizadas. A liberação será gradativa.

 

“É um passo para uma interação humano-computador muito mais natural—aceita como entrada qualquer combinação de texto, áudio, imagem, e vídeo e gera qualquer combinação de saídas de texto, áudio e imagem. Ele pode responder a entradas de áudio em apenas 232 milissegundos, com uma média de 320 milissegundos, o que é semelhante ao tempo de resposta humana em uma conversa. Ele corresponde ao desempenho do GPT-4 Turbo em texto em inglês e código, com melhoria significativa em texto em idiomas que não são ingleses, além de ser muito mais rápido e 50% mais barato na API. O GPT-4o é especialmente melhor em visão e compreensão de áudio em comparação com os modelos existentes”, diz a OpenAI.


 

Resumidamente, o novo modelo suporta 50 idiomas diferentes com maior velocidade e qualidade. Também estará disponível através da API OpenAI, permitindo aos desenvolvedores construir aplicações com ele.

 

“Antes do GPT-4o, você poderia usar Modo Voz falar com o ChatGPT com latências de 2,8 segundos (GPT-3,5) e 5,4 segundos (GPT-4) em média. Para conseguir isso, o Modo de Voz é um pipeline de três modelos separados: um modelo simples transcreve áudio para texto, o GPT-3.5 ou o GPT-4 recebe texto e produz texto, e um terceiro modelo simples converte esse texto de volta para áudio. Este processo significa que a principal fonte de inteligência, GPT-4, perde muita informação – pode observar diretamente o tom, vários alto-falantes ou ruídos de fundo, e podeilett saída riso, canto, ou expressar emoção”, explica a empresa.

 

Gemini 1.5 Flash

 

Pensou em algum GPT que responda na velocidade do super-herói da DC? Nem tanto. Mas já é uma evolução na área de inteligência artificial anunciada nesta semana pelo CEO da Google, Sundar Pichai, durante o tradicional evento I/O 2024 (uma espécie de conferência). Trata-se do Gemini 1.5 Flash, um modelo mais leve que o 1.5 Pro e projetado para ser rápido e eficiente para servir em grande escala.

 

“Tanto o 1.5 Pro quanto o 1.5 Flash estão disponíveis, em pré-visualização pública, com uma janela de contexto de 1 milhão de tokens no Google AI Studio e Vertex AI. Uma janela de contexto de 2 milhões de tokens já está disponível para desenvolvedores que usam API e para clientes do Google Cloud, por meio de uma lista de espera. E estamos integrando o 1.5 Pro aos produtos do Google, incluindo o Gemini Advanced e os aplicativos Workspace”, explica Demis Hassabis, CEO do Google DeepMind.


 

Demis cita ainda que, embora seja um modelo mais leve que o 1.5 Pro, o Gemini 1,5 Flash é capaz de realizar o raciocínio multimodal em grandes quantidades de informações, além de oferecer uma qualidade impressionante para seu tamanho.

 

“O 1.5 Flash é excelente em resumos, aplicativos de bate-papo, legendagem de imagens e vídeos, extração de dados de documentos e tabelas longas e muito mais. Isso ocorre, porque ele foi treinado pelo 1.5 Pro por meio de um processo chamado ‘destilação’, no qual o conhecimento e as habilidades mais essenciais de um modelo maior são transferidos para um modelo menor e mais eficiente”, detalha o CEO.

 

A pré-visualização pode ser testada clicando aqui, ou aqui. 

Nenhum comentário:

Postar um comentário