A corrida para oferecer a
melhor e mais ampla solução tecnológica em inteligência artificial segue
acirrada entre as grandes big techs. Nesta semana, OpenAI (criadora do ChatGPT)
e a Google (que criou o atual Gemini) anunciaram avanços em suas ferramentas,
que prometem melhorar ainda mais a experiência dos usuários. Trouxemos um
resumo de cada um dos anúncios.
GPT-4o
A toda poderosa OpenAI,
do famoso Sam Altman, lançou o GPT-4o (“o” para “omni”), uma atualização da sua
ferramenta ChatGPT 4, só que será de acesso para todos, incluindo usuários que
utilizam a forma gratuita da IA e agora poderão aproveitar o chat mais
avançado, com melhor lógica e informações mais atualizadas. A liberação será
gradativa.
“É um passo para uma
interação humano-computador muito mais natural—aceita como entrada qualquer
combinação de texto, áudio, imagem, e vídeo e gera qualquer combinação de
saídas de texto, áudio e imagem. Ele pode responder a entradas de áudio em
apenas 232 milissegundos, com uma média de 320 milissegundos, o que é
semelhante ao tempo de resposta humana em uma conversa. Ele corresponde ao
desempenho do GPT-4 Turbo em texto em inglês e código, com melhoria
significativa em texto em idiomas que não são ingleses, além de ser muito mais
rápido e 50% mais barato na API. O GPT-4o é especialmente melhor em visão e
compreensão de áudio em comparação com os modelos existentes”, diz a OpenAI.
Resumidamente, o novo
modelo suporta 50 idiomas diferentes com maior velocidade e qualidade. Também
estará disponível através da API OpenAI, permitindo aos desenvolvedores
construir aplicações com ele.
“Antes do GPT-4o, você
poderia usar Modo Voz falar com o ChatGPT com latências de 2,8 segundos
(GPT-3,5) e 5,4 segundos (GPT-4) em média. Para conseguir isso, o Modo de Voz é
um pipeline de três modelos separados: um modelo simples transcreve áudio para
texto, o GPT-3.5 ou o GPT-4 recebe texto e produz texto, e um terceiro modelo
simples converte esse texto de volta para áudio. Este processo significa que a
principal fonte de inteligência, GPT-4, perde muita informação – pode observar
diretamente o tom, vários alto-falantes ou ruídos de fundo, e podeilett saída
riso, canto, ou expressar emoção”, explica a empresa.
Gemini 1.5 Flash
Pensou em algum GPT que
responda na velocidade do super-herói da DC? Nem tanto. Mas já é uma evolução na
área de inteligência artificial anunciada nesta semana pelo CEO da Google,
Sundar Pichai, durante o tradicional evento I/O 2024 (uma espécie de
conferência). Trata-se do Gemini 1.5 Flash, um modelo mais leve que o 1.5 Pro e
projetado para ser rápido e eficiente para servir em grande escala.
“Tanto o 1.5 Pro quanto o
1.5 Flash estão disponíveis, em pré-visualização pública, com uma janela de
contexto de 1 milhão de tokens no Google AI Studio e Vertex AI. Uma janela de
contexto de 2 milhões de tokens já está disponível para desenvolvedores que
usam API e para clientes do Google Cloud, por meio de uma lista de espera. E
estamos integrando o 1.5 Pro aos produtos do Google, incluindo o Gemini
Advanced e os aplicativos Workspace”, explica Demis Hassabis, CEO do Google
DeepMind.
Demis cita ainda que, embora
seja um modelo mais leve que o 1.5 Pro, o Gemini 1,5 Flash é capaz de realizar
o raciocínio multimodal em grandes quantidades de informações, além de oferecer
uma qualidade impressionante para seu tamanho.
“O 1.5 Flash é excelente
em resumos, aplicativos de bate-papo, legendagem de imagens e vídeos, extração
de dados de documentos e tabelas longas e muito mais. Isso ocorre, porque ele
foi treinado pelo 1.5 Pro por meio de um processo chamado ‘destilação’, no qual
o conhecimento e as habilidades mais essenciais de um modelo maior são
transferidos para um modelo menor e mais eficiente”, detalha o CEO.


Nenhum comentário:
Postar um comentário