GPT-4o: ChatGPT evolui e fica mais rápido para ouvir, conversar e descrever objetos

0
GettyImages-1250799402

A OpenAI, desenvolvedora do ChatGPT, anunciou nesta segunda-feira (13) o GPT-4o. Trata-se da nova versão do modelo de inteligência artificial (IA) usado pelo robô conversador que ganhou fama nos últimos tempos.

É o primeiro modelo da OpenAI criado para combinar textos, imagens e áudios em tempo real por conta própria. Segundo a empresa, o GPT-4o tem mais capacidade para entender esses conteúdos do que seu antecessor, o GPT-4, lançado em março de 2023 e que é pago.

A atualização será liberada gradualmente, para todos os usuários, inclusive quem está na versão gratuita.

O QUE MUDA, NA PRÁTICA? A promessa é que vai dar para falar e mostrar coisas para o robô e ter respostas numa velocidade mais parecida com a de uma conversa com pessoas, em vez de apenas digitar o que você quer saber ou pedir.

Nas redes sociais, usuários compararam a nova versão com a assistente virtual do filme “Ela” (“Her”, no título original), em que o protagonista se apaixona por um sistema operacional. A reação chegou a Altman, que postou o nome do filme em seu perfil no X (antigo Twitter).

Para demonstrar, a OpenAI divulgou o vídeo em que uma pessoa pede para o ChatGPT avaliar sua roupa para uma entrevista de emprego. Em outro teste, ele foi usado para criar uma música (assista abaixo).

Até então, o ChatGPT seguia várias etapas para analisar e responder comandos de voz. Primeiro, era preciso usar um modelo para converter o áudio para texto. Depois, o GPT-3.5 ou o GPT-4 interpretava o conteúdo e criava uma resposta. Por fim, outro modelo transformava o material de volta para áudio.

Segundo a OpenAI, o GPT-4o leva, em média, 320 milissegundos para responder comandos de áudio – o tempo mínimo foi de 232 milissegundos. A empresa diz que ele é muito mais veloz que os modelos antecessores: em média, o GPT-3.5 leva 2,8 segundos e o GPT-4, que é pago, toma 5,4 segundos.

“Com o GPT-4o, treinamos um único modelo de ponta a ponta em texto, visão e áudio, o que significa que todas as entradas e saídas são processadas pela mesma rede neural”, disse a OpenAI, em comunicado.

O presidente-executivo da OpenAI, Sam Altman, afirmou que este é o melhor modelo já criado pela empresa. “É inteligente, é rápido, é nativamente multimodal”, disse.

A empresa também anunciou um aplicativo do ChatGPT para computador, que se junta à versão para navegadores e ao aplicativo para Android e iOS.

Quando o GPT-4o será liberado?

A OpenAI informou que começou a liberar nesta segunda os recursos de texto e foto do GPT-4o. Eles também estão disponíveis para desenvolvedores usarem as funcionalidades em seus próprios aplicativos.

Usuários da versão gratuita poderão usá-lo com um limite de mensagens que não foi informado, enquanto assinantes do ChatGPT Plus terão um limite maior.

O uso do GPT-4o com comandos de voz será liberado nas próximas semanas para quem paga pelo ChatGPT Plus.

A empresa não revelou quando os recursos de vídeos chegarão para todos os usuários, mas informou que eles chegarão primeiro para um grupo restrito de desenvolvedores parceiros.

Deixe um comentário

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.