A OpenAI anunciou um impressionante modelo de IA de texto para vídeo chamado Sora. A Inteligência Artificial é capaz de gerar vídeos realistas de até um minuto.
![]() |
Cortesia de imagem: OpenAI |
Justamente quando o Google anunciou seu modelo Gemini 1.5 Pro de próxima geração, a OpenAI roubou a cena do Google com o anúncio surpresa do Sora, um modelo inovador de IA para geração de vídeos a partir de texto.
O novo modelo de geração de vídeo, Sora, é único na indústria de IA. Pelos exemplos que vimos, modelos de geração de vídeo como Gen-2 e Pika da Runway são insignificantes em comparação com o modelo Sora. Aqui está tudo o que você precisa saber sobre o novo modelo Sora da OpenAI.
O modelo de IA para geração de vídeo a partir de texto da OpenAI, Sora, pode produzir vídeos altamente detalhados (até 1080p) com base em prompts textuais. Ele segue as instruções do usuário com precisão e simula o mundo físico em movimento.
A parte mais impressionante é que o Sora pode criar vídeos de IA de até um minuto de duração, o que é muito mais longo do que os modelos existentes de geração de vídeo a partir de texto, que geralmente produzem vídeos de apenas três ou quatro segundos.
Prompt: “A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.” pic.twitter.com/0JzpwPUGPB
— OpenAI (@OpenAI) February 15, 2024
A OpenAI apresentou diversos exemplos visuais para demonstrar a poderosa capacidade do Sora. O criador do ChatGPT afirma que o Sora possui um profundo entendimento da linguagem e pode gerar “personagens envolventes que expressam emoções vívidas”. Além disso, ele pode criar várias cenas diferentes em um único vídeo, com personagens e ambientes consistentes ao longo da narrativa.
Contudo, o Sora também possui algumas limitações. Atualmente, ele não possui um entendimento muito preciso da física do mundo real. A OpenAI explica: “Uma pessoa pode dar uma mordida em um biscoito, mas depois o biscoito pode não mostrar a marca da mordida”.
Quanto à arquitetura do modelo, a OpenAI afirma que o Sora é um modelo de difusão construído com base na arquitetura do transformador. Ele utiliza a técnica de recuperação introduzida com o DALL-E 3, que gera um prompt altamente descritivo a partir de um exemplo de prompt fornecido pelo usuário. Além da geração de texto para vídeo, o Sora também é capaz de criar vídeos a partir de imagens estáticas, animá-las e estender o quadro para criar um vídeo.
My take on Open AI Sora:
If you are going to create a TON of HQ video from different angles, you need to simulate it. There are a lot of things though that lead me to believe UE5 is being used in part to create the training data.
A 🧵
— Ralph Brooks (@ralphbrooks) February 15, 2024
Olhando para os impressionantes vídeos gerados utilizando o modelo Sora, muitos especialistas acreditam que o Sora pode ter sido treinado em dados gerados sinteticamente pelo Unreal Engine 5, dadas as semelhanças com as simulações do UE5. Os vídeos produzidos pelo Sora não apresentam a distorção usual de mãos e caracteres que frequentemente observamos em outros modelos de difusão. Além disso, é possível que esteja utilizando o Neural Radiance Field (NeRF) para gerar cenas 3D a partir de imagens 2D.
Seja qual for o caso, parece que a OpenAI fez outro avanço com o Sora, e isso é evidente nas considerações finais da OpenAI em seu blog, enfatizando a busca pela Inteligência Artificial Geral (AGI).
O Sora serve como uma base para modelos que podem compreender e simular o mundo real, uma habilidade que acreditamos ser um marco importante para alcançar a AGI.
Atualmente, o Sora não está disponível para usuários regulares experimentarem. A OpenAI está colaborando com especialistas para avaliar o modelo quanto a danos e riscos. Além disso, a empresa está concedendo acesso ao Sora a vários cineastas, designers e artistas para receber feedback e aprimorar o modelo antes do lançamento público.
Via: beebom