A OpenAI está enfrentando dificuldades para lidar com a alta demanda gerada pela nova funcionalidade de geração de imagens, lançada recentemente. Desde então, a empresa tem trabalhado para manter a estabilidade do serviço em meio ao grande volume de acessos.
Nesta segunda-feira (31), a OpenAI anunciou a suspensão temporária da geração de vídeos no Sora para novos usuários. A decisão foi tomada devido ao alto tráfego na plataforma, que está sobrecarregando a infraestrutura da empresa. Segundo o CEO da OpenAI, Sam Altman, a alta demanda estava tão intensa que as “GPUs estão derretendo”, tornando necessária a limitação temporária dos serviços.
Sam Altman relatou problemas com alta demanda após integração do Sora ao ChatGPT (Imagem: jamesonwu1972 / Shutterstock.com)
Restrição temporária no Sora
De acordo com uma nota publicada em uma das páginas de suporte da OpenAI, usuários que nunca acessaram o Sora anteriormente não poderão gerar vídeos, mas ainda terão a opção de criar imagens na plataforma.
A novidade da OpenAI atraiu atenção principalmente pela sua capacidade de reproduzir estilos visuais icônicos, como o da animação feita à mão pelo Studio Ghibli.
O recurso impressionou, mas também gerou polêmicas e sobrecarregou os servidores da empresa.
Uso do Sora para criar imagens no estilo do Studio Ghibli se tornou viral nas redes sociais (Imagem: Reprodução/Redes sociais)
Equipe trabalha para manter serviço no ar
No último fim de semana, o CEO da OpenAI, Sam Altman, comentou sobre os desafios que a empresa vem enfrentando. Em postagens na rede social X, Altman afirmou que a OpenAI “não conseguiu acompanhar a demanda” desde o lançamento da nova ferramenta. Segundo ele, os funcionários estão trabalhando até tarde da noite e aos finais de semana para garantir a estabilidade do serviço.
A OpenAI ainda não divulgou previsão para quando a geração de vídeos será restabelecida para novos usuários. A empresa segue monitorando a situação e realizando ajustes na capacidade dos servidores para evitar novas interrupções.
A OpenAI anunciou nesta terça-feira (25) a integração do Sora ao ChatGPT, permitindo que os usuários gerem imagens diretamente na plataforma. Antes, o acesso ao Sora era limitado a um site separado, mas agora essa funcionalidade passa a estar disponível dentro do ChatGPT sob o nome de “Imagens no ChatGPT”.
O Sora foi inicialmente apresentado como um gerador de vídeos por inteligência artificial, mas, nesta primeira fase de integração, estará focado apenas na criação de imagens. A funcionalidade será acessível para usuários dos planos ChatGPT Plus, Pro, Team e Free.
No caso dos assinantes do plano gratuito, o limite de uso será o mesmo do DALL-E, embora a OpenAI não tenha divulgado um número exato. A porta-voz da empresa, Taya Christianson, afirmou ao The Verge que esse limite pode mudar ao longo do tempo conforme a demanda.
OpenAI integra seu gerador de imagens Sora a seu chatbot, o ChatGPT (Imagem: jackpress / Shutterstock.com)
Avanços técnicos na geração de imagens no ChatGPT
De acordo com Gabriel Goh, líder de pesquisa da OpenAI, o novo sistema utiliza o modelo GPT-4o como base.
Ele destaca avanços significativos na precisão dos detalhes das imagens, especialmente na capacidade de manter relações corretas entre atributos e objetos.
Esse conceito, chamado de “binding”, permite ao modelo gerar imagens com mais precisão quando solicitados múltiplos elementos, como cores e formas diferentes, sem erros.
Outro aprimoramento é a renderização de textos dentro das imagens. Ferramentas de IA frequentemente apresentam erros ao tentar inserir palavras legíveis nas criações visuais, mas a OpenAI aprimorou essa capacidade para tornar os textos gerados mais coerentes e utilizáveis.
Segundo Goh, essa melhoria exigiu meses de refinamento, mas a qualidade agora é consistente, com falhas ocorrendo apenas em textos muito pequenos.
A abordagem adotada pela OpenAI para a geração de imagens também difere dos modelos tradicionais.
Enquanto o DALL-E e outras ferramentas usam um método baseado em difusão, o Sora emprega um processo autoregressivo, criando a imagem sequencialmente, da esquerda para a direita e de cima para baixo.
Esse método pode ser responsável pelos avanços na precisão dos elementos visuais e textuais.
Aplicações e demonstrações
Antes do lançamento da nova funcionalidade, a OpenAI realizou demonstrações para mostrar o potencial do Sora. Entre os exemplos apresentados, estavam diagramas científicos como o experimento do prisma de Newton, histórias em quadrinhos com personagens e balões de diálogo consistentes, além de pôsteres informativos com textos precisos. A ferramenta também se mostrou útil na criação de imagens com fundo transparente para adesivos, cardápios de restaurantes e logotipos.
Para Jackie Shannon, líder de produto multimodal da OpenAI, a IA por trás do ChatGPT traz consigo um diferencial: o conhecimento de mundo. Isso significa que um usuário não precisa fornecer detalhes extensivos sobre um conceito científico, por exemplo, para obter uma imagem precisa.
Apesar dos avanços, a nova tecnologia leva mais tempo para gerar imagens em comparação com versões anteriores. No entanto, a OpenAI considera essa troca vantajosa. Segundo Shannon, a qualidade e a capacidade de geração de imagens com alto nível de detalhe compensam os segundos adicionais de espera.
Apesar de ser mais conhecido por criar vídeos a partir de texto, o Sora chega ao ChatGPT inicialmente apenas como criador de imagens (Imagem: FilipArtLab/Shutterstock)
Diante de preocupações com o uso indevido de imagens geradas por IA, como deepfakes e remoção de marcas d’água, a OpenAI reforçou seus mecanismos de segurança com a chegada do Sora ao ChatGPT. Shannon afirmou que o sistema bloqueia a geração de deepfakes sexuais e a remoção de marcas d’água e impede a criação de conteúdo ilegal.
Embora as imagens geradas pelo Sora não possuam marcas visíveis indicando sua origem, todas incluirão metadados C2PA, um padrão adotado para identificar imagens criadas por IA. A OpenAI também desenvolverá ferramentas internas para rastrear a proveniência das imagens.
A empresa enfatiza que os usuários têm a propriedade das imagens geradas e podem utilizá-las conforme as políticas da OpenAI permitem. “Nenhum sistema é perfeito, mas estamos constantemente aprimorando nossas salvaguardas”, concluiu Shannon.