Apesar de serem considerados modelos de inteligência artificial (IA) de última geração, o o3 e o o4-mini, lançados recentemente pela OpenAI, estão enfrentando um problema peculiar: eles inventam muitas coisas (alucinam). E o pior, fazem isso mais do que seus antecessores.
As chamadas “alucinações” são um dos maiores desafios na evolução da IA. Elas acontecem quando os modelos geram informações falsas ou inventadas, mesmo quando parecem confiantes em suas respostas. Historicamente, cada nova versão melhorava nesse aspecto, alucinando menos. Mas, surpreendentemente, o o3 e o o4-mini estão indo na direção oposta.
Alucinação preocupante
Testes da OpenAI revelaram que o o3 alucina em 33% das vezes ao responder perguntas sobre pessoas no PersonQA, o benchmark interno da startup. Já o o4-mini foi ainda pior, “viajando” 48% da vezes. Para comparação, modelos anteriores como o o1 e o o3-mini tinham taxas de erro de apenas 16% e 14,8%, respectivamente.
Pesquisadores independentes também notaram comportamentos estranhos. Em testes do Transluce, um laboratório de pesquisa de IA sem fins lucrativos, o o3 afirmou executar código em um MacBook Pro 2021 fora do ChatGPT, algo que ele não pode fazer. Além disso, usuários relataram links quebrados fornecidos pelo modelo em tarefas de codificação. Esses erros podem parecer pequenos, mas têm grande impacto em setores onde a precisão é crucial, como escritórios de advocacia ou empresas de saúde.
Leia também:
- Fim da Terra de Ninguém? Brasil pode ter lei para uso de IA
- OpenAI teria deixado testes de segurança com sua IA mais poderosa de lado
- O que você faria se um robô mentisse para você? Estudo revela respostas mais comuns
Por outro lado, esses modelos continuam impressionando em áreas como matemática e programação. O problema é que, enquanto buscam respostas mais detalhadas e criativas, as chances de inventar informações aumentam. A OpenAI admitiu que ainda não sabe por que isso está acontecendo e reconheceu que encontrar uma solução será essencial para o futuro da IA.
Uma possível saída é permitir que os modelos consultem a internet em tempo real. Testes internos da OpenAI mostram que o GPT-4o com pesquisa na web alcança 90% de precisão em algumas tarefas. No entanto, essa solução levanta questões de privacidade, já que os prompts dos usuários podem ser expostos a terceiros.
Via TechCrunch
O post IA que raciocina mais alucina mais: novos modelos da OpenAI “viajam” bastante apareceu primeiro em Olhar Digital.