Pesquisadores da Universidade da Califórnia – Riverside, em colaboração com o Google, desenvolveram uma nova ferramenta denominada UNITE, que visa transformar a maneira como identificamos vídeos gerados ou manipulados por inteligência artificial (IA). Ao contrário das soluções atuais, que se concentram em rostos e microexpressões para detectar conteúdos sintéticos, o UNITE analisa o contexto completo da imagem, considerando fundo, padrões de movimento e elementos visuais frequentemente ignorados por humanos e algoritmos tradicionais.
O objetivo é determinar se os vídeos são produzidos por IA, mesmo na ausência de rostos na cena, uma ocorrência cada vez mais comum em imagens manipuladas pela tecnologia. O sistema foi apresentado durante a CVPR 2025, uma das principais conferências de visão computacional do mundo, e avança além dos métodos convencionais de detecção de vídeos sintéticos, que geralmente focam apenas em alterações faciais ou microexpressões. O UNITE examina, por sua vez, todo o contexto visual.
A ferramenta aplica uma arquitetura de aprendizado profundo chamada SigLIP e se destaca pelo uso da técnica de “perda de atenção-diversidade”, que força o sistema a observar várias áreas do vídeo simultaneamente, ampliando sua capacidade de detectar manipulações em diversos tipos de conteúdo, inclusive nos mais desafiadores, como vídeos gerados a partir de textos ou imagens estáticas.
Para os criadores do projeto, o UNITE representa um avanço crucial diante do aumento da sofisticação dos deepfakes. Além disso, ainda em fase de aprimoramento, a tecnologia tem o potencial de ser integrada a redações jornalísticas, agências de checagem e redes sociais, atuando como um “caçador de deepfakes” em larga escala.
Com informações de arXiv e IGN.