quinta-feira, agosto 14, 2025
HomeInternetA Perplexity está usando bots ocultos e violando diretrizes de sites para...

A Perplexity está usando bots ocultos e violando diretrizes de sites para coletar dados, afirma a Cloudflare.

Perplexity é acusado de acessar conteúdos de sites de maneira ilegítima, apesar de ter sido proibido. A Cloudflare, uma empresa global de serviços de segurança na web, realizou um teste para confirmar o comportamento furtivo da empresa responsável pelo motor de respostas. Os pesquisadores destacaram que não apenas os bots de rastreamento da Perplexity estavam ignorando as diretrizes dos sites, mas também se escondendo ativamente, utilizando diversas estratégias para que os proprietários das páginas não conseguissem monitorar a atividade. A Cloudflare também conseguiu encontrar uma maneira de interromper com sucesso os esforços da empresa de inteligência artificial (IA).

Em uma postagem de blog, a plataforma de segurança web afirmou que a Perplexity estava envolvida em atividades de “rastreamento furtivo”. “Continuamos a ver evidências de que a Perplexity está modificando repetidamente seu agente de usuário e alterando seus ASN de origem para ocultar suas atividades de rastreamento, além de ignorar — ou, às vezes, falhar em buscar — arquivos robots.txt”, acrescentou a postagem.

Antes de analisar o comportamento da Perplexity, é importante compreender como todo o sistema funciona. Proprietários de sites de conteúdo adicionam informações, e serviços de terceiros, como motores de busca, coletam esses dados para indexar os sites e torná-los visíveis quando uma consulta relevante é feita. Alguns aplicativos e sites também realizam a extração de dados, seja para integrá-los em suas interfaces ou para coletar informações com permissão.

No entanto, para que essa relação entre sites e crawlers funcione, é necessário haver confiança, que é estabelecida com os bots seguindo um conjunto de regras ao rastrear qualquer site. Essas regras determinam que a atividade dos bots deve ser transparente, servir a um propósito claro, realizar apenas atividades específicas e seguir as diretrizes e preferências dos sites. Assim, se um site bloqueia um bot, ele não deve rastrear esse site.

Segundo os pesquisadores da Cloudflare, a Perplexity está quebrando esse modelo de confiança ao utilizar táticas furtivas para extrair dados de sites, inclusive aqueles que bloqueiam explicitamente seus bots declarados — PerplexityBot e Perplexity-User. Os pesquisadores conseguiram confirmar essa atividade criando novos domínios de teste.

Esses domínios não foram indexados por nenhum motor de busca, nem tornados publicamente acessíveis ou descobertos. Além disso, os pesquisadores implementaram um arquivo robots.txt (um arquivo de texto utilizado por sites para dar instruções a crawlers) para impedir que todos os bots acessassem qualquer parte do site.

Em seguida, os pesquisadores da Cloudflare se dirigiram à Perplexity, fazendo perguntas específicas sobre esses domínios recém-criados. Eles descobriram que, apesar de seguir os protocolos da Internet para evitar atividades de rastreamento, a Perplexity ainda conseguiu apresentar informações detalhadas sobre esses sites.

A Cloudflare afirma que os agentes de usuário ou crawlers da Perplexity tomam várias medidas para contornar as diretrizes dos sites e acessar os dados. Se um agente de usuário declarado é negado pelo robots.txt, ele ignora essa restrição e continua a extrair dados. Se um site implementou um firewall de aplicação web (WAF) para bloquear o bot, a empresa utiliza um agente de navegador genérico que imita o Google Chrome ou o macOS.

Esse bot não declarado também utiliza diversos IPs não listados na faixa oficial de IPs da Perplexity para enganar o site. Para esconder ainda mais suas atividades, esses crawlers são ditos usar diferentes números de sistemas automáticos. Notavelmente, a Cloudflare afirmou que, quando esses bots não declarados foram parados com sucesso, a qualidade das respostas da Perplexity diminuiu, pois a empresa começou a depender de outras fontes de dados para responder às consultas.

A Cloudflare disse que seu sistema de gerenciamento de bots conseguiu registrar toda a atividade de rastreamento não declarada dos agentes de usuário ocultos da Perplexity e agora está protegendo automaticamente todos os seus clientes de gerenciamento de bots. Além disso, a empresa adicionou correspondências de assinatura para o crawler furtivo em sua regra gerenciada, bloqueando a atividade de rastreamento de IA. Isso está disponível para todos os usuários da Cloudflare, incluindo aqueles que utilizam a versão gratuita.

RELATED ARTICLES
- Advertisment -

Most Popular

Recent Comments