Perplexity es acusada de evadir bloqueos web para entrenar su IA con contenido no autorizado
La startup de inteligencia artificial Perplexity ha sido señalada por eludir las restricciones de sitios web que prohíben expresamente el rastreo automatizado, desatando una nueva controversia en torno al scraping de datos en la era de la IA.
¿Qué ocurrió y por qué importa?
Perplexity, una creciente empresa en el campo de la inteligencia artificial generativa, ha sido acusada por Cloudflare, uno de los proveedores de infraestructura de internet más influyentes, de ignorar activamente los mecanismos que impiden el scraping de contenido. Estos mecanismos, como el archivo robots.txt, son utilizados por los administradores web para indicar qué partes de sus sitios pueden o no ser indexadas por bots y sistemas automatizados.
Según un análisis técnico publicado por Cloudflare, Perplexity habría estado ocultando la identidad de sus bots al cambiar sus agentes de usuario y manipular identificadores de red para evitar ser detectada. Esto les habría permitido acceder a contenido de miles de dominios que habían bloqueado específicamente sus rastreadores.
¿Cómo lo detectaron?
Cloudflare explicó que utilizó técnicas de aprendizaje automático y análisis de señales de red para descubrir el comportamiento encubierto de estos bots. La actividad fue registrada en millones de solicitudes diarias provenientes de supuestas fuentes legítimas, cuando en realidad se trataba —según Cloudflare— de rastreadores que imitaban navegadores populares como Google Chrome.
Además, se alega que Perplexity utilizó redes autónomas diferentes (ASN) para camuflar sus acciones y evadir los filtros establecidos por los propietarios de sitios web.
¿Qué respondió Perplexity?
Ante estas acusaciones, Jesse Dwyer, portavoz de Perplexity, negó los señalamientos y calificó la publicación de Cloudflare como una "trampa". Afirmó que las evidencias presentadas no prueban que se haya accedido a contenido restringido. Incluso declaró que el bot identificado por Cloudflare “ni siquiera pertenece” a la empresa.
Sin embargo, Cloudflare sostiene que realizó pruebas controladas que confirmaron el acceso no autorizado a sitios protegidos.
Un problema creciente en la era de la IA
Esta polémica se suma a otras acusaciones previas contra Perplexity. En 2024, medios como Wired denunciaron que la startup generaba contenido basado en sus artículos sin citarlos adecuadamente, lo que encendió el debate sobre el plagio en los modelos de lenguaje.
La tensión entre creadores de contenido y empresas de IA se intensifica. Herramientas como robots.txt o firewalls específicos ya no parecen suficientes frente a modelos que dependen de datos masivos y que, en ocasiones, recurren a tácticas opacas para obtenerlos.
Cloudflare, por su parte, ha comenzado a implementar soluciones más agresivas, como la creación de una plataforma para que los editores cobren por el acceso de bots de IA a sus sitios.
¿Hacia dónde va esto?
El caso de Perplexity refleja un dilema crítico: ¿cómo equilibrar la innovación tecnológica con el respeto a la propiedad digital? Mientras la IA sigue avanzando, las regulaciones y normas de convivencia en internet están quedando atrás.
La presión crece para que tanto startups como grandes tecnológicas adopten prácticas más éticas y transparentes en el uso de datos. Y, al parecer, los gigantes de la infraestructura como Cloudflare están dispuestos a liderar esa batalla.
No hay comentarios:
Publicar un comentario
Comenta aquí