
Durante décadas, el modelo de negocio de Internet se ha basado en un pacto tácito: si algo es gratis, probablemente seamos nosotros el producto. Esta lógica se ha aceptado durante años sin mucha sorpresa, pero la llegada de la inteligencia artificial está cambiando las reglas. Las plataformas que almacenan conversaciones humanas se han convertido en minas de oro para los modelos de entrenamiento, y eso ha reabierto viejas preguntas sobre el valor de los datos. En medio de este nuevo escenario, Reddit ha cobrado fuerza. Aunque sus millones de usuarios no reciben compensación por el contenido que generan, la compañía ha dejado claro que no tolerará que otros utilicen este contenido sin pagar por él.
La resolución de Reddit se ha materializado en una nueva demanda presentada ante la justicia estadounidense. La compañía acusa a Perplexity AI y a tres proveedores de servicios de extracción de datos de eludir sus protecciones para acceder a contenido protegido por derechos de autor. En su denuncia, Reddit describe el «scraping a escala industrial» y afirma que el objetivo de estas empresas es obtener ilegalmente el material que alimenta las máquinas de inteligencia artificial. Es un nuevo capítulo en una estrategia para controlar el uso de su contenido.
Un caso bastante especial. En el centro de la queja se encuentran Perplexity AI y tres intermediarios de extracción masiva de datos: SerpApi, Oxylabs y AWMProxy. Reddit se refiere a ellos como «aspirantes a ladrones de bancos», una metáfora que la empresa utiliza para ilustrar su intento de obtener su contenido a través de medios indirectos. Según la demanda, en lugar de firmar un acuerdo de licencia, estas empresas optaron por utilizar servicios de terceros para recopilar publicaciones, comentarios y datos de propiedad exclusiva. El motor de búsqueda de conversaciones figura como cliente de “al menos uno” de estos proveedores.
El documento judicial describe un patrón de comportamiento que, según Reddit, se viene repitiendo desde hace meses. Las empresas acusadas utilizaron métodos automatizados para extraer información de la plataforma a pesar de las restricciones impuestas a sus presentaciones públicas. El resultado, se queja la empresa, fue un flujo constante de publicaciones que finalmente se integraron en el motor de inteligencia artificial del demandado. Para Reddit, se trata de scraping “a escala industrial” y con fines claramente comerciales.
La prueba que puso todo patas arriba. Uno de los episodios más relevantes de la denuncia es un experimento que Reddit considera crucial. En mayo de 2024, la empresa ordenó a la demandada que dejara de recopilar sus datos. Sin embargo, poco después, notó un aumento en las menciones de Reddit en el motor de respuestas de Perplexity. Para comprobarlo publicó una entrada que sólo debería ser visible para Google. Según la denuncia, el texto completo de esta publicación apareció en los resultados generados por el sistema de la empresa demandada apenas unas horas después.
No se puede ocultar la perplejidad. La impotencia se notó en la propia plataforma de Reddit. Ese mensaje explicaba que es una empresa “a nivel de aplicación” y que “no entrena modelos de inteligencia artificial sobre contenidos de Reddit”. “Él nunca lo hizo”, continúa. Según la empresa, esta diferencia imposibilita firmar un acuerdo de licencia como el que tiene Reddit con otras empresas. «Hace un año, después de explicar esto, Reddit insistió en que pagáramos de todos modos. Ceder a tales tácticas no es la forma en que hacemos negocios», concluye el comunicado.
Si hay acuerdo, hay dinero. La posición de Reddit sobre Perplexity contrasta con los acuerdos que Reddit ha firmado con otras empresas de tecnología. En febrero de 2024 amplió su colaboración con Google para permitir el acceso a su contenido a través de la API de datos de forma estructurada y con licencia. Tres meses después, anunció una asociación similar con OpenAI: ChatGPT y otros productos de la compañía pueden mostrar publicaciones recientes de Reddit en sus respuestas.
Lo que (muchas veces) aceptamos sin leerlo. Detrás de todo este debate hay un elemento que muchos usuarios pasan por alto: este Términos de servicio de Reddit. Al crear una cuenta, cada persona otorga a la Plataforma una licencia mundial, perpetua, irrevocable y sublicenciable para utilizar su contenido. Esta licencia le permite copiar, modificar, distribuir o publicar cualquier Envío, incluso ponerlo a disposición de otros afiliados. El texto también afirma que Reddit puede utilizar este material para “entrenar modelos de inteligencia artificial y aprendizaje automático”. En otras palabras: ya se ha concedido el permiso.
Algo que ya hemos visto y lo que está por ver. Reddit ha estado trazando un patrón de acción claro desde hace algún tiempo. En 2023, endureció sus condiciones de acceso a la API, lo que provocó protestas generalizadas y el cierre temporal de miles de comunidades. Un año después, en mayo de 2024, envió una carta de cese y desistimiento a Perplexity por el uso no autorizado de sus datos y posteriormente presentó una demanda contra Anthropic por motivos similares. El litigio actual sigue la misma lógica: proteger el valor de su contenido y reforzar su control sobre quién puede usarlo.
El caso Reddit-Perplexity aún se encuentra en sus primeras etapas, pero sus implicaciones son claras. Lo que decidan los tribunales podría sentar un precedente para futuras disputas entre plataformas y desarrolladores de inteligencia artificial. Por un lado, está la defensa del libre acceso a la información; por otro lado, el derecho de las empresas a proteger los contenidos generados en sus comunidades. El resultado definirá hasta qué punto las plataformas controlan el material que los usuarios comparten a diario.
Imágenes | Reddit | con gemelos 2.5 | confusión
En | La carrera por traer un robot humanoide a nuestro hogar ha comenzado. es una carrera absurda










