Más de 240 organizaciones periodísticas comenzaron a restringir el acceso de la Wayback Machine ante el uso de contenidos archivados para entrenar modelos de inteligencia artificial.
Unas 245 organizaciones informativas de distintos países comenzaron a bloquear los rastreadores de Internet Archive para impedir que sus artículos archivados sean utilizados en el entrenamiento de modelos de inteligencia artificial sin autorización ni compensación económica.
La medida afecta directamente a la Wayback Machine, la plataforma que conserva versiones históricas de sitios web desde 1996 y que se convirtió en uno de los mayores repositorios públicos de internet. El conflicto se produce en medio de las crecientes demandas contra compañías de IA por presuntas violaciones de derechos de autor.
Según un análisis de la firma Originality AI, más de 20 grandes medios ya bloquearon a "ia_archiverbot", el principal sistema automatizado utilizado por Internet Archive para indexar y almacenar páginas web. Además, al menos uno de los rastreadores de la organización fue restringido por 241 sitios de noticias en todo el mundo.
Entre los grupos afectados aparece Gannett, propietario de "USA Today" y de cientos de diarios locales en Estados Unidos. Como consecuencia, una gran cantidad de publicaciones regionales comenzaron a quedar fuera de los registros históricos accesibles desde la Wayback Machine.
El eje de la disputa pasa por el uso de archivos periodísticos para entrenar grandes modelos de lenguaje. Las empresas de inteligencia artificial utilizan estos contenidos porque ofrecen textos extensos, fechados y redactados profesionalmente, una combinación especialmente valiosa para desarrollar sistemas generativos más precisos.
La preocupación de los medios aumentó luego de que distintos conjuntos de datos vinculados al entrenamiento de IA incluyeran material extraído desde Internet Archive. Organizaciones periodísticas sostienen que sus contenidos están siendo reutilizados sin consentimiento para construir herramientas que luego compiten directamente con ellas.
Desde "The New York Times" señalaron que sus artículos archivados estarían siendo utilizados por empresas de IA en violación de la legislación sobre derechos de autor. En paralelo, el diario británico "The Guardian" optó por limitar parcialmente el acceso de los rastreadores en lugar de aplicar un bloqueo total.
Desde Internet Archive aseguran que la organización se convirtió en “daño colateral” dentro de una disputa más amplia entre medios y compañías de inteligencia artificial. Mientras tanto, el archivo comenzó a aplicar restricciones sobre las descargas automatizadas y busca acuerdos con organizaciones periodísticas para mantener la preservación histórica de contenidos sin facilitar el entrenamiento indiscriminado de modelos de IA.
comentar