Elaborado por Materia para OpenMind Recomendado por Materia
4
Inicio Al rescate de las joyas olvidadas de Internet
21 noviembre 2019

Al rescate de las joyas olvidadas de Internet

Tiempo estimado de lectura Tiempo 4 de lectura

Basta ver lo rápido que se queda obsoleta una publicación en redes sociales para darse cuenta de algo intrínseco a la actividad digital: su carácter efímero. Ya hace años, la UNESCO indicó que era necesario preservar el “enorme tesoro de información” producido en línea.  El esfuerzo de distintas entidades ha permitido que esta misión se pusiera en marcha; y el proyecto pionero es el de la organización Internet Archive: una obra de rescate masivo de las joyas olvidadas de Internet.

391.000 millones de páginas web, 20 millones de libros y textos, más de 11,5 millones de audios, vídeos, imágenes y programas de software. Este es el contenido de la enorme biblioteca de Internet Archive. Y cada día, otros miles de productos rescatados se van agregando a la colección, en la que además de sitios web (aquí, por ejemplo, está la primera versión guardada de OpenMind), tienen cabida canales de televisión, estaciones de radio y artículos académicos.

Sede de Internet Archive en San Francisco. Crédito: Girl2k

La herramienta WayBack Machine guarda una réplica de prácticamente cualquier página web antes de que desaparezca (incluso por petición de los usuarios). Una copia de todo el material archivado ocupa más de 45 petabytes. “Y almacenamos al menos dos copias de todo”, precisan.

Un recurso para investigadores

¿Para qué es necesario tanto trabajo? Una razón la da Mark Graham, el director de WayBack Machine: “Si un sitio deja de funcionar, una empresa cierra, un gobierno cambia, un sistema de administración de contenido es alterado sin precauciones o el contenido de una página web se modifica, esa información puede perderse para siempre”, explica a OpenMind.

“Internet es obviamente el medio de nuestro tiempo. Su contenido es clave para comprender la sociedad y será un recurso de valor inestimable para futuros investigadores”, agrega Julien Masanès, ex CEO de Internet Memory Foundation, una institución para el archivo de contenido web a escala europea que estuvo activa hasta 2018.

A veces los operativos de rescate de Internet Archive son una verdadera carrera contra reloj. Uno de los ejemplos más recientes es el de las páginas de Yahoo! Grupos, un conjunto de foros públicos y restringidos, donde usuarios de todo el mundo han debatido sobre variedad de temas durante los últimos años. Yahoo ha decidido borrar todos los contenidos públicos a partir del 14 de diciembre de 2019 e Internet Archive no ha tardado en activarse. “Estamos en misión para salvar lo máximo posible”, posteó en LinkedIn.

Internet Archive ha revisado y editado los enlaces en más de 14 millones de páginas de Wikipedia en 30 idiomas. Crédito: Sai5

Uno de los criterios que guían a los archiveros de esta institución es perseguir la “exhaustividad” del contenido, explica Graham. “Hay más de 150.000 fuentes de noticias en el mundo”, explica. Y un aspecto importante es averiguar el origen del material, para “preservar su integridad” y “poder confiar en que la fuente es la fuente y que el contenido no ha sido alterado”.

Entre las actividades de Internet Archive en los últimos años, una ha sido justamente la de revisar y editar los enlaces en más de 14 millones de páginas de Wikipedia en 30 idiomas, guardar más de 11 millones de ellas en sus archivos y transformar “130.000 citas de libros en enlaces directos a 50.000 volúmenes digitalizados”. El objetivo, insisten, hacer la web “más fiable”.

Salvar la información de restricciones de los gobiernos

El compromiso de esta gran biblioteca digital, sin ánimo de lucro y con sede en San Francisco, se debe también a la preocupación de que la información del mundo digital pueda desaparecer de repente. El peor escenario imaginable, dice Graham, es que “una guerra nuclear destruya grandes cantidades de conocimiento humano”. Pero el patrimonio digital podría verse comprometido también por gobiernos que vean una amenaza en la presencia de mucha información documental, agrega.

Internet Archive ha transformado 130.000 citas de libros en enlaces directos a 50.000 volúmenes digitalizados. Crédito: Dvortygirl

Con este argumento, el fundador de la organización, Brewster Kahle, justificó la creación de una copia entera del archivo en Canadá, poco después de que Donald Trump ganara las elecciones en EE.UU. Según aseguró, la administración del nuevo presidente daba a entender que podría haber “mayores restricciones”. “La vigilancia del Gobierno no acabará. De hecho parece que aumentará”, escribió en un post.

Y es que, además, según apunta Graham, “la mayoría de los países del mundo no tienen un programa para archivar el contenido digital producido por sus ciudadanos o gobiernos”. “Actualmente se pierde gran parte de la información pública y valiosa compartida a través de las plataformas digitales —reflexiona también Masanès—. Pensemos en la importancia de Twitter en el debate político actual”.

Barridos masivos y barridos selectivos

En el mundo hay actualmente unos 4.100 millones de usuarios de Internet, según la Unión Internacional de Telecomunicaciones. ¿Es posible guardar toda la información digital que generan? ¿Cómo elegir qué guardar? Tanto Graham como Masanès coinciden en que, con los recursos actuales, solo una pequeña parte del patrimonio digital se puede guardar.

Graham cree que hay contenidos que “se puede o se deberían guardar por completo”, como los de las administraciones públicas, ONG y el mundo académico. Pero en otros casos, como en redes sociales, considera más asequible determinar criterios de selección.

Servidores espejo de Internet Archive en la Biblioteca Alexandrina. Crédito: Nikola Smolenski

La Biblioteca Nacional de España (BNE), por ejemplo, hace un trabajo de archivado de la web basado tanto en recolecciones masivas como selectivas. Como explica Mar Pérez, directora de Procesos y Servicios digitales de la biblioteca, desde hace una década (apoyándose en Internet Archive hasta 2013) esta institución pública hace un barrido anual de todos los sitios registrados con el dominio .es y han almacenado copias de 1.900.000 sitios.  Igualmente, alimenta colecciones de áreas específicas (prensa nacional o autonómica, páginas, publicaciones en redes, blogs, vídeos o, por ejemplo, materiales digitales relacionados con un tema concreto). “Esta obra de rescate no es muy conocida ahora, pero su importancia quedará clara en unas década —afirma—. Si no guardamos lo que pasa en la red, en 50 años no tendremos ningún testimonio de lo que ha ocurrido en nuestro tiempo”

Masanès opina que aún queda trabajo por hacer; y entre las pautas a seguir, indica la creación de instituciones específicamente enfocadas al archivado digital. Después de que la fundación que lideró esa iniciativa haya cerrado (en sus palabras por “falta de financiación”), echa en falta la existencia de un único archivo digital para toda Europa. “Es realmente una pena, porque crear una infraestructura así requeriría un presupuesto menor de lo que vale un museo o una biblioteca de escala media”, mantiene.

“Hay que hacer que preservar nuestro patrimonio digital nos parezca igual de importante que conservar libros”, incide Mark Graham.

Francesco Rodella

@francrodella

Comentarios sobre esta publicación

El nombre no debe estar vacío
Escribe un comentario aquí…* (Máximo de 500 palabras)
El comentario no puede estar vacío
*Tu comentario será revisado antes de ser publicado
La comprobación captcha debe estar aprobada