Tuesday, October 10, 2023

the wayback machine



A finals del mes de setembre d'enguany, @andreatome publicava un post on es queixava dels problemes que trobava amb el motor de recerca de Google per a buscar continguts esborrats d'Internet o altres als que només s'hi podia accedir mitjançant un enllaç directe.

En principi, si el contingut ha estat esborrat d'Internet, sembla lògic que el motor de recerca de Google no el pugui trobar. Això seria així si no existís una organització sense ànim de lucre: Internet Archive (1), que ha creat una monumental biblioteca digital que té com a missió garantir l'accés universal a tot el coneixement. Per assegurar aquesta missió, prenent dades d'uns posts que vaig publicar en 2015 (2), Internet Archive proporciona accés públic i gratuït a miliards de pàgines web enregistrades, milions d'enregistraments àudio i vídeo (més de 700 films de cinema mut!!) o milions de llibres de domini públic que pots descarregar i uns arxius de software impressionants.

Però és millor que sigui l'equip d'Internet Archive qui presenti com es poden recuperar les informacions que han recollit pacientment des de 1996. Reserva un xic de temps per veure el vídeo amb molta atenció, perquè paga la pena. I si tens problemes per comprendre la llengua anglesa, recorda activar els subtítols del vídeo seleccionant la teva llengua de preferència.

Internet Archive - How to use the Wayback Machine, YouTube, 14.01.2021

Impressionant, oi? Tot i que la presentació per Alexis Rossi d'Internet Archive i de The Way Back Machine és molt pedagògica, la pots completar amb un article publicat enguany per Nicole Levine a wikiHow (3).

Però ja sabem que res no és perfecte. Ben Lutkevich ens recordava a un altre article publicat enguany que The Wayback Machine no té la capacitat de rastrejar totes les pàgines Web (4):
Alguns llocs web bloquegen els rastrejadors de The Wayback Machine per diversos motius: per exemple, hi ha propietaris de llocs Web que busquen l'anonimat, o pàgines que requereixen una contrasenya per accedir-hi. De vegades, un fitxer robot.txt evita que el lloc es rastregi, indicant al rastrejador què pot i què no pot rastrejar. Les pàgines sense enllaços entrants d'altres llocs Web també són més difícils d'arxivar. A més, contràriament al codi HTML, fàcil d'arxivar per The Wayback Machine, en alguns casos, el codi JavaScript de les pàgines pot ser difícil d'arxivar.

La freqüència de les instantànies també pot variar, de manera que no es capturen tots els canvis d'un lloc web. De vegades, una pàgina pot trigar mesos a aparèixer a The Wayback Machine després d'haver estat rastrejada la darrera vegada.
Amb l'objectiu de superar aquestes limitacions, Ben Steele ens proposava a un article publicat el mes gener d'enguany de provar altres eines alternatives. No he tingut temps per assajar-les però, d'entrada, deixa'm dir-te que soc molt escèptic pel que fa als seus resultats (5).

Ja per acabar, tornant al fil de la discussió oberta per @andreatome, sembla que hi ha molta gent empipada per la degradació de la qualitat dels resultats obtinguts amb el motor de recerca de Google. També per la publicitat que retroben a cada cop que obren el navegador, una publicitat que els acompanyarà mentre no facin una nova pregunta diferent.

En la mesura en què et pugui servir d'alguna cosa, et proposo donar un cop d'ull a una pàgina del meu carnet de notes: it-desk-search-engines, on podràs trobar alguns dels motors de recerca que utilitzo més sovint, en funció d'allò que vull buscar. Potser trobaràs algun que no coneixes i que pugui ser-te útil.


  1. Internet Archive: Home page || Wikipedia [en] [fr] [es] [ca]
  2. Four impressive sites to visit, How to know the history of a webpage? publicats en aquest blog respectivament el 16.01.2015 i el 09.10.2015
  3. Nicole Levine: How to Use the Internet Archive's Wayback Machine, wikiHow, 30.05.2023
  4. Ben Lutkevich: Wayback Machine, WhatIs.com, August 2023
  5. Ben Steele: Wayback Machine: 5 Alternatives To Try, Search Engine Journal, 26.01.2023

No comments: