Internet Archive: un’enorme raccolta di libri, film, serie TV e immagini, consultabili e scaricabili in maniera legale e gratuita

Le biblioteche italiane affiliate a Internet Archive – lo storico ...

Che cos’è Internet Archive ?

Internet Archive (https://archive.org/), noto anche come Archive.org dal nome del suo dominio, oppure come Wayback Machine dal nome dell’interfaccia applicata, si autodefinisce «una biblioteca no-profit che raccoglie milioni di libri, filmati, software, musica, film, siti, e molto altro». Dal 1996, anno della sua fondazione, il suo scopo è preservare la conoscenza e l’accesso a molti tipi di risorse come siti web, file audio, immagini, video, libri digitali ecc. Costituisce indubbiamente un preziosissimo strumento di ricerca.

La sua importanza ed utilità sono attestate dai milioni di navigatori che quotidianamente vi si connettono: non a caso si tratta di uno dei 300 siti internet più visitati al mondo. Archive.org contiene oltre 396 bilioni di pagine web, 14 miliardi di testi, 35 miliardi di contenuti multimediali di vario genere, e costituisce un’immensa biblioteca digitale concepita per preservare la conoscenza in ogni sua forma. Il portale è una sorta di “copia di backup” dell’intero Internet dal 1996 a oggi, grazie al preziosissimo apporto fornito da 28 sedi sparse per il mondo che digitalizzano oltre 1.000 documenti al giorno.

Internet Archive è molto apprezzato anche in Italia, ma purtroppo non è altrettanto conosciuto come Wikipedia. Rappresenta un insostituibile impegno nella difesa del patrimonio culturale e artistico dell’umanità. Il suo sito mette a disposizione di tutti opere multimediali di ogni genere, provenienti da tutti i Paesi del mondo, allo scopo di preservare la conoscenza di opere dell’ingegno umano e di aiutarle a superare indenni il trascorrere del tempo.

All’interno di questo immenso contenitore permanente possiamo trovare, ad esempio, un’enorme quantità di libri (Archive raccoglie le collezioni digitalizzate di migliaia di istituzioni), di immagini, di siti web, di video, di film, di serie TV, di canzoni ecc., tutte risorse di pubblico dominio o rilasciate con licenza Creative Commons, scaricabili in maniera legale e gratuita.

Si possono scaricare in formati multipli (PDF, epub, txt ecc.) libri pubblicati prima del 1923, oppure si può accedere al prestito bibliotecario (virtuale) per quelli pubblicati dopo il 1923, grazie a Open Library, e consultarli liberamente (la funzione di stampa è, per questi libri, ovviamente disabilitata). È importante rilevare che i volumi digitali richiamati sono corredati da tutte le informazioni bibliografiche del caso (autore, data di pubblicazione, biblioteca di provenienza, stato del copyright…). Quindi, milioni di libri accessibili e scaricabili gratuitamente in vari formati e che spaziano in ogni ambito dello scibile umano e in tutte le epoche. Per quanto riguarda i testi del XVIII e XIX secolo è plausibile trovare con facilità quanto ci interessa. Spesso si trovanoqui  testi che, invece, non sono reperibili attraverso Google books.

La sezione dei video è a sua volta ricchissima: cartoni animati, film storici e didattici, video blog, programmi televisivi, collezioni video. Possiamo ad esempio vedere interi film in streaming, e anche scaricarli del tutto gratuitamente dall’apposita sezione, recuperare vecchi film altrimenti irreperibili, dai classici come “La corazzata Potëmkin”, “Nosferatu” e il “Dottor Mabuse”, alle serie TV dei tempi di guerra come “Why We Fight”. Non mancano spezzoni di news, video di repertorio e attualità (ad esempio le riprese in 16mm dell’allunaggio dell’Apollo 11).

La vastissima sezione delle immagini contempla anche diverse collezioni, come quelle del Metropolitan Museum o del Brooklyn Museum, e illustrazioni con licenza creative Commons provenienti ad esempio da Flickr e persino da archivi NASA messi a disposizione del pubblico.

La categoria dei software racchiude programmi storici, videogame ormai caduti nell’oblio, software su CD che altrimenti sarebbe quasi impossibile rinvenire altrove.

I motori di ricerca come Google, Bing ecc. tendono a “dimenticare” le risorse e i siti che vengono nel tempo cancellati o non più accessibili (si tenga inoltre presente che nemmeno le copie in cache di Google durano per sempre). Per quanto riguarda i siti internet passati, la sezione Wayback Machine li raccoglie permettendoci così di consultare, ad esempio, la prima pagina de La Repubblica dell’11 settembre 2001, oppure le ricette pubblicate su GialloZafferano nella giornata inaugurale.

Internet Archive ci viene quindi incontro, gratuitamente, nel tenere memoria di tante testimonianze dell’ingegno umano che altrimenti sarebbero destinate a essere perdute per sempre, anche se Archive non volge il proprio sguardo solo al passato ma pone attenzione anche all’attualità: ad esempio vi possiamo trovare documenti ufficiali recenti come il Mueller Report sull’amministrazione Trump.

A causa del numero pressoché infinito di items reperibili in Internet Archive, è impossibile cercare di fornire qui un elenco di ciò che potrete trovarvi. L’invito è quindi quello di andare sul sito (clicca qui) e, più semplicemente, cercarvi qualcosa che interessa o desta curiosità. In molti casi probabilmente la troverete (purché si tratti, giova ripeterlo, di risorse di pubblico dominio).

Vale la pena ricordare che Archive.org vive in gran parte grazie alle donazioni.

 

Come funziona la Wayback Machine ?

Internet Archive è consultabile attraverso la Wayback Machine, un’interfaccia che permette di memorizzare e leggere tutte le informazioni sui siti web memorizzati.

Tutti i siti indicizzabili presenti sul web vengono salvati sotto forma di immagini o scansioni (snapshot) consultabili nelle loro condizioni in diversi anni o periodi di tempo. Il portale grazie alla tecnologia di crawling Alexa riesce a individuare le variazioni dei siti web, che vengono salvati come dei “fermo immagine” all’interno del portale.

Un sito provvisto di robots.txt che scoraggia la scansione dai motori di ricerca tuttavia non può essere in ogni caso recepito da Wayback Machine. Nel caso dei siti bloccati difatti vengono visualizzati soltanto i corrispondenti file Robots.txt.

Se i siti vengono settati con il noindex, tale inibizione si propaga in maniera retroattiva rendendoli non più disponibili. Si può inoltre rimuovere un sito dall’archivio facendone apposita richiesta.

Quando si arriva sulla homepage, il sito non è proprio invitante, né decisamente ergonomico a causa della molteplicità di contenuti – sia statici che effimeri. Ha, però, il pregio di essere relativamente semplice: è sufficiente cercare quello di cui abbiamo bisogno nella barra che vedete qui sotto.

La Wayback Machine, interfaccia in Archive.org, è assimilabile ad una vera e propria macchina del tempo che ci consente di sfogliare i contenuti web sotto forma di istantanee, delle vere e proprie “fotografie” dei siti web scansionati. A oggi sono presenti nel portale oltre 400 miliardi di immagini e di file di altro genere! Il meccanismo di questa ideale macchina del tempo ci permette, quindi, di visionare lo stato di un sito in un dato periodo di tempo e di confrontare uno stesso portale a distanza di anni e monitorarne quindi la propria evoluzione.

La Wayback Machine è una risorsa eccezionale per nostalgici e appassionati che permette di: studiare come cambiano i siti web nel corso degli anni, ritrovare pagine web e file ormai decaduti che altrimenti sarebbero da considerarsi persi, documentare i contenuti e lo stato di certi siti in un determinato momento storico, creare immediatamente una copia del sito se questo è ancora online.

Per ogni sito web memorizzato è possibile consultare un “sommario” dei dati salvati e una mappa circolare dei materiali divisi per anno. La piattaforma è integrabile su browser anche grazie ai pratici componenti aggiuntivi.

Rappresenta una applicazione formidabile, in grado di memorizzare anche i siti web dinamici: gli snapshot che produce infatti sono versioni statiche dei siti web e, nel momento in cui la scansione viene formata, la versione “immagine” del sito viene memorizzata come se fosse in cache.

Da un lato, ciò permette di replicare la pagina web originale in ogni suo dettaglio; da un altro, questa procedura è in grado di salvare soltanto la versione elaborata in quel dato momento dal server (proprio come una fotografia può recepire soltanto gli aspetti inquadrati di un soggetto). Non è possibile comunque visionare il contenuto delle aree riservate con db inaccessibile.

I siti memorizzati sono perfettamente funzionanti all’interno del portale con tanto di collegamenti ipertestuali, perciò si possono consultare come quando “erano in vita”.

Archive.org ci permette di consultare vecchie versioni di pagine web all’interno del proprio “archivio 3D” e di gran parte di una gran serie di materiali quali: immagini in movimento (film, cinegiornali, cartoni animati classici, film didattici, filmati amatoriali ecc.), audio, testi.

Per consultare il patrimonio di questo immenso libro di storia digitale ci basta digitare nella barra di ricerca della home page il nome (parola chiave) o l’URL del sito che stiamo cercando o della risorsa che ci interessa. I contenuti sono divisi in maniera pratica in risorse come Immagini, Libri, Video, Audio ecc., e relative sotto-collezioni. Possiamo eseguire inoltre la ricerca focalizzandoci su: metadati, contenuti testuali, catture di trasmissioni TV, web siti archiviati.

 

Internet Archive ha annunciato sul suo blog che almeno fino al 30 giugno prossimo e per tutta la durata dell’emergenza Coronavirus sospenderà le liste d’attesa per il prestito digitale di oltre 1,4 milioni di libri (di cui oltre 1500 in italiano) presenti nel suo database, che saranno dunque immediatamente accessibili a tutti nella loro versione originale digitalizzata.
L’obiettivo dell’iniziativa è aiutare tutti gli studenti, i ricercatori, i docenti e i cittadini che si trovano in difficoltà non potendo accedere alle biblioteche della propria città.
L’iniziativa, cui Internet Archive ha dato il nome di National Emergency Library, ha ricevuto il supporto di oltre 100 persone, biblioteche, università e associazioni in tutto il mondo, tra cui anche Wikimedia Italia.
«L’accesso aperto a contenuti digitali liberi è uno degli obiettivi di lungo periodo più importanti per il MIT e le sue biblioteche. L’apprendimento e la ricerca ora possono proseguire grazie a questa opportunità», ha affermato Chris Bourg, direttore delle biblioteche del prestigioso MIT, tra i sostenitori dell’iniziativa. «In questa pandemia globale, solide opzioni di prestito digitale sono fondamentali affinché le biblioteche possano continuare a prendersi cura del proprio personale e della comunità, consentendo a tutti di lavorare in remoto e mantenere le distanze sociali consigliate».
Oltre alla National Emergency Library, Internet Archive offre anche accesso a 2,5 milioni di libri in pubblico dominio completamente scaricabili.
Giova ricordare che Internet Archive non è tuttavia l’unica risorsa aperta a disposizione di chi, in questo periodo, ha tempo o necessità di consultare libri digitali: oltre 140.000 pagine di contenuti aperti sono disponibili e accessibili a tutti su Wikisource, la biblioteca libera. Qui potrete trovare, ad esempio, l’intera collana Scrittori d’Italia, edita da Laterza, tutta la produzione letteraria di Dante Alighieri, opere teatrali o pubblicazioni di argomento scientifico.
Vi segnaliamo infine che numerose risorse aperte – compresi gli audiolibri e tanta musica – sono disponibili sul sito dell’associazione Liber Liber.

Sul fronte internazionale, innumerevoli risorse sono disponibili nella pagina informazioni IFLA International Federation of Library Associations and Institutions , per esempio le sezioni “Available resources” e “Library partners”.

 

Utile video-guida creata dai Colleghi della Biblioteca Civica Falesiana di Piombino (LI) per orientare l’Utente all’uso delle risorse digitali open di Internet Archive: dal prestito di ebook e libri digitalizzati alla consultazione di intere collezioni di libri di arte, dall’accesso libero a manoscritti, mappe geografiche, concerti, video, software, fotografie al prezioso strumento della Wayback Machine.

 

Fonti dell’articolo e letture utili per saperne di più su Internet Archive:

Voce Internet Archive su “Wikipedia, l’enciclopedia libera”

Coluccini Riccardo, L’italiano che sta digitalizzando milioni di libri e manoscritti perduti, pubblicato il 06/5/2020 sul blog “Vice”.

Di Cornito Arturo, “Io leggo digitale”, l’iniziativa italiana (e non solo) per leggere da casa gratis, artcolo pubblicato sulla pagina web del quotidiano “La Repubblica” il 17/4/2020

Libri liberi e biblioteche di emergenza: da Internet Archive a Wikisource, articolo pubblicato sul blog “Wikimedia Italia” l’01/4/2020

Lucarini Giacomo, Libri Gratis: Come e Dove Scaricare ebook, PDF e Tool dedicati, articolo pubbligato sul blog dell’Autore il 17/3/2020

Internet Archive: la biblioteca d’Alessandria dell’era moderna, articolo pubblicato sul blog “Atelier, Ideas & Research” il 18/01/2020

Durante Simone, Guida a Internet Archive – Come funziona Archive.Org, articolo pubblicato sul blog “SEORoma” il 16/12/2019.

Porro Gabriele, Wikipedia e Internet Archive stanno costruendo una grande biblioteca digitale, articolo pubblicato su “Wired.it” il 05/11/2019

OpenLibrary, un modo per scaricare (legalmente) migliaia di libri, articolo pubblicato sul blog “Tecnica della scuola” il 17/9/2019