Alternative ad Archive.org, decentralizzate e non

Logo di Feddit Logo di Flarum Logo di Signal Logo di WhatsApp Logo di Telegram Logo di Matrix Logo di XMPP Logo di Discord

Alternative ad Archive.org, decentralizzate e non

L'ultimo aggiornamento di questo post è di 1 mese fa

Quello di oggi è un articolo molto delicato e particolare per diversi motivi. Delicato perché non parliamo di alternative di un progetto di qualche Big Tech ma di un progetto grandioso quale è Archive.org e su questo non abbiamo molti dubbi. Questo articolo sulle alternative ad Archive.org nasce inoltre da una nostra necessità e per la prima volta questo articolo nasce da una discussione inizialmente avvenuta sul nostro nuovo forum.

La nostra necessità era quella di dare un’ulteriore archivio alle fonti dei nostri articoli che vadano oltre ad Archive.org. Non perché vogliamo sostituire Archive.org, ovviamente, ma per avere a portata di mano anche un’alternativa per qualsiasi evenienza.

Alternative ad Archive.org, decentralizzate e non

E perché cercare alternative ad Archive.org? Beh, intanto perché è un progetto importante e fondamentale e quindi sarebbe una buona cosa averne più di uno per non lasciare l’intero carico di lavoro sulle loro spalle. Un altro motivo è che Archive.org non è infallibile né invincibile ma è tuttavia una parte fondamentale di internet. Internet Archive, oltre a costare sui 25 milioni di euro l’anno 1, ha avuto, e probabilmente ne avrà in futuro, delle pesanti accuse che vogliono sostanzialmente farlo chiudere 2 3.

Dobbiamo dunque unirci tutti per aiutare Internet Archive a vivere anche attraverso le donazioni (se ci avete fatto caso non ci sono banner né pubblicità sul sito).

Nel frattempo è utile una discussione su come aiutare Internet Archive a “non essere sola” e come aiutare anche i posteri che devono ora affidarsi alla sola speranza che ad Internet Archive e ai suoi server (oltre 200 PetaByte di data 4) non succeda mai nulla. La decentralizzazione è un argomento caldo in questo momento e in quest’ambito. La stessa Internet Archive da quanto sappiamo è potenzialmente interessata a questa strada 5 6.

Noi, che siamo molto curiosi, siamo andati dunque alla ricerca di alternative ad Archive.org e qualcosina abbiamo scovato.

Alternative centralizzate

Sono le alternative “come” Archive.org ovvero con dei server centralizzati che tengono tutto. È sicuramente il il più classico dei modi nonché il più semplice.

  • archive.today è forse l’alternativa a Internet Archive più conosciuta e più utilizzata in assoluto. Ci sono però alcuni problemi: non si sa bene chi ci sia dietro questo progetto, non è una non-profit come Internet Archive ma è, a quanto pare, il semplice progetto di una singola persona. Archive.today fa richieste a siti esterni come Google e mail.ru e per poter archiviare un contenuto è necessario superare un CAPTCHA (di Google) senza possibilità di loggarsi o fare qualsiasi altra cosa per evitarlo. Ha diversi domini mirror (cioè che puntano sempre allo stesso contenuto) alcuni però sono bloccati da diversi firewall/liste di blocco per contenuti illegali e/o pericolosi 7. Insomma sarà anche l’alternativa più famosa e anche noi l’abbiamo utilizzata spesso ma vorremmo allontanarcene un po’.
  • ArchiveBox 8, è probabilmente quella che ci piace di più come idea. È una sorta di Internet Archive self-hostabile molto facilmente. È dunque sicuramente utile per creare degli archivi personali e potrebbe anche essere interessante se nascesse una sorta di lista di server che lo offrono a tutti (un po’ come accade con Invidious, per capirci) anche se probabilmente l’affidabilità sarebbe molto bassa perché non è pensato per riprodursi su più piattaforme quindi una volta che un server muore o scompare… il contenuto muore con lui. Interessante quindi ma deve essere usato da mani esperte e potrebbe nascere qualcosa di interessante soprattutto se verranno implementati tool automatici.
  • Conifer by Rhizome 9, altra alternativa molto interessante. Completamente Open source, permette di essere anche self-hostato. Vengono offerti gratuitamente 500MB per poi passare a un piano a pagamento abbastanza alto (20€ al mese per 40GB!). Il funzionamento è abbastanza simile ad Archive.org e permette di archiviare pagine web molto facilmente. Purtroppo il progetto sembra un po’ abbandonato a sé stesso, il Repository non si aggiorna dal lontano 2021 e nelle issue ogni tanto si legge che nessuno risponde più e che il sito ogni tanto muore per giorni senza che sia possibile contattare qualcuno.
  • Perma.cc è la prima alternativa elencata prettamente di natura commerciale. Perma.cc è veloce e ben fatta ma a pagamento. Non è nemmeno particolarmente economica anche se è gratuita per uso accademico e anche se utilizzata da tribunali (non sappiamo se solo statunitensi o di tutto il mondo). Noi l’abbiamo provata e l’attuale costo è di 10$ mensili per 10 link al mese, 25$ per 100 link e 100$ mensili per 500 link ogni mese. In alternativa si possono acquistare pacchetti di singoli link: 10 link extra costano 15$, 100 link extra 30$ mentre 500 link vengono a costare 125$. Un’alternativa quindi commerciale e non tanto economica che può tornare utile in alcune occasioni importanti ma che non può essere utilizzata per conservare dati quotidianamente o quasi.
  • Ci sarebbe anche Megalodon ma è tutto in giapponese e sicuramente non adatto a un pubblico europeo ma fa comunque il suo dovere: https://megalodon.jp/2024-0404-2218-00/https://www.lealternative.net:443/.

Alternative decentralizzate ad Archive.org e altri metodi per archiviare una pagina

Dopo aver passato in rassegna le alternative centralizzate arriviamo a quelle decentralizzate. La decentralizzazione è un’opzione indubbiamente interessante per quel che riguarda l’archiviazione di file o siti web in quanto è più complesso cancellare un archivio e il peso viene distribuito su una rete globale e non su singoli server in cloud.

  • Archive the Web 10 è decisamente un’alternativa interessante e anche quella che avremmo voluto utilizzare noi se non fosse per il suo costo eccessivo e per la difficoltà nell’acquisto. Si basa sulla criptomoneta Arweave che permette di archiviare i file con la decentralizzazione attraverso la blockchain. In sostanza si può selezionare l’URL da archiviare e, in base al peso della pagina, si paga in criptomoneta AR con una media di 0.19€ per pagina. Il prezzo non è fisso e cambia in base al valore della criptovaluta sul mercato. Oggi come oggi il prezzo è sicuramente eccessivo a meno che non serva una volta una tantum ma anche in questo caso c’è un grosso ostacolo: l’unico metodo di pagamento accettato è la criptomoneta Arweave quindi se non si è pratici di wallet, di criptomonete e simili è meglio lasciar perdere. A differenza di altri progetti basati inutilmente su blockchain (chissà se fischiano le orecchie ad ANSA (Archive | Arweave) in questo caso potrebbe avere un qualche senso nel suo insieme.
  • IPFS, altra alternativa sicuramente interessante ma ancora troppo tecnica e poco adatta al pubblico comune. È integrata anche all’interno di Brave Browser e permette di decentralizzare le pagine web. In pratica le pagine vengono salvate e distribuite attraverso il protocollo IPFS in maniera simile a quello che fa BitTorrent. Con il Browser Brave si può diventare un nodo di questa rete oppure si possono utilizzare gateway esterni che però purtroppo fanno spesso parte della rete Cloudflare. Inoltre, da quanto abbiamo capito, i file devono essere pinnati per essere tenuti online ed esistono siti che possono farlo per noi, come Pinata, che hanno però costi esorbitanti. Come detto è sicuramente un’opzione affascinante ma è ancora molto legata a difficoltà tecniche per i principianti e non sempre è chiaro come rendere una pagina “visibile a tutti su IPFS”. Per esempio oltre ai progetti grossi, come ad esempio Wikipedia inglese su IPFS attraverso DNSLink: https://en.wikipedia-on-ipfs.org/wiki/, tutti i link che abbiamo trovato sul web che puntavano a una pagina IPFS in articoli di qualche anno fa sono tutti spariti. E questo non è molto promettente.

Salvare le pagine offline (e caricarle su cloud esterni decentralizzati)

Ultima soluzione, che poi è quella che stiamo provando a percorrere anche noi, ovvero salvare le pagine offline per poi caricarle su un cloud decentralizzato. Perché decentralizzato? Per la questione di prima: stiamo cercando un metodo per mantenere vivo un file anche dopo eventuali problemi ai server e anche dopo la morte di un servizio (o la nostra 🤘). Dunque per questa particolare necessità di archiviazione stiamo cercando un metodo decentralizzato che ne permetta la facile distribuzione e la difficile distruzione.

Vediamo quindi come si può salvare localmente una pagina internet.

  • Salvare la pagina web grazie all’estensione Open source SingleFileZ che crea una sorta di .html + .zip che si autoscompatta nel momento in cui viene aperto. Abbiamo provato su diversi Browser e sembra funzionare bene. In pratica è come se in un solo file .html ci fosse tutto il sito. L’unico problema è che in questo modo non è detto che sia sempre possibile avere un’anteprima del sito ma alle volte è necessario aprire l’HTML con un Browser qualsiasi. Dipende un po’ dove si ha intenzione di hostarlo. Qui un esempio fatto da noi: https://jswqquqd2yxc4fxtaqwqdx32fwqehsxbiqs5w3lb7lgap6xlikta.arweave.net/TK0IUgPWLi4W8wQtAd96LaBDyuFEJdttYfrMB_rrQqY. Non male, no?
  • Sui Browser Chromium è possibile salvare le pagine in .mhtml. Questa estensione tuttavia non è supportata dai Browser Firefox né abbiamo trovato estensioni che permettano di leggere questo file con Firefox. Anche per questo motivo l’abbiamo esclusa dalle nostre scelte.
  • Su Webrecorder potete trovare una serie di strumenti utili per salvare pagine web e una comunità che può aiutarvi in caso di problemi.
  • Scaricare la pagina offline tramite programmi come Httrack 11 o Wget. In questo caso la pagina verrà salvata interamente con tutti i file e dunque un po’ difficile da “portare in giro”.
  • Salvare la pagina in PDF o tramite uno screenshot ad esempio con ShareX. Questo metodo è molto pratico se parliamo di una semplice pagina statica con del testo e se non abbiamo la necessità di salvare ad esempio contenuti dinamici come video o immagini animate. Per salvare le pagine in PDF ci sono moltissimi modi, uno tra questi è fare “stampa – Salva in PDF” su qualsiasi Browser. La comodità di questo formato al posto di utilizzare Httrack o Wget è quello di avere un singolo file e non centinaia. La scomodità è quella di avere un .PDF magari con difficoltà nella ricerca del testo e che non sempre viene bene. La scomodità dello screenshot è quella di non poterci fare nulla e potrebbe essere anche complicato da leggere. Archiviare del testo in un’immagine non è decisamente una buona idea normalmente.

E dopo aver salvato questo file che me ne faccio?

Un po’ tutto quello che si vuole. Una volta che avete scelto in che modo salvare il file in locale, sia esso un file .zip, .png, .zip.html, .mhtml o tutto il contenuto del sito noi abbiamo pensato che potesse essere utile metterlo in un archivio decentralizzato.

Più avanti faremo un articolo sulle alternative decentralizzate a Google Drive come ad esempio Storj oppure Lifecoin, per questo articolo in particolare abbiamo scelto di parlare di Arweave.

Arweave è infatti quella che stiamo provando a usare noi in questi giorni. I file vengono condivisi attraverso la blockchain che, come detto, a differenza di altri progetti potrebbe avere senso in questo caso. È associato alla criptovaluta Arweave e, questa è la parte più interessante, permette di salvare un file in maniera permanente.

Ovviamente non siamo ingenui e sappiamo che permanente è una parola importante e nulla può esserlo in informatica senza che questo sia in qualche modo fisicamente da qualche parte. Arweave per ora sembra ben strutturato e il progetto ben avviato con centinaia di nodi e attualmente più di 110TB di dati già caricati 12. I file sono quindi legati alla blockchain e possono essere sempre recuperati, almeno fintanto che esistono almeno poche persone che lavorano su questa moneta. Secondo le loro stime anche se il 90% dei nodi dovesse sparire esisterebbero comunque almeno 15 copie dei nostri dati 13, questo quindi ci fa pensare che possa essere un progetto interessante per immagazzinare dati a lungo termine che è quello che interessa a noi in questo contesto.

Ovviamente come tutto può morire da un giorno all’altro, non lo useremmo come risorsa principale ma in questo momento stiamo affrontando l’idea di usarla come risorsa alternativa e di supporto.

Il file sulla blockchain

Un esempio per capirci meglio. Abbiamo caricato questo HTML nella blockchain: https://jswqquqd2yxc4fxtaqwqdx32fwqehsxbiqs5w3lb7lgap6xlikta.arweave.net/TK0IUgPWLi4W8wQtAd96LaBDyuFEJdttYfrMB_rrQqY. Se domani dovesse morire il dominio arweave.net il nostro file è comunque al sicuro perché il file non è fisicamente su arweave.net ma è nella rete decentralizzata e arweave.net fa solo da gateway cioè da “via di accesso”. Nel caso dunque arweave.net dovesse morire basterà cambiare gateway (che può essere creato da chiunque) e il file sarà sempre raggiungibile cambiando solamente il dominio quindi potrà essere: https://jswqquqd2yxc4fxtaqwqdx32fwqehsxbiqs5w3lb7lgap6xlikta.ar-io.dev/TK0IUgPWLi4W8wQtAd96LaBDyuFEJdttYfrMB_rrQqY oppure https://jswqquqd2yxc4fxtaqwqdx32fwqehsxbiqs5w3lb7lgap6xlikta.permagate.io/TK0IUgPWLi4W8wQtAd96LaBDyuFEJdttYfrMB_rrQqY e via dicendo.

E come carico i file?

Esistono diversi provider che permettono di farlo. Ovviamente sono a pagamento perché il concetto è proprio quello di pagare qualcuno per decentralizzare i nostri dati e mantenerli “per sempre”. C’è ad esempio ArDrive oppure quello che abbiamo scelto noi che è Akord e che permette anche di avere anche 100MB gratuiti per provarlo.

Una volta caricato il file nello storage permanente il file si può condividere attraverso il loro sito (che è user-friendly ma è meno sicuro perché in caso scomparissero tutti i link sarebbero 404 e difficilmente recuperabili) oppure, cosa migliore, si può condividere il link della blockchain con tanto di ID della transizione: https://yoejsggd72pocx24w5wxeq5jmrzczo5d6prqel7yfdeyr4fgwm2a.arweave.net/w4iZGMP-nuFfXLdtckOpZHIsu6Pz4wIv-CjJiPCmszQ. In questo caso, come abbiamo visto, se anche arweave.net dovesse mai scomparire basterà reindirizzare i collegamenti a un altro gateway qualsiasi.

Come cancello i file?

Qui arriva la parte divertente: una volta caricato un file non è possibile cancellarlo. Non potete fisicamente cancellarlo e nemmeno se doveste disiscrivervi o eliminare il vostro account questo file scomparirebbe perché, come detto, non è su un sito o su un cloud ma è ovunque e Arweave è stato proprio pensato per non essere cancellato.

Tuttavia un singolo nodo può, eventualmente, cancellare il file. Mettiamo il caso che la Cina obblighi tutti i miner di questa criptomoneta di eliminare quella transazione. Sarebbe possibile, tuttavia il file rimarrebbe ancora in giro fintanto che verrà ridistribuito anche in altre parti del mondo. L’unico modo per far sì che l’intera rete elimini il contenuto è far sì che oltre il 50% dei nodi accetti di cancellarlo: questo è pensato per evitare che vengano caricati contenuti illegali ed eticamente non sostenibili in nessuna parte del mondo 14.

Alternative ad Archive.org, decentralizzate e non: conclusioni

In questo lungo articolo abbiamo dunque scoperto alcune alternative a Internet Archive che fanno più o meno lo stesso lavoro ma su server differenti. Abbiamo poi scoperto alternative decentralizzate e abbiamo infine provato a salvare il contenuto di una pagina localmente, o anche qualsiasi contenuto, per poi ridistribuirlo in tutto il mondo cercando in questo modo di mantenerlo in vita per sempre.

Noi ultimamente stiamo provando ad archiviare le nostre fonti esterne sia su Internet Archive che nella rete Arweave, vediamo come va!

Questo tag @lealternative@feddit.it serve a inviare automaticamente questo post su Feddit e permettere a chiunque sul fediverso di commentarlo.

  1. Internet Archive | Archive | PDF[]
  2. Internet Archive Files Final Reply Brief in Lawsuit Defending Controlled Digital Lending | Archive | PDF[]
  3. If there is a book on Internet Archive your interested in, GO DOWNLOAD IT NOW. Also PLEASE stop using the IA as the sole host for preservation projects. | Archive | Arweave[]
  4. Petabox | Archive | PDF[]
  5. Arweave + Internet Archive: Building a verifiable record of history | Archive | PDF[]
  6. What Information Should we be Preserving in Filecoin? | Archive | PDF[]
  7. Segnalazione su Mastodon | Archive | PDF[]
  8. codice sorgente ArchiveBox[]
  9. codice sorgente Conifer[]
  10. codice sorgente Archive the Web[]
  11. codice sorgente Httrack[]
  12. How much data can you store on a blockchain? | Archive | Arweave[]
  13. What makes Arweave immune to these problems? | Archive | Arweave[]
  14. What happens if illegal or malicious content is uploaded? | Archive | Arweave[]

Unisciti alle comunità

Logo di Feddit Logo di Flarum Logo di Signal Logo di WhatsApp Logo di Telegram Logo di Matrix Logo di XMPP Logo di Discord




Se hai trovato errori nell'articolo puoi segnalarli cliccando qui, grazie!

Di skariko

Autore ed amministratore del progetto web Le Alternative