Accueil

Comment créer votre propre application privée auto-hébergée Read-It-Later

Added 2019-09-23


Internet est un vaste trésor de connaissances. Mais il est éphémère et rien ne garantit que le contenu que vous aimez sera là à l'avenir. Si vous ne pouvez vous permettre de perdre ce contenu, vous pouvez utiliser un outil d’archivage Web pour stocker une copie de la page Web.

De nombreuses personnes utilisent les services de lecture ultérieure pour enregistrer des articles Web. Ces applications fonctionnent mieux avec du contenu textuel et ne gèrent pas correctement les conceptions de pages Web ou les médias compliqués. Vous voulez plus de contrôle?

Voyons comment créer un clone d’Instapaper ou de Pocket sur votre ordinateur sans perdre d’actif de page Web.

Présentation de ArchiveBox

ArchiveBox est une solution Open Source qui peut vous aider à héberger votre propre alternative à un service d'archivage tel que Wayback Machine. Vous n'abandonnez pas votre vie privée et ne restez pas enfermé dans un service que vous ne pouvez pas contrôler.

Il prend la liste des URL que vous souhaitez archiver et crée un clone HTML local, navigable, du contenu dans plusieurs formats. Il comprend des copies locales au format HTML, une capture d'écran de la page, un fichier PDF et WARC (Web ARChive).

Ces copies restent avec vous même si la page Web d'origine disparaît à l'avenir.

ArchiveBox est écrit en Python 3. Il utilise également des dépendances telles queWget,Chrome sans tête, Youtube-dl et d’autres outils Unix pour enregistrer la page Web. Vous n’avez pas besoin d’un serveur principal fonctionnant en permanence. Il suffit de l’exécuter à chaque fois que vous souhaitez importer de nouveaux liens et mettre à jour la sortie statique.

Une fois l'archivage terminé, vous pouvez ouvrir le fichier output / index.html généré dans votre navigateur pour afficher l'archive.

ArchiveBox

Avantages de ArchiveBox

  • Il archive les liens dans plusieurs formats de fichiers qui fonctionnent comme des sauvegardes.
  • Il tente de conserver la page Web d'origine à l'aide de méthodes de capture sophistiquées.
  • A la capacité d'extraire automatiquement le contenu et de le sauvegarder dans un seul dossier.
  • Il fournit également une interface simple en ligne de commande permettant de gérer plusieurs liens, flux et signets. Vous devez le définir une fois et l'exécuter selon un calendrier pour archiver les nouveaux liens.

Inconvénients de ArchiveBox

Systèmes d'exploitation supportés

ArchiveBox prend officiellement en charge les systèmes d'exploitation suivants:

  • macOS: 10.12 Sierra avec Homebrew.
  • Linux: Ubuntu, Debian (avec APT). L'application peut (ou non) fonctionner dans des distributions telles que Fedora, CentOS, SUSE, Arch, etc.
  • BSD: FreeBSD, OpenBSD, NetBSD (avec le paquet).

Les dépendances

ArchiveBox est un outil d'archivage Web flexible. Vous devez installer les dépendances suivantes et répondre à la configuration minimale requise.

  • Python 3. N'utilisez pas le Python 2.0 par défaut fourni avec macOS.
  • Wget 1.16
  • Chrome 59. Si vous utilisez déjà Google Chrome, n’installez pas Chromium.
  • Youtube-dl (facultatif): les ressources multimédias ont besoin de beaucoup d'espace de stockage. Donnez-lui une pensée détaillée avant d’archiver vos favoris.

Configurer ArchiveBox

Il y a deux façons de configurer ArchiveBox—Automatique etManuel.

Dans la méthode automatique, un script d'assistance installera l'application et ses dépendances. Mais vous ne pourrez pas résoudre le problème si une erreur se produit. Il est préférable d’installer l’application manuellement.

À des fins de démonstration, nous utiliserons macOS 10.14.6.

Installer les dépendances

Le meilleur moyen d'installer des dépendances consiste à utiliser un gestionnaire de paquets appelé Homebrew. Pour comprendre ses bases, consultez cet article surComment installer des applications Mac dans un terminal avec Homebrewcomment installer des applications Mac avec Homebrew.

OuvertTerminal et tapez

brasser installer python3 git wget curl youtube-dl
tonneau à bière installer chrome

(Ignorez ceci si Google Chrome / Chromium est déjà installé dans les applications)

Vérifier le numéro de version de toutes les dépendances

Pour vérifier le numéro de version de toutes les dépendances, tapez

dépendance application --version

(Remplacez l'application de dépendance par python3, wget, youtube-dl, etc.)

vérifier la version de toutes les dépendances

Téléchargez votre fichier d'exportation de marque-pages

Installer ArchiveBox

Cloner le repo depuis le GitHub. OuvertTerminalet tapez

git clone https://github.com/pirate/ArchiveBox

Ensuite,

cd ArchiveBox /

Lorsque vous clonez ce référentiel, le programme d'installation crée un dossier ArchiveBox dans votre répertoire de base. Ce dossier contient tous les fichiers principaux de l’application et de la configuration.

installer ArchiveBox

Ajoutez votre URL à l'archive

Si vous souhaitez archiver un seul lien, tapez

echo 'https: //example.com' | ./archiver

archivage d'un seul lien

Accédez au dossier ArchiveBox pour voir le nouveau fichier créé.sortiedossier. Ici, vous verrez un fichier index.html.

Dossier de sortie ArchiveBox

Ajout de plusieurs liens à l'archive

Lorsque vous souhaitez enregistrer plusieurs liens (des dizaines ou plus), il est préférable d’ajouter vos liens à un fichier texte. L'application analysera les URL du fichier et les archivera. OuvertTerminal et tapez

./archive [Chemin vers votre fichier.txt]

Si votre fichier est situé dans leTéléchargements dossier, votre chemin va ressembler

./archive / Users / (nom du répertoire de base) / Downloads/links.txt

Attendez quelques minutes / heures pour terminer le processus. Pour accéder à vos archives, ouvrez leoutput / index.html dans votre navigateur. Vous pouvez trier par colonne, rechercher un titre à l'aide de la case située dans la partie supérieure droite et afficher le nombre total de liens en bas.

liens archivés via ArchiveBox

Cliquez sur la favicon sous leDes dossiers colonne pour visiter la page de détails. Vous trouverez des liens vers les formats de fichiers individuels, comme indiqué dans la capture d'écran. Le même lien est également téléchargé surarchive.org.

page de détail de chaque lien archivé

De la même manière, exportez vos liens Instapaper ou Pocket en tant que fichier HTML. Ensuite, tapez

./archive ~ / Téléchargements / instapaper-export.html

Vous pouvez également importer une liste de liens à partir de l'URL du flux. Mais rappelez-vous que vous risquez de rencontrer trop d'échecs ou de délais de session. S'il existe des milliers d'URL, il est préférable de les diviser en fichiers plus petits pour augmenter le taux de réussite.

Configurer ArchiveBox

Les paramètres par défaut fonctionnent dans la plupart des cas, mais vous pouvez modifier certains paramètres importants pour obtenir davantage de fonctionnalités. Le fichier de configuration vit dans

~ / ArchiveBox / etc / ArchiveBox.conf.default

Remarque: Ne modifiez pas ce fichier, car ils seront effacés chaque fois que vous mettrez à jour l’application. Pour créer un fichier de configuration persistant, tapez

cp ~ / ArchiveBox / etc / ArchiveBox.conf.default ~ / .ArchiveBox.conf

lecp Cette commande créera une copie du fichier de configuration dans votre répertoire personnel. Par défaut, le fichier n'est pas visible dans votre répertoire. Pour afficher, appuyez surCmd + Maj + Période. Ouvrez le fichier de configuration dans TextEdit.

copie du fichier de configuration ArchiveBox

Paramètres

ArchiveBox vous offre de nombreuses options. En voici quelques unes importantes.

  • ONLY_NEW: Régler ceci surVrai télécharger l'archive pour les liens récemment ajoutés. Est utile si vous marquez régulièrement des liens.
  • TEMPS LIBRE: Les valeurs possibles sont 60 ou 120 secondes. Si vous voyez des erreurs de timeout fréquentes, augmentez-le à 120 secondes.
  • URL_BLACKLIST: Vous pouvez utiliser l'expression regex pour exclure certains domaines, extensions ou modèles d'URL de l'archive.
  • FETCH_MEDIA: Récupérer tous les fichiers audio et vidéo en utilisant youtube-dl. Définissez ceci surVrai seulement quand vous avez assez de stockage.
  • WGET_USER_AGENT: Utilisez-le pour changer l'agent utilisateur pendant l'archivage. Si certains serveurs vous bloquent, cette option est utile.

Pour en savoir plus sur les détails de la configuration, visitez leConfiguration ArchiveBox pour plus d'informations.

Publier vos archives

L'archive produite par ArchiveBox est compatible avec tout fournisseur pouvant héberger du HTML statique. Par exemple, les pages GitHub.

Vous pouvez également le servir à partir d'un serveur domestique ou d'un serveur VPS en téléchargeant directement le dossier de sortie dans votre répertoire Web.

Assurez-vous que vous n'exécutez aucun contenu en tant que CGI ou PHP, vous voulez héberger uniquement des fichiers HTML statiques.

L'hébergement de vos archives a des avantages et des inconvénients. Lorsque vous téléchargez des liens de sites choisis au hasard, vous devez comprendre les dangers de l'hébergement de fichiers CSS et JS malveillants dans votre domaine partagé. Vous pouvez également choisir de mettre vos archives en liste noire dans le fichier robots.txt afin de rester privées.

Télécharger des sites entiers hors ligne

L'archivage Web a attiré l'attention au cours des dernières années. Ils enregistrent l'intégralité du contenu d'une page Web, y compris le code source HTML, les images incorporées, les feuilles de style et le code JavaScript. ArchiveBox s’intègre parfaitement dans la vaste catégorie des outils et services d’archivage Web.






Nuage de tags

Choix de L'éditeur


Thomas Becket

Je suis un écrivain indépendant qui couvre la programmation et les logiciels.
Je suis étudiant en informatique et je m'intéresse à la programmation, aux logiciels et à la technologie
Gadgets technologiques et critiques 2019