Aspirer un site avec HTTrack

4 | (actualisé le ) par Ghislain Chasme

Une démarche pas à pas pour télécharger l’ensemble d’un site Web et le consulter tranquilement, en local.

Aspirer un site ?
C'est télécharger l'ensemble des documents de ce site (html, images, son, vidéo...) sur un disque dur local. HTTrack reconstitue donc la structure du site en question, avec les liens internes ou externes.
Un site Web appartient à son auteur. Vous ne pouvez en principe l'aspirer que pour un usage personnel et privé. Tout autre usage (copie sur cédérom et distribution aux élèves, projection à l'aide d'un vidéoprojecteur, impression intégrale...) nécessite l'autorisation écrite de l'auteur.
Il peut être utile d'aspirer un site pour :
- Consulter les pages hors-ligne, ce qui réduit les coûts de connexion si vous ne disposez pas du haut débit. Ceci peut être utile pour jalonner un parcours avant de faire consulter le site en ligne aux élèves.
- Utiliser les pages copiées avec les élèves pour éviter les aléas de connexion, lors d'une séance. Dans ce cas, vous devez avoir une autorisation écrite de l'auteur.

HTTrack (ou WINHTTrack, la version pour Windows) est un outil gratuit, open source.
Le logiciel est téléchargeable ici :

Installez et lancez le logiciel. À la première utilisation, vous devez choisir la langue de travail puis démarrer un nouveau projet :

La fenêtre suivante vous permet de saisir un nom de projet et de spécifier l'emplacement où vous souhaitez stocker les fichiers du site aspiré.

HTTrack crée alors un dossier portant le même nom que votre projet. Au fur et à mesure des projets, le logiciel dresse une liste de ceux-ci dans un fichier nommé index.html. Il importe donc de donner un nom significatif à chaque projet pour mieux s'y retrouver.

Il faut ensuite préciser le point de départ de l'aspiration.

Vous pouvez vous contenter de préciser un sous-dossier ou un dossier de démarrage (à condition que ce sous-dossier ou dossier soit accessible). Mais si une url complète est indiquée (comme ci-dessus), c'est celle-ci qui sera listée dans le fichier index.html et qui servira de point de départ à la consultation des pages aspirées. cette dernière solution est la plus pratique.

Reste maintenant à définir les options

Commencez par l'onglet Limites.

Profondeur maximale
Il s'agit de la profondeur d'aspiration interne. Par défaut, elle est infinie, ce qui signifie que la cible de tout lien situé à l'intérieur du site sera aspirée.
A titre d'ememple, si vous partez de l'adresse suivante :
http://www.domaine.fr/dossier
Le logiciel aspirera toutes les pages et tous les fichiers disponibles dans dossier, à partir du fichier par défaut.
Si vous partez de l'adresse suivante :
http://www.domaine.fr/dossier/fichier.htm
Le logiciel aspirera fichier.htm et toutes les pages (et tous les fichiers) contenus dans dossier.
Vous pouvez limiter cette profondeur, selon l'importance du site.

Profondeur extérieure
Il s'agit de la profondeur d'aspiration des pages et fichiers signalés sur le site, mais externes à celui-ci. Par défaut, elle est de 0, ce qui signifie qu'aucune cible de lien externe ne sera aspirée.
Vous pouvez modifier ce paramètre, mais attention : au-delà d'une profondeur de 1, vous risquez d'aspirer un très grand nombre de pages !

Le reste des paramétrages proposés dans cet onglet peut être laissé par défaut, sauf si vous avez des besoins particuliers. Notez que tout ce qui relève de la taille des fichiers s'exprime en octet.

Sélectionnez à présent l'onglet Règles de filtrage :

Par défaut, tous les types de fichiers sont aspirés. Mais vous pouvez en exclure ou en ajouter. Dans l'exemple ci-dessus, le logiciel aspirera les fichiers mp3 (+*.mp3) mais pas les fichiers exe (-*.exe).
Vous pouvez également inclure ou exclure des sous-dossiers, des liens ou encore définir des mots-clés à inclure ou exclure. Utilisez pour cela les boutons appropriés.

Pour les autres onglets, gardez les paramètres par défaut, sauf si vous êtes un expert averti.

Reste maintenant à préciser les options de connexion

Sélectionner le nom de votre connexion Internet (géralement le nom du fournisseur) ou précisez si vous êtes déjà connecté (c'est sans doute le cas si vous êtes au Cdi). Attention : pensez à décochez l'option "Déconnecter à la fin de l'opération".
Vous pouvez aussi préciser l'heure de démarrage (par défaut, l'aspiration se fait aussitôt) et lancer l'opération à l'heure ou vous allez profiter des victuailles de la cantine...

En Cliquant Terminer, l'aspiration démarre :

Vous n'avez plus qu'à attendre la fin de l'opération. c'est plus ou moins long, selon le nombre de pages, le nombre de fichiers, leur taille et les performances de votre connection.
Vous obtenez enfin cette fenêtre :

Vous pouvez à présent :

* Voir le fichier journal, pour prendre connaissances des erreurs éventuelles. Il arrive que certaines pages ou certains fichiers ne puissent être aspirés, notamment les fichiers protégés par un mot de passe, certaines pages dynamiques...
* Explorer la copie du site et lire en local les pages que vous venez d'aspirer. Un coup d'oeil sur la zone d'adresse de votre navigateur vous indique que vous consultez des fichiers hors ligne.
* Terminer, pour démarrer un autre projet
* Quitter pour fermer HTTrack et vaquer à d'autres occupations.

À noter :
- Avant d'aspirer un site, visitez-le et repérez sa structure. Un coup d'oeil sur le plan du site (s'il est disponible) peut s'avérer utile.
- Internet explorer permet d'aspirer quelques pages. Il suffit d'afficher une url, de faire Favoris/Ajouter aux favoris et de cocher l'option "Rendre disponible hors connexion" En cliquant Personnaliser", vous pourrez aller jusqu'à 3 en profondeur interne.

Quelques ressources en ligne :

Pour télécharger HTTrack :
http://www.httrack.com/index.php?p=0

Un mode d'emploi complet :
http://soshg.free.fr/httrack/