Je veux tout savoir

Archivage Web

Pin
Send
Share
Send


Archivage Web est le processus de collecte de parties du World Wide Web et de s'assurer que la collection est conservée dans une archive, comme un site d'archives, pour les futurs chercheurs, historiens et le public. En raison de la taille massive du Web, les archivistes Web utilisent généralement des robots d'indexation Web pour la collecte automatisée. La plus grande organisation d'archivage Web basée sur une approche d'exploration est l'Internet Archive qui s'efforce de maintenir une archive de l'ensemble du Web. Les bibliothèques nationales, les archives nationales et divers consortiums d'organisations participent également à l'archivage du contenu Web culturellement important. Des logiciels et des services d’archivage Web commercial sont également disponibles pour les organisations qui ont besoin d’archiver leur propre contenu Web à des fins légales ou réglementaires.

Étant donné que les sites Web sont souvent protégés par des droits d'auteur, l'archivage Web doit prendre en compte les questions juridiques et sociales. En raison de la nature globale d'un environnement Web, des problèmes complexes se posent.

Collectionner le Web

Les archivistes Web archivent généralement tous les types de contenu Web, y compris les pages Web HTML, les feuilles de style, JavaScript, les images et les vidéos. Ils archivent également des métadonnées sur les ressources collectées telles que le temps d'accès, le type MIME et la longueur du contenu. Ces métadonnées sont utiles pour établir l'authenticité et la provenance de la collection archivée.

Méthodes de collecte

Récolte à distance

La technique d'archivage Web la plus courante utilise des robots d'indexation Web pour automatiser le processus de collecte des pages Web. Les robots d'indexation Web affichent généralement les pages Web de la même manière que les utilisateurs avec un navigateur voient le Web, et fournissent donc une méthode relativement simple de récolte à distance du contenu Web.

Crawlers Web

Voici des exemples de robots d'indexation Web fréquemment utilisés pour l'archivage Web:

Heritrix

Heritrix est le robot d'exploration Internet Archive qui a été spécialement conçu pour l'archivage Web. Il est open-source et écrit en Java. L'interface principale est accessible à l'aide d'un navigateur Web, contenant un outil de ligne de commande qui peut éventuellement être utilisé pour lancer des analyses.

Heritrix a été développé conjointement par Internet Archive et les bibliothèques nationales nordiques sur des spécifications écrites au début de 2003. La première version officielle a eu lieu en janvier 2004, et depuis lors, n'a cessé de s'améliorer par les membres d'Internet Archive et d'autres tiers intéressés.

Un certain nombre d'organisations et de bibliothèques nationales utilisent Heritrix, notamment:

  • Bibliothèque et Archives Canada
  • Bibliothèque nationale de France
  • Bibliothèque nationale et universitaire d'Islande
  • Bibliothèque nationale de Nouvelle-Zélande
  • Netarkivet.dk
  • Documenter Internet2

HTTrack

HTTrack est un navigateur Web gratuit et open source et un navigateur hors ligne, développé par Xavier Roche et sous licence GNU General Public License, qui permet de télécharger des sites Web à partir d'Internet sur un ordinateur local. Par défaut, HTTrack organise le site téléchargé selon la structure de liens relative du site d'origine. Le site Web téléchargé (ou "en miroir") peut être parcouru en ouvrant une page du site dans un navigateur.

HTTrack peut également mettre à jour un site miroir existant et reprendre les téléchargements interrompus. HTTrack est entièrement configurable par des options et des filtres (inclure / exclure), et dispose d'un système d'aide intégré. Il existe une version de ligne de commande de base et deux versions d'interface graphique (WinHTTrack et WebHTrack); les premiers peuvent faire partie de scripts et de tâches cron.

HTTrack utilise un robot d'indexation Web pour télécharger un site Web. Certaines parties du site Web peuvent ne pas être téléchargées par défaut en raison du protocole d'exclusion des robots, sauf si elles sont désactivées pendant le programme. HTTrack peut suivre des liens qui sont générés avec JavaScript de base et à l'intérieur d'Applets ou de Flash, mais pas des liens complexes (générés à l'aide de fonctions ou d'expressions) ou de cartes d'images côté serveur.

Autres

À la demande

Il existe de nombreux services qui peuvent être utilisés pour archiver des ressources Web "à la demande", en utilisant des techniques d'exploration Web:

  • WebCite, un service spécialement destiné aux auteurs, éditeurs et éditeurs de revues scientifiques pour archiver et récupérer en permanence les références Internet citées (Eysenbach et Trudel, 2005).
  • Archive-It, un service d'abonnement, permet aux institutions de créer, gérer et rechercher leurs propres archives Web.
  • Les archives Hanzo offrent des outils et des services d'archivage Web commerciaux, mettant en œuvre une politique d'archivage pour le contenu Web et permettant la découverte électronique, le soutien aux litiges ou la conformité réglementaire.

Archivage des bases de données

L'archivage de base de données fait référence aux méthodes d'archivage du contenu sous-jacent des sites Web basés sur une base de données. Cela nécessite généralement l'extraction du contenu de la base de données dans un schéma standard, souvent à l'aide de XML. Une fois stocké dans ce format standard, le contenu archivé de plusieurs bases de données peut ensuite être rendu disponible à l'aide d'un système d'accès unique. Cette approche est illustrée par les outils DeepArc et Xinq développés respectivement par la Bibliothèque nationale de France et la National Library of Australia. DeepArc permet de mapper la structure d'une base de données relationnelle à un schéma XML et d'exporter le contenu dans un document XML. Xinq autorise ensuite la livraison de ce contenu en ligne. Bien que la mise en page et le comportement d'origine du site Web ne puissent pas être préservés exactement, Xinq permet de répliquer les fonctionnalités de base d'interrogation et de récupération.

Archivage transactionnel

L'archivage transactionnel est une approche événementielle qui recueille les transactions réelles qui ont lieu entre un serveur Web et un navigateur Web. Il est principalement utilisé comme moyen de conserver des preuves du contenu qui a été effectivement consulté sur un site Web particulier, à une date donnée. Cela peut être particulièrement important pour les organisations qui doivent se conformer aux exigences légales ou réglementaires de divulgation et de conservation des informations.

Un système d'archivage transactionnel fonctionne généralement en interceptant chaque demande HTTP et chaque réponse du serveur Web, en filtrant chaque réponse pour éliminer le contenu en double et en stockant en permanence les réponses sous forme de flux binaires. Un système d'archivage transactionnel nécessite l'installation de logiciels sur le serveur Web et ne peut donc pas être utilisé pour collecter du contenu à partir d'un site Web distant.

Voici des exemples de logiciels d'archivage transactionnel commercial:

Difficultés et limites

Rampeurs

Les archives Web qui s'appuient sur l'exploration du Web comme principal moyen de collecte du Web sont influencées par les difficultés de l'exploration du Web:

  • Le protocole d'exclusion des robots peut demander aux robots d'exploration des parties d'un site Web inaccessibles. Certains archivistes Web peuvent ignorer la demande et analyser ces parties de toute façon.
  • De grandes parties d'un site Web peuvent être masquées dans le Deep Web. Par exemple, la page de résultats derrière un formulaire Web se trouve dans le Web profond, car un robot ne peut pas suivre un lien vers la page de résultats.
  • Certains serveurs Web peuvent renvoyer une page différente pour un robot d'indexation Web par rapport à une demande de navigateur standard. Cela est généralement fait pour tromper les moteurs de recherche en envoyant plus de trafic vers un site Web.
  • Les interruptions du robot (par exemple, les calendriers) peuvent amener un robot à télécharger un nombre infini de pages, de sorte que les robots sont généralement configurés pour limiter le nombre de pages dynamiques qu'ils explorent.

Le Web est si vaste que l'exploration d'une partie importante de celui-ci nécessite une grande quantité de ressources techniques. Le Web évolue si rapidement que certaines parties d'un site Web peuvent changer avant même qu'un robot ait fini de l'explorer.

Limitations générales

Les archivistes Web doivent non seulement relever les défis techniques de l'archivage Web, mais ils doivent également faire face aux lois sur la propriété intellectuelle. Peter Lyman (2002) déclare que "bien que le Web soit généralement considéré comme une ressource du domaine public, il est protégé par le droit d'auteur; ainsi, les archivistes n'ont aucun droit légal de copier le Web". Cependant, les bibliothèques nationales de nombreux pays ont le droit légal de copier des parties du Web dans le cadre d'une extension d'un dépôt légal.

Certaines archives Web privées à but non lucratif rendues publiques comme WebCite ou Internet Archive permettent aux propriétaires de contenu de masquer ou de supprimer du contenu archivé auquel ils ne veulent pas que le public ait accès. D'autres archives Web ne sont accessibles qu'à partir de certains emplacements ou ont une utilisation réglementée. WebCite cite également dans sa FAQ un récent procès contre le mécanisme de mise en cache, que Google a remporté.

Aspects de la conservation Web

La conservation Web, comme toute conservation numérique, implique:

  • Collecte d'actifs Web vérifiables
  • Fournir la recherche et la récupération de ressources Web
  • Certification de la fiabilité et de l'intégrité du contenu de la collection
  • Continuité sémantique et ontologique et comparabilité du contenu de la collection

Ainsi, outre la discussion sur les méthodes de collecte du Web, celles de fournir l'accès, la certification et l'organisation doivent être incluses. Il existe un ensemble d'outils populaires qui répondent à ces étapes de conservation:

Un ensemble d'outils pour Web Curation par International Internet Preservation Consortium:

  • Heritrix - site officiel - collecte de ressources Web
  • NutchWAX - recherche dans les collections d'archives Web
  • Wayback (Open source Wayback Machine) - recherchez et parcourez les collections d'archives Web à l'aide de NutchWax
  • Outil Curateur Web - Sélection et gestion de la collection Web

Autres outils open source pour manipuler les archives Web:

  • Outils WARC - pour créer, lire, analyser et manipuler des archives Web par programmation
  • Outils de recherche - pour l'indexation et la recherche de texte intégral et de métadonnées dans les archives Web

Un exemple d'archives Web

Les archives Internet

le Archive Internet (IA) est une organisation à but non lucratif dédiée à la création et au maintien d'une bibliothèque numérique en ligne gratuite et librement accessible, qui comprend des archives du World Wide Web. Avec des bureaux situés dans le Presidio à San Francisco, en Californie, et des centres de données à San Francisco, Redwood City et Mountain View, en Californie, l'archive comprend des «instantanés du World Wide Web» (copies archivées de pages, prises à divers endroits dans temps), logiciels, films, livres et enregistrements audio. Pour assurer la stabilité et l'endurance des archives Internet, sa collection est mise en miroir à la Bibliotheca Alexandrina en Égypte, jusqu'à présent la seule bibliothèque au monde dotée d'un miroir.1 L'IA met ses collections à disposition gratuitement des chercheurs, historiens et universitaires. Elle est membre de l'American Library Association et est officiellement reconnue par l'État de Californie comme bibliothèque.2

le Wayback Machine3 est une capsule temporelle numérique créée par Internet Archive. Ce service permet aux utilisateurs de voir les versions archivées des pages Web sur différentes périodes.

Voir également

  • Archiver
  • Préservation numérique
  • Archive Internet
  • Projet de bibliothèque numérique de la Bibliothèque du Congrès
  • Programme national d'infrastructure et de préservation de l'information numérique
  • Exploration Web

Remarques

  1. ↑ The Internet Archive at the New Library of Alexandria, International School of Information Science (ISIS). Récupéré le 22 novembre 2008.
  2. ^ "Internet Archive officiellement une bibliothèque" Récupéré le 22 novembre 2008.
  3. ↑ web.archive.org Consulté le 22 novembre 2008.

Les références

  • Brown, A. 2006. Archivage de sites Web: un guide pratique pour les professionnels de la gestion de l'information. Publication de facettes. ISBN 1-85604-553-6
  • Brügger, N.2005. Archivage de sites Web. Considérations générales et stratégies Le Centre de recherche sur Internet. ISBN 87-990507-0-6. Récupéré le 11 novembre 2008.
  • Day, M. 2003. Préserver le tissu de nos vies: une enquête sur les initiatives de préservation du Web Recherche et technologies avancées pour les bibliothèques numériques: Actes de la 7e Conférence européenne (ECDL), 461-472. Récupéré le 11 novembre 2008.
  • Eysenbach, G. et M. Trudel. 2005. Aller, aller, toujours là: utiliser le service WebCite pour archiver en permanence les pages Web citées Journal of Medical Internet Research 7 (5). Récupéré le 11 novembre 2008.
  • Fitch, Kent. 2003. "Archivage de sites Web - une approche pour enregistrer chaque réponse matériellement différente produite par un site Web" Ausweb 03. Récupéré le 11 novembre 2008.
  • Lyman, P. 2002. Archivage du World Wide Web Élaboration d'une stratégie nationale de préservation: enjeux de l'archivage des médias numériques. Récupéré le 11 novembre 2008.
  • Masanès, J. (éd.). 2006. Archivage Web. Springer-Verlag. ISBN 3-540-23338-5

Liens externes

Tous les liens ont été récupérés le 10 août 2013.

  • Consortium international pour la préservation de l'Internet (IIPC) - Consortium international dont la mission est d'acquérir, de préserver et de rendre accessibles les connaissances et les informations sur Internet pour les générations futures
  • Atelier international d'archivage Web (IWAW) - Atelier annuel axé sur l'archivage Web
  • Bibliothèque du Congrès, Collections et programmes numériques
  • Bibliothèque du Congrès, Web Capture
  • Bibliographie d'archivage Web - Longue liste de ressources d'archivage Web
  • Programmes d'archivage Web:

Pin
Send
Share
Send