A l’Ina, une salle de serveurs, devant laquelle un écran digne des frères Wachowski voit défiler des adresses vertes sur fonds noir, témoin de la collecte en cours de 8000 sites en lien avec le secteur de la communication audiovisuelle dont l’institution a la charge au titre du dépôt légal du web.
[youtube http://www.youtube.com/watch?v=lJB5uJnLxEI&w=420&h=345]
Â
A la BnF, à côté des nouvelles machines, les petabox récupérées hardiment par Julien Masanès quand il y était responsable du DL Web, avant de claquer la porte pour diriger la fondation Internet Memory, une organisation très liée au pape de l’archivage numérique, Brewster Kahle, et à son projet libre : Internet Archive. C’est auprès d’IA qu’ont été récupérées ces petabox rouges (une couleur prompte à faire tiquer des institutions par nature conservatrices).
Internet Archive couvre plein de fronts en même temps, de la numérisation de livres, de cassettes, de films, et même des magazines érotiques en braille, à l’archivage physique des livres, en passant bien sûr, pas de grands crawl du web, avec Heritrix (dont François Bon parle ici), le robot dont se sert toujours la BnF. A l’Ina, on développe ses propres robots de crawl, grâce à un corpus beaucoup moins large de sites à traiter.
[Une émission de Place de la Toile s’est penchée sur le sujet]
Servez-vous de la Wayback Machine pour retrouver un site aujourd’hui disparu (bien sûr il y a des manques, mais un jour un ingénieur de l’INA a eu cette phrase : "les archives du net, ce sont des trous...") ou ne serait-ce que pour voir à quoi ressemblait la Une du Monde avant l’an 2000. Je pourrais m’enfoncer dans la technique, mais apparemment mon article l’est déjà beaucoup.
Alors je vous montre à quoi ressemble, sur un écran, un robot-moissonneur à l’oeuvre dans le dédale du web.
C’est sûr qu’on comprend mieux, tout de suite.