En direct
Best of
Best of 15 au 21 juin
En direct
Big data
L'explosion des données sur Internet révolutionne notre mémoire collective
Publié le 24 décembre 2012
Depuis l'apparition d'Internet, le volume de données à stocker n'a cessé d'augmenter à tel point qu'on pourrait bientôt avoir épuisé tous les mots pour le qualifier. De méga à giga, en passant par tera et peta, les préfixes utilisés pour décrire les accumulations de "bits" viennent à manquer tandis que se pose la question des moyens à employer pour stocker les archives du web.
Clément Oury est chef du service du dépôt légal numérique, au sein du département du dépôt légal à la Bibliothèque nationale de France.
Suivre
Vous devez être abonné pour suivre un auteur.
Abonnez-vous
«Vos abonnements garantissent notre indépendance»
Clément Oury
Suivre
Vous devez être abonné pour suivre un auteur.
Abonnez-vous
«Vos abonnements garantissent notre indépendance»
Clément Oury est chef du service du dépôt légal numérique, au sein du département du dépôt légal à la Bibliothèque nationale de France.
Voir la bio
Ajouter au classeur
Vous devez être abonné pour ajouter un article à votre classeur.
Abonnez-vous
«Vos abonnements garantissent notre indépendance»
Lecture Zen
Vous devez être abonné pour voir un article en lecture zen.
Abonnez-vous
«Vos abonnements garantissent notre indépendance»
Depuis l'apparition d'Internet, le volume de données à stocker n'a cessé d'augmenter à tel point qu'on pourrait bientôt avoir épuisé tous les mots pour le qualifier. De méga à giga, en passant par tera et peta, les préfixes utilisés pour décrire les accumulations de "bits" viennent à manquer tandis que se pose la question des moyens à employer pour stocker les archives du web.

Atlantico : Internet est-il en train de révolutionner notre rapport à la mémoire collective?

Clément Oury : Auparavant, les institutions de mémoire ne récupéraient que les choses qui étaient filtrées : il y a toujours eu un filtre éditorial, car cela coûtait cher de produire du contenu. Au temps de l'imprimerie de Gutenberg, produire coûtait évidemment plus cher que de sortir des journaux à feuilleton au 19e siècle. La production de contenus, sur papier ou DVD, a toujours été un enjeu industriel ou commercial.

En termes de production, ce filtre éditorial a aujourd'hui disparu dans la plupart des cas. On est passé d'une logique où quelques-uns parlaient à tout le monde, à une logique où tout le monde parle à tout le monde. Le dépôt légal, l'obligation pour tout éditeur ou tout producteur de contenu d'envoyer un ou plusieurs exemplaires de sa production auprès d'institutions, qui existe depuis le 16e siècle, permet de conserver une image représentative de ce qu'était la consommation et la production culturelles à un moment donné. L'idée était que de cette façon la BNF allait pouvoir disposer d'une collection exhaustive de tout ce qui a paru sous forme de livre, de 75 tours, de CD, de DVD, de jeux vidéos, … qui ont paru ou qui ont été diffusés en France.

Grâce au dépôt légal d'Internet, on a accès à des sources populaires auxquelles on n'avait pas accès auparavant. On peut constituer ce qu'on appelle des archives, qui sont plutôt des collections de sites, qui donnent des points de vue très différents de ce qu'on avait auparavant, et qui n'est pas filtré.

A titre d'exemple, lors des émeutes dans les banlieues en 2005, nous avons collecté très largement sur les sites de la plateforme Skyblog. Les personnes qui écrivaient sur cette plateforme étaient souvent des gens dans les banlieues. Ils n'étaient pas forcément du côté des émeutiers, mais ils étaient situés vraiment dans les villes alors que les journalistes étaient plutôt derrière les grillages de policiers. Le discours qu'on a sur ces blogs de collégiens est en contrepoint tout à fait passionnant, par rapport au discours plus "extérieur" que les journalistes ont eu. Cela ne signifie pas que le discours sur ces blogs est plus "vrai", mais croiser différentes sources sera bon pour la recherche scientifique. On a maintenant accès à des paroles qui n'étaient pas publiques, pour les sociologues et historiens futurs, c'est une source qui est complètement nouvelle.

Cependant, les contenus d'Internet sont apparemment omniprésents. Mais le problème est le suivant : lorsqu'on a un contenu qui est en ligne, il est apparemment accessible à tous. Mais si cette copie disparaît, on perd tout, au contraire des livres qui sont tirés à 1000 exemplaires. Une seule perte entraîne la perte de l'accès pour tout le monde. La logique est très différente.

En 2012, Internet est devenu le principal support de création scientifique et culturel, et il fallait trouver comment stocker tout ce contenu.

Comment sont choisies les informations qui sont collectées ?

Tous les ans, nous collectons l'intégralité des sites web en ".fr". Dans sa conception, le dépôt légal papier ne discrimine pas : on y reçoit le dernier Goncourt, mais aussi des mots-croisés et des sudoku ou des romans-photos. Toutes les bibliothèques de France vont acheter le dernier prix Goncourt, ou le dernier livre d'un éditeur universitaire, mais pas forcément les mots croisés, ou le sudoku. Or, ces ouvrages décrivent ce qu'était la consommation française à un moment donné. Il en est de même avec le web. On s'efforce de ne pas forcément choisir, on tente d'être le plus large possible. A la BNF, on tente d'avoir un peu de tout, du scientifiquement validé, au plus banal. Ce qui est banal est d'ailleurs ce qui disparaît le plus vite. Tout contenu mis à disposition sur le web est considéré comme publié, y compris un blog de collégien.

Avec le dépôt légal sur support, on était dans une logique où on avait l'espoir de tout archiver. L'exhaustivité était encore un objectif, qui n'était jamais complètement atteint mais qui était exprimé. Avec le web, cet objectif est tout à fait illusoire. Tout archiver signifierait collecter chaque site tous les jours (il y a déjà 2 millions de sites en domaine .fr). Cela est impossible. La BNF et les autres institutions qui s'occupent d'archivage du web établissent des stratégies différenciées.

Cela est semblable aux activités des archivistes qui ont trop de documents papier et qui sont contraints d'en éliminer. Nous ne sommes pas dans une logique d'élimination, mais nous choisissons les informations à collecter : pour essayer d'avoir une image de la production culturelle, nous allons collecter tous les ans les sites français. A côté de cela, certains sites sont pris tous les jours, de manière automatisée. Si on ne les recensait pas tous les jours, cela nous permettrait de savoir ce qu'a été un site à un moment donné, mais on passerait à côté de beaucoup de contenus. Le site des ministères est archivé très profondément, car il y a énormément de contenus. A contrario, les sites des élections sont archivés au moment des élections. On n'est plus dans l'exhaustivité, mais on essaie de conjuguer différentes approches de collecte pour créer une image représentative. Cela a changé par rapport aux pratiques précédentes.

Il en est de même pour Google concernant les collectes de l'ensemble du web. Certains sites, comme ceux que l'on retrouve dans "Google actualités" sont collectés plus fréquemment que n'importe quel blog qui ne serait pas indexé. Google a aussi des pratiques similaires pour identifier ce qui change le plus vite, pour les collecter.  

La BNF regroupe environ 330 téraoctets (1 tera = 1000 gigaoctets, ndlr.) de données et environ 18 milliards de fichiers. Les archives papier tournent autour de 12 millions d'ouvrages. Les volumes sont extrêmement importants. On peut parler de big data. On n'a jamais été capable de gérer autant de données, et de disposer d'autant de connaissances à  la fois. D'un point de vue scientifique, c'est un véritable bouleversement. Avant, on ne pouvait pas manipuler des milliards de données en une seule opération, aujourd'hui on est entré dans l'ère de statistiques de grande échelle. La BNF récupère plus d'un milliard de fichiers par an, ça demande donc des capacités de collecte et d'indexation extrêmement importantes.

Cet archivage du web pose-t-il des questions éthiques, comme la question du droit à l'oubli sur la toile ?

La question d'éthique est extrêmement importante. On doit maintenant manipuler des données auxquelles on n'avait pas accès auparavant, et les collections archivées sont disponibles uniquement dans les espaces de recherche de la BNF. Cela se fait pour des raisons de propriété intellectuelle, car lorsque l'on collecte les sites, on le fait sans demander aux éditeurs l'autorisation de les archiver.

La contrepartie de cela se retrouve dans la limitation d'accès. On ne peut pas s'amuser à demander des autorisations à chaque site web, cela nécessiterait des centaines de personnes pour écrire des mails aux auteurs. L'accès n'est possible que dans les murs de la BNF.

Selon la CNIL, les archives doivent être uniquement accessibles aux chercheurs, qui sont des personnes qui ont une recherche à faire pour des raisons professionnelles ou personnelles : pas seulement des universitaires, mais aussi des journalistes. Cela permet de contrôler les utilisations qui seraient contraires à l'éthique.

Propos recueillis par Ann-Laure Bourgeois

 

Les commentaires de cet article sont à lire ci-après
Articles populaires
Période :
24 heures
7 jours
01.
Vol MH370 : "le pilote se serait envolé à 12 000 mètres pour tuer l'équipage dans la cabine dépressurisée ", selon un nouveau rapport
02.
Retour des moustiques tigre : voilà comment s'en protéger efficacement cet été
03.
Amazon : 11,2 milliards de profit, 0 dollars d’impôts payés… : mais dans quel état erre un certain capitalisme ?
04.
Semaine de canicule : ces erreurs qui vous feront encore plus ressentir la chaleur alors que vous cherchiez l’inverse
05.
Amin Maalouf et Boualem Sansal, deux lanceurs d'alerte que personne n'écoute. Est-ce parce qu'ils sont arabes ?
06.
Pourquoi l’influence de Melania Trump sur son mari dépasse de loin ce qu’on en voit
07.
« L'homme-arbre » demande à être amputé
01.
La fuite des cerveaux, une réalité?
01.
Retour des moustiques tigre : voilà comment s'en protéger efficacement cet été
02.
Pourquoi les Francs-maçons ne sont certainement pas les héritiers des constructeurs de cathédrale qu’ils disent être
03.
Vol MH370 : "le pilote se serait envolé à 12 000 mètres pour tuer l'équipage dans la cabine dépressurisée ", selon un nouveau rapport
04.
L'homme qui combat la bien-pensance pour sauver le monde agricole
05.
Dents de la mer : les grands requins blancs remontent vers le Nord aux Etats-Unis, faut il redouter la même chose en Europe ?
06.
Meghan & Harry : all is not well in paradise; Mariage sous couvre-feu pour Laura Smet; Laeticia Hallyday, délaissée ou entourée par ses amis ? Voici & Closer ne sont pas d’accord; Taylor Swift & Katy Perry se câlinent vêtues d’un burger frites de la paix
01.
Amin Maalouf et Boualem Sansal, deux lanceurs d'alerte que personne n'écoute. Est-ce parce qu'ils sont arabes ?
02.
L'Ordre des médecins autorise Jérôme Cahuzac à exercer la médecine générale en Corse
03.
Ce piège dans lequel tombe le gouvernement en introduisant le concept d’islamophobie dans le proposition de loi Avia sur la lutte contre les contenus haineux
04.
Et la banque centrale américaine publia une bombe sur les "méfaits" du capitalisme financier
05.
Nominations européennes: le jeu dangereux d’Emmanuel Macron face à l’Allemagne
06.
Indignez-vous… en permanence ! Stéphane Hessel et Twitter ont-il étranglé la démocratie ?
Commentaires (2)
Ecrire un commentaire
Vous devez être abonné pour rédiger un commentaire.
Abonnez-vous
«Vos abonnements garantissent notre indépendance»
Nos articles sont ouverts aux commentaires sur une période de 7 jours.
Face à certains abus et dérives, nous vous rappelons que cet espace a vocation à partager vos avis sur nos contenus et à débattre mais en aucun cas à proférer des propos calomnieux, violents ou injurieux. Nous vous rappelons également que nous modérons ces commentaires et que nous pouvons être amenés à bloquer les comptes qui contreviendraient de façon récurrente à nos conditions d'utilisation.
kettle
- 23/12/2012 - 09:39
meta name="BNF"
meta name="BNF" content="noarchive"
kettle
- 23/12/2012 - 09:37
meta tag
"car lorsque l'on collecte les sites, on le fait sans demander aux éditeurs l'autorisation de les archiver. [...] On ne peut pas s'amuser à demander des autorisations à chaque site web"
---
Et respecter les tag? On peut pas non plus a la BNF?