L'explosion des données sur Internet révolutionne notre mémoire collective<!-- --> | Atlantico.fr
Atlantico, c'est qui, c'est quoi ?
Newsletter
Décryptages
Pépites
Dossiers
Rendez-vous
Atlantico-Light
Vidéos
Podcasts
Culture
L'explosion des données sur Internet révolutionne notre mémoire collective
©

Big data

Depuis l'apparition d'Internet, le volume de données à stocker n'a cessé d'augmenter à tel point qu'on pourrait bientôt avoir épuisé tous les mots pour le qualifier. De méga à giga, en passant par tera et peta, les préfixes utilisés pour décrire les accumulations de "bits" viennent à manquer tandis que se pose la question des moyens à employer pour stocker les archives du web.

Clément   Oury

Clément Oury

Clément Oury est chef du service du dépôt légal numérique, au sein du département du dépôt légal à la Bibliothèque nationale de France.

Voir la bio »

Atlantico : Internet est-il en train de révolutionner notre rapport à la mémoire collective?

Clément Oury : Auparavant, les institutions de mémoire ne récupéraient que les choses qui étaient filtrées : il y a toujours eu un filtre éditorial, car cela coûtait cher de produire du contenu. Au temps de l'imprimerie de Gutenberg, produire coûtait évidemment plus cher que de sortir des journaux à feuilleton au 19e siècle. La production de contenus, sur papier ou DVD, a toujours été un enjeu industriel ou commercial.

En termes de production, ce filtre éditorial a aujourd'hui disparu dans la plupart des cas.On est passé d'une logique où quelques-uns parlaient à tout le monde, à une logique où tout le monde parle à tout le monde. Le dépôt légal, l'obligation pour tout éditeur ou tout producteur de contenu d'envoyer un ou plusieurs exemplaires de sa production auprès d'institutions, qui existe depuis le 16e siècle, permet de conserver une image représentative de ce qu'était la consommation et la production culturelles à un moment donné. L'idée était que de cette façon la BNF allait pouvoir disposer d'une collection exhaustive de tout ce qui a paru sous forme de livre, de 75 tours, de CD, de DVD, de jeux vidéos, … qui ont paru ou qui ont été diffusés en France.

Grâce au dépôt légal d'Internet, on a accès à des sources populaires auxquelles on n'avait pas accès auparavant. On peut constituer ce qu'on appelle des archives, qui sont plutôt des collections de sites, qui donnent des points de vue très différents de ce qu'on avait auparavant, et qui n'est pas filtré.

A titre d'exemple, lors des émeutes dans les banlieues en 2005, nous avons collecté très largement sur les sites de la plateforme Skyblog. Les personnes qui écrivaient sur cette plateforme étaient souvent des gens dans les banlieues. Ils n'étaient pas forcément du côté des émeutiers, mais ils étaient situés vraiment dans les villes alors que les journalistes étaient plutôt derrière les grillages de policiers. Le discours qu'on a sur ces blogs de collégiens est en contrepoint tout à fait passionnant, par rapport au discours plus "extérieur" que les journalistes ont eu. Cela ne signifie pas que le discours sur ces blogs est plus "vrai", mais croiser différentes sources sera bon pour la recherche scientifique. On a maintenant accès à des paroles qui n'étaient pas publiques, pour les sociologues et historiens futurs, c'est une source qui est complètement nouvelle.

Cependant, les contenus d'Internet sont apparemment omniprésents. Mais le problème est le suivant : lorsqu'on a un contenu qui est en ligne, il est apparemment accessible à tous. Mais si cette copie disparaît, on perd tout, au contraire des livres qui sont tirés à 1000 exemplaires. Une seule perte entraîne la perte de l'accès pour tout le monde. La logique est très différente.

En 2012, Internet est devenu le principal support de création scientifique et culturel, et il fallait trouver comment stocker tout ce contenu.

Comment sont choisies les informations qui sont collectées ?

Tous les ans, nous collectons l'intégralité des sites web en ".fr". Dans sa conception, le dépôt légal papier ne discrimine pas : on y reçoit le dernier Goncourt, mais aussi des mots-croisés et des sudoku ou des romans-photos. Toutes les bibliothèques de France vont acheter le dernier prix Goncourt, ou le dernier livre d'un éditeur universitaire, mais pas forcément les mots croisés, ou le sudoku. Or, ces ouvrages décrivent ce qu'était la consommation française à un moment donné. Il en est de même avec le web. On s'efforce de ne pas forcément choisir, on tente d'être le plus large possible. A la BNF, on tente d'avoir un peu de tout, du scientifiquement validé, au plus banal. Ce qui est banal est d'ailleurs ce qui disparaît le plus vite. Tout contenu mis à disposition sur le web est considéré comme publié, y compris un blog de collégien.

Avec le dépôt légal sur support, on était dans une logique où on avait l'espoir de tout archiver. L'exhaustivité était encore un objectif, qui n'était jamais complètement atteint mais qui était exprimé. Avec le web, cet objectif est tout à fait illusoire. Tout archiver signifierait collecter chaque site tous les jours (il y a déjà 2 millions de sites en domaine .fr). Cela est impossible. La BNF et les autres institutions qui s'occupent d'archivage du web établissent des stratégies différenciées.

Cela est semblable aux activités des archivistes qui ont trop de documents papier et qui sont contraints d'en éliminer. Nous ne sommes pas dans une logique d'élimination, mais nous choisissons les informations à collecter : pour essayer d'avoir une image de la production culturelle, nous allons collecter tous les ans les sites français. A côté de cela, certains sites sont pris tous les jours, de manière automatisée. Si on ne les recensait pas tous les jours, cela nous permettrait de savoir ce qu'a été un site à un moment donné, mais on passerait à côté de beaucoup de contenus. Le site des ministères est archivé très profondément, car il y a énormément de contenus. A contrario, les sites des élections sont archivés au moment des élections. On n'est plus dans l'exhaustivité, mais on essaie de conjuguer différentes approches de collecte pour créer une image représentative. Cela a changé par rapport aux pratiques précédentes.

Il en est de même pour Google concernant les collectes de l'ensemble du web. Certains sites, comme ceux que l'on retrouve dans "Google actualités" sont collectés plus fréquemment que n'importe quel blog qui ne serait pas indexé. Google a aussi des pratiques similaires pour identifier ce qui change le plus vite, pour les collecter.  

La BNF regroupe environ 330 téraoctets (1 tera = 1000 gigaoctets, ndlr.) de données et environ 18 milliards de fichiers. Les archives papier tournent autour de 12 millions d'ouvrages. Les volumes sont extrêmement importants. On peut parler de big data. On n'a jamais été capable de gérer autant de données, et de disposer d'autant de connaissances à  la fois. D'un point de vue scientifique, c'est un véritable bouleversement. Avant, on ne pouvait pas manipuler des milliards de données en une seule opération, aujourd'hui on est entré dans l'ère de statistiques de grande échelle. La BNF récupère plus d'un milliard de fichiers par an, ça demande donc des capacités de collecte et d'indexation extrêmement importantes.

Cet archivage du web pose-t-il des questions éthiques, comme la question du droit à l'oubli sur la toile ?

La question d'éthique est extrêmement importante. On doit maintenant manipuler des données auxquelles on n'avait pas accès auparavant, et les collections archivées sont disponibles uniquement dans les espaces de recherche de la BNF. Cela se fait pour des raisons de propriété intellectuelle, car lorsque l'on collecte les sites, on le fait sans demander aux éditeurs l'autorisation de les archiver.

La contrepartie de cela se retrouve dans la limitation d'accès. On ne peut pas s'amuser à demander des autorisations à chaque site web, cela nécessiterait des centaines de personnes pour écrire des mails aux auteurs. L'accès n'est possible que dans les murs de la BNF.

Selon la CNIL, les archives doivent être uniquement accessibles aux chercheurs, qui sont des personnes qui ont une recherche à faire pour des raisons professionnelles ou personnelles : pas seulement des universitaires, mais aussi des journalistes. Cela permet de contrôler les utilisations qui seraient contraires à l'éthique.

Propos recueillis par Ann-Laure Bourgeois

En raison de débordements, nous avons fait le choix de suspendre les commentaires des articles d'Atlantico.fr.

Mais n'hésitez pas à partager cet article avec vos proches par mail, messagerie, SMS ou sur les réseaux sociaux afin de continuer le débat !