Big data

Web 3.0 : la révolution des datas, annonciatrice de l'Internet du futur

"Fouilleur de données", voilà le nouveau métier d'avenir. Ces magiciens des temps modernes savent extraire du sens au milieu du flot toujours plus grand de données brutes qui inonde la toile. Ils préparent le web du futur : des applications intuitives pour naviguer dans nos vies grâce à des données agrégées...

En 2 ans, l’Humanité a généré davantage de données que depuis le début de son Histoire. Ce tournant historique oblige les entreprises à s'adapter : les budgets informatiques ne sont plus capables de prendre en charge la forte augmentation des coûts de stockage. La capacité physique des datacenters atteint également ses limites. Pour faire face à cette problématique, la société informatique Sogeti a décidé d'innover pour fournir à ses clients de nouvelles solutions de stockage, en partenariat avec IBM.

La conférence Strata sur la science des "datas" qui s’est tenue en février à Santa Clara en Californie a réuni la crème des geeks autour du nouveau sujet brulant : la "révolution des Big Datas", des montagnes astronomiques de données et d’informations qui nous inondent tous les jours davantage.

Comment ce flot de données change-t-il le monde du business et de la technologie ? La Strata répond à cette question par son slogan : "faites travailler les données pour vous". Son objectif : développer différentes approches pour gérer les « big data », ce flux incessant de données complexes, qui se comptent en exabytes (c’est-à-dire en quintillions de bytes) et qui transitent entre autres par les médias sociaux. L’agence d’analyse de données Nexalogy a d’ailleurs construit une carte interactive des entrées Twitter liées au terme « Strata Conference », illustrant son approche de l’extraction de données.

L’attraction phare de la conférence est un gros bouton noir flanqué de lettres blanches "Dis donc, quel gros paquet de données tu as là". Les participants sont fiers, et presque soulagés de se retrouver entre geeks de la même espèce, note le magazine Wired, car selon les participants, "vous ne pouvez pas parler bien longtemps des données à votre femme avant de finir sur le canapé". Pour sa deuxième année d'existence, le rassemblement a affiché complet. C'est dire à quel point le thème des "datas" est brulant.

Une effervescence qui rappelle les beaux jours de la cybernétique et les célèbres conférences de Macy qui réunirent à partir des années 1940 un club interdisciplinaire de mathématiciens, logiciens, anthropologues, psychologues et économistes autour des sciences naissantes de l’information, avec pour objectif d'édifier une science générale du fonctionnement de l'esprit.

"Ça me rappelle les années 1990", remarque aussi Mike Bowles, ancien professeur au MIT et ingénieur aéronautique : "C’était une époque excitante pour l’Internet, et nous vivons aujourd’hui une époque excitante pour les données. L’enthousiasme est palpable". Mike enseigne désormais le « data mining » à des professionnels, au sein de l’organisation Hacker Dojo, un ovni mi-nerd mi-hippie qui se définit comme « une communauté d‘ingénieurs, d’artistes, de scientifiques, de militants, d’entrepreneurs et d’autres créatifs réunis dans un espace collectif de travail à Mountain View». Le data mining, en français « fouille de données » ou encore « exploration de données » consiste à extraire des connaissances à partir de grandes quantités données en apparence illisibles, et ce par des méthodes automatiques ou semi-automatiques.

A l'occasion de cette deuxième conférence Strata de l'histoire - la première a eu lieu en 2011 -, les scientifiques spécialistes des données émergent au grand jour en tant que membres de la profession la plus glamour de l’univers technologique : des pionniers de ce qui est décrit aujourd’hui comme “l’âge des grosses données” (The Age of Big Data).

Une étude de 2011 intitulée Extraire la valeur du chaos de John Gantz et David Reinsel explique que le volume mondial d’information fait plus que doubler tous les deux ans. Déchiffrer un sens au milieu de ces vastes montagnes de données est devenue la nouvelle obsession technologique. Le monde des affaires voit maintenant les données comme un matériau brut, une matière première économique au même titre que le capital et le travail.

L’International Data Corporation estime qu’un milliard d’appareils connectés ont été vendus cette année, et ce nombre devrait doubler d’ici 2016. Mais toutes les données qui en découlent, riches d’indications sur les préférences des utilisateurs, leur localisation et leur comportement, sont inutiles si elles ne peuvent être interprétées.

Le vrai trésor, bien sûr, ce ne sont pas les données : c’est la capacité d’y dénicher du sens. C’est ainsi qu’est né un genre nouveau de Surhomme : l’extracteur de données professionnel. « L’idée d’un dompteur de données professionnel, l’autre moitié d’un système d’apprentissage à temps plein, a émergé très récemment », note Max Levchin, un entrepreneur de la Silicon Valley co-fondateur de PayPal. "Dans le passé, si vous étiez un bon codeur, que vous tâtiez un peu les mécanismes d’apprentissages pour les machines, ou que vous étiez un bon modélisateur, ça suffisait. Maintenant c’est terminé, et tout cela à cause que la disponibilité des données."

Créer du sens à partir d’océans de chiffres, voilà le métier du futur. Transformer des données brutes informes en tableaux interactifs, en infographies ludiques et autres arbres ergonomiques pour fournir à l'utilisateur des informations utiles, si possible sous la forme d'un outil de visualisation esthétique. Le web 3.0 sera celui de la synthèse d’information personnalisée, ou chacun disposera de son annuaire interactif qui facilitera la recherche d’information. Le web est devenu trop grand et trop foisonnant, l’utilisateur s’y perd.

Pour Reid Hoffman, fondateur de LinkedIn et investisseur dans de nombreuses entreprises high-tech, la fouille de données va donner un nouveau visage au web mondial : "l’an dernier, j’ai théorisé le fait que les données pourraient poser les fondations du web 3.0". Il explique : « Les nouveaux services vont fabriquer des systèmes pour naviguer à travers les données agrégées : des données explicites que nous rentrons dans les réseaux sociaux, jusqu’aux données implicites des téléphones mobiles, ainsi que les données analytiques crées à partir des données explicites et implicites. Ces services nous aiderons à mieux naviguer dans nos vies : depuis le monde physique (conduite, marcher), au monde du divertissement (Quels livres ? Quels films ?), jusqu’au monde professionnel (informations et opportunités). Les nouveaux produits du web 3.0 viendront à la fois d’entreprises existantes comme LinkedIn et Twitter et de sociétés nouvelles. »

Mais la révolution des datas ne s’arrêtera pas au monde du web. Les fouilleurs de données sont particulièrement enthousiasmés par un nouveau joujou : Google Correlate. Cette nouvelle fonction Google analyse les mots clés des recherches Google et permet de traquer les tendances mondiales. Google Correlate indique la popularité des termes de recherche varie dans le temps, et génère aussi des mots clés associés ensemble parce qu'ils correspondent aux même type de recherches.

Les scientifiques spécialistes des données raffolent de ce genre de petits jouets qui traquent les modèles. C’est le genre de trésor qui a aidé Google à construire sa très populaire application Google Flu Trends (traduire : « Tendances Google grippe »), qui permet aux chercheurs et aux médecins de repérer les épidémies de grippe rapidement et avec précision.

Mais ce n’est pas tout. La science des datas s’applique aussi à la matière noire. Cette matière compose certes 83% de l’univers, mais elle reste un mystère pour les scientifiques. Les cosmologistes tentent de la cartographier à partir des lentilles gravitationnelles : les chercheurs mesurent les changements d’élasticité dans la galaxie produits par la présente de matière noire. Pendant des années, les chercheurs de l’Université d’Edinbourg ont tenté de produire une cartographie satisfaisante, en vain : leurs algorithmes ne fonctionnaient pas, raconte le magazine Wired.

Pourtant, ils possédaient un très grand stock de données. Ils ont donc décidé d’ouvrir au public un terabyte de données, en appelant à l’aide à travers un concours. Résultat : beaucoup de bruit dans les médias, mais aucun résultat probant. C’est alors que la start-up Kaggle est arrivée. Ces spécialistes des big datas ont pris le problème en main, en ouvrant un forum où les participants pouvaient débattre de différentes stratégies. Mais surtout, Kaggle s’est évertuée à « rendre plus digestible l’énorme quantité de données » astronomiques, pour faire du concours un défi à taille humaine. Les données étaient devenues tellement digestibles, qu’un étudiant… en glaciologie a réussi à développer un premier algorithme satisfaisant, grâce à de simples calculs d’algèbre. Mais, avec maintenant 1000 compétiteurs inscrits au concours, il fut vite rattrapé par des algorithmes meilleurs encore. Très vite, les efforts réunis des compétiteurs avaient considérablement amélioré la cartographie de matière noire, multipliant par trois la précision des calculs.

(Par Julie Mangematin)

Le sujet vous intéresse ?

Mots-Clés

Twitter, ingénieurs, réseaux sociaux, MIT, données, informaticien, développeur, Strata, Max Levchin, Reid Hoffman, datas, web 3.0, conférences de Macy, cybernétique

Thématiques

International High-tech

Le sujet vous intéresse ?

À Lire Aussi

Mots-Clés

Thématiques