Le web c'est comme un iceberg, il y a une - petite - partie visible et une beaucoup plus importante, invisible. Ou tout du moins inaccessible ou très difficilement par le biais de moteurs de recherche en ligne classiques au premier rang desquels Google. Le géant américain sort ainsi de sa zone de confort en lançant, en bêta pour le moment, Dataset Search, un moteur permettant d'indexer des sets de données (datasets) pour facilité l'accès à des données pas forcément évidentes à trouver. « L'outil de recherche d'ensembles de données permet aux utilisateurs de trouver des ensembles de données dans des milliers de référentiels sur le Web. Ces ensembles de données deviennent ainsi accessibles et utiles à tous », précise Google. « Les ensembles de données et les données associées sont souvent éparpillées dans plusieurs référentiels sur le Web. Dans la plupart des cas, les données ne sont pas indexées par les moteurs de recherche. Les recherches sont donc fastidieuses, voire impossible dans certains cas. »
Google Dataset Search n'a cependant pas vocation à indexer l'ensemble du deep web, et encore moins d'accéder au dark web comme peut le faire un navigateur comme Tor par exemple. Mais de fournir aux chercheurs, étudiants, journalistes, etc. un outil permettant de faciliter leur travail de recherche de données. Pour l'instant, il faut bien avouer que la firme n'est qu'au tout début de l'aventure. Pour les recherches dans la langue de Molière concernant l'indexation de classements par exemple, il faudra se contenter pour l'heure d'une poignée de résultats. Les résultats de requêtes anglo-saxxons sont naturellement plus fournis avec notamment les datasets de la NASA, de l'Agence américaine d'observation océanique et atmosphérique (NOAA) ou encore de l'université d'Harvard.
Mieux travailler avec les éditeurs
Les motivations de Google semblent réelles et le fournisseur américain veut croire en son nouveau moteur, non sans être totalement dénué d'arrière-pensée. « En fournissant à nos utilisateurs une interface unique qui leur permet d'effectuer des recherches dans plusieurs référentiels, nous espérons transformer la manière dont ces données sont utilisées. Nous sommes également convaincus que ce projet présente d'autres avantages. En effet, il contribue à créer un écosystème de partage de données incitant les éditeurs de données à respecter nos bonnes pratiques en matière de stockage et de publication des données, et offre aux scientifiques la possibilité de montrer l'impact de leur travail à travers la citation des ensembles de données qu'ils ont créés », précise Google.