Existen miles de repositorios de datos en la Web que brindan acceso a millones de conjuntos de datos. Los gobiernos nacionales y regionales, las editoriales científicas y los consorcios, los proveedores de datos comerciales y otros publican datos para campos que van desde las ciencias sociales hasta las ciencias de la vida, la física de altas energías, la ciencia del clima y mucho más.
El acceso a estos datos es fundamental para facilitar la reproducibilidad de los resultados de la investigación, permitir que los científicos se basen en el trabajo de otros, y proporcionar a los periodistas de datos un acceso más fácil a la información y su procedencia.
Para ayudar en esta tarea, Google lanzó su herramienta Dataset Search, una nueva función del motor de búsqueda que permite acceder a las bases de datos libres disponibles online.
La herramienta proporciona capacidades de búsqueda sobre potencialmente todos los conjuntos de datos publicados en la Web. El enfoque se basa en un ecosistema abierto, donde los propietarios y proveedores de conjuntos de datos publican metadatos mejorados semánticamente en sus propios sitios.
El motor de búsqueda ha indexado 25 millones de conjuntos de datos (o datasets), especialmente datos oficiales de los gobiernos y entidades públicas, estudios de mercado y datos científicos. Las áreas temáticas son muy diversas -desde economía hasta literatura- y la información procede de muchos países, con Estados Unidos a la cabeza.
Los resultados pueden filtrarse según tipos de conjuntos de datos (por ejemplo, tablas, imágenes, texto), o si el conjunto de datos está disponible de forma gratuita con el proveedor. Si un conjunto de datos se trata de un área geográfica, también puede verse el mapa.
Cualquier usuario puede hacer que sus conjuntos de datos sean visibles en la búsqueda de conjuntos de datos mediante el uso de un estándar abierto (schema.org) para describir las propiedades de su conjunto de datos en su propia página web.