Cuando comenzamos a trabajar con IA, nos empezamos a dar cuenta que la mayor parte del tiempo la pasamos lidiando con los datos. De hecho se dice que cuando se trabaja en ciencia de datos, el 80% del tiempo se ocupa en ordenar y limpiar los datos.
Claro que eso no tiene por qué ser así, sobre todo cuando estamos empezando en esto y lo que queremos es entrenar algún modelo de IA con datos ya listos. En estos casos podemos recurrir a datasets públicos, listos para ser usados…
¿Qué es dataset?
Un dataset es un conjunto de datos (imágenes, audio, video, texto o cualquier tipo de información) que se utiliza para enseñar a una inteligencia artificial sobre diferentes cosas, como animales, objetos o cualquier otra cosa que queramos que aprenda.
Cuando queremos que un algoritmo de IA aprenda algo, lo entrenamos utilizando estos datos. Por ejemplo, si queremos que un algoritmo aprenda a clasificar fotos de perros y gatos, lo entrenaremos con un dataset que contenga miles y miles de imágenes (cuanto más mejor!) de perros y gatos, cada imagen con una etiqueta que la identifique. De esta manera, cuando al algoritmo se le pasa una foto de un gato con la etiqueta “gato”, empieza a relacionar la imagen con esa etiqueta. Lo mismo con las fotos de perros etiquetadas como “perro”. Al final del proceso, el algoritmo habrá aprendido a clasificar las imágenes. Cuando le mostremos una nueva imagen, sabrá si se trata de un perro o un gato. Este proceso lo veremos en detalle en un futuro posteo (es promesa!).
17 sitios con datasets gratuitos:
1/ Google Dataset
Así es! Así como tiene su buscador “polirubro”, Google también tiene un buscador especializado y dedicado solo a la búsqueda de datasets!
https://datasetsearch.research.google.com/
2/ Kaggle
Este es GENIAL: no solo pone a disposición los datasets, sino que además posee una comunidad que debate sobre los datos, las mejores técnicas para utilizarlos, códigos y modelos de IA y hasta compite por ver quiénes logran mejores rendimientos en sus modelos.
https://www.kaggle.com/datasets
3/ World Bank Open Data
>3.000 datasets sobre más de 14.000 indicadores sobre lo que está pasando alrededor del mundo.
4/ WHO (World Health Organization)
La Organización Mundial de la Salud mantiene actualizado y abierto este repositorio sobre data estadística relacionada a la salud de sus 194 Miembros Estados.
https://www.who.int/gho/database/en/
5/ RODA (Registry of Open Data on AWS)
Un registro que permite descubrir y compartir datasets disponibles via los recursos de Amazon WS.
Se pueden encontrar cosas tan interesantes como el TCGA (The Cancer Genome Atlas).
>360 datasets!
https://registry.opendata.aws/
6/ European Data Portal
Permite acceder a data de cerca de 70 Instituciones, agencias y organizaciones de la EU.
Según su web cuentan con 174 catálogos de 36 países con >1.5 millones de datasets!!
7/ FiveThirtyEight
Excelente sitio para recursos sobre periodismo. Data sobre política, deportes, ciencia y economía.
https://data.fivethirtyeight.com/
8/ U.S. Census Bureau
Es la Agencia Federal más grande sobre estadística que tiene el gobierno de EEUU. Almacena y brinda acceso a data de poblaciones, lugares y economía de EEUU.
http://www.census.gov/data.html
9/ Data.gov
El sitio donde encontrarás de manera gratuita y abierta toda la data sobre el gobierno de EEUU.
Cuentan con la astronómica cifra de >180.000 datasets!
10/ DBpedia
Este sitio organiza de manera estructurada el conocimiento alojado en Wikipedia.
Los datasets son tan variados como los artículos de la Wiki y van desde personas, lugares, films, video juegos, álbumes de música, organizaciones, especies animales, enfermedades y mucho más.
11/ freeCodeCamp Open Data
Se trata de una comunidad open source que comparte enorme cantidades de data para que podamos realizar proyectos de IA, muchas veces recibiendo ayuda de la propia comunidad.
No solo encontraremos los datasets, sino también análisis de los mismos y proyectos basados en esa data que podremos reutilizar y modificar según necesidad.
https://github.com/freeCodeCamp/open-data
12/ UNICEF Dataset
Datasets sobre las temáticas que le conciernen a UNICEF: Educación, trabajo infantil, mortalidad infantil, mortalidad materna, bajo peso al nacer, etc.
13/ Health Data
Otro repositorio del gobierno de EEUU. Dedicado a hacer que la data médica de calidad sea accesible a emprendedores, investigadores y actores políticos, con el objetivo de mejorar los resultados en salud para toda la población.
14/ Earthdata by NASA
El portal para acceder a toda la data del Earth Observation Data de la NASA.
https://www.earthdata.nasa.gov/
15/ CDCs
Desde aquí se puede acceder a datasets de los Centers for Disease Control and Prevention de los Estados Unidos.
https://www.cdc.gov/datastatistics/index.html
16/ FBI Crime Data Explorer
Disponibiliza la data criminal a través de su CDE (Crime Data Explorer). Apunta a lograr un acceso más fácil y transparente a la data criminal y no criminal.
https://crime-data-explorer.fr.cloud.gov/pages/home
17/ Open Data CERN
Explora más de 2 PETABYTES de data de física de partículas provenientes de sus múltiples experimentos (ATLAS, ALICE, CMS, LHCb, etc)
>9300 datasets.