🤖 17 Sitios con millones de Datasets Gratis – IA para Médicos #11

Cuando comenzamos a trabajar con IA, nos empezamos a dar cuenta que la mayor parte del tiempo la pasamos lidiando con los datos. De hecho se dice que cuando se trabaja en ciencia de datos, el 80% del tiempo se ocupa en ordenar y limpiar los datos.

Claro que eso no tiene por qué ser así, sobre todo cuando estamos empezando en esto y lo que queremos es entrenar algún modelo de IA con datos ya listos. En estos casos podemos recurrir a datasets públicos, listos para ser usados…

¿Qué es dataset?

Un dataset es un conjunto de datos (imágenes, audio, video, texto o cualquier tipo de información) que se utiliza para enseñar a una inteligencia artificial sobre diferentes cosas, como animales, objetos o cualquier otra cosa que queramos que aprenda.

Cuando queremos que un algoritmo de IA aprenda algo, lo entrenamos utilizando estos datos. Por ejemplo, si queremos que un algoritmo aprenda a clasificar fotos de perros y gatos, lo entrenaremos con un dataset que contenga miles y miles de imágenes (cuanto más mejor!) de perros y gatos, cada imagen con una etiqueta que la identifique. De esta manera, cuando al algoritmo se le pasa una foto de un gato con la etiqueta “gato”, empieza a relacionar la imagen con esa etiqueta. Lo mismo con las fotos de perros etiquetadas como “perro”. Al final del proceso, el algoritmo habrá aprendido a clasificar las imágenes. Cuando le mostremos una nueva imagen, sabrá si se trata de un perro o un gato. Este proceso lo veremos en detalle en un futuro posteo (es promesa!).

17 sitios con datasets gratuitos:

1/ Google Dataset

Así es! Así como tiene su buscador “polirubro”, Google también tiene un buscador especializado y dedicado solo a la búsqueda de datasets!

https://datasetsearch.research.google.com/

2/ Kaggle

Este es GENIAL: no solo pone a disposición los datasets, sino que además posee una comunidad que debate sobre los datos, las mejores técnicas para utilizarlos, códigos y modelos de IA y hasta compite por ver quiénes logran mejores rendimientos en sus modelos.

https://www.kaggle.com/datasets

3/ World Bank Open Data

>3.000 datasets sobre más de 14.000 indicadores sobre lo que está pasando alrededor del mundo.

https://data.worldbank.org/

4/ WHO (World Health Organization)

La Organización Mundial de la Salud mantiene actualizado y abierto este repositorio sobre data estadística relacionada a la salud de sus 194 Miembros Estados.

https://www.who.int/gho/database/en/

5/ RODA (Registry of Open Data on AWS)

Un registro que permite descubrir y compartir datasets disponibles via los recursos de Amazon WS.

Se pueden encontrar cosas tan interesantes como el TCGA (The Cancer Genome Atlas).

>360 datasets!

https://registry.opendata.aws/

6/ European Data Portal

Permite acceder a data de cerca de 70 Instituciones, agencias y organizaciones de la EU. 

Según su web cuentan con 174 catálogos de 36 países con >1.5 millones de datasets!!

https://data.europa.eu/en

7/ FiveThirtyEight

Excelente sitio para recursos sobre periodismo. Data sobre política, deportes, ciencia y economía.

https://data.fivethirtyeight.com/

8/ U.S. Census Bureau

Es la Agencia Federal más grande sobre estadística que tiene el gobierno de EEUU. Almacena y brinda acceso a data de poblaciones, lugares y economía de EEUU.

http://www.census.gov/data.html

9/ Data.gov

El sitio donde encontrarás de manera gratuita y abierta toda la data sobre el gobierno de EEUU.

Cuentan con la astronómica cifra de >180.000 datasets!

https://www.data.gov/

10/ DBpedia

Este sitio organiza de manera estructurada el conocimiento alojado en Wikipedia.

Los datasets son tan variados como los artículos de la Wiki y van desde personas, lugares, films, video juegos, álbumes de música, organizaciones, especies animales, enfermedades y mucho más.

https://wiki.dbpedia.org/

11/ freeCodeCamp Open Data

Se trata de una comunidad open source que comparte enorme cantidades de data para que podamos realizar proyectos de IA, muchas veces recibiendo ayuda de la propia comunidad.

No solo encontraremos los datasets, sino también análisis de los mismos y proyectos basados en esa data que podremos reutilizar y modificar según necesidad.

https://github.com/freeCodeCamp/open-data

12/ UNICEF Dataset

Datasets sobre las temáticas que le conciernen a UNICEF: Educación, trabajo infantil, mortalidad infantil, mortalidad materna, bajo peso al nacer, etc.

data.unicef.org/

13/ Health Data

Otro repositorio del gobierno de EEUU. Dedicado a hacer que la data médica de calidad sea accesible a emprendedores, investigadores y actores políticos, con el objetivo de mejorar los resultados en salud para toda la población.

https://healthdata.gov/

14/ Earthdata by NASA

El portal para acceder a toda la data del Earth Observation Data de la NASA. 

https://www.earthdata.nasa.gov/

15/ CDCs

Desde aquí se puede acceder a datasets de los Centers for Disease Control and Prevention de los Estados Unidos.

https://www.cdc.gov/datastatistics/index.html

16/ FBI Crime Data Explorer

Disponibiliza la data criminal a través de su CDE (Crime Data Explorer). Apunta a lograr un acceso más fácil y transparente a la data criminal y no criminal.

https://crime-data-explorer.fr.cloud.gov/pages/home

17/ Open Data CERN

Explora más de 2 PETABYTES de data de física de partículas provenientes de sus múltiples experimentos (ATLAS, ALICE, CMS, LHCb, etc)

>9300 datasets.

https://opendata.cern.ch/

Data is the new Oil

IA para Médicos es un newsletter casi semanal con noticias y contenido relacionado a la Inteligencia Artificial en Medicina.

Por favor, suscríbete y comparte este newsletter con todos tus colegas y amigos médicos (y no médicos!) que puedan interesarse por la IA y lo que se viene en medicina. 
Gracias por leer!
Lisandro

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *