Los Conjuntos de datos públicos en AWS ofrecen un repositorio centralizado de conjuntos de datos públicos que pueden integrarse de forma transparente en aplicaciones basadas en la nube de AWS. AWS aloja los conjuntos de datos públicos sin cargo adicional para la comunidad y, como en todos los servicios AWS, los usuarios pagan sólo por la capacidad y el almacenamiento que utilizan para sus propias aplicaciones.
Anteriormente, grandes conjuntos de datos tales como la correspondencia del Genoma humano y los datos del Censo de los EE. UU. requerían horas o días para localizarse, descargarse, personalizarse y analizarse. Ahora cualquier usuario puede acceder a estos conjuntos de datos desde sus instancias de Amazon Elastic Compute Cloud (Amazon EC2) e iniciar las tareas de computación de los datos en tan solo unos minutos. Además, los usuarios podrán sacar partido de todo el ecosistema de AWS y colaborar con otros usuarios de AWS. Por ejemplo, los usuarios podrán crear o utilizar imágenes de servidor preconfiguradas con herramientas y aplicaciones destinadas al análisis de los conjuntos de datos. Los usuarios podrán tratar prácticas y soluciones recomendadas en el Foro de Conjuntos de datos públicos dedicado.
Con el alojamiento de estos importantes y útiles datos con servicios rentables tales como Amazon EC2, AWS espera ofrecer a los investigadores de diversas disciplinas y sectores las herramientas que necesitan para impulsar la innovación a mayor velocidad.
AWS seguirá añadiendo nuevos conjuntos de datos a la colección pública y no privada de conjuntos de datos públicos. A continuación se muestran los conjuntos de datos disponibles actualmente. Las instantáneas de Linux/UNIX están en formato ISO9660 o EXT3, mientras que las instantáneas de Windows están en formato NTFS.
Podrá obtener una lista completa de los conjuntos de datos en nuestro Centro de recursos para Conjuntos de datos públicos.
Aquí tiene algunos ejemplos de Conjuntos de datos públicos populares:
Amazon EC2 almacena de forma gratuita determinados conjuntos de datos públicos en forma de instantáneas de Amazon Elastic Block Store (Amazon EBS). Los clientes de Amazon EC2 podrán acceder a estos datos creando sus propios volúmenes de Amazon EBS, empleando las instantáneas de conjuntos de datos públicos como punto de partida. Podrán acceder, modificar y realizar cómputos en estos volúmenes directamente utilizando sus instancias Amazon EC2, y pagar únicamente por los recursos informáticos y de almacenamiento que utilicen. Si están disponibles, los investigadores también podrán utilizar Imágenes de máquina de Amazon (AMI) con herramientas como Inquiry, de BioTeam, para realizar sus análisis.
Para iniciarse en el uso de los Conjuntos de datos públicos en AWS, realice estos tres pasos sencillos:
La Guía de introducción de ElasticFox contiene un manual sencillo de cómo ejecutar una instancia y crear un volumen Amazon EBS utilizando ElasticFox, un cómodo complemento para FireFox. O también puede consultar la Guía de introducción de Amazon EC2.
Si tiene algún tipo de pregunta o desea participar en nuestra comunidad de Conjuntos de datos públicos, visite nuestro Foro de Conjuntos de datos públicos.
Si tiene un conjunto de datos de dominio público o no propietario, y cree que podría resultarle de interés a la comunidad de AWS, envíe una solicitud y el equipo de AWS analizará su solicitud y se pondrá en contacto con usted. Habitualmente, el tamaño de los conjuntos de datos que se encuentran en el repositorio oscila entre 1 GB y 1 TB (en base al límite de volumen de Amazon EBS), pero podemos tratar también el alojamiento de conjuntos de datos más grandes. Deberá tener los derechos necesarios para ponerlos a disposición del público.
Para empezar, rellene el formulario de envío aquí vinculado, y uno de los miembros de nuestro equipo se pondrá en contacto con usted en relación a su conjunto de datos públicos. Le guiaremos en la publicación de su conjunto de datos en el repositorio de datos.