Amazon EMR facilita el aprovisionamiento y la administración de Hadoop en la nube de AWS. Hadoop se encuentra disponible en varias distribuciones y Amazon EMR le brinda la posibilidad de utilizar la distribución de Amazon o la distribución MapR para Hadoop.

MapR satisface las necesidades de Hadoop con una plataforma empresarial probada que soporta un amplio abanico de usos productivos críticos y en tiempo real. MapR ofrece una fiabilidad sin precedentes, facilidad de uso y una velocidad récord en todo el mundo para Hadoop, NoSQL, bases de datos y aplicaciones de streaming en una plataforma unificada de big data. MapR se utiliza en servicios financieros, comercio minorista, medios, atención sanitaria, fabricación, telecomunicación e instituciones gubernamentales y, además, se trata de un tipo de distribución que utilizan empresas líderes de la lista Fortune 100 y Web 2.0. Entre los inversores destacan Lightspeed Venture Partners, Mayfield Fund, NEA y Redpoint Ventures. Conecte con MapR en Facebook, LinkedIn y Twitter.

Introducción a Amazon EMR

Cree una cuenta gratuita

Si tiene importantes necesidades de procesamiento de datos, puede optar a precios más bajos.

Contáctese con nosotros si desea más información.

mapr-280
  • Recuperación snapshot: MapR M7 ofrece una alta disponibilidad de la base de datos. El sistema se recupera automáticamente de cualquier error del nodo en cuestión de segundos, de manera que no se interrumpe en absoluto el funcionamiento de la aplicación.
  • Administración cero de HBase: MapR M7 permite a los usuarios utilizar tablas sin tener que ejecutar ningún servicio independiente, como RegionServer. Asimismo, M7 elimina las compactaciones y ofrece divisiones regionales perfectas, por lo que el administrador no necesita ejecutar estas operaciones manualmente.
  • Baja latencia constante: MapR M7 ofrece una baja latencia constante, de manera que se evitan compactaciones o recopilaciones innecesarias que afectan al desempeño. Una baja tasa de E/S de disco sumada a una necesidad menor de espacio en disco hace que las operaciones de la base de datos en el disco se ejecuten de manera rápida y predecible.
  • Protección total de los datos mediante snapshots: M7 ofrece la plena protección de los datos para HBase. Las snapshots permiten la recuperación a un momento dado de las tablas a fin de ofrecer protección frente a errores de los usuarios o de las aplicaciones. M7 amplía las snapshots para incluir todos los datos, ya sean archivos o tablas. Las tablas de HBase se pueden leer directamente desde los snapshots, además de poder recuperarse directamente sin incurrir en el tiempo de inactividad necesario para restablecer HBase en otras distribuciones.
  • Continuidad del negocio gracias a la duplicación de los datos: la duplicación de los datos permite a los usuarios replicar automáticamente los datos diferenciales en tiempo real entre los clústeres. Esto podría utilizarse para crear soluciones de recuperación de desastres para bases de datos, o bien para proporcionar acceso de solo lectura a los datos desde varias ubicaciones. Dado que M7 no requiere la reconstrucción de RegionServer, las bases de datos pueden activarse de manera instantánea en el sitio duplicado si el sitio activo deja de funcionar.
  • NFS: MapR ofrece un acceso de lectura/escritura aleatoria y una interfaz NFS estándar para que los usuarios puedan montar el clúster y beneficiarse de aplicaciones estándar basadas en archivos con Hadoop, entre otras, utilidades de Linux, exploradores de archivos y aplicaciones que no sean de Java. Cuando se utiliza MapR en Amazon EMR, la interfaz NFS se monta previamente en /mapr.
  • ODBC: MapR ofrece un controlador ODBC para Hive que se adapta a la especificación ODBC 3.52 estándar, de manera que los usuarios pueden utilizar cualquier herramienta de inteligencia empresarial o cualquier compilador de consultas SQL con Hadoop. Se soportan MicroStrategy, Tableau, Excel, Toad y muchas otras herramientas comerciales y de código abierto.
  • Implementación: Amazon EMR con MapR automatiza totalmente el aprovisionamiento, la instalación y la configuración del clúster, que se puede lanzar a través de la consola de administración de AWS, con CLI o con API.
  • MapR Control System (MCS): MapR ofrece una monitorización y una administración integrales de Hadoop, incluidos el hardware, el almacenamiento, MapReduce y otros componentes de la distribución.
  • CLI y el API REST: todas las capacidades de MCS también se encuentran disponibles a través de la CLI y del API REST. Esta funcionalidad permite a los usuarios obtener información del clúster y realizar operaciones de manera programática. Asimismo, admite la integración con sistemas de monitorización y administración personalizados y de terceros.
  • Alta disponibilidad del sistema de archivos: MapR ofrece una arquitectura distinta a NameNode que puede tolerar varios errores simultáneamente sin retrocesos ni conmutaciones por error automáticos. Los metadatos se distribuyen y replican de la misma forma que los datos. Gracias a esta arquitectura distinta a NameNode, no existe ningún límite práctico en cuanto a la cantidad de archivos que pueden almacenarse ni ningún tipo de dependencia de servidores NAS externos.
  • Alta disponibilidad de MapReduce: MapR ofrece una alta disponibilidad de JobTracker, con retrocesos y conmutaciones por error automáticos. Si el JobTracker activo falla, se inicia automáticamente en otro nodo, de manera que todos los trabajos y las tareas continúan ejecutándose sin interrupción.
  • Protección de datos: MapR ofrece snapshots para la recuperación a un momento dado, a fin de que los usuarios puedan realizar recuperaciones por errores de usuarios y aplicaciones. MapR utiliza la tecnología redirect-on-write, que permite que solo se realicen snapshots de los bloques modificados a fin de evitar que el desempeño se vea afectado. Tenga en cuenta que está garantizada la consistencia de las snapshots, por lo que se soportan todas las aplicaciones.
  • Recuperación frente a desastres: MapR ofrece la duplicación entre clústeres, por lo que la recuperación de desastres puede realizarse entre las zonas de disponibilidad, además de permitir implementaciones híbridas que comprenden clústeres on-premise y de EMR. Cuando se trata de implementaciones híbridas, se soportan todas las distribuciones de Hadoop basadas en MapR, entre otras, EMC Greenplum MR y el dispositivo Cisco UCS. Tenga en cuenta que solo se transfieren los bloques modificados y que todos los datos se comprimen automáticamente.
  • Compresión: MapR comprime todos los datos que aún no estén comprimidos de manera automática y transparente. De esta forma, se reduce la tasa de E/S de disco y red y se aumenta el desempeño. Además, no es necesario comprimir los archivos o modificar las aplicaciones manualmente para gestionar la compresión. Las lecturas/escrituras aleatorias también resultan eficaces porque solo se descomprimen los bloques necesarios con la capacidad de dividir archivos.
  • Desempeño: MapR presenta una arquitectura avanzada que ofrece mayor eficacia y paralelismo, al mismo tiempo que reduce la tasa de E/S de disco y red. Asimismo, MapR posee récords mundiales por el desempeño que ofrece.


La edición M7 es una distribución completa para Apache Hadoop que ofrece beneficios en cuanto a facilidad de uso, fiabilidad y desempeño para aplicaciones NoSQL y Hadoop. M7 ha eliminado los desafíos a los que se enfrentan las organizaciones al tratar de implementar una solución NoSQL. M7 ofrece escalado, alta coherencia, fiabilidad y una baja latencia constante con una arquitectura que no precisa de compactaciones ni de comprobaciones de consistencia de fondo.

La edición M5 también es una distribución completa para Apache Hadoop que ofrece características empresariales para todas las operaciones de archivos en Hadoop. Entre las características destacan la duplicación, las snapshots, la alta disponibilidad de NFS, el control de la ubicación de los datos y muchas más, que los entornos críticos más exigentes acogerán favorablemente.

La edición M3 es la versión gratuita de nuestra distribución completa para Hadoop. La edición M3 ofrece una plataforma de lectura-escritura totalmente aleatoria que soporta las interfaces estándar del sector (por ejemplo, NFS y ODBC), además de proporcionar ventajas de administración, compresión y desempeño.

Característica de MapR Edición M7 Edición M5 Edición M3
Distribución completa para Apache Hadoop
NFS de acceso directo
Escalado ilimitado
Desempeño récord a escala mundial
MapR Control System (MCS)
Administración de datos basada en volúmenes  
Alta disponibilidad para no NameNode  
Alta disponibilidad de JobTracker  
Snapshots de archivos  
Duplicación de archivos  
Actualizaciones continuas  
Recuperación instantánea para aplicaciones HBase    
Administración cero de HBase
   
Baja latencia constante para HBase    
Snapshots de HBase    
Duplicación de HBase    

La guía EMR Developer Guide incluye instrucciones detalladas sobre cómo lanzar MapR en EMR a través de la consola de administración de AWS, la interfaz de línea de comandos (CLI) o el API. Para lanzar un clúster de MapR con la consola de administración de AWS:

  1. Acceda al servicio de EMR en la consola de administración de AWS.
  2. Haga clic en Create New Job Flow para iniciar el asistente Create a new Job Flow. Este asistente lanzará el clúster de MapR.
  3. Seleccione MapR M7, M5 o M3 en la lista desplegable Hadoop Version del panel Define Job Flow del asistente.
  4. Siga los demás pasos del asistente para lanzar el flujo de trabajo.

Los clientes de AWS Premium Support pueden contactarse con Amazon para tratar cuestiones de MapR en EMR.

Los usuarios de M5 y M7 también pueden contactarse con el equipo de soporte de MapR de manera ininterrumpida, para lo que deben enviar un email a support@mapr.com. Se invita además a los usuarios de MapR a plantear preguntas en los foros de MapR, que están monitorizados continuamente por el equipo de MapR.


Amazon Elastic MapReduce y Amazon EMR son marcas comerciales registradas de Amazon Web Services, Inc. o sus empresas afiliadas. Todos los derechos reservados.