Amazon EMR упрощает процедуру внедрения системы Hadoop в облаке AWS и управления ею. Для Hadoop доступны несколько дистрибутивов, и при использовании Amazon EMR вы можете выбрать дистрибутив Hadoop от Amazon или от компании MapR.

Hadoop от MapR – это проверенная платформа бизнес-уровня, которая поддерживает выполнение множества критически важных рабочих задач в режиме реального времени. Представляя собой единую платформу для работы с большими данными, MapR обеспечивает высочайшую надежность, простоту использования и производительность для приложений Hadoop, NoSQL, приложений баз данных и потоковой обработки данных. Этот дистрибутив используют во многих организациях в сфере финансов, розничной торговли, медиа, здравоохранения, производства, телекоммуникаций, в правительственных организациях и в компаниях, которые возглавляют рейтинги Fortune 100 и Web 2.0. В число инвесторов входят компании Lightspeed Venture Partners, Mayfield Fund, NEA и Redpoint Ventures. Найдите MapR в Facebook, LinkedIn и Twitter.

Начните работу с Amazon EMR

Создать бесплатный аккаунт

Если вы обрабатываете большие объемы данных, возможно, вам будут предоставлены скидки.

Свяжитесь с нами, чтобы узнать подробности.

mapr-280
  • Мгновенное восстановление. Высокая доступность базы данных в M7 от MapR. Система восстанавливается автоматически за считаные секунды после сбоя любого узла, поэтому сбой не повлияет на работу приложения.
  • Администрирование Zero HBase. Работа с таблицами в MapR M7 возможна без запуска отдельных сервисов, таких как RegionServers. Кроме того, M7 исключает уплотнение данных и обеспечивает эффективное разделение регионов, что устраняет необходимость ручного запуска этих операций.
  • Стабильно низкая задержка. MapR M7 исключает очистку памяти от ненужных данных и уплотнение данных, что позволяет держать величину задержки на стабильно низком уровне. Благодаря высокой скорости операций ввода-вывода и небольшому объему диска, операции с базами данных на диске выполняются быстро и предсказуемо.
  • Полная защита данных с помощью снимков состояния. M7 обеспечивает полную защиту данных для HBase. Снимки состояния позволяют восстанавливать таблицы на определенный момент времени для защиты от ошибок, связанных с действиями пользователя или с работой приложения. Снимки состояния в M7 охватывают все типы данных: как файлы, так и таблицы. Чтение таблиц HBase можно выполнять непосредственно со снимков состояний и восстанавливать их без простоя, требуемого для восстановления HBase в других дистрибутивах.
  • Непрерывность бизнес-процессов с использованием зеркального дублирования. Зеркальное дублирование позволяет автоматически реплицировать данные между кластерами в реальном времени. На основе этого метода можно создавать решения аварийного восстановления баз данных или предоставлять доступ только для чтения к данным в различных местоположениях. Так как в M7 для перестройки не требуются процессы RegionServers, базы данных можно немедленно восстановить на зеркале в случае сбоя на основном ресурсе.
  • NFS. MapR предоставляет случайный доступ для чтения/записи и стандартный интерфейс NFS, что позволяет пользователям монтировать кластер и использовать стандартные файловые приложения с Hadoop, включая утилиты Linux, файловые менеджеры и приложения, не являющиеся приложениями Java. При использовании Amazon EMR с MapR интерфейс NFS предварительно монтируется в /mapr.
  • ODBC. В MapR реализован драйвер ODBC для Hive, который соответствует стандартной спецификации ODBC 3.52, что позволяет использовать любые средства бизнес-аналитики и формирования запросов с Hadoop. Поддержка MicroStrategy, Tableau, Excel, Toad и многих других коммерческих и свободно распространяемых приложений.
  • Развертывание. Использование Amazon EMR с MapR дает возможность полностью автоматизировать процессы внедрения, установки и настройки кластера и запускать их с помощью Консоли управления AWS, интерфейса командной строки или API.
  • Система управления MapR (MCS). MapR предоставляет возможность комплексного мониторинга и управления для Hadoop, включая контроль оборудования, хранилища, MapReduce и других компонентов дистрибутива.
  • Интерфейс командной строки и API REST. Все возможности MCS также могут быть реализованы средствами интерфейса командной строки и API REST. Это позволяет пользователям получать информацию о кластере и выполнять операции программным путем, а также интегрировать пользовательские системы мониторинга и управления и системы сторонних производителей.
  • Высокая доступность файловой системы. В MapR реализована архитектура no-NameMode, которая может функционировать при нескольких одновременных ошибках с помощью автоматической отработки отказов и автоматических откатов. Метаданные распределяются и дублируются таким же образом, как и обычные данные. При использовании архитектуры no-NameNode нет ограничений на количество сохраненных файлов, а также отсутствует зависимость от внешних NAS.
  • Высокая доступность MapReduce. В MapR реализована система высокой доступности JobTracker с автоматической отработкой отказов и автоматическими откатами. Если активная система JobTracker не срабатывает, она автоматически запускается на другом узле, а все задания продолжают выполняться без остановки.
  • Защита данных. Использование снимков состояния позволяет восстанавливать данные на определенный момент времени для защиты от ошибок, связанных с действиями пользователя или с работой приложения. В MapR реализована технология redirect-on-write, поэтому снимки состояния выполняются только с блоков, претерпевших изменения, что позволяет избежать снижения производительности. Следует отметить, что снимки состояния всегда в одном формате, поэтому поддерживаются все приложения.
  • Аварийное восстановление. MapR поддерживает зеркальное дублирование между кластерами, что обеспечивает выполнение аварийного восстановления между зонами доступности, а также гибридное развертывание как в локальных кластерах, так и в кластерах EMR. В случае гибридного развертывания поддерживаются все дистрибутивы Hadoop от MapR, включая EMC Greenplum MR и устройства Cisco UCS. Следует отметить, что выполняется передача только измененных блоков и автоматическое сжатие всех данных.
  • Сжатие. MapR автоматически и прозрачно выполняет сжатие всех несжатых данных. Это позволяет сократить время выполнения операций ввода-вывода при обмене данными с диском и при пересылке в сети и улучшить производительность, а также устраняет необходимость сжимать файлы вручную или изменять приложения для подготовки к сжатию. Случайные операции чтения и записи также являются эффективным решением, поскольку распаковываются только требуемые блоки и сохраняется возможность разделения файлов.
  • Производительность. В MapR реализована передовая архитектура, которая обеспечивает высокую эффективность и параллельную обработку данных при снижении длительности операций ввода/вывода сети и диска. MapR принадлежит мировой рекорд производительности.


Версия M7 – это полный дистрибутив Apache Hadoop, обеспечивающий легкость использования, надежность и производительность приложений NoSQL и Hadoop. С версией M7 организациям больше не требуется идти на уступки при развертывании решений NoSQL. Версия M7 обеспечивает масштабируемость, стабильность, надежность, низкую задержку и архитектуру, для которой не требуются уплотнение или фоновые проверки стабильности.

В версии M5 также реализована полная база раздачи для Apache Hadoop, которая обеспечивает возможности корпоративного уровня для всех операций с файлами Hadoop. Такие возможности, как дублирование, создание снимков состояния, высокая доступность NFS и контроль расположения данных, требуются во многих важнейших областях применения.

Версия M3 – это бесплатная версия полного дистрибутива Hadoop. Версия M3 представляет собой платформу, поддерживающую полностью случайные операции чтения и записи и широко распространенные интерфейсы (например, NFS и ODBC); она также предоставляет улучшения для управления, сжатия и производительности.

Функция MapR Версия M7 Версия M5 Версия M3
Полный дистрибутив Apache Hadoop
Прямой доступ к NFS
Неограниченная масштабируемость
Рекордная производительность
Система контроля MapR (MCS)
Управление данными на основе дисков  
Система высокой доступности no-NameNode  
Система высокой доступности JobTracker  
Снимки состояния файлов  
Зеркальное дублирование файлов  
Постоянные обновления  
Мгновенное восстановление приложений HBase    
Администрирование Zero HBase
   
Стабильно низкая задержка для HBase    
Снимки состояния для HBase    
Зеркальное дублирование для HBase    

В руководстве разработчика EMR содержатся подробные инструкции по запуску MapR на EMR с помощью Консоли управления AWS, интерфейса командной строки или API. Чтобы запустить кластер MapR с помощью консоли управления AWS:

  1. Откройте страницу сервиса EMR в Консоли управления AWS.
  2. Нажмите «Создать новую схему обработки заданий» для запуска мастера создания новой схемы обработки заданий. Этот мастер запустит кластер MapR.
  3. Выберите MapR M7, M5 или M3 в выпадающем списке «Версия Hadoop» на панели «Параметры схемы обработки задания».
  4. Следуйте дальнейшим инструкциям мастера для запуска схемы обработки заданий.

Пользователи AWS Premium Support могут обратиться в Amazon по любым вопросам о работе с MapR на EMR.

Пользователи версий M5 и M7 могут также обратиться в круглосуточную службу поддержки по адресу электронной почты: support@mapr.com. Все пользователи MapR могут публиковать вопросы на форумах MapR, которые постоянно просматривают специалисты MapR.


Amazon Elastic MapReduce и Amazon EMR являются товарными знаками Amazon Web Services, Inc. или ее дочерних организаций. Все права защищены.