reInvent-emr-thumbnail
Design Patterns and Best Practices for Data Analytics with Amazon EMR
Amazon EMR является одним из крупнейших операторов Hadoop в мире. Сервис позволяет клиентам запускать процессы ETL, использовать машинное обучение, обработку в режиме реального времени, анализировать данные и запускать SQL-запросы с низкой задержкой в масштабе петабайтов. Этот семинар знакомит с шаблонами проектирования Amazon EMR, такими как использование Amazon S3 вместо HDFS, применение преимуществ долговременных и кратковременных кластеров, а также с другими рекомендациями по архитектуре Amazon EMR. Мы рассказываем о снижении стоимости с помощью Auto Scaling и спотовых инстансов, а также даем рекомендации по обеспечению безопасности с использованием шифрования и точного контроля доступа. В завершение будет рассказано о некоторых нововведениях, что позволит вам оставаться в курсе наших последних разработок.
reInvent-emr-thumbnail-2016
Deep Dive: Amazon EMR Best Practices & Design Patterns
Amazon EMR является одним из крупнейших операторов Hadoop в мире. Этот семинар знакомит с шаблонами проектирования Amazon EMR, такими как использование Amazon S3 вместо HDFS, применение преимуществ долговременных и кратковременных кластеров, а также с другими рекомендациями по архитектуре Amazon EMR. Мы расскажем, как динамически масштабировать кластер в сторону увеличения или уменьшения, а также о способах тонкой настройки кластера. Дополнительно будут даны рекомендации по снижению стоимости использования кластера Amazon EMR. В завершение будет рассказано о некоторых нововведениях, что позволит вам оставаться в курсе наших последних разработок. На этом семинаре будет представлена компания Asurion, поставщик сервисов по защите и поддержке устройств для более чем 280 миллионов смартфонов и других устройств бытовой электроники. Asurion поделится тем, как с помощью Apache Hive, Apache Spark и Presto на Amazon EMR была создана архитектура ее платформы данных петабайтного масштаба.
reInvent-emr-finra-thumbnail-2015
FINRA. Extending the S3 Data Lake to Apache HBase
aws-summit-emr-thumbnail-2016
Best Practices for Using Apache Spark on Amazon EMR
Чтобы получать более качественную информацию о клиентах и действенную бизнес-аналитику, организациям требуется выполнять все более сложный анализ данных, включая анализ потоковых данных, выполнение спонтанных запросов и прогнозную аналитику. Платформа Apache Spark в последнее время зарекомендовала себя как одна из лучших платформ для решения многих из этих вопросов. На этом семинаре мы покажем, как использовать Apache Spark на AWS для реализации и масштабирования типовых примеров использования больших данных, таких как обработка данных в режиме реального времени, интерактивный анализ данных, прогнозная аналитика и многое другое. Мы поговорим о типовых архитектурах, о рекомендациях по быстрому созданию кластеров Spark с использованием Amazon EMR и о способах интеграции Spark с другими сервисами больших данных на AWS. Цели обучения. Узнать, почему Spark отлично подходит для специального интерактивного анализа и обработки потоков в режиме реального времени. Понять, как развернуть и настроить масштабируемые кластеры Spark на Amazon EMR. Узнать, как использовать файловую систему EMR (EMRFS) со Spark для выполнения запросов по данным, находящимся непосредственно в Amazon S3. Стандартные архитектуры использования Spark с Amazon DynamoDB, Amazon Redshift, Amazon Kinesis и многими другими сервисами.
reInvent-emr-justgiving-thumbnail-2016
JustGiving. Serverless Data Pipelines, ETL & Stream Processing
Организации нуждаются в получении сведений и аналитики из растущего числа источников: Интернета вещей (IoT), программных интерфейсов приложений (API), истории посещений, неструктурированных источников данных и журналов. Однако при этом возможности организаций часто ограничены устаревшими хранилищами данных и процессами ETL, которые были разработаны для транзакционных данных. Построение масштабируемых конвейеров больших данных с автоматизированными процессами извлечения, трансформации и загрузки данных (ETL) и машинным обучением может устранить эти ограничения. JustGiving – это крупнейшая в мире социальная платформа для онлайн-пожертвований. На этом семинаре мы расскажем о том, как мы создали в рамках нашей собственной научной платформы данных RAVEN несколько масштабируемых, слабосвязанных, управляемых событиями конвейеров ETL и машинного обучения (ML). Вы узнаете, как использовать AWS Lambda, Amazon S3, Amazon EMR, Amazon Kinesis и другие сервисы для создания в организации бессерверных конвейеров обработки данных и потоков, управляемых событиями. Мы проведем обзор типовых шаблонов проектирования, приобретенного опыта и рекомендаций с акцентом на бессерверные архитектуры обработки больших данных с использованием AWS Lambda.
reInvent-emr-nasdaq-thumbnail-2015
Nasdaq. A Big Data & Analytics App on Amazon EMR & Amazon Redshift
Независимо от отрасли, ведущим организациям для поддержки рабочих нагрузок при одновременном ограничении затрат необходимо тесно интегрировать, развертывать, защищать и масштабировать различные технологии. Компания Nasdaq, Inc. – ведущий поставщик торговых, клиринговых и биржевых технологий – не является исключением. После переноса более 1100 таблиц из старого хранилища данных в Amazon Redshift компания Nasdaq, Inc. теперь внедряет полностью интегрированную архитектуру обработки больших данных, включающую Amazon S3, Amazon EMR и Presto, предназначенную для безопасного анализа больших наборов исторических данных в тщательно контролируемой среде. Nasdaq, Inc. делится полученным опытом и рекомендациями по развертыванию высоконадежной унифицированной архитектуры обработки больших данных на AWS.