Блог AWS Big Data Blog предназначен для архитекторов решений, специалистов по обработке данных и разработчиков. Здесь можно найти рекомендации по работе с большими данными, узнать об управляемых сервисах AWS для анализа больших данных, наиболее подходящих к конкретному примеру использования, и получить необходимое базовое или углубленное представление о работе сервисов AWS для больших данных. Цель блога – создать портал для всех пользователей, желающих узнать новые способы сбора, хранения, обработки, анализа и визуализации данных при любом масштабе. Читатели смогут найти небольшие справочные материалы с образцами кода, примеры использования, демонстрирующие уникальные преимущества анализа больших данных в AWS, анонсы новых функций, а также демонстрационные и справочные материалы от партнеров и клиентов с советами и наилучшими методиками использования сервисов AWS для анализа больших данных.



Программа публичных пакетов данных Amazon заключается в хостинге актуальных наборов данных, доступных всем пользователям, заинтересованным в популяризации инноваций и развитии научно-исследовательской деятельности. Если вам необходимо извлечь данные из открытого веб-фонда Common Crawl, сравнить геномные последовательности или проанализировать изображения, полученные от NASA, платформа AWS готова предложить вам необходимые данные, сервисы и инфраструктуру.


DynamoDB – это быстрая, полностью управляемая база данных NoSQL, которая обеспечивает удобное и недорогое хранение и извлечение любого количества данных с необходимой скоростью. Надежная пропускная способность и задержка на уровне нескольких миллисекунд позволяют использовать это решение для рекламных, мобильных, игровых и многих других приложений.

Amazon Elastic MapReduce (Amazon EMR) – это веб-сервис, позволяющий быстро и недорого обрабатывать большие объемы данных.

Сервис Amazon EMR использует для распространения ваших данных среду с открытым исходным кодом Hadoop и обработку в масштабируемом кластере инстансов Amazon EC2. Сервис Amazon EMR используется в различных областях применения, в том числе для анализа журналов, веб-индексации, хранения данных, машинного обучения, финансового анализа, научного моделирования и в сфере биоинформатики. Каждый год наши клиенты запускают миллионы кластеров Amazon EMR.

Amazon Kinesis – это полностью управляемый сервис для потоковой обработки больших объемов данных в режиме реального времени. Сервис Amazon Kinesis способен собирать и анализировать сотни терабайтов данных в час из сотен тысяч источников. Это позволяет легко, в режиме реального времени создавать приложения, которые выполняют обработку информации, получаемой из таких источников, как данные навигации, маркетинговые и финансовые данные, производственные КИП и социальные медиа, журналы операций и учет данных.

Приложения Amazon Kinesis дают пользователям возможность создавать панели управления в режиме реального времени, фиксировать исключения и генерировать предупреждения, выводить рекомендации, а также принимать другие стратегические и прикладные решения в режиме реального времени. Вы также сможете легко отправлять данные в другие сервисы, например в Amazon Simple Storage Service (Amazon S3), Amazon DynamoDB или Amazon Redshift. С помощью нескольких щелчков мышью и пары строк кода вы сможете начать разработку приложений, реагирующих на изменения в потоке данных в течение нескольких секунд при любом масштабе. При этом вы будете платить только за потребляемые ресурсы.

Amazon S3 – это сервис хранилища для Интернета и основной компонент всех архитектур для работы с большими данными на платформе AWS. Он позволяет упростить для разработчиков процесс выполнения вычислений в масштабе сети Интернет.

Amazon S3 предоставляет простой интерфейс веб-сервисов, который можно использовать для хранения и извлечения любых объемов данных, в любое время, из любого места сети. Оно обеспечивает любому разработчику доступ к той же высоко масштабируемой, надежной, безопасной, быстрой и недорогой инфраструктуре, которую Amazon использует для управления сетью своих собственных веб-сайтов. Это решение позволяет разработчикам максимально использовать все преимущества масштабируемости.

Amazon Redshift – это высокоскоростной, полностью управляемый, масштабируемый до петабайтов сервис для хранения данных, который упрощает эффективный анализ всех ваших данных с минимальными затратами и с использованием привычных инструментов бизнес-аналитики. Вы можете начать с малого всего за 0,25 USD в час без каких-либо обязательств или авансовых платежей и масштабировать объем данных до петабайтов и более по цене 1000 USD за 1 ПБ в год. Это в десять раз меньше, чем стоимость других решений для хранения данных.