Озера данных и аналитика в AWS

Самые функциональные, безопасные, масштабируемые и экономичные сервисы для создания озер данных и аналитических решений

AWS предлагает интегрированный набор сервисов, который включает все необходимое для простого и быстрого создания озер данных для задач аналитики и дальнейшего управления ими. Озера данных на основе AWS могут обеспечить удобное масштабирование, динамичность и гибкость, необходимые для объединения разных типов данных и выполнения более глубокого анализа, чем было возможно прежде, с применением традиционных систем и хранилищ данных. AWS предоставляет своим пользователям широкий спектр сервисов аналитики и машинного обучения, которые обеспечивают простой доступ к любым релевантным данным без какого‑либо ущерба для безопасности или возможностей управления.

AWS опережает все аналогичные системы по количеству клиентских организаций, использующих озера данных и инструменты аналитики. Такие клиенты как NASDAQ, Zillow, Yelp, iRobot и FINRA доверяют AWS выполнение критически важных для их бизнеса аналитических нагрузок.

Озера данных и аналитика в AWS

Озера данных и аналитика в AWS

AWS предоставляет наиболее полный набор сервисов для перемещения, хранения и анализа данных, чтобы обеспечить клиентам возможность создания озер данных и аналитических решений.

aws-datalake-diagram-simplified

Перемещение данных

Импортируйте данные из локальных хранилищ в режиме реального времени.

Озеро данных

Безопасно храните любые объемы данных – от гигабайтов до эксабайтов.

Аналитика

Анализируйте данные с помощью самого широкого спектра сервисов аналитики.

Машинное обучение

Прогнозируйте возможные результаты и назначайте необходимые действия для быстрого реагирования.

Перемещение данных

Первым шагом к созданию озера данных в AWS является перенос данных в облако. Пределы физических возможностей каналов и скорость передачи ограничивают способность перемещения данных без серьезных сбоев, а также значительных затрат времени и денег. AWS предлагает широкий набор возможностей для переноса данных в облако, которые делают эту процедуру максимально простой и гибкой.

Изучите материалы, посвященные AWS Lake Formation, для создания заданий ETL и процедур преобразования на основе машинного обучения для озер данных.

Перемещение локальных данных

AWS предлагает множество способов перемещения данных из ЦОД в облако AWS. Для создания выделенного подключения между корпоративной сетью и AWS можно использовать сервис AWS Direct Connect. Для перемещения в AWS петабайтов и эксабайтов данных с помощью физических устройств можно использовать сервисы AWS Snowball и AWS Snowmobile. Сервис AWS Storage Gateway обеспечивает локальным приложениям возможность сохранять данные напрямую в AWS.  

Перемещение данных в режиме реального времени

AWS предоставляет множество способов загрузки данных, поступающих из новых источников, таких как веб‑сайты, мобильные приложения и устройства с подключением к Интернету. Для упрощения сбора и загрузки потоковых данных или данных, поступающих от IoT‑устройств, можно использовать сервисы Amazon Kinesis Data Firehose, Amazon Kinesis Video Streams и AWS IoT Core.  

Озеро данных

Когда данные подготовлены к использованию в облаке, AWS просто обеспечивает их безопасное хранение в любом масштабе с помощью сервисов Amazon S3 и Amazon Glacier. Сервис AWS Glue автоматически создает единый каталог данных, который поддерживает поиск по содержимому и пользовательские запросы. Это упрощает конечным пользователям поиск релевантных данных для анализа.

Чтобы быстрее создавать безопасные озера данных, изучите материалы по AWS Lake Formation.

Объектное хранилище

Amazon S3

Amazon S3 – это надежное и защищенное объектное хранилище с широкими возможностями масштабирования, которое обеспечивает доступ к данным с задержкой на уровне миллисекунд. Сервис S3 предназначен для хранения любых типов данных, поступающих из любых источников: веб‑сайтов и мобильных приложений, корпоративных приложений, а также датчиков или устройств IoT. Он создан с целью хранения и извлечения любых объемов данных с гарантией беспрецедентной доступности. Сервис спроектирован и создан для обеспечения надежности на уровне 99,999999999 %. Возможность S3 Select уточняет операции считывания и извлечения данных, снижая время ответа (до 400 %). S3 открывает широчайшие возможности для обеспечения безопасности и соответствия самым строгим нормативным требованиям.  

Резервное копирование и архивирование

Amazon Glacier

Amazon Glacier – это надежное, безопасное и очень экономичное хранилище для долговременного хранения архивов и резервных копий, которое обеспечивает доступ к данным в течение считаных минут, а возможность Glacier Select позволяет считывать и извлекать только нужные данные. Amazon Glacier обеспечивает надежность на уровне 99,999999999 % и предоставляет полный набор инструментов для защиты данных и обеспечения соответствия самым строгим нормативным требованиям. Стоимость хранения данных составляет всего 0,004 USD за гигабайт в месяц. Это значительно экономичней, чем решения, основанные на локальном хранении.

Каталог данных

AWS Glue

AWS Glue – это полностью управляемый сервис, который позволяет создавать каталоги для поиска данных в озере. Он обеспечивает возможность выполнять операции по извлечению, преобразованию и загрузке (ETL) данных в целях их подготовки их к анализу. Каталог создается автоматически в форме постоянного хранилища метаданных для всех ресурсов. В результате вести поиск и формировать запросы к данным можно в едином интерфейсе.

Аналитика

AWS предлагает самый широкий и экономичный набор сервисов аналитики, которые работают с озерами данных. Каждый аналитический сервис специально спроектирован для широкого спектра примеров использования, таких как интерактивный анализ, обработка больших данных с помощью Apache Spark и Hadoop, хранение данных, анализ в режиме реального времени, операционный анализ, создание информационных панелей и визуализация данных.

Для организации безопасного самостоятельного доступа аналитических сервисов к данным в озере изучите материалы по AWS Lake Formation.

Интерактивная аналитика

Amazon Athena

Для задач интерактивной аналитики сервис Amazon Athena упрощает прямой анализ данных в S3 и Glacier с помощью стандартных SQL‑запросов. Сервис Athena является бессерверным, поэтому настраивать инфраструктуру и управлять ею не требуется. Он позволяет мгновенно приступать к формированию запросов к данным, получать результат за считаные секунды и платить только за выполненные запросы. Просто укажите данные в Amazon S3, задайте схему и выполняйте запросы, используя стандартные средства SQL. Большинство результатов будет получено в течение нескольких секунд.  

Обработка больших данных

Amazon EMR

Для обработки больших данных с помощью платформ Apache Spark и Hadoop Amazon EMR предоставляет управляемый сервис, который позволяет быстро, просто и экономично обрабатывать колоссальные объемы данных. Amazon EMR поддерживает 19 различных проектов с открытым исходным кодом, включая Hadoop, Spark, HBase и Presto, с управляемыми блокнотами EMR Notebooks для задач инжиниринга данных, развития науки о данных и организации совместной работы. Каждый проект обновляется в EMR в течение 30 дней после выхода очередной версии, что гарантирует использование самых последних оптимизированных сборок от сообщества разработчиков.

Хранение данных

Amazon Redshift

Для хранения данных Amazon Redshift предоставляет возможность выполнять комплексные аналитические запросы к массивам структурированных данных в объеме петабайтов, и включает сервис Redshift Spectrum, который исполняет прямые SQL‑запросы к массивам из эксабайтов структурированных и неструктурированных данных в S3 без их перемещения. Стоимость использования Amazon Redshift в десять раз меньше стоимости аналогичных традиционных решений. Можно начать с небольших объемов работы по тарифу 0,25 USD в час и масштабировать процессы до петабайтов данных по цене 1000 USD за петабайт в год.

Аналитика в режиме реального времени

Amazon Kinesis

Для задач аналитики в режиме реального времени Amazon Kinesis позволяет без труда собирать, обрабатывать и анализировать потоковые данные, такие как данные телеметрии с IoT‑устройств, журналы приложений и истории навигации по веб‑сайтам. Это дает возможность обрабатывать и анализировать данные по мере их поступления в озеро и реагировать на ситуацию в режиме реального времени, а не ждать, пока все данные будут собраны, чтобы начать их обработку.

Операционная аналитика

Amazon Elasticsearch Service

Для задач операционной аналитики, таких как мониторинг приложений, анализ журналов и истории навигации по веб‑сайтам, сервис Amazon Elasticsearch Service позволяет находить, исследовать, фильтровать, агрегировать и визуализировать данные в режиме реального времени. Amazon Elasticsearch Service предоставляет простые удобные API и возможности ведения аналитики в режиме реального времени, а также обеспечивает доступность, масштабируемость и безопасность на уровне рабочих нагрузок.

 

Информационные панели и визуализация

Amazon QuickSight

Для создания информационных панелей и визуализации данных Amazon QuickSight предоставляет быстрый облачный сервис бизнес‑аналитики, который позволяет без труда создавать потрясающие визуализации и информационные панели, доступные из любого браузера или с любого мобильного устройства.

 

Машинное обучение

Для задач прогнозной аналитики AWS предоставляет широкий набор сервисов машинного обучения, а также инструментов, работающих с озерами данных в AWS. Все сервисы построены на базе большого объема знаний, накопленных в компании Amazon, которая использует машинное обучение для систем рекомендаций сайта Amazon.com, организации цепочек поставки, прогнозирования, обеспечения работы центров обработки заказов и управления ресурсами.  

Платформы и интерфейсы

Специалисты по машинному обучению и работе с данными могут воспользоваться образами AWS Deep Learning AMI, позволяющими просто создавать модели глубокого обучения и кластеры с помощью инстансов с графическими процессорами, оптимизированных для машинного и глубокого обучения. AWS поддерживает все основные платформы машинного обучения, включая Apache MXNet, TensorFlow и Caffe2, что позволяет клиентам использовать или разрабатывать любые подходящие модели. Эти возможности предлагают непревзойденную мощность, скорость и эффективность, столь необходимую для рабочих нагрузок, использующих машинное и глубокое обучение.

Сервисы платформы

Для разработчиков, которые хотят развиваться в сфере машинного обучения, Amazon SageMaker предлагает платформенный сервис, который упрощает весь процесс создания, обучения и развертывания моделей машинного обучения. Он предоставляет все необходимое для подключения к обучающим данным, выбора и оптимизации лучших алгоритмов и платформ с последующим развертыванием на автомасштабируемых кластерах Amazon EC2. Amazon SageMaker предоставляет размещенные блокноты Jupyter, которые облегчают изучение и визуализацию обучающих данных, хранимых в Amazon S3.

Сервисы приложений

Для разработчиков, которые хотят внедрить в свои приложения готовые функциональные возможности искусственного интеллекта, AWS предлагает ориентированные на использование в таких решениях API машинного зрения и обработки естественного языка. Эти сервисы приложений позволяют разработчикам добавлять в приложения интеллектуальные возможности, не прибегая к разработке и обучению собственных моделей.

AWS – самая популярная платформа для создания озер данных и аналитических решений

Почему стоит создавать озера данных и аналитические решения в AWS?

Гибкость и возможности выбора

AWS предлагает широчайший набор аналитических инструментов и сервисов, позволяющих анализировать данные в открытых форматах и с помощью открытых стандартов. Можно сохранять данные в любом удобном в стандартизированном формате, например CSV, ORC, Grok, Avro и Parquet, а затем гибко анализировать полученные за день данные различными способами, например с помощью хранилища данных, интерактивных SQL‑запросов, аналитики в режиме реального времени и обработки больших данных. Ассортимент аналитических сервисов AWS, предназначенных для работы с данными, гарантирует доступность ресурсов и возможностей для текущих и будущих примеров использования аналитических решений.

Непревзойденное масштабирование и доступность

Сервис Amazon S3 создан с целью хранения и извлечения любых объемов данных с гарантией беспрецедентной доступности. Сервис спроектирован и создан для обеспечения надежности на уровне 99,999999999 %. Это единственное решение хранилища, позволяющее хранить данные в нескольких ЦОД в трех зонах доступности в рамках одного региона AWS, что позволяет исключить проблемы, связанные с хранением данных в одном ЦОД, и единственное предложение для хранения данных, обеспечивающее эффективную репликацию данных между любыми регионами.

Высокая безопасность

Amazon S3 – это единственная платформа облачного хранилища, которая позволяет применять политики доступа, ведения журналов и аудита на уровне как аккаунта, так и объектов. Сервис S3 предлагает автоматическое шифрование на стороне сервера, шифрование с помощью ключей, управляемых сервисом AWS Key Management Service (KMS), и шифрование с помощью ключей, управляемых пользователем. Сервис S3 шифрует данные при передаче в процессе репликации между регионами и позволяет использовать отдельные аккаунты в исходном и целевом регионе для защиты от удаления данных злоумышленниками, находящимися внутри компании. Чтобы с опережением обнаруживать ранние этапы атак, Amazon Macie – сервис безопасности на основе машинного обучения – непрерывно выполняет мониторинг действий по доступу к данным для выявления отклонений от нормы и генерирует предупреждения, если обнаруживает риск несанкционированного доступа или неумышленной утечки данных.

Экономичность

Озера данных, созданные в AWS, обеспечивают максимальную экономичность. Редко используемые данные можно переместить в сервис Amazon Glacier, предлагающий долгосрочное резервное копирование и архивацию по очень низкой цене. Возможности управления Amazon S3 способны анализировать схемы доступа к объектам для перемещения редко используемых данных в Glacier по требованию или автоматически на основе политик жизненного цикла. Начать запросы к данным с помощью Amazon Athena можно по тарифу всего 0,005 USD за гигабайт опрошенных данных. Прочие сервисы аналитики и машинного обучения доступны с оплатой по факту использования ресурсов.

Высокая производительность

Аналитические сервисы, такие как Amazon Redshift и Amazon Athena, были созданы для быстрого исполнения интерактивных запросов и поддержки большого количества одновременных интерактивных запросов. При использовании широкого ассортимента сервисов аналитики и машинного обучения AWS с помощью Amazon S3 Select осуществляется возврат лишь необходимых подмножеств объектов, что приводит к значительному ускорению исполнения запросов (до 400 %) при значительно меньшей стоимости. Glacier Select предлагает аналогичные возможности и позволяет быстрее извлекать архивные данные. В результате клиенты могут расширить функционал аналитических решений и, помимо озера данных, включить в него архивное хранилище.  

 

Крупнейшая партнерская сеть

Партнерская сеть AWS (APN) предлагает вдвое больше партнерских интеграций по сравнению с конкурирующими сетями. В нее входят десятки тысяч партнеров, в том числе консультанты и независимые разработчики ПО со всего мира. В результате клиенты могут просто интегрировать множество привычных им инструментов в новый рабочий процесс. Пакеты Quick Start для озер данных, разработанные архитекторами решений и партнерами AWS, помогают за пару простых шагов создавать, тестировать и развертывать решения для озер данных на основе рекомендаций AWS в области безопасности и высокой доступности. 

 

Начать работу с AWS

Step 1 - Sign up for an AWS account

Зарегистрировать аккаунт AWS

Получите мгновенный доступ к уровню бесплатного пользования AWS
 
icon2

Создание безопасного озера данных за считаные дни

Сведения о AWS Lake Formation

 
icon3

Начать разработку с AWS

Начать работу с озерами данных в AWS

Развертывание озера данных с помощью AWS Lake Formation
Есть вопросы?
Свяжитесь с нами