Озера данных и аналитика в AWS

Ваши пользователи смогут в кратчайшие сроки получить необходимые ответы в результате анализа всего массива данных

AWS предлагает интегрированный набор сервисов, который включает все необходимое для того, чтобы просто и быстро создавать озера данных для анализа и дальнейшего управления ими. Озера данных на основе AWS могут обеспечить удобное масштабирование, динамичность и гибкость, необходимые для объединения разных типов данных и выполнения более глубокого анализа, чем было возможно прежде, с применением традиционных систем и хранилищ данных. AWS предоставляет своим пользователям широкий спектр сервисов аналитики и машинного обучения, которые обеспечивают простой доступ к любым релевантным данным без какого‑либо ущерба для безопасности или возможностей управления.

AWS опережает все аналогичные системы по количеству клиентских организаций, использующих озера данных и инструменты аналитики. Такие клиенты как NASDAQ, Zillow, Yelp, iRobot и FINRA доверяют AWS выполнение критически важных для их бизнеса аналитических нагрузок.

Озера данных и аналитика в AWS

Озера данных и аналитика в AWS

AWS предоставляет наиболее полный набор сервисов для перемещения, хранения и анализа данных, чтобы обеспечить клиентам возможность создания озер данных и аналитических решений.

aws-datalake-diagram-simplified

Перемещение данных

Импортируйте данные из локальных хранилищ в режиме реального времени.

Озеро данных

Безопасно храните любые объемы данных – от гигабайтов до эксабайтов.

Аналитика

Анализируйте данные с помощью самого широкого спектра сервисов аналитики.

Машинное обучение

Прогнозируйте возможные результаты и назначайте необходимые действия для быстрого реагирования.

Причины создавать озера данных и аналитические решения в AWS

Самый простой способ создания озер данных

Создавайте надежные озера данных в течение нескольких дней, а не месяцев. Используя опыт взаимодействия с десятками тысяч клиентов по созданию продуктивных озер данных, мы смогли упростить каждый аспект анализа данных в облаке. Так, AWS Lake Formation позволяет автоматизировать шаги по построению озера данных, которые обычно выполняются вручную, и предоставляет единый механизм безопасности для всех ваших данных. В результате вы затрачиваете меньше времени на однообразную тяжелую работу по созданию озера и можете сосредоточится на изучении данных, чтобы получить ответы на важные вопросы.

Эффективность при минимальных затратах

На платформе AWS пользователи могут при минимальных затратах хранить свои данные и в кратчайшие сроки выполнять их анализ. Так, Amazon S3 предоставляет пять классов хранилища и автоматическое управление жизненным циклом данных, поэтому вы платите только за те операции с данными, которые необходимо выполнить согласно их назначению. Amazon Redshift в 3 раза быстрее любого другого облачного хранилища данных, и скорость его работы увеличивается с каждым годом. Amazon EMR обеспечивает самый быстрый инструмент для запуска рабочих нагрузок Apache Spark и Apache HIVE в облаке. Благодаря глубокой интеграции EMR с остальными сервисами AWS клиенты могут использовать экономные функции, такие как спотовые инстансы EC2, и сократить расходы до 90 %.

Универсальность и доступность

Хранение всех данных в одной изолированной службе аналитики больше не является эффективным решением. На сегодняшний день применяют комплекс инструментов и подходов, включая SQL, R, Scala, Jupyter и Python, чтобы, используя разные языки, получить точную информацию, которая поспособствует решению проблем или оптимизации решений. AWS предоставляет комплекс аналитических сервисов для работы с озером открытых данных, поэтому вы всегда можете выбрать подходящий инструмент без необходимости перемещать или преобразовывать данные для каждого отдельного аналитического подхода. Все наши сервисы поддерживают доступ к данным, хранящимся в едином хранилище объектов (S3), с открытыми API, в открытых форматах (например, Apache Paquet, Apache ORC, Apache Avro) и с использованием движков как с закрытым (Redshift для хранилищ данных), так и открытым исходным кодом (например, Spark, Hive). 

Максимальная безопасность

Данные должны храниться в безопасности и с соблюдением соответствующих правил. AWS предоставляет полный набор инструментов, который выходит за рамки стандартных функций безопасности, таких как шифрование и контроль доступа, для выполнения упреждающего мониторинга и унифицированного управления протоколами безопасности. Так, Amazon Macie помогает выполнять мониторинг озера данных, чтобы вы случайно не раскрыли учетные данные или информацию, позволяющую установить личность (PII). Amazon Inspector помогает применять лучшие практики и выявлять проблемы конфигурации, которыми могут воспользоваться, а AWS Lake Formation постоянно контролирует доступ к данным в вашем озере во всех аналитических сервисах. 

Перемещение данных

Первым шагом к созданию озера данных в AWS является перенос данных в облако. Пределы физических возможностей каналов и скорость передачи ограничивают способность перемещения данных без серьезных сбоев, а также значительных затрат времени и денег. AWS предлагает широкий набор возможностей для переноса данных в облако, которые делают эту процедуру максимально простой и гибкой.

Изучите материалы, посвященные AWS Lake Formation, для создания заданий ETL и процедур преобразования на основе машинного обучения для озер данных.

Перемещение локальных данных

AWS предлагает множество способов перемещения данных из ЦОД в облако AWS. Для создания выделенного подключения между корпоративной сетью и AWS можно использовать сервис AWS Direct Connect. Для перемещения в AWS петабайтов и эксабайтов данных с помощью физических устройств можно использовать сервисы AWS Snowball и AWS Snowmobile. Сервис AWS Storage Gateway обеспечивает локальным приложениям возможность сохранять данные напрямую в AWS.  

Перемещение данных в режиме реального времени

AWS предоставляет множество способов загрузки данных, поступающих из новых источников, таких как веб‑сайты, мобильные приложения и устройства с подключением к Интернету. Для упрощения сбора и загрузки потоковых данных или данных, поступающих от IoT‑устройств, можно использовать сервисы Amazon Kinesis Data Firehose, Amazon Kinesis Video Streams и AWS IoT Core.  

Озеро данных

Когда данные подготовлены к использованию в облаке, AWS просто обеспечивает их безопасное хранение в любом масштабе с помощью сервисов Amazon S3 и Amazon Glacier. Сервис AWS Glue автоматически создает единый каталог данных, который поддерживает поиск по содержимому и пользовательские запросы. Это упрощает конечным пользователям поиск релевантных данных для анализа.

Чтобы быстрее создавать безопасные озера данных, изучите материалы по AWS Lake Formation.

Объектное хранилище

Amazon S3

Amazon S3 – это надежное и защищенное объектное хранилище с широкими возможностями масштабирования, которое обеспечивает доступ к данным с задержкой на уровне миллисекунд. Сервис S3 предназначен для хранения любых типов данных, поступающих из любых источников: веб‑сайтов и мобильных приложений, корпоративных приложений, а также датчиков или устройств IoT. Он создан с целью хранения и извлечения любых объемов данных с гарантией беспрецедентной доступности. Сервис спроектирован и создан для обеспечения надежности на уровне 99,999999999 %. Возможность S3 Select уточняет операции считывания и извлечения данных, снижая время ответа (до 400 %). S3 открывает широчайшие возможности для обеспечения безопасности и соответствия самым строгим нормативным требованиям.  

Резервное копирование и архивирование

Amazon Glacier

Amazon Glacier – это надежное, безопасное и очень экономичное хранилище для долговременного хранения архивов и резервных копий, которое обеспечивает доступ к данным в течение считаных минут, а возможность Glacier Select позволяет считывать и извлекать только нужные данные. Amazon Glacier обеспечивает надежность на уровне 99,999999999 % и предоставляет полный набор инструментов для защиты данных и обеспечения соответствия самым строгим нормативным требованиям. Стоимость хранения данных составляет всего 0,004 USD за гигабайт в месяц. Это значительно экономичней, чем решения, основанные на локальном хранении.

Каталог данных

AWS Glue

AWS Glue – это полностью управляемый сервис, который позволяет создавать каталоги для поиска данных в озере. Он обеспечивает возможность выполнять операции по извлечению, преобразованию и загрузке (ETL) данных в целях их подготовки их к анализу. Каталог создается автоматически в форме постоянного хранилища метаданных для всех ресурсов. В результате вести поиск и формировать запросы к данным можно в едином интерфейсе.

Аналитика

AWS предлагает самый широкий и экономичный набор сервисов аналитики, которые работают с озерами данных. Каждый аналитический сервис специально спроектирован для широкого спектра примеров использования, таких как интерактивный анализ, обработка больших данных с помощью Apache Spark и Hadoop, хранение данных, анализ в режиме реального времени, операционный анализ, создание информационных панелей и визуализация данных.

Для организации безопасного самостоятельного доступа аналитических сервисов к данным в озере изучите материалы по AWS Lake Formation.

Интерактивная аналитика

Amazon Athena

Для задач интерактивной аналитики сервис Amazon Athena упрощает прямой анализ данных в S3 и Glacier с помощью стандартных SQL‑запросов. Сервис Athena является бессерверным, поэтому настраивать инфраструктуру и управлять ею не требуется. Он позволяет мгновенно приступать к формированию запросов к данным, получать результат за считаные секунды и платить только за выполненные запросы. Просто укажите данные в Amazon S3, задайте схему и выполняйте запросы, используя стандартные средства SQL. Большинство результатов будет получено в течение нескольких секунд.  

Обработка больших данных

Amazon EMR

Для обработки больших данных с помощью платформ Apache Spark и Hadoop Amazon EMR предоставляет управляемый сервис, который позволяет быстро, просто и экономично обрабатывать колоссальные объемы данных. Amazon EMR поддерживает 19 различных проектов с открытым исходным кодом, включая Hadoop, Spark, HBase и Presto, с управляемыми блокнотами EMR Notebooks для задач инжиниринга данных, развития науки о данных и организации совместной работы. Каждый проект обновляется в EMR в течение 30 дней после выхода очередной версии, что гарантирует использование самых последних оптимизированных сборок от сообщества разработчиков.

Хранение данных

Amazon Redshift

Для хранения данных Amazon Redshift предоставляет возможность выполнять комплексные аналитические запросы к массивам структурированных данных в объеме петабайтов, и включает сервис Redshift Spectrum, который исполняет прямые SQL‑запросы к массивам из эксабайтов структурированных и неструктурированных данных в S3 без их перемещения. Стоимость использования Amazon Redshift в десять раз меньше стоимости аналогичных традиционных решений. Можно начать с небольших объемов работы по тарифу 0,25 USD в час и масштабировать процессы до петабайтов данных по цене 1000 USD за петабайт в год.

Аналитика в режиме реального времени

Amazon Kinesis

Для задач аналитики в режиме реального времени Amazon Kinesis позволяет без труда собирать, обрабатывать и анализировать потоковые данные, такие как данные телеметрии с IoT‑устройств, журналы приложений и истории навигации по веб‑сайтам. Это дает возможность обрабатывать и анализировать данные по мере их поступления в озеро и реагировать на ситуацию в режиме реального времени, а не ждать, пока все данные будут собраны, чтобы начать их обработку.

Операционная аналитика

Amazon Elasticsearch Service

Для задач операционной аналитики, таких как мониторинг приложений, анализ журналов и истории навигации по веб‑сайтам, сервис Amazon Elasticsearch Service позволяет находить, исследовать, фильтровать, агрегировать и визуализировать данные в режиме реального времени. Amazon Elasticsearch Service предоставляет простые удобные API и возможности ведения аналитики в режиме реального времени, а также обеспечивает доступность, масштабируемость и безопасность на уровне рабочих нагрузок.

 

Информационные панели и визуализация

Amazon QuickSight

Для создания информационных панелей и визуализации данных Amazon QuickSight предоставляет быстрый облачный сервис бизнес‑аналитики, который позволяет без труда создавать потрясающие визуализации и информационные панели, доступные из любого браузера или с любого мобильного устройства.

 

Машинное обучение

Для задач прогнозной аналитики AWS предоставляет широкий набор сервисов машинного обучения, а также инструментов, работающих с озерами данных в AWS. Все сервисы построены на базе большого объема знаний, накопленных в компании Amazon, которая использует машинное обучение для систем рекомендаций сайта Amazon.com, организации цепочек поставки, прогнозирования, обеспечения работы центров обработки заказов и управления ресурсами.  

Платформы и интерфейсы

Специалисты по машинному обучению и работе с данными могут воспользоваться образами AWS Deep Learning AMI, позволяющими просто создавать модели глубокого обучения и кластеры с помощью инстансов с графическими процессорами, оптимизированных для машинного и глубокого обучения. AWS поддерживает все основные платформы машинного обучения, включая Apache MXNet, TensorFlow и Caffe2, что позволяет клиентам использовать или разрабатывать любые подходящие модели. Эти возможности предлагают непревзойденную мощность, скорость и эффективность, столь необходимую для рабочих нагрузок, использующих машинное и глубокое обучение.

Сервисы платформы

Для разработчиков, которые хотят развиваться в сфере машинного обучения, Amazon SageMaker предлагает платформенный сервис, который упрощает весь процесс создания, обучения и развертывания моделей машинного обучения. Он предоставляет все необходимое для подключения к обучающим данным, выбора и оптимизации лучших алгоритмов и платформ с последующим развертыванием на автомасштабируемых кластерах Amazon EC2. Amazon SageMaker предоставляет размещенные блокноты Jupyter, которые облегчают изучение и визуализацию обучающих данных, хранимых в Amazon S3.

Сервисы приложений

Для разработчиков, которые хотят внедрить в свои приложения готовые функциональные возможности искусственного интеллекта, AWS предлагает ориентированные на использование в таких решениях API машинного зрения и обработки естественного языка. Эти сервисы приложений позволяют разработчикам добавлять в приложения интеллектуальные возможности, не прибегая к разработке и обучению собственных моделей.

AWS – самая популярная платформа для создания озер данных и аналитических решений

Начать работу с AWS

Step 1 - Sign up for an AWS account

Зарегистрировать аккаунт AWS

Получите мгновенный доступ к уровню бесплатного пользования AWS
 
icon2

Создание безопасного озера данных за считаные дни

Сведения о AWS Lake Formation

 
icon3

Начать разработку с AWS

Начать работу с озерами данных в AWS

Развертывание озера данных с помощью AWS Lake Formation
Есть вопросы?
Свяжитесь с нами