Что такое хранилище в озере данных?

Хранилище в озере данных – это система управления данными, которая обеспечивает экономичное и гибкое масштабируемое хранилище, а также предоставляет аналитические возможности, такие как структурирование, управление и отчетность. Это позволяет более экономично хранить необработанные данные в различных форматах из тысяч или даже сотен тысяч источников в центральном расположении. Эти данные также могут использоваться инструментами аналитики для обучения моделей искусственного интеллекта и создания отчетов и информационных панелей. Хранилище в озере данных предоставляет множество возможностей, позволяющих обрабатывать необработанные данные в хранилище в озере для дальнейшей аналитики.

В чем разница между озером данных, хранилищем данных и хранилищем в озере данных?

Архитектура хранилища в озере данных возникла благодаря сочетанию преимуществ двух традиционных централизованных хранилищ данных: хранилища и озера.

Хранилище данных

Хранилище данных – это система хранения данных, в которой хранятся структурированные данные на основе стандартных схем. Схемы – это предопределенные чертежи, определяющие формат данных, взаимосвязь и структуру информации в реляционной базе данных.

Организации используют системы хранилищ данных для быстрого доступа к обработке данных, бизнес-аналитике и корпоративной отчетности. Хранилище данных предоставляет доступ к передовым инструментам аналитики, надежному управлению данными и простоте использования для людей, не обладающих техническими знаниями. Например, вы можете получать отчеты об эффективности маркетинга с помощью панели управления в хранилище данных.

Однако хранилище вносит дополнительные этапы в жизненный цикл данных. Чтобы получить готовые аналитические данные, они должны пройти несколько конвейеров извлечения, преобразования, загрузки (ETL), прежде чем они будут сохранены в хранилище данных. Более того, хранилище данных не может обрабатывать неструктурированные и полуструктурированные данные, необходимые для рабочих нагрузок искусственного интеллекта и машинного обучения. При настройке хранилища данных хранилище и вычислительная мощность тесно связаны, что увеличивает затраты на масштабирование инфраструктуры.

Озеро данных

Озеро данных – это система хранения данных, которая сохраняет данные в исходном формате. Специалисты по обработке данных используют озеро данных для хранения структурированных, неструктурированных и полуструктурированных данных. Хранение данных в озере происходит быстро, поскольку информация не проходит через конвейер ETL. Вместо этого необработанные данные хранятся в том виде, в каком они есть. Таким образом, озеро данных может хранить огромные объемы информации с высокой скоростью, включая потоки данных в реальном времени.

Из-за большого объема данных облачные озера данных идеально подходят для исследования данных, машинного обучения и других применений в сфере анализа данных. Озеро данных также более доступно в масштабировании благодаря недорогому хостингу для хранения данных.

В отличие от хранилища данных, доступ к данным, хранящимся в озере данных, требует технических знаний, поэтому доступ к данным ограничен небольшой группой пользователей. Это означает, что только пользователи, хорошо разбирающиеся в анализе данных, могут извлекать, обрабатывать и анализировать необработанные данные для получения бизнес-аналитики. Кроме того, неуправляемое озеро данных может привести к возникновению болот данных. Болота данных – это состояние дезорганизованных данных, которое затрудняет получение значимой информации.

Хранилище в озере данных

Хранилище в озере данных – это унифицированная архитектура данных, сочетающая преимущества хранилища и озера данных. Оно предоставляет высокопроизводительное, доступное и удобное в управлении хранилище для различных типов данных.

В отличие от хранилища данных, хранилище в озере данных может хранить полуструктурированные и неструктурированные данные для машинного обучения. Кроме того, архитектура хранилища в озере данных состоит из инструментов аналитики SQL, которые бизнес-менеджеры используют для составления отчетов и извлечения полезной информации.

Каковы основные функции хранилища в озере данных?

Хранилища в озерах данных предоставляют организациям функции управления данными, позволяющие создавать масштабируемые и сложные центры обработки данных с малой задержкой. Ниже описаны некоторые ключевые возможности хранилища в озере данных.

Поддержка различных типов данных и рабочих нагрузок

В хранилищах в озерах данных можно хранить различные типы данных, включая текст, изображения, видео и аудиофайлы, без дополнительных этапов преобразования или использования жесткой схемы. Это обеспечивает быстрое получение данных, гарантируя их актуальность для подключенных приложений.

Для обеспечения разнообразия данных хранилище в озере данных хранит необработанные данные в объектном хранилище. Объектное хранилище – это тип архитектуры хранения данных, оптимизированный для обработки больших объемов неструктурированных данных.

Поддержка транзакций

Хранилище в озере данных предоставляет функции управления данными для хранения транзакций, совместимых с ACID, аналогичные тем, которые используются в обычных базах данных. ACID расшифровывается как атомарность (Atomicity), согласованность (Consistency), изоляция (Isolation) и надежность (Durability).

Атомарность рассматривает все транзакции с данными как единую операцию, что означает: они либо успешно выполняются целиком, либо не выполняются вовсе.
Согласованность означает предсказуемое поведение базы данных, которое наблюдается при обновлении конкретной таблицы данных. Каждое обновление соответствует заранее определенным правилам, обеспечивающим согласованность данных.
Изоляция позволяет проводить несколько транзакций без вмешательства друг в друга. Даже если несколько пользователей обновляют базу данных одновременно, каждая операция выполняется независимо, то есть одна транзакция завершается до начала следующей.
Надежность – это способность базы данных сохранять изменения даже в случае сбоя системы.

В совокупности ACID обеспечивает целостность данных, позволяя разработчикам программного обеспечения создавать приложения, основанные на надежном хранении транзакционных данных.

Получение потоковых данных

Потоки данных – это непрерывный поток информации, поступающей из таких источников данных, как устройства Интернета вещей (IoT), финансовые транзакции и сервисы приложений.

Некоторые приложения требуют потоковой передачи данных для отражения и визуализации изменений данных практически в реальном времени. Архитектура хранилища в озере позволяет принимать потоки данных и делать их доступными для пользовательских приложений. Кроме того, специалисты по обработке данных могут создавать инструменты аналитики на основе потоков данных и визуализировать их с помощью диаграмм, таблиц и графиков.

Интеграция с нулевым использованием ETL

Интеграция с нулевым использованием ETL – это процесс обработки данных, который обходит сложные конвейеры преобразования данных при их перемещении. Инфраструктура хранилища в озере данных обеспечивает нулевую интеграцию ETL.

Обычно организации создают свои рабочие нагрузки на базе хранилища и озера данных. Эти настройки данных требуют дополнительных конвейеров ETL для запрашивания и преобразования данных. Благодаря нулевой интеграции ETL специалисты по обработке данных могут запрашивать разные хранилища данных, не создавая при этом дополнительных конвейеров.

Когда хранилище в озере данных принимает данные, оно автоматически преобразует их в форматы, соответствующие требованиям бизнес-аналитики. Например, Amazon Redshift поддерживает интеграцию с Amazon Aurora с нулевым использованием ETL. Redshift – это хранилище данных, а Aurora – система управления реляционными базами данных. После интеграции данные, получаемые Aurora, автоматически реплицируются в Redshift в течение нескольких секунд. Таким образом, организации могут ускорить получение аналитических данных, сохраняя при этом простую и экономичную инфраструктуру данных.

Унифицированная аналитика

Хранилище в озере данных предоставляет унифицированную платформу данных для доступа ко всем сохраненным данным. Это помогает архитекторам данных преодолеть дублирование, несогласованность и фрагментацию данных в нескольких системах.

Еще одно ключевое преимущество централизованной аналитики – предотвращение ненужного перемещения данных между облачными хранилищами. Вместо того чтобы запрашивать разрозненные данные, группы обработки данных хранят и анализируют данные и обмениваются ими с помощью единого интерфейса, подключенного к хранилищу в озере данных. Например, вы можете извлекать неструктурированные данные для рабочей нагрузки машинного обучения и создавать отчеты об эффективности маркетинга на основе одной копии данных.

Редактор запросов

Аналитики данных, инженеры по машинному обучению и пользователи данных могут легко получить доступ к данным в хранилище в озере данных с помощью редактора SQL-запросов. Они могут создавать команды SQL для анализа данных, визуализации, просмотра исторических данных, создания схем баз данных и многого другого. Редактор запросов также улучшает совместную работу, позволяя инженерам по данным легко обмениваться созданными запросами.

Поддержка машинного обучения и искусственного интеллекта

Хранилища в озерах данных предназначены для создания, тестирования и масштабирования рабочих нагрузок, связанных с искусственным интеллектом и машинным обучением (ИИ/МО). Помимо предоставления прямого доступа к неструктурированным данным, многие поставщики хранилищ в озерах данных предлагают библиотеки, инструменты и аналитику машинного обучения, упрощающие разработку ИИ.

Например, Хранилище в озере данных Amazon SageMaker легко интегрируется с Единой студией Amazon SageMaker, предоставляя доступ к инструментам и аналитике для ускорения рабочих процессов ИИ/МО.

Как работает хранилище в озере данных?

Хранилище в озере данных сочетает в себе расширенные аналитические возможности хранилищ данных с гибкостью озер данных, обеспечивая масштабируемую, доступную и мощную платформу данных. Вместо того чтобы хранить отдельные озера данных и инфраструктуры хранилищ данных, организации выбирают хранилище в озере данных для более быстрого получения бизнес-информации.

Хранилище в озере данных собирает данные из различных ресурсов, организует их внутри организации и предоставляет данные различным пользователям данных в разных форматах. Более того, вычислительные ресурсы хранилища в озере данных находятся отдельно от хранилища. Благодаря раздельному хранению и вычислительным ресурсам эти функции можно масштабировать независимо друг от друга, чтобы максимально сократить расходы.

Ниже приведены уровни данных, образующие хранилище в озере данных.

Уровень получения

Уровень получения связывает хранилище в озере данных с различными типами источников данных, включая журналы приложений, базы данных и ленты социальных сетей. На этом уровне данные сохраняются в исходном формате.

Уровень хранения

Уровень хранения принимает входящие необработанные данные и сохраняет их в недорогом масштабируемом хранилище. В хранилище в озере данных этот уровень часто связан с облачным объектным хранилищем. Объектное хранилище поддерживает различные типы данных, включая структурированные, полуструктурированные и неструктурированные данные.

В зависимости от сценариев использования некоторые данные претерпевают преобразование после хранения в объектном хранилище. Например, если вы хотите обучить модель машинного обучения с использованием полученных данных, хранилище в озере данных преобразует и сохранит данные в формате Parquet. Parquet – это открытый файловый формат, предназначенный для эффективного хранения и обработки структурированных данных путем разделения их на столбцы.

Уровень подготовки

Уровень подготовки или метаданных обеспечивает поддержку схем для управления, организации и оптимизации данных, хранящихся в хранилище в озере данных. Этот уровень позволяет определять политики для обеспечения качества данных и создавать журналы аудитов в целях обеспечения соответствия требованиям. Кроме того, группы обработки данных могут создавать надежные рабочие процессы обработки данных, используя транзакции ACID, индексацию файлов, управление версиями данных и кэширование, аналогичные тем, которые используются в традиционном хранилище данных.

Уровень API

Уровень интерфейса прикладного программирования (API) позволяет разработчикам программного обеспечения и приложениям запрашивать данные, хранящиеся в хранилище в озере данных. Он обеспечивает детальный доступ к данным, что позволяет программно создавать на основе этих данных более продвинутую аналитику. Например, команды разработчиков программного обеспечения могут выполнять вызовы API для получения потоков данных в режиме реального времени, чтобы обеспечивать работу панели управления инвестиционного приложения.

Семантический уровень

Семантический уровень – это самый верхний слой хранилища в озере данных. Этот уровень, также известный как уровень потребления данных, состоит из инструментов и приложений для аналитики данных, обеспечивающих доступ к сохраненным данным и схеме. Бизнес-пользователи могут создавать отчеты и диаграммы, запрашивать аналитические данные и проводить другой анализ данных с помощью инструментов, доступных на этом уровне.

Как AWS может поддержать ваши требования к хранилищам в озерах данных?

Хранилище в озере данных Amazon SageMaker – это хранилище в озере данных, которое организации используют для обработки эксабайтов данных для получения бизнес-аналитики и поддержки рабочих нагрузок искусственного интеллекта. Хранилище в озере данных Amazon SageMaker глубоко интегрировано с сервисами хранения данных, аналитики и машинного обучения AWS, чтобы помочь вам:

получать доступ к данным для аналитики в режиме, близком к реальному времени;
создавать модели искусственного интеллекта и машинного обучения в одном центре обработки и хранения данных;
получать безопасный доступ к данным, объединять их и обмениваться ими с минимальным перемещением или копированием.

Благодаря архитектуре, разделяющей вычислительные ресурсы и хранилище для эффективного масштабирования, Хранилище в озере данных Amazon SageMaker обеспечивает более высокую цену и производительность по сравнению с другими облачными хранилищами в озерах данных.

Хранилище в озере данных Amazon SageMaker интегрируется с хранилищами и озерами данных AWS:

Amazon Redshift – это решение для хранения данных, которое обеспечивает непревзойденное соотношение цены и производительности при масштабировании с использованием SQL для вашего хранилища данных
Amazon S3 – это объектное хранилище озера данных, рассчитанное на извлечение любых объемов данных откуда угодно

Начните работу с хранилищем в озере данных на AWS, создав бесплатный аккаунт уже сегодня.

Дальнейшие шаги на AWS

Дополнительные ресурсы к продукту

Подробнее

Зарегистрировать бесплатный аккаунт

Получите мгновенный доступ к уровню бесплатного пользования AWS.

Регистрация

Начните разработку в консоли

Начните разработку с AWS в Консоли управления AWS.

Вход

Что такое хранилище в озере данных?