Перейти к главному контенту

Что такое хранилище в озере данных?

Хранилище в озере данных – это система управления данными, которая обеспечивает экономичное и гибкое масштабируемое хранилище, а также предоставляет аналитические возможности, такие как структурирование, управление и отчетность. Это позволяет более экономично хранить необработанные данные в различных форматах из тысяч или даже сотен тысяч источников в центральном расположении. Эти данные также могут использоваться инструментами аналитики для обучения моделей искусственного интеллекта и создания отчетов и информационных панелей. Хранилище в озере данных предоставляет множество возможностей, позволяющих обрабатывать необработанные данные в хранилище в озере для дальнейшей аналитики.

В чем разница между озером данных, хранилищем данных и хранилищем в озере данных?

Архитектура хранилища в озере данных возникла благодаря сочетанию преимуществ двух традиционных централизованных хранилищ данных: хранилища и озера.

Хранилище данных

Хранилище данных – это система хранения данных, в которой хранятся структурированные данные на основе стандартных схем. Схемы – это предопределенные чертежи, определяющие формат данных, взаимосвязь и структуру информации в реляционной базе данных.

Организации используют системы хранилищ данных для быстрого доступа к обработке данных, бизнес-аналитике и корпоративной отчетности. Хранилище данных предоставляет доступ к передовым инструментам аналитики, надежному управлению данными и простоте использования для людей, не обладающих техническими знаниями. Например, вы можете получать отчеты об эффективности маркетинга с помощью панели управления в хранилище данных.

Однако хранилище вносит дополнительные этапы в жизненный цикл данных. Чтобы получить готовые аналитические данные, они должны пройти несколько конвейеров извлечения, преобразования, загрузки (ETL), прежде чем они будут сохранены в хранилище данных. Более того, хранилище данных не может обрабатывать неструктурированные и полуструктурированные данные, необходимые для рабочих нагрузок искусственного интеллекта и машинного обучения. При настройке хранилища данных хранилище и вычислительная мощность тесно связаны, что увеличивает затраты на масштабирование инфраструктуры.

Озеро данных

Озеро данных – это система хранения данных, которая сохраняет данные в исходном формате. Специалисты по обработке данных используют озеро данных для хранения структурированных, неструктурированных и полуструктурированных данных. Хранение данных в озере происходит быстро, поскольку информация не проходит через конвейер ETL. Вместо этого необработанные данные хранятся в том виде, в каком они есть. Таким образом, озеро данных может хранить огромные объемы информации с высокой скоростью, включая потоки данных в реальном времени.

Из-за большого объема данных облачные озера данных идеально подходят для исследования данных, машинного обучения и других применений в сфере анализа данных. Озеро данных также более доступно в масштабировании благодаря недорогому хостингу для хранения данных.

В отличие от хранилища данных, доступ к данным, хранящимся в озере данных, требует технических знаний, поэтому доступ к данным ограничен небольшой группой пользователей. Это означает, что только пользователи, хорошо разбирающиеся в анализе данных, могут извлекать, обрабатывать и анализировать необработанные данные для получения бизнес-аналитики. Кроме того, неуправляемое озеро данных может привести к возникновению болот данных. Болота данных – это состояние дезорганизованных данных, которое затрудняет получение значимой информации.

Хранилище в озере данных

Хранилище в озере данных – это унифицированная архитектура данных, сочетающая преимущества хранилища и озера данных. Оно предоставляет высокопроизводительное, доступное и удобное в управлении хранилище для различных типов данных.

В отличие от хранилища данных, хранилище в озере данных может хранить полуструктурированные и неструктурированные данные для машинного обучения. Кроме того, архитектура хранилища в озере данных состоит из инструментов аналитики SQL, которые бизнес-менеджеры используют для составления отчетов и извлечения полезной информации.

Каковы основные функции хранилища в озере данных?

Хранилища в озерах данных предоставляют организациям функции управления данными, позволяющие создавать масштабируемые и сложные центры обработки данных с малой задержкой. Ниже описаны некоторые ключевые возможности хранилища в озере данных.

Поддержка различных типов данных и рабочих нагрузок

В хранилищах в озерах данных можно хранить различные типы данных, включая текст, изображения, видео и аудиофайлы, без дополнительных этапов преобразования или использования жесткой схемы. Это обеспечивает быстрое получение данных, гарантируя их актуальность для подключенных приложений.

Для обеспечения разнообразия данных хранилище в озере данных хранит необработанные данные в объектном хранилище. Объектное хранилище – это тип архитектуры хранения данных, оптимизированный для обработки больших объемов неструктурированных данных.

Поддержка транзакций

Хранилище в озере данных предоставляет функции управления данными для хранения транзакций, совместимых с ACID, аналогичные тем, которые используются в обычных базах данных. ACID расшифровывается как атомарность (Atomicity), согласованность (Consistency), изоляция (Isolation) и надежность (Durability).

  • Атомарность рассматривает все транзакции с данными как единую операцию, что означает: они либо успешно выполняются целиком, либо не выполняются вовсе.
  • Согласованность означает предсказуемое поведение базы данных, которое наблюдается при обновлении конкретной таблицы данных. Каждое обновление соответствует заранее определенным правилам, обеспечивающим согласованность данных.
  • Изоляция позволяет проводить несколько транзакций без вмешательства друг в друга. Даже если несколько пользователей обновляют базу данных одновременно, каждая операция выполняется независимо, то есть одна транзакция завершается до начала следующей.
  • Надежность – это способность базы данных сохранять изменения даже в случае сбоя системы.

В совокупности ACID обеспечивает целостность данных, позволяя разработчикам программного обеспечения создавать приложения, основанные на надежном хранении транзакционных данных.

Получение потоковых данных

Потоки данных – это непрерывный поток информации, поступающей из таких источников данных, как устройства Интернета вещей (IoT), финансовые транзакции и сервисы приложений.

Некоторые приложения требуют потоковой передачи данных для отражения и визуализации изменений данных практически в реальном времени. Архитектура хранилища в озере позволяет принимать потоки данных и делать их доступными для пользовательских приложений. Кроме того, специалисты по обработке данных могут создавать инструменты аналитики на основе потоков данных и визуализировать их с помощью диаграмм, таблиц и графиков.

Интеграция с нулевым использованием ETL

Интеграция с нулевым использованием ETL – это процесс обработки данных, который обходит сложные конвейеры преобразования данных при их перемещении. Инфраструктура хранилища в озере данных обеспечивает нулевую интеграцию ETL.

Обычно организации создают свои рабочие нагрузки на базе хранилища и озера данных. Эти настройки данных требуют дополнительных конвейеров ETL для запрашивания и преобразования данных. Благодаря нулевой интеграции ETL специалисты по обработке данных могут запрашивать разные хранилища данных, не создавая при этом дополнительных конвейеров.

Когда хранилище в озере данных принимает данные, оно автоматически преобразует их в форматы, соответствующие требованиям бизнес-аналитики. Например, Amazon Redshift поддерживает интеграцию с Amazon Aurora с нулевым использованием ETL. Redshift – это хранилище данных, а Aurora – система управления реляционными базами данных. После интеграции данные, получаемые Aurora, автоматически реплицируются в Redshift в течение нескольких секунд. Таким образом, организации могут ускорить получение аналитических данных, сохраняя при этом простую и экономичную инфраструктуру данных.

Унифицированная аналитика

Хранилище в озере данных предоставляет унифицированную платформу данных для доступа ко всем сохраненным данным. Это помогает архитекторам данных преодолеть дублирование, несогласованность и фрагментацию данных в нескольких системах.

Еще одно ключевое преимущество централизованной аналитики – предотвращение ненужного перемещения данных между облачными хранилищами. Вместо того чтобы запрашивать разрозненные данные, группы обработки данных хранят и анализируют данные и обмениваются ими с помощью единого интерфейса, подключенного к хранилищу в озере данных. Например, вы можете извлекать неструктурированные данные для рабочей нагрузки машинного обучения и создавать отчеты об эффективности маркетинга на основе одной копии данных.

Редактор запросов

Аналитики данных, инженеры по машинному обучению и пользователи данных могут легко получить доступ к данным в хранилище в озере данных с помощью редактора SQL-запросов. Они могут создавать команды SQL для анализа данных, визуализации, просмотра исторических данных, создания схем баз данных и многого другого. Редактор запросов также улучшает совместную работу, позволяя инженерам по данным легко обмениваться созданными запросами.

Поддержка машинного обучения и искусственного интеллекта

Хранилища в озерах данных предназначены для создания, тестирования и масштабирования рабочих нагрузок, связанных с искусственным интеллектом и машинным обучением (ИИ/МО). Помимо предоставления прямого доступа к неструктурированным данным, многие поставщики хранилищ в озерах данных предлагают библиотеки, инструменты и аналитику машинного обучения, упрощающие разработку ИИ.

Например, Хранилище в озере данных Amazon SageMaker легко интегрируется с Единой студией Amazon SageMaker, предоставляя доступ к инструментам и аналитике для ускорения рабочих процессов ИИ/МО.

Как работает хранилище в озере данных?

Хранилище в озере данных сочетает в себе расширенные аналитические возможности хранилищ данных с гибкостью озер данных, обеспечивая масштабируемую, доступную и мощную платформу данных. Вместо того чтобы хранить отдельные озера данных и инфраструктуры хранилищ данных, организации выбирают хранилище в озере данных для более быстрого получения бизнес-информации.

Хранилище в озере данных собирает данные из различных ресурсов, организует их внутри организации и предоставляет данные различным пользователям данных в разных форматах. Более того, вычислительные ресурсы хранилища в озере данных находятся отдельно от хранилища. Благодаря раздельному хранению и вычислительным ресурсам эти функции можно масштабировать независимо друг от друга, чтобы максимально сократить расходы.

Ниже приведены уровни данных, образующие хранилище в озере данных.

Уровень получения

Уровень получения связывает хранилище в озере данных с различными типами источников данных, включая журналы приложений, базы данных и ленты социальных сетей. На этом уровне данные сохраняются в исходном формате.

Уровень хранения

Уровень хранения принимает входящие необработанные данные и сохраняет их в недорогом масштабируемом хранилище. В хранилище в озере данных этот уровень часто связан с облачным объектным хранилищем. Объектное хранилище поддерживает различные типы данных, включая структурированные, полуструктурированные и неструктурированные данные.

В зависимости от сценариев использования некоторые данные претерпевают преобразование после хранения в объектном хранилище. Например, если вы хотите обучить модель машинного обучения с использованием полученных данных, хранилище в озере данных преобразует и сохранит данные в формате Parquet. Parquet – это открытый файловый формат, предназначенный для эффективного хранения и обработки структурированных данных путем разделения их на столбцы.

Уровень подготовки

Уровень подготовки или метаданных обеспечивает поддержку схем для управления, организации и оптимизации данных, хранящихся в хранилище в озере данных. Этот уровень позволяет определять политики для обеспечения качества данных и создавать журналы аудитов в целях обеспечения соответствия требованиям. Кроме того, группы обработки данных могут создавать надежные рабочие процессы обработки данных, используя транзакции ACID, индексацию файлов, управление версиями данных и кэширование, аналогичные тем, которые используются в традиционном хранилище данных.

Уровень API

Уровень интерфейса прикладного программирования (API) позволяет разработчикам программного обеспечения и приложениям запрашивать данные, хранящиеся в хранилище в озере данных. Он обеспечивает детальный доступ к данным, что позволяет программно создавать на основе этих данных более продвинутую аналитику. Например, команды разработчиков программного обеспечения могут выполнять вызовы API для получения потоков данных в режиме реального времени, чтобы обеспечивать работу панели управления инвестиционного приложения.

Семантический уровень

Семантический уровень – это самый верхний слой хранилища в озере данных. Этот уровень, также известный как уровень потребления данных, состоит из инструментов и приложений для аналитики данных, обеспечивающих доступ к сохраненным данным и схеме. Бизнес-пользователи могут создавать отчеты и диаграммы, запрашивать аналитические данные и проводить другой анализ данных с помощью инструментов, доступных на этом уровне.

Как AWS может поддержать ваши требования к хранилищам в озерах данных?

Хранилище в озере данных Amazon SageMaker – это хранилище в озере данных, которое организации используют для обработки эксабайтов данных для получения бизнес-аналитики и поддержки рабочих нагрузок искусственного интеллекта. Хранилище в озере данных Amazon SageMaker глубоко интегрировано с сервисами хранения данных, аналитики и машинного обучения AWS, чтобы помочь вам:

  • получать доступ к данным для аналитики в режиме, близком к реальному времени;
  • создавать модели искусственного интеллекта и машинного обучения в одном центре обработки и хранения данных;
  • получать безопасный доступ к данным, объединять их и обмениваться ими с минимальным перемещением или копированием.

Благодаря архитектуре, разделяющей вычислительные ресурсы и хранилище для эффективного масштабирования, Хранилище в озере данных Amazon SageMaker обеспечивает более высокую цену и производительность по сравнению с другими облачными хранилищами в озерах данных.

Хранилище в озере данных Amazon SageMaker интегрируется с хранилищами и озерами данных AWS:

  • Amazon Redshift – это решение для хранения данных, которое обеспечивает непревзойденное соотношение цены и производительности при масштабировании с использованием SQL для вашего хранилища данных
  • Amazon S3 – это объектное хранилище озера данных, рассчитанное на извлечение любых объемов данных откуда угодно

Начните работу с хранилищем в озере данных на AWS, создав бесплатный аккаунт уже сегодня.