Перейти к главному контенту

Что такое аналитика баз данных?

Данные подчеркивают важность принятия решений на предприятиях, поэтому требуют тщательного управления, обработки и анализа. Неправильные операции с данными, совершенные даже самыми опытными аналитиками данных, могут привести к неверным предположениям и ошибочным решениям.

Хорошо развитый конвейер анализа данных позволяет организациям точно определять тенденции, выполнять описательную и предписывающую аналитику и статистический анализ, а также внедрять возможности машинного обучения и искусственного интеллекта.

Выбор системы аналитики баз данных зависит от существующих данных, текущих форматов баз данных и других необходимых типов анализа. Данные хранятся в компаниях в различных форматах, включая реляционные и нереляционные базы данных и другие форматы файлов. Реляционные и нереляционные базы данных имеют встроенную поддержку базовой аналитики, но одного этого недостаточно для более глубокого анализа бизнес-функций и источников.

Аналитикам данных нужны хранилища, озера и хранилища в озерах для интеграции данных из разрозненных источников, что позволяет подготовить их к кроссформатному и межфункциональному анализу.

В оставшейся части руководства мы рассмотрим все эти различные технологии в области аналитики баз данных.

Какие основные типы систем данных используются в аналитике?

Ниже приведен краткий обзор различных типов систем, доступных для использования в аналитике.

Реляционные базы данных

Реляционные базы данных – это наборы структурированных данных, организованных в таблицы со строками и столбцами. Каждая таблица содержит набор связанных данных, представляющих реальные объекты или концепции.

Каждая строка таблицы представляет собой одну запись, например сведения о клиенте, включая имя, номер телефона и адрес. Каждая таблица может быть связана с одной или несколькими другими таблицами. Например, таблицу клиентов можно связать с таблицей покупок, что позволяет связать каждую покупку с конкретным клиентом.

Все системы управления реляционными базами данных имеют фиксированную схему, как описано выше, и поддерживают язык структурированных запросов (SQL) для запросов данных между таблицами и внутри них.

Примеры сервисов реляционных баз данных на AWS включают Amazon Relational Database Service и Amazon Aurora, высокопроизводительное глобально масштабируемое решение реляционных баз данных для PostgreSQL, MySQL и DSQL.

Нереляционные базы данных

Нереляционные базы данных имеют гибкую схему и также известны как базы данных NoSQL, поскольку они не поддерживают запросы через SQL. К различным типам нереляционных баз данных относятся: базы данных «ключ-значение», базы данных документов, базы данных с широкими столбцами, графовые базы данных, базы данных в памяти и базы данных поиска.

Каждый тип базы данных NoSQL подходит для конкретного сценария использования. Например, база данных документов подходит для внутренней системы управления контентом, а хранилище с широкими столбцами – для данных временных рядов из парка устройств Интернета вещей.

Ниже приведены некоторые примеры сервисов нереляционных баз данных на AWS.

  • Amazon DynamoDB – это полностью управляемая бессерверная база данных NoSQL с задержкой в несколько миллисекунд, подходящая для баз данных «ключ-значение» и хранилищ документов.
  • Amazon DocumentDB (совместимость с MongoDB) – это полностью управляемый собственный сервис баз данных документов формата JSON.
  • Amazon Keyspaces (для Apache Cassandra) – это масштабируемый, высокодоступный и управляемый сервис для совместимых с Apache Cassandra баз данных с широкими столбцами.
  • Amazon Neptune – это высокопроизводительный бессерверный сервис графовых баз данных, обеспечивающий превосходные возможности аналитики, масштабируемости и доступности.
  • Amazon ElastiCache – это полностью управляемый сервис кэширования в памяти, совместимый с базами данных Valkey, Redis и Memcached в памяти.
  • Amazon MemoryDB – это совместимый с Valkey и Redis OSS надежный сервис базы данных в памяти для сверхбыстрой производительности.

Хранилище данных

Хранилище данных – это аналитическое решение, которое расширяет возможности реляционных баз данных в больших масштабах, поддерживая SQL-запросы. Хранилища данных используются для хранения и анализа реляционных данных в большом количестве баз данных. Решение хранилища может преобразовывать нереляционные данные в процессе извлечения, преобразования и загрузки (ETL), нормализуя их, чтобы подготовить их к аналитике.

Amazon Redshift – это управляемое решение хранилища данных, которое позволяет без труда хранить данные и масштабировать рабочие нагрузки по анализу данных.

Озеро данных

Озеро данных – это централизованное хранилище, в котором можно хранить все структурированные и неструктурированные данные в любом масштабе. Преобразование данных может происходить до или после их передачи в озеро данных. Озеро данных требует дополнительных сервисов для ETL и анализа; анализ необработанных данных обычно невозможен.

Amazon S3 – это объектное хранилище данных, предназначенное для извлечения любого объема данных из любого источника, которое может служить озером данных. S3 можно комбинировать с AWS Lake Formation для получения разрешения на доступ к данным и совместного использования сохраненных данных.

Хранилище в озере данных

Хранилище в озере данных – это сочетание хранилища и озера данных. Хранилище в озере данных может хранить структурированные и неструктурированные данные, предоставляет уровень форматирования для добавления схемы и структуры и включает механизм запросов. Хранилище в озере данных – это необходимый уровень современной аналитики корпоративных данных, поскольку он позволяет выполнять запросы ко всем данным одновременно.

Хранилище в озере данных Amazon SageMaker объединяет данные в озерах данных Amazon S3 и хранилищах аналитических баз данных Amazon Redshift. Хранилище в озере данных Amazon SageMaker предоставляет гибкий доступ к данным и запросы к ним на месте с помощью всех инструментов и движков, совместимых с Apache Iceberg.

Другие типы

В корпоративной аналитике различные типы данных, например необработанные файлы и таблицы, могут не вписываться точно в модель реляционной или нереляционной базы данных. Это означает, что они хранятся в разных форматах. Например, полуструктурированные потоковые данные можно хранить в файлах Apache Avro, а Amazon S3 – использовать для хранения данных любого типа.

При выборе системы анализа данных вам, скорее всего, потребуется возможность анализировать эти типы файлов в сочетании со своими базами данных.

Как реализовать аналитику баз данных на AWS?

Различные базы данных, типы данных и системы хранения и управления базами данных обрабатывают аналитику данных уникальным образом. Для анализа хранилищ данных, озер данных и хранилищ в озерах данных требуются разные стратегии и технологии.

Обеспечьте базовое управление данными с самого начала с помощью Amazon DataZone для каталогизации, обнаружения, совместного использования и управления данными, хранящимися на AWS, а также в локальных и сторонних источниках.

Управляемые рабочие процессы Amazon для Apache Airflow (MWAA) могут помочь организовать процесс анализа данных путем передачи и преобразования данных в качестве инструмента автоматизации конвейеров, а также запустить аналитические рабочие процессы в вашем хранилище, озере или хранилище в озере.

Шаг 1. Объединение данных из разных источников в более крупной системе

Существуют различные способы переноса данных из текущих источников в хранилища, озера и хранилища в озерах данных. Возможно, потребуется преобразовать и очистить данные перед хранением. Могут быть и другие соображения, такие как типы конфиденциальных данных клиентов, разрешения на доступ и доступ к некоторым данным на месте.

Самый простой способ передачи данных при подготовке к конфигурации хранилища, озера или хранилища в озере AWS – сначала перенести данные в S3.

Для потоковой передачи данных могут потребоваться новые сервисы, такие как Amazon Data Firehose для доставки потоковых данных в реальном времени или Потоки данных Amazon Kinesis для сбора и агрегирования.

Шаг 2. Преобразование и нормализация данных

Для анализа данных некоторые данные могут потребовать преобразования и нормализации.

AWS Glue позволяет обнаруживать более 100 различных источников данных и подключаться к ним, управлять данными в централизованном каталоге, а также визуально создавать, запускать и отслеживать конвейеры данных для загрузки информации в озера, хранилища и хранилища в озерах. AWS Glue DataBrew – это инструмент визуальной подготовки данных, который упрощает аналитикам и специалистам по обработке данных очистку и нормализацию данных.

Amazon EMR предлагает оптимизированные по производительности среды выполнения для аналитики больших данных – Apache Spark, Trino, Apache Flink и Hive, – что упрощает рабочие процессы озер данных и снижает время обработки.

Amazon SageMaker Data Wrangler является самым быстрым и простым способом подготовки данных для машинного обучения.

Шаг 3. Комбинированный анализ данных

Как только ваши данные будут сохранены, подключены и преобразованы, аналитики данных используют ваше хранилище, озеро или хранилище в озере для выполнения анализа. В зависимости от вашего сценария использования существует несколько методов анализа данных.

Отправка запросов

Amazon Redshift имеет встроенные возможности отправки запросов для вашего хранилища данных. Amazon Athena помогает анализировать и запрашивать неструктурированные, полуструктурированные и структурированные данные, хранящиеся в озерах данных Amazon S3. Этот сервис оптимизирован для анализа и исследования данных в реальном времени, что позволяет пользователям интерактивно запрашивать и визуализировать данные. Хранилище в озере данных Amazon SageMaker также предлагает встроенные возможности отправки запросов.

Бизнес‑аналитика

Amazon QuickSight предоставляет унифицированную аналитику данных в сфере бизнес-аналитики (BI) в масштабах организации, охватывающую хранилища, озера и хранилища в озерах. Визуализация данных является ключевой услугой в Amazon QuickSight.

Машинное обучение

Amazon Redshift ML можно использовать для аналитики машинного обучения в хранилищах Redshift. Amazon SageMaker предлагает машинное обучение и другие возможности аналитики в озерах и хранилищах в озерах.

Возможности, доступные в Хранилище в озере данных Amazon SageMaker

В Хранилище в озере данных SageMaker есть возможность получать доступ к данным и запрашивать их на месте с помощью всех инструментов, совместимых с Apache Iceberg, в одной копии данных. Вы можете использовать такие инструменты и движки аналитики по своему усмотрению, как SQL, Apache Spark, бизнес-аналитику (BI) и инструменты искусственного интеллекта и машинного обучения, а также совместно работать с данными, хранящимися в озерах данных Amazon S3 и хранилищах Amazon Redshift.

Потоковая передача данных

Amazon Kinesis может собирать, обрабатывать и анализировать потоки видео и данных в реальном времени безопасным и масштабируемым способом.

Как AWS может удовлетворить ваши потребности в аналитике баз данных?

Для анализа баз данных требуется гораздо больше, чем просто SQL-запросы в современных корпоративных средах. Используя хранилища, озера и хранилища в озерах, аналитики могут раскрыть ценность данных, выполняя анализ данных из различных источников, типов и функций.

Правильная архитектура анализа баз данных помогает обеспечить масштабируемость, готовность к запуску и интеграцию с важнейшими сервисами машинного обучения и прогнозной аналитикой. Начните работу на AWS, создав бесплатный аккаунт уже сегодня.