Что такое нулевое использование ETL?

Темы страниц

Что такое нулевое использование ETL?
Какие проблемы, связанные с процессом ETL, решает интеграция с нулевым использованием ETL?
В чем заключаются основные преимущества интеграции с нулевым использованием ETL?
Какие бывают варианты применения интеграции с нулевым использованием ETL?
Как AWS может поддержать процесс интеграции с нулевым использованием ETL?

Что такое нулевое использование ETL?

Интеграция с нулевым использованием ETL – это набор интеграций, который сводит к минимуму необходимость создания конвейеров данных ETL. Извлечение, преобразование и загрузка (ETL) – это процесс подготовки данных из различных источников к рабочим нагрузкам анализа, искусственного интеллекта и машинного обучения посредством их объединения, очистки и нормализации. Традиционные процессы ETL требуют много времени и сложны в разработке, обслуживании и масштабировании. Интеграция с нулевым использованием ETL упрощает перемещение данных без необходимости создания конвейеров ETL. Интеграция с нулевым использованием ETL также позволяет выполнять запросы в разрозненных хранилищах без необходимости перемещения данных.

Подробнее о ETL »

Какие проблемы, связанные с процессом ETL, решает интеграция с нулевым использованием ETL?

Интеграция с нулевым использованием ETL позволяет решить многие из существующих проблем, связанных с перемещением данных в традиционных процессах ETL.

Повышенная сложность системы

Конвейеры данных ETL еще больше усложняют процессы интеграции данных. Для отображения данных в соответствии с желаемой целевой схемой необходимо использовать сложные правила сопоставления данных и обрабатывать их несоответствия. Для диагностики проблем необходимо внедрять эффективные механизмы обработки ошибок, ведения журналов и уведомлений. Требования к защите данных приводят к еще большему ограничению возможностей системы.

Дополнительные расходы

Конвейеры ETL изначально дорогостоящие, но затраты также могут расти по мере увеличения объема данных. Хранение дублирующихся данных в больших объемах в разных системах может быть нецелесообразно с финансовой точки зрения. Кроме того, масштабирование процессов ETL часто требует дорогостоящих обновлений инфраструктуры, оптимизации производительности выполнения запросов и применения методов параллельной обработки. В случае изменения требований инженерам по обработке данных приходится постоянно отслеживать и тестировать конвейер в процессе обновления, вследствие чего увеличиваются затраты на его обслуживание.

Задержки в выполнении рабочих нагрузок анализа, ИИ и ML

В процессе ETL инженерам по обработке данных обычно приходится создавать собственный код, а инженерам DevOps – развертывать инфраструктуру, необходимую для масштабирования рабочей нагрузки, и управлять ею. В случае изменений в источниках данных инженерам по обработке данных нужно вручную вносить изменения в код и повторно его развертывать. Этот процесс может занять несколько недель, что приводит к задержкам в выполнении рабочих нагрузок анализа, искусственного интеллекта и машинного обучения. Кроме того, из-за затратного по времени процесса создания и развертывания конвейеров данных ETL данные становятся непригодными для использования в режиме почти реального времени, например для размещения онлайн-рекламы, обнаружения мошеннических транзакций или анализа цепочки поставок в реальном времени. В этих сценариях не представляется возможным улучшить качество обслуживания клиентов, реализовать новые бизнес-возможности или снизить бизнес-риски.

В чем заключаются основные преимущества интеграции с нулевым использованием ETL?

Интеграция без ETL предлагает ряд преимуществ для стратегии обработки данных организации.

Повышенная гибкость

Интеграция с нулевым использованием ETL позволяет упростить архитектуру данных и сократить усилия по их инженерному проектированию. Она позволяет добавлять новые источники данных без необходимости повторно обрабатывать большие объемы информации. Такие гибкие возможности позволяют легко принимать решения на основе данных и быстро внедрять инновации.

Экономия

В решениях для интеграции данных с нулевым использованием ETL применяются специальные облачные и масштабируемые технологии, позволяющие компаниям оптимизировать расходы в зависимости от фактического применения и потребностей в обработке данных. Организации сокращают затраты на инфраструктуру и обслуживание, а также уменьшают усилия по разработке.

Сокращение времени получения аналитических данных

Традиционные процессы ETL зачастую предусматривают регулярные пакетные обновления, что приводит к задержкам во время получения доступа к данным. Интеграция с нулевым использованием ETL, напротив, обеспечивает доступ к данным в режиме реального или почти реального времени. Благодаря этому можно получать более свежие данные для анализа, ИИ/ML и отчетности. Таким образом вы получаете более точные и оперативные аналитические данные для таких сценариев использования, как информационные панели, обновляемые в режиме реального времени, оптимизированный игровой процесс, мониторинг качества данных и анализ поведения клиентов. Организации с большей уверенностью делают прогнозы и выполняют анализ на основе данных в масштабах всей компании, а также улучшают качество обслуживания клиентов.

Какие бывают варианты применения интеграции с нулевым использованием ETL?

Существует три основных варианта применения интеграции с нулевым использованием ETL.

Оперативное получение данных

Предприятиям необходимо быстро получать и анализировать различные типы данных для принятия решений в реальном времени. Нулевое использование ETL обеспечивает гибкий подход к оперативному получению данных непосредственно в хранилищах и озерах данных. Это исключает необходимость в традиционных конвейерах ETL и позволяет организациям легко адаптироваться к меняющимся бизнес-требованиям.

Прием потоковых данных

Платформы потоковой передачи данных и очередей сообщений передают потоком данные в режиме реального времени из нескольких источников. Интеграция с нулевым использованием ETL с хранилищем данных позволяет принимать данные из нескольких таких потоков и практически мгновенно передавать их для анализа. Нет необходимости размещать потоковые данные, поскольку эти платформы также предлагают расширенные возможности трансформации и аналитики при перемещении данных.

Мгновенная репликация

Как правило, для перемещения данных из базы данных операций и транзакций в центральное хранилище и озеро данных всегда требовалось сложное решение ETL. В наши дни нулевое использование ETL может выступать в качестве инструмента репликации данных, мгновенно дублируя данные из операционной базы данных, транзакционной базы данных и приложений в хранилище и озеро данных. В механизме дублирования используются методы отслеживания измененных данных (Change Data Capture, CDC). Данный механизм также можно встроить в хранилище и озеро данных. Дублирование выполняется незаметно для пользователей: приложения хранят данные в транзакционной базе данных, а аналитики беспрепятственно запрашивают их из хранилища.

Как AWS может поддержать процесс интеграции с нулевым использованием ETL?

AWS инвестирует в решения для интеграции с нулевым использованием ETL. Ниже приведены примеры сервисов со встроенными возможностями интеграции с нулевым использованием ETL.

Версия Amazon Aurora, совместимая с MySQL, и Amazon RDS для MySQL теперь поддерживают интеграцию с Amazon SageMaker с нулевым использованием ETL. Это обеспечивает доступность данных для рабочих нагрузок аналитики в режиме, близком к реальному времени.

Хранилище в озере данных Amazon SageMaker и Amazon Redshift поддерживают интеграции с нулевым использованием ETL из приложений, что позволяет автоматизировать извлечение и загрузку данных из приложений в Хранилище в озере данных Amazon SageMaker и Amazon Redshift.

Интеграция Amazon DynamoDB с нулевым использованием ETL с Хранилищем в озере данных Amazon SageMaker автоматизирует извлечение и загрузку данных из Amazon DynamoDB в Amazon SageMaker Lakehouse – озеро данных транзакций, созданное на основе Amazon S3.

Интеграция сервиса Amazon OpenSearch с нулевым использованием ETL с журналами Amazon CloudWatch позволяет напрямую запрашивать и визуализировать данные журналов в режиме, близком к реальному времени, централизованно управлять журналами без сложных конвейеров или предварительной обработки.

Интеграция сервиса Amazon OpenSearch с нулевым использованием ETL с Amazon Security Lake обеспечивает прямой поиск и анализ данных безопасности, устраняя проблемы, связанные с интеграцией данных, и одновременно упрощая процесс, а также сокращая эксплуатационные издержки и расходы за счет ускорения обработки данных по требованию и широких аналитических возможностей.

Благодаря интеграции Amazon Aurora с нулевым использованием ETL с Amazon Redshift можно производить их анализ в режиме, близком к реальному времени, и применять возможности машинного обучения. Оно позволяет выполнять анализ петабайтов транзакционных данных, полученных из Aurora, в Amazon Redshift. Это полностью управляемое решение, которое делает транзакционные данные доступными в Amazon Redshift после их записи в кластере Aurora DB.

Интеграция Amazon RDS для MySQL с нулевым использованием ETL с Amazon Redshift помогает получать целостную аналитическую информацию по многим приложениям и устранять разрозненность данных в организации, упрощая анализ данных из одного или нескольких инстансов Amazon RDS для MySQL в Amazon Redshift.

Интеграция Amazon DynamoDB с нулевым использованием ETL с сервисом Amazon OpenSearch предоставляет клиентам доступ к расширенным возможностям поиска, таким как полнотекстовый и векторный поиск, по данным в Amazon DynamoDB.

Интеграция Amazon DocumentDB с нулевым использованием ETL с сервисом Amazon OpenSearch предоставляет клиентам новые возможности для поиска (например, нечеткий поиск, поиск по коллекциям и поиск на разных языках) в документах Amazon DocumentDB через API OpenSearch.

Интеграция сервиса Amazon OpenSearch с нулевым использованием ETL с Amazon S3 – это эффективный способ запроса журналов по операциям в озерах данных Amazon S3, позволяющий не переключаться между инструментами анализа данных.

Интеграция Amazon Aurora PostgreSQL с нулевым использованием ETL с Amazon Redshift позволяет использовать Amazon Redshift для анализа данных транзакций из Aurora объемом во множество петабайтов и предоставляет возможности машинного обучения и аналитики в режиме, близком к реальному времени.

Интеграция Amazon DynamoDB с нулевым использованием ETL с Amazon Redshift позволяет клиентам выполнять в Amazon Redshift высокопроизводительную аналитику данных из DynamoDB без ущерба для производственных рабочих нагрузок этой базы.

Создайте бесплатный аккаунт и начните работу с решениями AWS для интеграции с нулевым использованием ETL уже сегодня.

Дальнейшие шаги на AWS

Дополнительные ресурсы к продукту

Бесплатные предложения сервисов аналитики в облаке

Зарегистрировать бесплатный аккаунт

Получите мгновенный доступ к Уровню бесплатного пользования AWS.

Регистрация

Начните разработку в консоли

Начните разработку в Консоли управления AWS.

Вход

Browse all cloud computing concepts

Browse all cloud computing concepts content here:

Загрузка

Did you find what you were looking for today?

Let us know so we can improve the quality of the content on our pages

Что такое нулевое использование ETL?

Темы страниц

Что такое нулевое использование ETL?

Какие проблемы, связанные с процессом ETL, решает интеграция с нулевым использованием ETL?

Повышенная сложность системы

Дополнительные расходы

Задержки в выполнении рабочих нагрузок анализа, ИИ и ML

В чем заключаются основные преимущества интеграции с нулевым использованием ETL?

Повышенная гибкость

Экономия

Сокращение времени получения аналитических данных

Какие бывают варианты применения интеграции с нулевым использованием ETL?

Как AWS может поддержать процесс интеграции с нулевым использованием ETL?

Дальнейшие шаги на AWS

Дополнительные ресурсы к продукту

Зарегистрировать бесплатный аккаунт

Начните разработку в консоли

Browse all cloud computing concepts

Did you find what you were looking for today?

Подробнее

Ресурсы

Разработчики

Поддержка