Что такое потоковая передача данных?

Потоковые данные – это данные, которые непрерывным и инкрементальным образом передаются в больших объемах в целях обработки с низкой задержкой. Организации располагают тысячами источников данных, одновременно передающих сообщения, записи или данные, размер которых может варьироваться в пределах от нескольких байт до нескольких мегабайт (МБ). Потоковая передача данных содержит географическое расположение, событие и данные датчиков, которые компании используют для аналитики в режиме реального времени и обеспечения видимости множества различных аспектов своего бизнеса. Например, компании могут отслеживать изменения в общественных настроениях касательно своих брендов и продуктов, постоянно анализируя характер навигации и публикации пользователя в потоках социальных сетей, а затем своевременно реагировать на эти изменения должным образом.

Какими характеристиками обладает потоковая передача данных?

Поток данных обладает перечисленными ниже конкретными характеристиками, которые его определяют.

Хронологическая значимость

Индивидуальные элементы потока данных содержат временные метки. Сам по себе поток данных может быть чувствительным к временным параметрам и обладать уменьшающейся значимостью по истечении определенного интервала времени. Например, ваше приложение может рекомендовать рестораны в зависимости от расположения пользователя. Вам будет необходимо работать с данными о геолокации пользователя в режиме реального времени, иначе такие данные потеряют свою значимость.

Непрерывность потока

Потоки данных не обладают началом или концом. Они собирают данные на постоянной основе и существуют непрерывно на протяжении всего необходимого времени. Например, журналы активности сервера сохраняют события до тех пор, пока сервер запущен.

Уникальность

Повторная передача потока данных вызывает проблемы из-за чувствительности к временным параметрам. Таким образом, задача точной обработки данных в режиме реального времени обретает критическую важность. К сожалению, возможности по предоставлению повторных передач ограничены в рамках большинства источников потоковой передачи данных.

Отсутствие гомогенности

Некоторые источники могут выполнять потоковую передачу данных во множестве структурированных форматов, таких как JSON, Avro и списки разделенных запятыми значений – CSV, используя типы данных, которые состоят из строк, чисел, дат и двоичных параметров. Системы обработки потоков должны обладать возможностями по обслуживанию различных вариантов данных.

Неидеальность

Временные ошибки в источнике могут приводить к повреждениям или утере элементов потоковых данных. Задачи по гарантированию согласованности данных могут оказаться довольно сложными из-за непрерывной природы потока. Системы аналитики и обработки потоков обычно обладают логикой для подтверждения данных, что позволяет минимизировать количество ошибок либо смягчать их влияние.

Почему потоковые данные – это важно?

Традиционные системы обработки данных записывают данные в централизованное хранилище данных и обрабатывают записи группами или пакетами. Эти системы были созданы специально для того, чтобы потреблять и структурировать данные для последующего анализа. Впрочем, в последние годы характер корпоративных данных и сами системы обработки базовых данных радикальным образом изменились.

Бесконечный объем данных

Объемы данных, сгенерированных на базе источников потоков, могут быть невероятно большими, из-за чего средства аналитики в режиме реального времени сталкиваются с проблемами при регулировке целостности (подтверждение соответствия), структурированности (эволюция) или скорости потоковых данных (пропускная способность и задержка).

Продвинутые системы обработки данных

В то же время облачная инфраструктура познакомила нас с гибкими подходами при масштабировании и использовании вычислительных ресурсов. Вы сможете пользоваться только необходимыми ресурсами и платить только за то, что действительно используете. У вас есть возможность в режиме реального времени фильтровать или агрегировать данные как перед сохранением потоковых данных, так и после выполнения этой операции. Архитектура потоковых данных использует облачные технологии для использования, обогащения, анализа и постоянного хранения потоковых данных по мере необходимости.

Для чего можно применять потоковую передачу данных?

Система обработки потока является предпочтительной для большинства сценариев использования, подразумевающих непрерывное формирование новых и динамических данных. Обработка потоковых данных применима в большинстве отраслевых сегментов и случаев использования, подразумевающих обработку больших данных.

Обычно компании начинают с простых задач, например со сбора данных системных журналов, или с элементарных вычислений, например с обновления минимумов и максимумов. Затем эти задачи трансформируются в более сложную обработку, происходящую в режиме, близком к реальному времени.

Приведем несколько примеров потоковых данных.

Анализ данных

Приложения обрабатывают потоки данных с целью формирования отчетов и выполнения ответных действий, например активации сигнализации, когда значения ключевых параметров выйдут за указанные границы. Более сложные приложения обработки потоков способны формировать расширенную аналитику, применяя алгоритмы машинного обучения к бизнес-данным и данным клиентской активности.

Приложения Интернета вещей

Устройства Интернета вещей (IoT) станут еще одним отличным примером использования потоков данных. Датчики, используемые в автомобилях, промышленном оборудовании и сельскохозяйственной технике, отправляют данные в потоковое приложение. Приложение осуществляет мониторинг производительности, предупреждает возникновение возможных дефектов и автоматически заказывает необходимые запасные части для предотвращения простоя оборудования.

Финансовая аналитика

Финансовые учреждения используют потоковые данные для отслеживания изменений на фондовых биржах в режиме реального времени, вычисления рисковой стоимости и автоматического выполнения ребалансировки портфеля ценных бумаг на основании изменений биржевого курса. Еще одним способом использования технологии в финансовой сфере является обнаружение мошеннических операций с транзакциями по кредитным картам, для чего применяется логический вывод данных в режиме реального времени и их сравнение с потоковыми данными транзакций.

Гарантии обслуживания

Вы можете применять обработку потоков данных для отслеживания и поддержания уровней сервисного обслуживания для приложений и оборудования. Например, гелиоэнергетическая компания должна предоставлять своим клиентам определенную проходную мощность, в противном случае ей придется платить штрафы. Она внедряет приложение для потоковой передачи данных, которое будет отслеживать состояние всех установленных панелей и в режиме реального времени назначать для них обслуживание. Благодаря этому становится возможной минимизация периодов низкой пропускной способности каждой панели и связанных с ними штрафных выплат.

Мультимедиа и игры

Издатели мультимедиа осуществляют потоковую передачу миллиардов операций по навигации со своих онлайн-ресурсов, агрегируют и обогащают данные информацией о демографии пользователей, а также оптимизируют размещение контента. Это помогает издателям предоставлять целевой аудитории улучшенный и более релевантный опыт взаимодействия с приложениями. Компании, занимающиеся онлайн-играми, также используют обработку потоков событий для анализа взаимодействий игроков внутри игры и предлагают динамический опыт взаимодействия для вовлечения игроков.

Контроль рисков

Платформы социальных сетей и живых трансляций считывают данные о поведении пользователей в режиме реального времени для контроля рисков в связи с финансовой активностью пользователей, которая может относиться к пополнению счетов, возмещению средств и получению наград. Специалисты по таким платформам используют панели управления для гибкой корректировки стратегий управления рисками в режиме реального времени.

В чем разница между пакетными и потоковыми данными?

Пакетная обработка — это метод, используемый компьютерами для периодического выполнения повторяющихся заданий с большими объемами данных. Ее можно использовать для вычислений по любым запросам к данным из разных наборов. Обычно вычислительные результаты подобной обработки основываются на всех входящих в пакет данных, благодаря чему обеспечивается глубокий анализ наборов больших данных. В качестве примера платформ, поддерживающих пакетные задания, можно привести системы, использующие MapReduce, например Amazon EMR.

Напротив, потоковая обработка требует сбора последовательности данных и постепенного обновления метрик, отчетов и сводной статистики в ответ на каждую поступающую запись данных. Этот тип обработки лучше всего подходит для аналитики в режиме реального времени и функций ответа.

Пакетная обработка

Потоковая обработка

Охват данных

Запросы ко всем или большей части данных в наборе и их обработка.

Запросы к данным и их обработка в пределах скользящего временного окна или только по самой свежей записи данных.

Размер данных

Большие пакеты данных.

Отдельные записи или микропакеты из нескольких записей.

Производительность

Задержки от нескольких минут до нескольких часов.

Требуется задержка в пределах нескольких секунд или миллисекунд.

Анализ

Комплексная аналитика.

Простые функции ответа, агрегации данных или динамических метрик.

Многие организации выстраивают гибридные модели за счет комбинации двух подходов для поддержки операций как на уровне реального времени, так и на пакетном уровне. Например, сначала можно обработать данные на платформе потоковых данных, такой как Amazon Kinesis, для извлечения аналитической информации в реальном времени. Затем его можно сохранить в таком магазине, как Amazon Simple Storage Service (Amazon S3). Там вы сможете преобразовать данные и загрузить их для различных случаев применения пакетной обработки.

Amazon Redshift Streaming Ingestion позволяет пользователям получать данные непосредственно из Amazon Kinesis Data Streams без необходимости размещать их в Amazon S3. Сервис также может потреблять данные из Управляемой потоковой передачи Amazon для Apache Kafka (Amazon MSK) и отправлять их в Amazon Redshift.

Как выполнять обработку потоковых данных?

Архитектура обработки потоковых данных содержит два основных типа компонентов.

Поставщики потоков

Поставщики потоков – это программные компоненты в приложениях и системах IoT, которые заняты сбором данных. Они передают записи в обработчик потока, который хранит имена потоков, значения данных и номера последовательностей. Такой обработчик буферизует или временно группирует записи данных по имени потока. Он использует номер последовательности для отслеживания уникальной позиции каждой записи и обрабатывает данные в хронологической последовательности.

Потребители потока

Потребителями потока выступают программные компоненты, которые обрабатывают и анализируют потоки данных, буферизованные в обработчике. Каждый потребитель обладает возможностями аналитики, позволяющими выполнять задачи корреляции, агрегирования, фильтрации, составления выборки или машинного обучения. Каждый поток может обладать несколькими потребителями, а каждый потребитель может обрабатывать сразу несколько потоков. Потребители также отправляют измененные данные обратно в обработчик для создания новых потоков для других потребителей.

Реализация архитектуры

Для реализации архитектуры обработки потоковых данных необходимо использовать слои обработки и хранилища. Уровень хранилища обязан поддерживать очередность записей и строгую непротиворечивость для обеспечения быстрых, экономичных и воспроизводимых операций записи и чтения больших потоков данных. Уровень обработки отвечает за потребление данных, расположенных на уровне хранилища, выполнение вычислений с использованием этих данных и уведомление уровня хранилища о том, какие данные можно удалить за ненадобностью.

Какие проблемы возникают при работе с потоковыми данными?

Архитектура обработки потоковых данных требует особой подготовки, обусловленной характером и объемом данных.

Доступность

Приложения потоковой трансляции данных требует стабильности работы, низкой задержки и высокой доступности. Потребители регулярно получают новые данные из потоков для последующей обработки. Задержки на стороне поставщика данных могут привести к резервному копированию системы и вызвать различные ошибки.

Масштабируемость

Необработанные потоки данных могут неожиданным образом создавать пиковые нагрузки. Например, количество публикаций в социальных сетях резко возрастает во время крупных соревнований. По этой причине система должна обеспечивать правильное формирование последовательностей данных, гарантируя доступность и стабильность работы даже во время пиковых нагрузок.

Надежность

Так как данные зачастую обладают чувствительностью к временным параметрам, система обработки потоков должна быть устойчивой к сбоям. В ином случае данные можно навсегда потерять при отключении питания либо при сбое системы.

Как AWS может удовлетворить ваши требования к потоковым данным?

AWS предоставляет несколько вариантов работы с потоковыми данных.

Amazon Kinesis

Kinesis — это платформа для потоковой передачи данных на AWS. Она предлагает надежные сервисы, которые позволяют легко и просто загружать и анализировать потоковые данные, а также создавать собственные приложения для решения специфических задач, возникающих при обработке потоковых данных.

Kinesis предоставляет три сервиса: Amazon Data Firehose, Amazon Kinesis Data Streams и Amazon Managed Streaming для Apache Kafka (Amazon MSK).

Данные Amazon Firehose

Amazon Data Firehose может собирать и автоматически загружать потоковые данные в Amazon Simple Storage Service (Amazon S3) и Amazon Redshift. С помощью этого сервиса вы сможете выполнять анализ в реальном времени, применяя существующие инструменты бизнес-аналитики и информационные панели, которые вы используете при решении повседневных задач.

Kinesis Data Streams

Kinesis Data Streams может непрерывно собирать и хранить терабайты (ТБ) данных из сотен тысяч источников в час. Программа поддерживает платформы потоковой обработки, выбранные пользователем, включая Amazon Kinesis Client Library (KCL), Apache Storm и Apache Spark Streaming.

Amazon MSK

Amazon MSK — это полностью управляемый сервис, который упрощает создание и запуск приложений с использованием Apache Kafka для обработки потоковых данных. Apache Kafka – это платформа с открытым исходным кодом для создания потоковых конвейеров данных и приложений в реальном времени.

Amazon Redshift

Amazon Redshift Streaming Ingestion позволяет пользователям загружать потоковые данные в свое хранилище данных для аналитики в реальном времени из нескольких потоков данных Kinesis. Вы можете проводить глубокую аналитику с помощью знакомых инструкций языка SQL и с легкостью создавать конвейеры ELT, а также управлять ими. Кроме того, вы сможете также обрабатывать огромные объемы потоковых данных с низкой задержкой и высокой пропускной способностью для выполнения аналитики за считанные секунды.

Прочие потоковые решения в Amazon EC2

Вы можете установить выбранные вами платформы потоковых данных в Amazon Elastic Compute Cloud (Amazon EC2) и Amazon EMR и создать собственные уровни потокового хранения и обработки. В результате вы сможете избежать проблем при выделении инфраструктуры, а также получите доступ к различных потоковым хранилищам и платформам обработки данных. Варианты уровня хранения данных включают Amazon MSK и Apache Flume. Варианты слоя потоковой обработки включают Apache Spark Streaming и Apache Storm.

Начните работу с потоковой передачей данных на AWS, создав бесплатный аккаунт AWS уже сегодня!

Browse all cloud computing concepts

Browse all cloud computing concepts content here:

Загрузка

Did you find what you were looking for today?

Let us know so we can improve the quality of the content on our pages

Что такое потоковая передача данных?