- Amazon Kinesis›
- Потоки данных›
- Начало работы
Начало работы с Потоками данных Amazon Kinesis
Начать работу
Потоки данных Amazon Kinesis – это широко масштабируемый сервис по сбору и обработке данных с высокой степенью надежности, оптимизированный для работы с потоковыми данными. В соответствии с настройками в поток данных Amazon Kinesis могут непрерывно поступать данные из сотен тысяч источников. Данные будут доступны вашим приложениям Amazon Kinesis в течение миллисекунд, и эти приложения получат записи данных в том порядке, в котором они были созданы.
Потоки данных Amazon Kinesis можно интегрировать со многими сервисами AWS, включая: Данные Amazon Kinesis Firehose для преобразования данных в режиме, близком к реальному времени, и доставки потоковых данных в озеро данных AWS, например Amazon S3; Управляемый сервис Amazon для Apache Flink для управляемой обработки потоковых данных; AWS Lambda для обработки событий или записей; AWS PrivateLink для частных подключений; Amazon Cloudwatch для обработки метрик и журналов; а также AWS KMS для шифрования на стороне сервера.
Сервис «Потоки данных Amazon Kinesis» используется в качестве шлюза в системе обработки больших данных. Данные из различных источников помещаются в поток Amazon Kinesis, после чего могут использоваться различными приложениями Amazon Kinesis. В этом примере одно приложение (обозначено желтым) обрабатывает потоковые данные в режиме реального времени. Другое приложение (обозначено красным) выполняет простую агрегацию данных и отправляет обработанные данные в Amazon S3. Данные в S3 подвергаются обработке и сохраняются в Amazon Redshift для комплексного анализа. Третье приложение (обозначено зеленым) передает необработанные данные в Amazon S3, после чего они архивируются и отправляются в Amazon Glacier для экономичного долгосрочного хранения. Обратите внимание: все три конвейера обработки данных работают одновременно и параллельно.
Начать работу с Amazon Kinesis Data Streams
Видео
Использование Kinesis Data Streams
Зарегистрировавшись в Amazon Web Services, можно начать работу с Amazon Kinesis Data Streams с помощью следующих действий.
- Создание потока данных Amazon Kinesis с помощью консоли управления Amazon Kinesis или API Amazon Kinesis CreateStream.
- Настроить источники данных для непрерывной передачи данных в поток Amazon Kinesis.
- Создание приложений Amazon Kinesis для чтения и обработки данных из потока данных Amazon Kinesis.
Основные понятия
Открыть всеСегмент – это основная единица передачи данных потока Amazon Kinesis.
- Сегмент представляет собой журнал только для добавления данных и единицу пропускной способности потока. Сегмент содержит последовательность записей данных, упорядоченную по времени поступления.
- Каждый сегмент может собирать до 1000 записей данных в секунду, или до 1 МБ/с. Чтобы собирать данные в большем объеме, потребуются дополнительные сегменты.
- Динамически добавляйте или удаляйте сегменты из потока по мере изменения пропускной способности данных с помощью консоли AWS, API UpdateShardCount, запускайте автоматическое масштабирование с помощью AWS Lambda или утилиты автоматического масштабирования.
- Когда потребители используют дополнительные копии данных, каждый сегмент собирает до 1 МБ/с входящих данных и отправляет до 2 МБ/с исходящих данных каждому потребителю, зарегистрированному на использование дополнительных копий.
- Когда потребители не используют дополнительные копии данных, сегмент собирает до 1 МБ/с входящих данных и отправляет до 2 МБ/с исходящих данных, общих для всех потребителей, не использующих дополнительные копии данных.
- При создании потока указывается требуемое количество сегментов, изменить которое можно в любое время. К примеру, можно создать поток с двумя сегментами. С пятью потребителями данных, использующими дополнительные копии, этот поток может предоставлять до 20 МБ/с исходящих данных (2 сегмента x 2 МБ/с x 5 потребителей данных). Когда потребители данных не используют дополнительные копии, входящая пропускная способность этого потока составляет 2 МБ/с, а исходящая – 4 МБ/с. В обоих случаях поток обеспечивает до 2000 записей PUT в секунду, или до 2 МБ/с приема данных, в зависимости от того, какой лимит будет достигнут ранее.
- В Amazon Kinesis Data Streams можно отслеживать метрики на уровне сегментов.
Размещение данных в потоках
Открыть всеИспользуйте готовые приложения или разрабатывайте собственные
Открыть всеУправление потоками
Открыть всеУчебные пособия
Открыть всеЭто учебное пособие представляет собой пошаговое руководство по созданию потока данных Amazon Kinesis, отправке модели биржевых данных в поток и написанию приложения для обработки данных потока.
Избранные презентации
Открыть всеAmazon Kinesis упрощает сбор, обработку и анализ потоковых данных в режиме реального времени, что позволяет своевременно получать аналитические данные и быстро реагировать на новую информацию. В этом семинаре мы рассказываем о комплексном решении для работы с потоковыми данными, в котором Kinesis Streams используется для сбора данных, Kinesis Analytics – для обработки в режиме реального времени, а Kinesis Firehose – для стабильной работы. Мы подробно рассказываем, как писать SQL-запросы для использования потоковых данных, и обсуждаем рекомендации по оптимизации и мониторингу приложений Kinesis Analytics. В заключение мы объясним, как оценить стоимость всей системы.
Хотите быстро расширить знания о веб‑сервисах AWS для больших данных и запустить первое приложение для больших данных в облаке? Мы объясняем, как упростить процесс обработки больших данных и представить его в виде конвейера данных, включающего сбор, хранение, обработку и визуализацию. Вы создадите приложение для больших данных с использованием AWS Managed Services, включая Amazon Athena, Amazon Kinesis, Amazon DynamoDB и Amazon S3. В ходе семинара мы рассматриваем шаблоны проектирования архитектуры приложений для больших данных и даем практическое задание на дом, в ходе которого вы сможете самостоятельно изменять и настраивать приложение. Для того чтобы семинар имел максимальный эффект, следует подготовить свой ноутбук и ознакомиться с сервисами AWS.
В последние годы наблюдается бурный рост количества подключенных устройств и источников, передающих данные в режиме реального времени. Вследствие этого новые данные создаются непрерывно, а скорость их создания все время растет. Компании не могут себе позволить ждать несколько часов или дней, чтобы начать использовать эти данные. Организации должны немедленно использовать новые данные для получения наиболее ценной аналитической информации и возможности быстро на нее реагировать. Из этого семинара вы узнаете, как с выгодой использовать источники потоковых данных для анализа и реагирования в режиме, близком к реальному времени. Вам будут представлены некоторые требования для реального сценария использования потоковых данных. На их основе нужно будет создать решение, которое бы полностью удовлетворяло заданным требованиям, с использованием сервисов Amazon Kinesis, AWS Lambda и Amazon SNS.
Всем организациям и клиентам, которые применяют инструменты пакетного анализа данных и изучают преимущества потоковой аналитики, крайне важно сократить время на получение полезной аналитической информации на основе данных. Ознакомьтесь с рекомендациями по расширению архитектуры от хранилищ и баз данных до решений, работающих в режиме реального времени. Узнайте, как использовать Amazon Kinesis для получения аналитической информации из данных в режиме реального времени и интегрировать ее с Amazon Aurora, Amazon RDS, Amazon Redshift и Amazon S3. Команда Amazon Flex объяснит, как они применяли потоковую аналитику в мобильном приложении Amazon Flex, которым пользуются экспедиторы компании Amazon для своевременной доставки миллионов посылок ежемесячно. Они расскажут об архитектуре, которая позволила перейти от системы пакетной обработки к системе, работающей в режиме реального времени, и решить проблемы миграции существующих пакетных данных в потоковые данные, а также о преимуществах аналитики в режиме реального времени.
Компаниям необходимо использовать актуальные данные в режиме реального времени, чтобы принимать решения проще и быстрее. Это позволит получить преимущество на рынке и обеспечивать дифференцированные уровни обслуживания для клиентов. Из этого семинара вы узнаете о распространенных примерах использования и архитектурах решений для обработки потоковых данных. В первой части семинара мы проводим обзор потоковых данных и возможностей AWS по работе с ними. Затем мы рассказываем о некоторых примерах клиентов и их приложений для потоковой передачи в режиме реального времени. В заключение мы обсудим распространенные примеры архитектуры и шаблоны проектов для основных примеров использования потоковых данных.