Большие данные обычно определяют с точки зрения проблем управления данными, которые не удается решить в рамках традиционных баз данных в силу объема, разнообразия данных и требований к скорости. Существуют разные определения больших данных, но большинство из них базируется на концепции «трех V» больших данных.

Объем (Volume): исчисляется в терабайтах и петабайтах.

Разнообразие (Variety): данные поступают из самых разнообразных источников в различных форматах (это могут быть сетевые журналы, взаимодействие в социальных сетях, интернет-коммерция и транзакции в режиме онлайн, финансовые транзакции и т. д.).

Скорость (Velocity): компании все чаще предъявляют очень строгие требования к тому, за какое время с момента возникновения данные должны превращаться в аналитические результаты, на основании которых пользователи могут принимать решения. Таким образом, необходимо обеспечить сбор, хранение, обработку и анализ данных за довольно короткое время: от одного дня вплоть до режима реального времени.

Начните работу с большими данными прямо сейчас

Попробуйте AWS бесплатно
Обратиться в отдел продаж

Найти дополнительные ресурсы и учебные пособия


Несмотря на всю доступную информацию, многие организации не осознают, что сталкиваются с проблемой больших данных, или просто не готовы мыслить такими категориями. Организация может получить преимущества от применения технологий больших данных, если ее существующие приложения и базы данных больше не способны масштабироваться и справляться с внезапными увеличениями объема или разнообразия данных или требований к скорости их обработки.

Если вовремя не найти правильного подхода к работе с большими данными, это может привести к повышению расходов, а также снижению эффективности работы и конкурентоспособности. И напротив, разумная стратегия по работе с большими данными может помочь организации сократить расходы и получить дополнительные преимущества при работе за счет осуществления текущих крупных рабочих нагрузок с помощью технологий больших данных, а также развертывания новых приложений для выгодного использования открывшихся возможностей.


BigData__hadoop

Технологии больших данных включают новые инструменты для всех этапов цикла обработки данных, использование которых вполне доступно как с технической, так и с финансовой точки зрения. С помощью этих инструментов можно решать вопросы сбора и хранения больших пакетов данных, а также выполнять их обработку для получения новой ценной аналитической информации. В большинстве случаев работа с большими данными подразумевает стандартный рабочий процесс: от сбора необработанных данных и до получения пригодной для использования информации.

Сбор. Сбор необработанных данных (транзакций, записей журналов, событий мобильных устройств и пр.) – это первая проблема, с которой сталкиваются организации при работе с большими данными. Качественная платформа для работы с большими данными упрощает этот этап, предоставляя разработчикам возможность сбора самых разнообразных данных, структурированных и нет, на любой скорости, от режима реального времени до пакетной обработки.

Хранение. Любая платформа для работы с большими данными должна включать надежный, безопасный и масштабируемый репозиторий для хранения данных как до обработки, так и после таковой. В зависимости от конкретных требований могут понадобиться и временные хранилища для перемещаемых данных.

Обработка и анализ. На этом этапе выполняется преобразование данных из необработанного состояния в пригодный для использования формат. Обычно это достигается за счет сортировки, агрегации, объединения или применения специальных расширенных функций и алгоритмов. После этого итоговые пакеты данных сохраняются для дальнейшей обработки или предоставляются для использования с помощью инструментов бизнес-аналитики и визуализации.

Визуализация и использование. Основная цель работы с большими данными – получение на их основании ценных аналитических выводов для практического применения. В идеале большие данные должны становиться доступными для всех заинтересованных сторон, чтобы они получали возможность легко и быстро изучать пакеты данных с помощью инструментов бизнес-аналитики и настраиваемой визуализации, рассчитанных на самостоятельное использование. В зависимости от типа аналитики конечным пользователям могут предоставляться готовые результаты в форме данных статических «прогнозов» (в случае прогнозирующей аналитики) или рекомендованных действий (в случае предписывающей аналитики).


Технологии работы с большими данными продолжают активно развиваться. Уже сегодня у организаций есть выбор между различными типами аналитики для реализации различных функций.

BigData__collection-processing

Описательный анализ помогает пользователям ответить на вопрос: «Что произошло и почему?» В качестве примера можно привести традиционную среду для запросов и отчетов с панелями управления и системами оценок.

Прогнозирующий анализ позволяет пользователям оценить вероятность тех или иных событий в будущем. В качестве примеров можно привести системы прогнозирования, заблаговременных предупреждений и обнаружения мошенничества, а также приложения для профилактического обслуживания.

Предписывающий анализ формирует для пользователя определенные рекомендации (предписания). Он помогает ответить на вопрос: «Что делать, если произойдет событие Х?»

Изначально инфраструктуры по работе с большими данными, например Hadoop, поддерживали только пакетные рабочие нагрузки. Крупные пакеты данных загружались для обработки сразу, и процесс ожидания результатов растягивался на часы и даже дни. Но время ожидания результата постепенно стало критическим фактором, и требуемая скорость обработки больших данных послужила толчком к развитию таких новых инфраструктур, как Apache Spark, Apache Kafka, Amazon Kinesis и т. д., способных поддерживать обработку потоковых данных в режиме реального времени.


Amazon Web Services предоставляет разнообразный, полностью интегрированный набор сервисов облачных вычислений, который поможет создать приложения для работы с большими данными, обеспечить их безопасность и выполнить развертывание. При работе с AWS не нужно закупать оборудование или обслуживать инфраструктуру, а значит, можно сконцентрировать усилия на поиске новых подходов и технологий. Мы постоянно расширяем возможности наших сервисов, поэтому вы можете использовать в работе новейшие технологии без долгосрочных инвестиций.

Подробнее о платформе и инструментах AWS для работы с большими данными »

Мгновенный доступ

Большинство технологий больших данных работает на больших кластерах серверов, что выливается в длительные циклы выделения и настройки ресурсов. С платформой AWS вы развернете требуемую инфраструктуру почти мгновенно. Как следствие, повышается производительность работы, упрощается процесс тестирования новых идей, сокращается время, необходимое для запуска проектов.

Широта охвата и разнообразные возможности

Рабочие нагрузки больших данных так же разнообразны, как и наборы данных, для анализа которых они предназначены. Использование платформы с широким охватом и разнообразными возможностями означает, что вы можете создать практически любое приложение для работы с большими данными и справиться с любыми рабочими нагрузками, независимо от объема, частоты обновлений и разнообразия данных. Ежегодно AWS внедряет более 50 новых сервисов и сотни новых возможностей, тем самым предоставляя все необходимое для сбора, хранения, обработки, анализа и визуализации больших данных в облаке. Подробнее о платформе AWS для работы с большими данными.

Надежность и безопасность

Большие данные часто являются конфиденциальными. Таким образом, принципиально важно обеспечить безопасность наборов данных и защиту инфраструктуры без потери гибкости. Функциональные возможности, предоставляемые AWS в сфере оборудования, сетевых конфигураций, ПО и обеспечения бизнес-процессов, соответствуют самым жестким требованиям. Мы постоянно проверяем созданные среды на соответствие требованиям таких сертификаций, как ISO 27001 и FedRAMP, требованиям к безопасности (SRG) МО США и PCI DSS. Наши программы предоставления гарантий помогут подтвердить соответствие требованиям более чем 20 стандартов, включая HIPAA, NCSC и другие. Подробнее см. в Центре безопасности облака AWS.

Сотни партнеров и решений

Если ваших собственных навыков недостаточно, сообщество партнеров AWS готово помочь вам начать работу с большими данными еще быстрее. Перейдите на страницу партнерской сети AWS, чтобы подобрать себе в помощь партнера-консультанта или выбрать подходящие решения из множества приложений и инструментов для управления данными.


Позвольте нам помочь вам в решении проблем с большими данными. Поручите нам выполнение самых сложных задач, чтобы отдавать больше сил и времени непосредственному достижению целей вашей организации.

Подробнее о решениях AWS для работы с большими данными »