Большие данные обычно определяют с точки зрения проблем управления данными, которые не удается решить в рамках традиционных баз данных в силу объема, разнообразия данных и требований к скорости. Существуют разные определения больших данных, но большинство из них базируется на концепции «трех V» больших данных.
Объем (Volume): исчисляется в терабайтах и петабайтах.
Разнообразие (Variety): данные поступают из самых разнообразных источников в различных форматах (это могут быть сетевые журналы, взаимодействие в социальных сетях, интернет-коммерция и транзакции в режиме онлайн или финансовые и т. д.).
Скорость (Velocity): компании все чаще предъявляют очень строгие требования к тому, за какое время с момента возникновения данные должны превращаться в аналитические результаты, на основании которых пользователи могут принимать решения. Таким образом, необходимо обеспечить сбор, хранение, обработку и анализ данных за довольно короткое время: от одного дня вплоть до режима реального времени.
Начните работу с большими данными прямо сейчас
Попробовать сервисы AWS бесплатноНайти дополнительные ресурсы и учебные пособия
Несмотря на всю доступную информацию, многие организации не осознают, что сталкиваются с проблемой больших данных, или просто не готовы мыслить такими категориями. Организация может получить преимущества от применения технологий больших данных, если ее существующие приложения и базы данных больше не способны масштабироваться и справляться с внезапными увеличениями объема или разнообразия данных либо требований к скорости их обработки.
Если вовремя не найти правильный подход к работе с большими данными, это может привести к повышению расходов, а также снижению эффективности работы и конкурентоспособности. И напротив, разумная стратегия по работе с большими данными может помочь организации сократить расходы и получить дополнительные эксплуатационные преимущества за счет осуществления текущих крупных рабочих нагрузок с помощью технологий больших данных, а также развертывания новых приложений для выгодного использования открывшихся возможностей.

Технологии больших данных включают новые инструменты для всех этапов цикла обработки данных, использование которых вполне доступно как с технической, так и с финансовой точки зрения. С помощью этих инструментов можно решать вопросы сбора и хранения больших пакетов данных, а также выполнять их обработку для получения новой ценной аналитической информации. В большинстве случаев работа с большими данными подразумевает стандартный процесс: от сбора необработанных данных и до получения пригодной для использования информации.
Сбор данных. Сбор необработанных данных (транзакций, записей журналов, событий мобильных устройств и пр.) – это первая проблема, с которой сталкиваются организации при работе с большими данными. Качественная платформа для работы с большими данными упрощает этот этап, предоставляя разработчикам возможность сбора самых разнообразных данных, структурированных и нет, на любой скорости, от режима реального времени до пакетной обработки.
Хранение. Любая платформа для работы с большими данными должна включать надежный, безопасный и масштабируемый репозиторий для хранения данных как до обработки, так и после таковой. В зависимости от конкретных требований могут понадобиться и временные хранилища для перемещаемых данных.
Обработка и анализ. На этом этапе выполняется преобразование данных из необработанного состояния в пригодный для использования формат. Обычно это достигается за счет сортировки, агрегации, объединения или применения специальных расширенных функций и алгоритмов. После этого итоговые пакеты данных сохраняются для дальнейшей обработки или предоставляются для использования с помощью инструментов бизнес-аналитики и визуализации.
Визуализация и использование. Основная цель работы с большими данными – получение на их основании ценных аналитических выводов для практического применения. В идеале большие данные должны становиться доступными для всех заинтересованных сторон, чтобы они получали возможность легко и быстро изучать пакеты данных с помощью инструментов бизнес-аналитики и настраиваемой визуализации, рассчитанных на самостоятельное использование. В зависимости от типа аналитики конечным пользователям могут предоставляться готовые результаты в форме данных статических «прогнозов» (в случае прогнозирующей аналитики) или рекомендованных действий (в случае предписывающей аналитики).
Технологии работы с большими данными продолжают активно развиваться. Уже сегодня у организаций есть выбор между разными типами аналитики для реализации различных функций.

Описательная аналитика позволяет пользователям ответить на такой вопрос: «Что случилось и почему?». В качестве примера можно привести традиционную среду для запросов и отчетов с панелями управления и системами оценок.
Прогнозирующая аналитика позволяет пользователям оценить вероятность тех или иных событий в будущем. В качестве примеров можно привести системы прогнозирования, заблаговременных предупреждений и обнаружения мошенничества, а также приложения для профилактического обслуживания.
Предписывающая аналитика формирует для пользователя определенные рекомендации (предписания). Они помогают ответить на вопрос: «Что делать, если произойдет событие Х?»
Изначально инфраструктуры по работе с большими данными, например Hadoop, поддерживали только пакетные рабочие нагрузки. Крупные пакеты данных загружались для обработки сразу, и процесс ожидания результатов растягивался на часы и даже дни. Но время ожидания результата постепенно стало критическим фактором, и требуемая скорость обработки больших данных послужила толчком к развитию таких новых инфраструктур, как Apache Spark, Apache Kafka, Amazon Kinesis и т. д., способных поддерживать обработку потоковых данных в режиме реального времени.
Amazon Web Services предоставляет разнообразный, полностью интегрированный набор сервисов облачных вычислений, который поможет создать приложения для работы с большими данными, обеспечить их безопасность и выполнить развертывание. При работе с AWS не нужно закупать оборудование или обслуживать инфраструктуру, а значит, можно сконцентрировать усилия на поиске новых подходов и технологий. Мы постоянно расширяем возможности наших сервисов, поэтому вы можете использовать в работе новейшие технологии без долгосрочных инвестиций.
Подробнее о платформе и инструментах AWS для работы с большими данными »

Технологии больших данных в основном работают на больших кластерах серверов, что выливается в длительные циклы выделения и настройки ресурсов. С платформой AWS вы развернете требуемую инфраструктуру почти мгновенно. Как следствие, повышается производительность работы, упрощается процесс тестирования новых идей, сокращается время, необходимое для запуска проектов.

Рабочие нагрузки больших данных так же разнообразны, как и наборы данных, для анализа которых они предназначены. Использование платформы с широким охватом и возможностями означает, что вы можете создать практически любое приложение для работы с большими данными и справиться с различными рабочими нагрузками, независимо от объема, частоты обновлений и разнообразия данных. Ежегодно AWS внедряет более 50 новых сервисов и сотни новых возможностей, тем самым предоставляя все необходимое для сбора, хранения, обработки, анализа и визуализации больших данных в облаке. Подробнее о платформе AWS для работы с большими данными.

Большие данные часто являются конфиденциальными. Таким образом, принципиально важно гарантировать безопасность наборов данных и защиту инфраструктуры без потери гибкости. Функциональные возможности, предоставляемые AWS в сфере оборудования, сетевых конфигураций, ПО и обеспечения бизнес-процессов, соответствуют самым жестким требованиям. Мы постоянно проверяем созданные среды на соответствие требованиям таких сертификаций, как ISO 27001 и FedRAMP, требованиям к безопасности (SRG) МО США и PCI DSS. Наши программы предоставления гарантий помогут подтвердить соответствие требованиям более чем 20 стандартов, включая HIPAA, NCSC и другие. Подробнее см. в Центре безопасности облака AWS.

Если ваших собственных навыков недостаточно, сообщество партнеров AWS готово помочь вам начать работу с большими данными еще быстрее. Перейдите на страницу партнерской сети AWS, чтобы подобрать себе в помощь партнера-консультанта или выбрать подходящие решения из множества приложений и инструментов для управления данными.
Позвольте нам помочь вам в решении проблем с большими данными. Поручите нам выполнение самых сложных задач, чтобы отдавать больше сил и времени непосредственному достижению целей вашей организации.
Подробнее о решениях AWS для работы с большими данными »