Бессерверная конфигурация Amazon EMR устраняет необходимость в выделении локального хранилища для рабочих нагрузок Apache Spark
Бессерверная конфигурация Amazon EMR теперь поддерживает бессерверное хранилище, избавляя от необходимости выделять локальное хранилище для рабочих нагрузок Apache Spark, что позволяет уменьшить затраты на обработку данных на 20 % и предотвращает сбои заданий из-за нехватки места на дисках. Настраивать тип и размер локального диска для каждого приложения больше не потребуется. Бессерверная конфигурация EMR автоматически выполняет промежуточные операции с данными, такие как произвольное сегментирование, без необходимости платить за локальное хранилище. Вы платите только за потребляемые вашим заданием вычислительные ресурсы и ресурсы памяти.
Бессерверная конфигурация EMR переносит промежуточные операции с данными в полностью управляемое бессерверное хранилище с автоматическим масштабированием, которое шифрует данные в движении и хранимые данные с изоляцией на уровне заданий. Бессерверное хранилище отделяет хранилище от вычислительных ресурсов, позволяя Spark сразу же освобождать простаивающие рабочие узлы вместо того, чтобы держать их активными для сохранения временных данных. Оно устраняет сбои в работе, возникающие из-за нехватки места на диске, и уменьшает затраты, связанные с простоем рабочих узлов. Это особенно важно для работ, использующих динамическое распределение ресурсов, таких как механизмы рекомендаций, обрабатывающие миллионы взаимодействий с клиентами, в которых на начальных этапах используется обработка больших объемов данных с высоким параллелизмом, а впоследствии, по мере агрегации данных, параллелизм уменьшается.
Эта функция является общедоступной для EMR 7.12 и более поздних выпусков. См. Поддерживаемые регионы AWS, где доступны эти возможности. Для начала ознакомьтесь со сведениями о бессерверном хранилище в документации по бессерверной конфигурации EMR.