Блог Amazon Web Services

Надёжность, шаблон постоянной работы и чашка хорошего кофе

Igor Sharfmesser — Fri, 29 Nov 2024 11:21:43 +0000

Оригинал статьи: Reliability, constant work, and a good cup of coffee, By Colm MacCárthaigh

Кофе и масштабируемость

Одна из моих любимых картин – «Ночные ястребы» Эдварда Хоппера. Несколько лет назад мне повезло увидеть её в Чикагском институте искусств. Поздняя ночь. Витрина открывает вид на трех посетителей. На одном углу барной стойки мужчина, сидящий спиной, на другом – пара: мужчина и женщина. За стойкой, ближе к одинокому мужчине, нагнулся бармен в белом фартуке; похоже он моет чашки. На заднем плане, справа от бармена, видны две огромных, на несколько десятков литров, кофеварки, рассчитанные на приготовление кофе сотнями чашек.

Такие кофеварки часто используют на больших мероприятиях: конференциях, свадьбах, съемочных площадках, и даже в офисах Amazon. Вы когда-нибудь задумывались зачем нужны такие большие ёмкости? В них всегда есть готовый кофе, потому что они постоянно выполняют один и тот же объём работы.

Опытный бариста готовит кофе по одной чашке. И каждая может стать шедевром. Но стоит ему получить больше заказов – например, приготовить 100 чашек – и сразу возникнет проблема. В час пик образуется длинная очередь. Многолитровые кофеварки, если не вдаваться в детали, работают иначе: их производительность не зависит от того, сколько человек и когда придут за кофе. В них всегда достаточное количество готового напитка. Три запоздавших посетителя или толпа в час пик –кофе хватит всем. Если описывать такие кофеварки языком компьютерных наук, можно сказать, что время их работы не зависит от объема входных данных. Они выполняют одинаковый объем работы независимо от того, сколько людей пришли за кофе. В нотации «О» большое это выглядит как O(1), а не O(N).

Прежде чем продолжить, позвольте ответить на пару возражений, которые, возможно, у вас возникли. Если вы проектируете системы – а раз вы читаете эту статью, вы, скорее всего, это так –вы, наверное, уже подумали: «Ну, на самом деле…». Во-первых, если опустошить кофеварку полностью, её придется заново заполнять, и людям придется подождать подольше. Именно поэтому выше я оговорился: «если не вдаваться в детали». Если вы когда-либо бывали на ежегодной конференции AWS re:Invent в Лас-Вегасе, вы, возможно, видели сотни кофеварок в столовой конференц-центра Sands Expo. Это наглядный пример масштаба, необходимого для удовлетворения потребностей десятков тысяч участников в кофеине.

Во-вторых, многие кофеварки оснащены нагревательными элементами и термостатами. Это значит, что по мере уменьшения объёма кофе внутри они потребляют меньше энергии. Когда нужно подогревать меньше кофе, они выполняют немного меньше работы. Таким образом, в утренний час пик, кофеварки на самом деле чуть более производительны. Способность сохранять или даже увеличивать производительность в момент возрастания нагрузки называеться антихрупкость.

Кофеваркам, с учётом описанных замечаний, не приходится выполнять больше работы только потому, что больше людей решили выпить кофе. Они служат отличным примером. Недороги, просты в использовании и обслуживании, и невероятно надёжны. Плюс, они не дают миру заснуть. Браво, скромным кофеваркам!

Компьютер – идеальный работник

В отличие от приготовленого вручную кофе, одной из замечательных особенностей компьютеров является постоянство: не нужно выбирать между качеством и количеством. Достаточно однажды написать программу, и компьютер будет повторять действия снова и снова. Каждый раз с одинаковым результатом. Конечно, чтобы программировать нужны знания, однако качество результата будет зависеть только от того, насколько качественно составлена программа. Если грамотно обучить его всем нюансам приготовления идеальной чашки кофе, компьютер приготовит миллионы идеальных чашек.

Безусловно, выполнение действия миллион раз потребует больше времени, чем сделать то же самое тысячи или сотни раз. Попросите компьютер сложить два плюс два миллион раз. Каждый раз результат будет четыре, просто это займет больше времени, чем если проделать это единожды. Когда мы эксплуатируем высоконадежные системы, вариативность является самой большой проблемой. Истинность этого утверждения наглядно подтверждается в ситуацииях, когда приходится сталкиваться с ростом нагрузки или изменением состояния системы, например из-за модификации настроек или необходимости реагировать на аварии вроде потери электропитания или сбоя сети. Избыточная нагрузка на систему, совпадающая с большим количеством изменений – худший момент, когда система может начать терять свою производительность. Снижение производительности означает, что очереди вырастают, как в кафе, где кофе готовит бариста. Однако, в отличие от очереди в кафе, очереди в системе могут привести к цепной реакции: система отвечает медленнее, пользователи повторяют запросы, система отвечает еще медленнее. Система губит саму себя.

Марк Брукер и Дэвид Яначек написали статью в Amazon Builder’s Library о том как правильно обрабатывать таймауты с использованием повторных попыток и задержек, чтобы избежать цепной реакции. Однако, даже если вы сделали все правильно, увеличение времени отклика останется проблемой. Замедление реакции во время обработки аварий и сбоев приводит к простоям.

Вот почему многие из наших самых надежных систем основываются на чрезвычайно простых, даже примитивных, но очень надежных шаблонах постоянной работы. Так же, как и кофеварки, эти подходы обладают тремя ключевыми свойствами. Во-первых, системы не масштабируются динамически при изменении нагрузки. Во-вторых, у них нет разных режимов работы – они выполняют одни и те же операции в любых условиях. В-третьих, единственная вариативность заключается в том, что они могут ограничивать объем выполняемой работы в момент наибольшей нагрузки, так как именно тогда важнее сохранить работоспособность системы вообще. Это и есть проявление антихрупкости.

Каждый раз, когда я упоминаю антихрупкость, мне напоминают, что ещё одним примером антихрупкого шаблона является кэш. Кэш сокращает время отклика, и, как правило, под нагрузкой отклик может оказаться даже быстрее. Однако, кэш работает в разных режимах. Когда он пуст, время отклика может значительно возрасти, что делает систему нестабильной. Хуже того, когда кэш перестает быть эффективным из-за слишком большой нагрузки, он может каскадом вызвать сбой источника кэшируемых данных, который может не справится с поступающими к нему запросами. Поначалу кэши кажутся антихрупкими, но на самом деле они увеличивают хрупкость при перегрузках. Поскольку сейчас мы не обсуждаем кэши, не буду углубляться в тему. Если хотите узнать больше об использование кэшей, прочитайте Мэтта Бринкли и Джеса Хабра, о, как построить действительно антихрупкий кэш.

Эта статья, впрочем, не столько о масштабировании раздачи кофе, сколько о том, как мы применяем шаблон постоянной работы в Amazon. Я приведу два примера, которые упрощены и несколько абстрагированы от реальных реализаций, в основном для того, чтобы не углубляться в некоторые механизмы и запатентованные технологии, на которых основаны другие функций. Рассматривайте эти примеры, как выжимку ключевых свойств шаблона постоянной работы.

Проверка работоспособности в Amazon Route 53

Трудно представить функцию более важную, чем проверка работоспособности. Если инстанс, сервер или зона доступности теряет питание или подключение к сети, проверка работоспособности выявляет это и обеспечивает перенаправление трафика в другое место. Проверка работоспособности интегрирована в Amazon Route 53, балансировщики Elastic Load Balancing и другие сервисы. В этой статье мы рассмотрим, как работает проверка работоспособности в Route 53, которая является одной из самых критичных. Не существует других способов восстановить работоспособность системы, кроме как с помощью DNS перенаправить трафик на работающие ресурсы.

С точки зрения пользователя, проверка работоспособности в Route 53 работает так: DNS-имя связывается с двумя и более записями (например, IP-адресами, принадлежащими сервису). Записи могут иметь разные «веса», или это могут быть две разные записи для основной и резервной конфигурации. При этом одна из записей будет иметь приоритет, пока связанный с ней сервер или сервис продолжают работать. Работоспособность проверяется с помощью теста, который настраивается для каждого варианта записи. В конфигурации теста, обычно, указывают IP-адрес сервера, чаще всего совпадающий с адресом в записи, порт, протокол, тайм-аут и так далее. Если вы используете сервисы Elastic Load Balancing, Amazon Relational Database Service или многие другие сервисы, которые используют Route 53 для обеспечения высокой доступности, эти параметры настраиваются автоматически.

Сервера, выполняющие проверки работоспособности в Route 53, распределены по различным регионам AWS. Это резервирование с избытком. Каждые несколько секунд десятки серверов отправляют запросы по заданным адресам и проверяют ответы. Затем эти ответы передаются меньшему набору серверов-агрегаторов. Они реализуют логику определяющую чувствительность проверок. Если один из десяти тестов во время последней проверки работоспособности оказался неудачным, еще не значит, что сервис перестал работать. Возможно, произошла случайная ошибка. Агрегаторы опираются на правила. Например, мы можем считать ресурс неработоспособным только в случае, если как минимум три отдельных теста оказались неудачными. Пользователи могут настроить эти параметры самостоятельно, агрегаторы будут следовать правилам, заданным для каждого ресурса.

Все что мы описали до сих пор – примеры применения шаблона постоянной работы. Независимо работоспособен ли ресурс, тестирующие сервера и сервера-агрегаторы выполняют одни и те же действия. Конечно, пользователи могут добавить проверки для новых серверов и адресов, и это немного увеличит объем работы, но об этом можно не беспокоиться.

Одна из причин, почему это не имеет большого значения, заключается в использовании сотовой архитектуры для серверов, выполняющих тесты, и серверов-агрегаторов. Мы измерили сколько тестов работоспособности может выполнять каждая сота, и всегда контролируем нагрузку на каждую из них. Если нагрузка приближается к пределу, мы добавляем соту серверов-тестировщиков или серверов-агрегаторов, в зависимости от потребностей.

Другая причина, и, вероятно, самое интересное в этой статье. Даже если настроено лишь несколько проверок работоспособности, сервера-тестировщики отправляют серверам-агрегаторам набор данных максимального размера. Например, если на сервере настроено только 10 проверок, он все равно будет каждый раз отправлять набор из 10 000 результатов, если это максимальное количество проверок, которые он может выполнять. Из них 9 990 будет заполнено пустыми записями. Это гарантирует, что нагрузка на сеть и объем работы, выполняемый агрегаторами, не будет увеличиваться с добавлением новых проверок. Таким образом устраняется гигантский источник вариативности.

Что еще более важно, даже если очень большое количество ресурсов одновременно перестанут выдерживать проверку работоспособности, скажем, в результате потери электропитания в зоне доступности, это никак не скажется ни на работе серверов-тестировщиков, ни на работе серверов-агрегаторов. Они продолжат делать то, что уже делают. На самом деле, если рассматривать общий объем работы выполняемый системой, он может, даже, оказаться меньше потому, что некоторые из серверов-тестировщиков сами могут оказаться в аварийной зоне доступности.

Двинемся дальше. Route 53 может проверять работоспособность ресурсов и агрегировать результаты используя шаблон постоянной работы. Однако само по себе это не приносит пользы. Нам нужно что-то делать с результатами этих проверок. И вот тут начинается самое интересное. Логично использовать результаты проверок для изменения записей DNS. Мы могли бы сравнить текущий результат проверки с предыдущим. Если статус изменился на «неработоспособный», использовать API, чтобы удалить все связанные записи из DNS. Если работоспособность восстановиться, добавить обратно. Или, чтобы избежать добавления и удаления записей, мы могли бы добавить флаг «активен», который будет устанавливаться или сниматься по необходимости.

Может показаться разумным рассматривать Route 53 как некую базу данных, но это не так. Во-первых, одна проверка работоспособности может быть связана с несколькими записями в DNS. Один и тот же IP-адрес может быть привязан к различным именам DNS. Неудачная проверка может потребовать изменения как одной, так и сотен записей. Дальше — больше, в маловероятном случае, если зона доступности потеряет питание, десятки тысяч проверок работоспособности могут оказаться неудачными одновременно. Потребуются миллионы изменений в DNS. Это займет значительное время, и это не лучшее действие в момент пропадания электропитания.

Архитектура Route 53 устроена иначе. Каждые несколько секунд сервера-агрегаторы отправляют таблицу фиксированного размера с результатами проверок работоспособности на сервера DNS. Сервер DNS получает таблицу и сохраняет её в памяти практически без изменений. Это типичный образец использования шаблона постоянной работы. Каждые несколько секунд получаем таблицу и просто сохраняем её в памяти. Почему Route 53 отправляет данные на сервера DNS, вместо того чтобы делать наоборот? Серверов DNS больше, чем серверов-агрегаторов. Если вам интересно, как была придумана такая архитектура прочитайте статью Джо Магеррамова о том, как возложить управление на сервис меньшего масштаба.

Когда, сервер DNS в Route 53 получает запрос, он делает выборку всех возможных вариантов ответа. Затем, прямо в процессе обработки запроса, он сверяет эти ответы со статусом работоспособности из таблицы в памяти. Если статус потенциального ответа «работоспособен», он считается подходящим. Однако даже если первый же подходящий вариант ответа «работоспособен», сервер проверят и остальные варианты. Такой подход гарантирует, что даже если состояние работоспособности измениться, DNS-сервер продолжит выполнять тот же объем работы, как и раньше. Время, затрачиваемое на выборку и проверку ответов не увеличиться.

На это можно посмотреть так: сервера DNS просто не заботятся о том сколько проверок работоспособности окажутся удачными, неудачными или изменят состояние, код все время будет выполнять одни и те же действия. Не существует различных режимов работы. Нам не нужно делать большого количества изменений, не нужно переключаться в режим чего-то вроде «когда зона доступности неработоспособна». Разница только в ответах, которые выберет Route 53. Обращение происходит к тому же объему памяти и за то же время. Это делает процесс чрезвычайно надежным.

Обработка изменения конфигурации

Другим приложением, которое требует исключительной надёжности, является изменение конфигурации базовых компонентов AWS, например балансировщика Network Load Balancer. Когда пользователь изменяет конфигурацию балансировщика, например, добавляет новый инстанс или контейнер в качестве цели, это, обычно, критично и срочно. Возможно, приложение столкнулось со всплеском трафика и необходимо быстро увеличить ёмкость. Под капотом балансировщики сетевой нагрузки используют AWS Hyperplane, внутренний сервис, вживлённый в сеть Amazon Elastic Compute Cloud (EC2). AWS Hyperplane мог бы обрабатывать изменения настроек с помощью некоего процесса. Например, каждый раз, когда пользователь вносит изменения, создается событие, которое запускает отправку изменений на все устройства AWS Hyperplane, где они должны быть применены. Устройства применяют изменения.

Проблема такого подхода в том, что при большом количестве изменений, происходящих одновременно, реакция системы, скорее всего, замедлится. Больше изменений означает больше нагрузки. Когда система не отвечает вовремя, пользователи, естественно, повторяют попытку, что еще больше замедляет работу системы. Это не то, чего мы хотим.

Решение удивительно простое. Вместо того, чтобы генерировать события, AWS Hyperplane собирает все изменения в конфигурационный файл, хранимый в Amazon S3. Это происходит в момент, когда пользователь вносит изменения. Далее, вместо того чтобы получать изменения от стороннего процесса, устройства AWS Hyperplane скачивают этот файл с Amazon S3 каждые несколько секунд. После чего они обрабатывают и применяют конфигурацию из файла. Цикл повторяется, даже если изменений не произошло. Даже если она полностью идентична той, что была загружена в предыдущий раз, устройства всё равно загружают и применяют вновь загруженную копию. Фактически, система всегда получает и применяет изменения для максимально возможного количества устройств. Независимо от того, изменилась ли конфигурация одного балансировщика или сотни, она ведёт себя одинаково.

Вы, вероятно, уже догадались, что файл конфигурации также имеет максимальный размер с самого начала. Даже когда мы запускаем новый регион и задействованы лишь несколько балансировщиков, файл конфигурации будет таким же большим, каким он вообще может быть. В нём есть пустые «слоты» конфигурации, ожидающие заполнения значениями пользователя. Однако с точки зрения работы AWS Hyperplane эти слоты всегда заполнены.

Поскольку AWS Hyperplane является высоконадежной системой, в её дизайн заложена антихрупкость. Если устройства AWS Hyperplane выходят из строя, общий объем работы, выполняемой системой в целом, сокращается, а не увеличивается. Вместо того чтобы повторять попытки доставить изменения на неработающее устройство, количество обращений к Amazon S3 сокращается.

Помимо своей просты и надёжности, этот подход весьма экономичен. Хранение файла в Amazon S3 и его цикличная загрузка, даже сотнями устройств, обходиться гораздо дешевле, чем затраты на разработку и альтернативные издержки на создание более сложного решения.

Шаблон постоянной работы и самовосстановление

Есть еще одно интересное свойство архитектур на основе шаблона постоянной работы, о котором я еще не упоминал. Такие архитектуры, как правило, восстанавливают работоспособность самостоятельно естественным путем и способны справляться с различными проблемами без стороннего вмешательства. Например, предположим, что файл конфигурации был каким-то образом поврежден в процессе изменения: ошибочно обнулен из-за проблемы с сетью. На следующей итерации эта проблема будет устранена. Или, скажем, DNS-сервер полностью пропустил обновление. Он получит следующее обновление, не накапливая очередь изменений, которые необходимо применить. Архитектуры на основе шаблона постоянной работы всегда начинают работу с «чистого листа», они всегда работают в режиме «исправить все».

В отличие от них, системы, основанные на процессах, обычно запускаются в следствие какого-то события, то есть всегда должно присутствовать что-то, например, изменение конфигурации или состояния системы, что приводит к запуску процесса. Сначала изменения нужно обнаружить, затем запустить выполнить соответствующие действия, и всё это должно происходить в строгой последовательности. Требуется сложная логика для обработки случаев, когда какие-то действия завершились неуспешно, или требуют исправления из-за ошибок в конфигурации. Система может начать отставать, накапливая очередь изменений. Другими словами, архитектуры основанные на процессах не умеют самостоятельно исправлять восстанавливаться после ошибок, вы должны реализовывать восстановление самостоятельно.

Архитектура и управляемость

Ранее я упоминал о нотации «О» большое и о том, что системы построенные на основе шаблона постоянной работы относятся к классу О(1). Важно помнить, что O(1) не означает, что система или алгоритм выполняет только одну операцию. Это означает, что количество операций остаётся независимо от объема входных данных. Обозначение O(C) [от Сonstant — постоянный] выглядело бы лучше. И система изменения конфигурации Network Load Balancer, и система проверки работоспособности в Route 53 на самом деле выполняют тысячи операций для каждого действия или на каждой итерации цикла, который они повторяют. Но количество этих операций не меняется при изменении результата проверки работоспособности или изменении конфигураций балансировщика пользователем. В этом и заключается суть. Они похожи на кофеварки, которые наполнены кофе на сотни чашек, независимо от количества гостей.

В реальном применение шаблона постоянной работы приводит к потерям в виде отходов. Если из большой кофеварки выпьют лишь несколько чашек, остальное уйдет в канализацию. Вы зря потратите электричество на нагрев, усилия на подготовку и доставку воды, а заплатите за лишний кофе. Эти затраты будут незначительными и приемлемыми для кафе или при обслуживании мероприятия. Более того, затраты на приготовление кофе индивидуально могут оказаться даже выше, потому что теряется эффект масштаба.

Для большинства систем, которые реализуют изменение конфигурации или рассылают трафик проверки работоспособности, проблема отходов не возникает. Разница в расходе электроэнергии на одну проверку работоспособности и 10 000 проверок незаметна. Шаблон постоянной работы может даже оказаться более экономически эффективным, так как не требует реализации повторов и оркестрации.

В то же время есть системы, для которых такой шаблон не применим. Если ваш веб-сайт требует 100 серверов в момент пика нагрузки, можно держать эти сервера. Это, безусловно, уменьшит вариативность, и будет соответствовать шаблону постоянной работы, но будет расточительно. Для таких систем эластичное масштабирование подойдет лучше, потому что экономия велика. Использовать, например, вдвое меньше серверов в обычное время будет нормальным. Постоянное масштабирование может выявить какие-то проблемы, однако экономия принесет больше пользы как пользователям, так и планете в целом.

Достоинства простого дизайна

В этой статье я говорю про упрощение. Кофейники собраны из небольшого количества деталей.Это один из способов сделать систему проще, но я хочу сказать о другом. Ошибочно опираться на количество компонент. Цирковой уницикл имеет одно колесо, но ездить на нем гораздо сложнее. Это не то чего мы хотим добиться. Хорошая архитектура должна быть способна выдерживать перегрузки и справляться с авариями. Как правило, «естественный отбор» постепенно отсеивает архитектуры, состоящие из излишне большого или наоборот недостаточного количества компонент, да и просто непрактичные.

Когда я говорю о простой архитектуре, я имею в виду архитектуру, которую легко понять, реализовать и эксплуатировать. Если архитектура понятна команде, которая не участвовала в её разработке, это признак качественной архитектуры. В AWS шаблон постоянной работы использован многократно. Вы будете удивлены, узнак как много систем можно упростить применяя подход «примени всю конфигурацию заново» в цикле.

Генерация инсайтов безопасности с помощью машинного обучения на данных Amazon Security Lake используя Amazon SageMaker

AWS Central EurAsia & Russia Team — Wed, 14 Aug 2024 13:51:55 +0000

Перевод оригинальной статьи (авторы: Jonathan Nguyen, Madhunika Reddy Mikkili).

Amazon Security Lake автоматически централизует сбор логов и событий, относящихся к контексту информационной безопасности, как с сервисов AWS, так и со сторонних. С ростом объема таких данных, возникает необходимость понимания на что именно обратить внимание и какие инструменты должны быть использованы. Такие сервисы как Amazon QuickSight, Amazon OpenSearch, и Amazon SageMaker Studio могут быть использованы для визуализации, анализа и интерактивного определения тех аспектов на которых следует сосредоточиться, а также помогут приоритизировать усилия по повышению уровня безопасности ваших систем в AWS.

В этой статье мы расскажем о том, как генерировать информационно-значимые инсайты безопасности по данным Amazon Security Lake с помощью Amazon SageMaker Studio — веб-интегрированной среды разработки (IDE) для машинного обучения. Предлагаемое в этой статье решение, содержит базовый набор блокнотов Python, ориентированных на данные AWS Security Hub findings в Amazon Security Lake, которые при необходимости могут быть обогащены событиями и из других источников AWS или пользовательских источников данных. После запуска блокнотов, вы можете использовать полученные результаты для определения представляющих интерес, с точки зрения безопасности, функциональных областей ваших нагрузок AWS и, как следствие, вы можете внедрить дополнительные меры безопасности или создать собственные детекторы подозрительной активности.

Предварительные требования

Определите учетную запись делегированного администратора для управления конфигурацией Amazon Security Lake для всех аккаунтов-участников в вашей организации.
Amazon Security Lake должен быть включен в учетной записи делегированного администратора.
Как часть решения в этой статье мы сфокусируемся на AWS Security Hub как источнике данных. AWS Security Hub должен быть включен для учетных записей входящих в Вашу AWS Organizations. При включении Amazon Security Lake, выберите пункт All log and event sources для включения AWS Security Hub findings.
Настройте доступ для запросов к Amazon Security Lake. Amazon Security Lake использует функциональность AWS Lake Formation для организации доступа, в части предоставления и контроля общего доступа к таблицам озера данных для учетных записей в Организации. Примите запрос на совместный доступ к ресурсам в учетной записи AWS подпиcчика (где будет развертываться это решение) в консоли AWS Resource Access Manager (AWS RAM). Подписчики с авторизованным доступом могут запрашивать данные, которые собирает Amazon Security Lake. Эти подписчики выполняют запросы к данным таблиц AWS Lake Formation, в которых содержаться данные Amazon Security Lake, и которые храняться в Amazon Simple Storage Service (Amazon S3), с помощью такого сервиса как Amazon Athena.

Обзор решения

На диаграмме 1 показана архитектура решения

Диаграмма 1: Архитектура генерации инсайтов безопасности для Amazon Security Lake c помощью Amazon SageMaker

В процессе развертывания указанная архитектура создается путем выполнения следующих шагов:

В выбранной учетной записи AWS настраивается озеро данных с интеграцией нативных источников— такие как Amazon VPC Flow Logs, AWS Security Hub, AWS CloudTrail, и Amazon Route53.
Настраиваем доступ к таблицам озера данных в учетной записи Amazon Security Lake для аккаунтов подписчиков
Заметка: cм. Пункт 4 из предварительных требований для дополнительной информации.
Запрос AWS RAM на совместный доступ к ресурсам (таблицам) должен быть принят в учетной записи аккаунта подписчика AWS, в котором данное решение и будет развернуто.
Заметка: cм. Пункт 4 из предварительных требований для дополнительной информации.
Создаем ссылку на базу данных в AWS Lake Formation в учетной записи подписчика и предоставляем доступ сервису Amazon Athena к таблицам.
Для SageMaker создается VPC с IGW(Internet Gateway), NAT GW и точками доступа VPC (VPC endpoints) для сервисов AWS, используемых в решении. IGW и NAT необходимы для доступа к Internet для установки дополнительных пакетов с открытым исходным кодом.
Amazon SageMaker Domain для Amazon SageMaker Studio создается в режиме VPCOnly с единственным профилем пользователя Amazon SageMaker права которого определены AWS Identity and Access Management (IAM) ролью.
Специальная роль IAM создается для определения прав доступа к API AWS, а также определяет CIDR с которого можно получить доступ к домену Amazon SageMaker в котором содержаться описываемые блокноты.
Репозитарий AWS CodeCommit содержит блокноты Python, и доступны из под определенного ранее пользовательского профиля Amazon SageMaker.
Определяем рабочую группу для сервиса Amazon Athena для выполнения запросов к AWS Security Lake, в настройках группы также определен бакет S3 в качестве хранения выходных данных (с активированным журналированием доступа).

Развертывание решения

Вы можете развернуть данное решение используя AWS Management Console или AWS Cloud Development Kit (AWS CDK).

Вариант 1: Развертывание решения с помощью AWS CloudFormation из консоли

Используйте консоль для входа в учетную запись подписчика и затем выберете кнопку Launch Stack для открытия консоли AWS CloudFormation в которой уже будет шаблон автоматизации для запуска описываемого решения. Развертывание занимает приблизительно 10 минут.

Вариант 2: Развертывание решения с помощью AWS CDK

Актуальная версия описываемого решения располагается в репозитарии SageMaker machine learning insights GitHub repository, где вы также можете внести свой вклад в код примера. Инструкции и дополнительные сведения об использовании AWS CDK можете найти в разделе Get Started with AWS CDK.

Для развертывания решения с помощью AWS CDK, выполним следующие шаги:

Чтобы собрать приложение перейдите в корневую папку проекта и выполните следующие команды:

npm install -g aws-cdk-lib
npm install

Замените значения по умолчанию IAM_role_assumption_for_sagemaker_presigned_urlи security_lake_aws_account в файле source/lib/sagemaker_domain.ts.
Выполните следующие команды в терминале, авторизовавшись в своей учетной записи подписчика AWS. Обязательно замените <INSERT_AWS_ACCOUNT> номером вашей учетной записи и замените <INSERT_REGION> регионом AWS, в котором вы хотите развернуть решение:

cdk bootstrap aws://INSERT_AWS_ACCOUNT/INSERT_REGION
cdk deploy

Необходимые действия после развертывания решения

Теперь, когда вы развернули решение, вы должны предоставить доступ пользовательского профиля Amazon SageMaker к Amazon Security Lake. Предоставить права доступа (Grant) можно в разделе сервиса AWS Lake Formation.

Предоставление доступа к базе данных

Скопируйте ресурсное имя (ARN) пользовательского профиля Amazon SageMaker вида arn:aws:iam::<account-id>:role/sagemaker-user-profile-for-security-lake
Зайдите в Lake Formation консоль.
Выберете БД amazon_security_lake_glue_db_us_east_1.
Из выпадающего списка Actions, выберете Grant.
В Grant Data Permissions, выберете SAML Users and Groups.
Вставьте ARN пользовательского профиля из Шага 1.
В Database Permissions, выберете Describe и затем Grant.

Предоставление доступа к таблице Amazon Security Lake – Security Hub

Скопируйте ресурсное имя (ARN) пользовательского профиля Amazon SageMaker вида arn:aws:iam::<account-id>:role/sagemaker-user-profile-for-security-lake
Зайдите в Lake Formation консоль.
Выберете БД amazon_security_lake_glue_db_us_east_1.
Выберете View Tables.
Выберете таблицу amazon_security_lake_table_us_east_1_sh_findings_1_0.
Из выпадающего списка Actions, выберете Grant.
В Grant Data Permissions, выберете SAML Users and Groups.
Вставьте ARN пользовательского профиля из Шага 1.
В Table Permissions, выберете Describe и затем Grant.

Запуск приложения Amazon SageMaker Studio

Теперь, когда вы предоставили необходимые права, мы можем перейти к запуску приложения Amazon SageMaker, связанного с этим пользовательским профилем.

Перейдите в SageMaker Studio domain в консоли Amazon SageMaker.
Выберете Amazon SageMaker домен security-lake-ml-insights-<account-id>.
Выберете пользователя sagemaker-user-profile-for-security-lake.
Выберете Launch из выпадающего списка и выберете Studio

Изображение 1: Экран домена Amazon SageMaker из консоли

Клонирование блокнотов Python

Вы будете работать преимущественно в Amazon SageMaker Studio под определенным ранее профилем. Вам необходимы блокноты Python c необходимым кодом, хранящиеся в репозитарии AWS CodeCommit, которые Вам нужно будет клонировать.

Для клонирования необходимо:

Перейдите в сервис CloudFormation в консоли.
В разделе Stacks выберете SageMakerDomainStack.
Выберете вкладку Outputs
Скопируйте значение переменной sagemakernotebookmlinsightsrepositoryURL. (Пример: https://git-codecommit.us-east-1.amazonaws.com/v1/repos/sagemaker_ml_insights_repo)
Вернитесь в Amazon SageMaker Studio
На левой боковой панели, выберете значок Git (ромб с двумя ветвями), затем Clone a Repository.

Изображение 2: Функция Clone a Repository в Amazon SageMaker Studio

Скопируйте ссылку на репозиторий Git repository URL (.git) CodeCommit из Шага После этого вставьте значение URL, выбрав Clone “https://git-codecommit.us-east-1.amazonaws.com/v1/repos/sagemaker_ml_insights_repo”, затем нажав Clone.

Примечание: если не выбрать значение из автоматически заполняемого выпадающего списка, SageMaker не сможет клонировать репозиторий.

Изображение 3: Клонирование репозитария AWS CodeCommit в Amazon SageMaker Studio

Генерация инсайтов безопасности с помощью машинного обучения используя Amazon SageMaker Studio

После того как вы склонировали базовый набор блокнотов Python в Amazon SageMaker Studio, они будут расположены по пути sagemaker_ml_insights_repo/notebooks/tsat/. Эти блокноты служат отправной точкой для проведения анализа на базе машинного обучения с использованием данных Amazon Security Lake. Эти блокноты можно использовать как на нативных, так и на пользовательских источниках данных Amazon Security Lake.

Изображение 4: Склонированные блокноты Python в Amazon SageMaker Studio

Блокнот #1 – Настройка среды окружения

Блокнот 0.0-tsat-environ-setup выполняет установку необходимых библиотек и зависимостей для остальных блокнотов, которые будут использованы в этой статье. В нашем решении мы используем библиотеку Python c открытым исходным кодом Kats — легковесный фреймворк для анализа временных рядов.

Выберете блокнот 0.0-tsat-environ-setup.ipynb

Примечание: Если вы уже запустили ядро, вы можете пропустить шаги 2 и 3.

В правом углу выберете No Kernel
Во всплывающем окне Set up notebook environment оставьте значения по умолчанию и нажмите Select.

Изображение 5: Настройка среды окружения в приложении Amazon SageMaker Studio

После того как ядро успешно запуститься, выберете значокTerminal для запуска терминала.

Изображение 6: Запуск терминала в приложении Amazon SageMaker Studio

Чтобы установить пакеты с открытым исходным кодом по https протоколу, а не с http, необходимо обновить файл list. После открытия терминала выполните следующие команды:

cd /etc/apt
sed -i 's/http:/https:/g' sources.list

Вернитесь в блокнот 0.0-tsat-environ-setup.ipynb, выберете Run и из выпадающего списка Run All Cells. Также можно запускать каждую ячейку в блокноте отдельно, но это не обязательно. Установка займет около 10 минут.

ВАЖНО: Если вы завершите установку не по порядку или обновите файл requirements.txt, вы не сможете успешно установить Kats, и вам придется переустанавливать окружение заново, используя новый профиль пользователя SageMaker.

После успешной установки всех зависимостей, проверьте установку Kats.

Изображение 7: Проверка установки Kats

Установите PyAthena (Python DB API клиент для Amazon Athena) который используется для выполнения запросов данных из Amazon Security Lake.

Выполнив указанные действия, вы успешно настроили среду приложения Amazon SageMaker! Теперь вы можете загрузить соответствующий набор данных и создать временной ряд.

Блокнот #2 – Загрузка данных

Блокнот 0.1-load-data запрашивает данные Amazon Security Lake через Amazon Athena и создает результирующий набор в виде временного ряда. Временной ряд будет использоваться в далее для выявления трендов, выбросов и точек изменения.

Выберете блокнот 0.1-load-data.ipynb.
Если вы развернули стек решения не в Регионе us-east-1, обновите переменную con установив соответствующий Регион. В этом примере мы анализируем данные из Security Hub. Если вы хотите изменить источник данных для анализа измените значение TABLE.

Изображение 8: Настройка источника данных Amazon Security Lake в приложении Amazon SageMaker Studio

В разделе Query вы найдете запрос Amazon Athena для получения определенной выборки данных из Security Hub. Выборка, может быть, как ограничена подмножеством, так и содержать весь набор данных Security Hub. Например, по запросу представленному ниже получаем информацию на дату 01:00:00 1/1/2022 по сервисам (продуктам), определенным в списке productname.

Изображение 9: Запрос Amazon Athena в приложении Amazon SageMaker Studio

После того как все значения будут обновлены, вы сможете создать свой набор данных во временных рядах. Для этого блокнота, мы рекомендуем запускать каждую ячейку отдельно для того чтобы более подробно ознакомиться с процессом.
Выберете первую ячейку и нажмите значок Run.

Изображение 10: Запуск кода блокнота Python в Amazon SageMaker Studio

Запустите последовательно остальные ячейки следуя инструкциям из Шага 4.
Примечание: В случае возникновения ошибок, проверьте настройки произведенные на шаге Предоставление доступа к таблице Amazon Security Lake – Security Hub.

Вы успешно загрузили данные и создали временной ряд! Теперь вы можете перейти к генерированию инсайтов с помощью машинного обучения на основе вашего временного ряда.

Блокнот #3 – Определение трендов

Блокнот 1.1-trend-detector.ipynb позволяет обнаружить тренды (тенденции) в ваших данных. Тренд представляет собой направленное изменение в показателях временного ряда. Это направление может быть как восходящим (увеличение показателей), так и нисходящим (уменьшение уровней). Обнаружение тенденций помогает выявить изменения, игнорируя шум, вызванный естественной изменчивостью. Каждое окружение отличается от другого, и тренды помогают нам определить, где нужно присмотреться внимательнее, чтобы определить, почему тенденция является положительной или отрицательной.

Выберете блокнот 1.1-trend-detector.ipynb для определения тренда.
Для выявления зависимости между x (время) и y (количество) служат наклоны – показатели крутизны линии, или скорость изменения данных с течением времени.

Изображение 11: Блокнот Amazon SageMaker Studio для определения трендов

Если количество событий увеличивается со временем, то речь идет о положительном наклоне, в противном случае мы говорим об отрицательном наклоне. Положительный наклон не обязательно говорит о положительной динамике так как в идельном случае мы должны наблюдать уменьшение количества AWS Security Hub findingsс течением времени.

Изображение 12: Блокнот Amazon SageMaker Studio c представлением динамики тренда

Теперь вы можете построить график пяти наиболее динамичных положительных и отрицательных тенденций, чтобы определить основные движущиеся компоненты временного ряда.

Изображение 13: Графическое представление тренда в блокноте Amazon SageMaker Studio

Блокнот #4 – Определение выбросов

Блокнот 1.2-outlier-detection.ipynb предназначен для определение выбросов (резко выделяющиеся наблюдения). Этот блокнот выполняет декомпозицию (разложение) входного временного ряда для выявления сезонности, используя как аддитивную так и мультипликативную (по умолчанию аддитивная) модели. Он использует остаточный временной ряд, удаляя либо только тренд, либо и тренд, и сезонность, если сезонность сильно выражена. Цель — обнаружить полезные, аномальные и нерегулярные закономерности в массивах данных, что позволит Вам выявить области, представляющие интерес.

Для начала он обнаруживает точки в остаточном ряде, которые превышают межквартильный размах в 5 раз.
Межквартильный размах (Inter-quartile range – IQR) это разница между 75-м и 25-м р остатков или разброс данных в пределах двух средних квартилей всего набора данных. IQR полезен для выявления наличия выбросов, поскольку позволяет увидеть значения, которые могут лежать за пределами двух средних квартилей.
Множитель IQR управляет чувствительностью диапазона и решением о выявлении выбросов. При использовании большего значения параметра iqr_mult_thresh в OutlierDetector выбросы будут считаться точками данных, в то время как меньшее значение позволит идентифицировать точки данных как выбросы.

Примечание: при недостаточности данных, уменьшайте значение iqr_mult_thresh к нижнему порогу значений (например iqr_mult_thresh=3).

Изображение 14: Настройки параметров определение выбросов в блокноте Amazon SageMaker Studio

Наряду с графиками обнаружения выбросов будут также отображаться запросы SQL к таблице озера данных, которые помогут в дальнейшем изучении выбросов.

На следующем изображении вы можете отметить наличие нескольких выбросов из числа результатов проверок политик AWS Firewall Manager, которые обозначены вертикальными красными линиями на линейном графике. Они являются выбросами, поскольку отклоняются от нормального поведения и количества обнаружений на ежедневной основе. Когда вы видите отклонения, вы можете посмотреть на ресурсы, которые могли вызвать необычное увеличение числа нарушений политики AWS Firewall Manager. В зависимости от результатов проверок, это может быть связано с чрезмерно разрешительной или несоответствующей требованиям группой безопасности или неправильно настроенной группой правил AWS WAF.

Изображение 15: Просмотр результатов по определению выбросов в блокноте Amazon SageMaker Studio

Блокнот #5 – Определение точек изменения

Блокнот 1.3-changepoint-detector.ipynb выполняет определение точек изменения. Определение точки изменения — это метод обнаружения изменений во временном ряду, которые сохраняются с течением времени, например, изменение среднего значения. Обнаружение базового уровня показателей позволяет определить, когда с этой точки могло произойти несколько изменений. Точки изменения возникают при увеличении или уменьшении среднего числа обнаруженных результативных проверок (findings) в наборе данных.

Наряду с определением точек изменения в наборе данных, генерируется SQL запрос, для дальнейшего изучения конкретной точки изменения, если это необходимо.

На следующем изображени видно, что точка изменения уменьшилась после 27 июля 2022 года с достоверностью 99,9 процента. Важно отметить, что точки изменения отличаются от выбросов, которые представляют собой внезапные изменения в наблюдаемом наборе данных. Эта диаграмма означает, что в развернутой инфраструктуре произошло какое-то изменение, которое привело к общему снижению количества детектированных срабатываний проверок безопасности для бакетов S3 по включенным настройками блокирования общего доступа. Это изменение может быть результатом обновления пайплайна CI/CD, или автоматизации для включения блокировки публичного доступа для всех бакетов S3. И наоборот, если вы увидели точку изменения, которая привела к увеличению детектируемых событий, это может означать, что произошло изменение, в результате которого большее количество бакетов S3 было настроено с отключенной блокировкой публичного доступа.

Изображение 16: Результат работы по определению точки изменения

К этому моменту вы должны были ознакомиться с настройкой и развертыванием Amazon SageMaker Studio, а также с тем, как использовать блокноты Python для получения инсайтов с помощью машинного обучения для данных Amazon Security Lake. Вы можете воспользоваться полученными знаниями и приступить к обработке определенных наборов данных и источников данных в Amazon Security Lake, созданию временных рядов, выявлению тенденций, определению выбросов и точек изменения. Таким образом, вы сможете ответить на множество вопросов, связанных с безопасностью, таких как:

CloudTrail
Наблюдается ли большой объем команд, направленных на загрузку или копирования с Amazon S3 на внешние ресурсы? Наблюдается ли большой объем команд по удалению объектов S3? Возможно, происходит событие, связанное с ransomware (зловредное программное обеспечение, предназначенное для вымогательства)?
VPC Flow Logs
Увеличивается ли количество запросов с вашей VPC на внешние IP? Увеличилось ли количество запросов из вашего VPC ко внутренним адресатам? Существует ли вероятность утечки данных из внутренних или внешних источников?
Amazon Route 53
Какие ресурсы выполняют запросы DNS, которые они обычно не выполняли в течение последних 30-45 дней? Когда это началось? Существует ли потенциальная возможность что получен неавторизованный доступ к инстансуAmazon Elastic Compute Cloud (Amazon EC2)?

Важно отметить что данное решение не заменяет Amazon GuardDuty, которое использует базовые источники данных для обнаружения связи с известными вредоносными доменами и IP-адресами и выявляет аномальное поведения, или Amazon Detective, который предоставляет клиентам готовые агрегации, сводки и визуализации данных, чтобы помочь командам безопасности проводить быстрые и эффективные расследования. Одним из главных преимуществ использования Amazon Security Lake и Amazon SageMaker Studio является возможность интерактивного создания и настройки инсайтов с помощью машинного обучения с учетом особенностей ваших приложений и систем в AWS.

Clean up

Если вы развернули решение SageMaker machine learning insights с помощью кнопки Launch Stack в AWS Management Console или шаблона CloudFormation sagemaker_ml_insights_cfn, выполните следующие действия для очистки:

В консоли CloudFormationучетной записи и Регионе, где было развернуто решение, выберете стек SageMakerML
Выберете опцию Delete для стека

Если решение было развернуто при помощи AWS CDK, выполните команду cdk destroy.

Заключение

Amazon Security Lake позволяет нормализовать и централизованно хранить данные безопасности из различных источников, чтобы помочь вам анализировать, визуализировать и сопоставлять соответствующие журналы безопасности. Затем вы можете использовать эти данные для повышения общего уровня безопасности путем внедрения дополнительных защитных механизмов или принятия соответствующих мер по исправлению ситуации в развернутых окружениях в AWS.

В этой статье вы узнали, как с помощью Amazon SageMaker можно генерировать инсайты безопасности с помощью машинного обучения для AWS Security Hub findings. Хотя в примере решения рассматривается лишь один источник данных в Amazon Security Lake, вы можете расширить функциональность этих блокнотов, чтобы включить в них другие нативные или пользовательские источники данных.

Существует множество различных вариантов использования Amazon Security Lake, которые могут быть адаптированы к вашим окружениям в AWS. Взгляните на эту статью чтобы научиться как собирать, преобразовывать и передавать данные из Amazon Security Lake в Amazon OpenSearch и помочь вашим командам безопасности быстро анализировать данные для ваших нагрузок в AWS. В поддерживаемых Регионах владельцы учетных записей могут попробовать сервис бесплатно в течении 15 дней и получить доступ к его функционалу.

Amazon Personalize запускает новые рецепты, поддерживающие более крупные каталоги товаров с меньшей задержкой

AWS Central EurAsia & Russia Team — Mon, 10 Jun 2024 16:41:47 +0000

Оригинал статьи: ссылка (авторы: Jingwen Hu, Abhishek Mangal, Tianmin Liu, Dan Foley, Hao Ding, Pranesh Anubhav, Rishabh Agrawal, and Yifei Ma)

Персонализированный клиентский опыт необходим для привлечения современных пользователей. Однако создание настоящего персонализированного опыта, который будет адаптироваться к изменчивому поведению пользователей, может оказаться сложной и трудоемкой задачей. Amazon Personalize позволяет легко персонализировать ваш веб-сайт, приложение, электронные письма и многое другое, используя ту же технологию машинного обучения (ML), которую использует Amazon, при этом не требуя специальных знаний в области ML. С помощью рецептов — алгоритмов для конкретных случаев использования — сервис Amazon Personalize предоставляет широкий спектр персонализации, включая рекомендации по продуктам или контенту и персонализированное ранжирование.

Сегодня мы рады сообщить об общедоступности двух усовершенствованных рецептов в Amazon Personalize, User-Personalization-v2 и Personalized-Ranking-v2 (рецепты v2), которые построены на передовой Трансформерной архитектуре и поддерживают большие каталоги товаров с меньшей задержкой.

В этом посте мы кратко расскажем о новых усовершенствованиях и проведем вас через процесс обучения модели и предоставления рекомендаций для ваших пользователей.

Преимущества новых рецептов

Новые рецепты обеспечивают улучшенную масштабируемость, задержку, производительность и функциональность модели.

Улучшенная масштабируемость — новые рецепты теперь поддерживают обучение с каталогами до 5 миллионов элементов и 3 миллиардов взаимодействий, что позволяет персонализировать большие каталоги и платформы с миллиардами событий использования.
Меньшая задержка — Благодаря меньшей задержке вывода и ускоренному времени обучения с большими наборами данных по этим новым рецептам можно сократить задержку для ваших конечных пользователей.
Оптимизация производительности — Тестирование Amazon Personalize показало, что рецепты версии v2 улучшили точность рекомендаций на 9%, а охват рекомендаций — до 1,8 раза по сравнению с предыдущими версиями. Более высокий охват означает, что Amazon Personalize рекомендует больше вариантов из вашего каталога.
Возвращение метаданных товаров в ответах на выводы — Новые рецепты по умолчанию включают метаданные элементов без дополнительной оплаты, позволяя возвращать в ответах на выводы такие метаданные, как жанры, описания и наличие. Это поможет вам обогатить рекомендации в пользовательском интерфейсе без дополнительной работы. Если вы используете Amazon Personalize с генеративным искусственным интеллектом, вы также можете вводить метаданные в промпт. Предоставление большего контекста большим языковым моделям поможет им глубже понять характеристики продукта и генерировать более актуальный контент.
Высокая степень автоматизации операций — Наши новые рецепты призваны снизить затраты на обучение и дообучение модели. Например, Amazon Personalize упрощает настройку обучения и автоматически выбирает оптимальные настройки для ваших пользовательских моделей.

Обзор решения

Чтобы использовать рецепты User-Personalization-v2 и Personalized-Ranking-V2, сначала необходимо настроить ресурсы Amazon Personalize. Создайте группу наборов данных, импортируйте данные, обучите версию решения и выполните развертывание кампании. Полные инструкции доступны в разделе Getting started.

В этом посте мы используем консоль Amazon Personalize для развертывания кампании. В качестве альтернативы вы можете создать все решение, используя SDK. Вы также можете получать пакетные рекомендации с помощью асинхронного пакетного потока. Мы будем использовать общедоступный набор данных MovieLens и рецепт User-Personalization-v2, чтобы показать вам рабочий процесс.

Подготовьте набор данных

Выполните следующие шаги для подготовки набора данных:

Создайте группу наборов данных. Каждая группа наборов данных может содержать до трех наборов данных: пользователей, товаров и взаимодействий, при этом набор данных взаимодействий является обязательным для User-Personalization-v2 и Personalized-Ranking-v2.
Создайте набор данных взаимодействий, используя схему.
Импортируйте данные о взаимодействиях в Amazon Personalize из Amazon Simple Storage Service (Amazon S3).

Обучите модель

После завершения задания по импорту набора данных вы можете проанализировать данные перед обучением. Amazon Personalize Data analysis показывает статистику ваших данных, а также действия, которые можно предпринять для выполнения требований к обучению и улучшения рекомендаций.

Теперь вы готовы обучать свою модель.

В консоли Amazon Personalize выберите Dataset groups (Группы наборов данных) на панели навигации.
Выберите группу наборов данных.
Выберите Create solution (Создать решение).
В поле Solution name (Имя решения) введите название решения.
В поле Solution type (Тип решения) выберите Item recommendation (Рекомендация по товару).
В поле Recipe (Рецепт) выберите новый рецепт aws-user-personalization-v2.
В разделе Training configuration (Конфигурация обучения) для параметра Automatic training (Автоматическое обучение) выберите Turn on (Включить), чтобы поддерживать эффективность модели путем ее регулярного переобучения.
В разделе Hyperparameter configuration (Конфигурация гиперпараметров) выберите Apply recency bias (Применить предвзятость по новизне). Предвзятость в отношении новизны определяет, должна ли модель придавать больший вес самым последним данным о взаимодействиях элементов в вашем наборе данных взаимодействий.
Выберите Create solution (Создать решение).
Если вы включили автоматическое обучение, Amazon Personalize автоматически создаст вашу первую версию решения. Версия решения указывает на обученную модель машинного обучения. Когда для решения создается новая версия, Amazon Personalize обучает в ее рамках модель на основе рецепта и конфигурации обучения. Начало создания версии решения может занять до 1 часа.
В разделе Custom resources (Настраиваемые ресурсы) на панели навигации выберите Campaigns (Кампании).
Выберите Create campaign (Создать кампанию).
Кампания развертывает версию решения (обученную модель) для генерации рекомендаций в реальном времени. Кампании, созданные с помощью решений, обученных рецептам v2, автоматически включают в себя метаданные товаров в результатах рекомендаций. Столбцы метаданных можно выбрать во время вызова выводов.
Укажите сведения о своей кампании и создайте ее.

Получить рекомендации

После создания или обновления кампании вы можете получить рекомендуемый список элементов, с которыми пользователи с большей вероятностью будут взаимодействовать, отсортированный от самого высокого до самого низкого.

Выберите кампанию и нажмите View details (Просмотрите подробности).
В разделе Test campaign results (Результаты тестовой кампании) введите User ID (Идентификатор пользователя) и выберите Get recommendations (Получить рекомендации).

В следующей таблице показан результат рекомендации для пользователя, включающий рекомендуемые элементы, оценку релевантности и метаданные элемента (Название и Жанр).

Теперь ваша кампания User-Personalization-v2 готова к использованию на вашем сайте или в приложении и персонализации путешествия каждого из ваших клиентов.

Очистка

Обязательно очистите все неиспользуемые ресурсы, созданные в вашей учетной записи во время выполнения действий, описанных в этом посте. Вы можете удалять кампании, наборы данных и группы наборов данных через консоль Amazon Personalize или с помощью Python SDK.

Заключение

Новые рецепты Amazon Personalize User-Personalization-v2 и Personalized-Ranking-v2 выводят персонализацию на новый уровень благодаря поддержке больших каталогов товаров, снижению задержек и оптимизации производительности. Дополнительные сведения о Amazon Personalize вы можете найти в руководстве разработчика Amazon Personalize.

AWS Security Day в Алматы

Mike Golubev — Tue, 27 Jun 2023 10:46:06 +0000

16 июня состоялся AWS Security Day в городе Алматы, Казахстан. Эксперты из qCloudy, KPMG, AWS и КИБ МЦРИАП РК поделились своим опытом и знаниями о лучших практиках и инструментах для защиты инфраструктуры и приложений в облаке AWS.

Мы рады сообщить, что все доклады были выложены на YouTube-канале. Вы можете просмотреть их ниже:

Hybrid Architectures for Personal Data Compliance

Святослав Редько, AWS Senior Solutions Architect
Дана Есентай, Senior Consultant, KPMG | Certified Data Privacy Solutions Engineer

Совместно с коллегами из KPMG мы обсудим актуальные требования защиты персональных данных в Республике Казахстан, транслируем их в технические требования и рассмотрим основные из них. Обсудим различные подходы AWS для построения гибридных архитектур (как архитектурные, так и с применением специализированных программно-аппаратных комплексов Outpost) и разберем базовые архитектуры, которые реализовывают технические требования закона о защите персональных данных.

Скачать слайды

Layering AWS security services to automate incident response

Игорь Иванюк, AWS Principal Solutions Architect

Мы познакомимся с сервисами AWS, которые помогают обеспечить безопасность вашей облачной инфраструктуры, и сфокусируемся на тех из них, которые специализируются на детектировании угроз, на примере Amazon GuardDuty. Посмотрим, какие инструменты визуализации и мониторинга событий безопасности сущестувуют в AWS, и как с их помощью построить автоматизированное решение по реагированию на события и устранению угроз в AWS. Предложенное решение построено на Amazon GuardDuty для детектирования угроз, AWS Security Hub для построения дешбрда и оповещения, Amazon EventBridge для роутинга оповещений, и AWS Lambda для устранения угроз.

Скачать слайды

How we make AWS Secure

Игорь Шарфмессер, Senior Solution Architect, AWS

В этом докладе мы рассказываем как AWS обеспечивает безопасность облака. Вы познакомитесь с основными подходами, которые применяются для защиты. Мы продемонстрируем как использовать криптографические ключи, которые хранятся у вас для шифрования данных в облаке.

Панельная сессия с экспертами KPMG, AWS, КИБ МЦРИАП РК, qCloudy

Модератор: Ринат Узбеков, Principal Account Manager AWS ISV Global/AWS Kazakhstan Country Sales Lead

Обсуждение текущей ситуации с использованием облаков в Казахстане. Вопросы регуляции. Вопросы из аудитории.
Участники: Руслан Абдикаликов (Председатель Комитета по информационной безопасности Министерства цифрового развития, инноваций и аэрокосмической промышленности Республики Казахстан), Нурбек Садыков (CEO, qCloudy, AWS Partner), Ринат Узбеков (AWS, Country Sales Lead, Kazakhstan), Святослав Редько (AWS, Solution Architect), Дамир Еркин (Руководитель направления кибербезопасности KPMG Caucasus and Central Asia).

Настройка безопасной инфраструктуры для Kubernetes. On-premise vs AWS

Артем Прима, Developer Advocate, qCloudy

В этом докладе мы поговорим о безопасной инфраструктуре для Kubernetes.
Ознакомимся с сервисами, позволяющими облегчить настройку безопасности для Kubernetes на on-premise и AWS . Рассмотрим базовые ошибки и возможные решения следующих проблем: предварительная подготовка инфраструктуры, разграничение доступа к Kubernetes и защита от ДДОС атак.

Скачать слайды

Демонстрация «Governance with AWS Control Tower»

Михаил Голубев, AWS Principal Solutions Architect

Из этого доклада вы узнаете, как использовать механизмы контроля в AWS Control Tower для управления средой из нескольких аккаунтов AWS. Мы обсудили основные части сервиса и действия по настройке правил контроля, а затем продемонстрировали их на реальной организации AWS. Кроме того, мы посмотрели, как правила работают «под капотом», а также осветили основные шаги по кастомизации структуры, создаваемой AWS Control Tower, в соответствии с правилами вашей компании.

Скачать слайды

Также мы подготовили фотоотчёт с мероприятия, чтобы вы могли пережить воспоминания и поделиться ими с коллегами. Фотографии доступны по ссылке.

Спасибо, что присоединились к нам на AWS Security Day, и надеемся, что материалы помогут вам ещё глубже разобраться в вопросах безопасности в облаке AWS.

Отдельное спасибо нашим медиа-партнёрам @we_project @kz_bi @thetechkz и всем, кто помогал в распространении информации об ивенте.

Чтобы оставаться в курсе новостей облака, актуальных для Казахстана, подписывайтесь на каналы @cloudnativekz и @aws_kz.

Что такое AWS Outposts и как заказать его в Казахстане

Igor Sharfmesser — Mon, 07 Nov 2022 18:40:55 +0000

AWS Outposts – полностью управляемое решение, которое позволяет пользователям вынести инфраструктуру AWS, включая сервисы, API и инструменты в собственный центр обработки данных. Оно позволяет создавать и выполнять в датацентре приложения, используя те же средства и подходы, которые предоставляет облако AWS. Outpost предоставляет вычислительные ресурсы и хранилище для локальной обработки данных с низкой задержкой.

Для развертывания не нужно тратить время на разработку детальной спецификации оборудования, проводить тендер между поставщиками, самостоятельно монтировать шкафы и серверы. Достаточно разместить заказ в консоли AWS, принять поставленное оборудование и подождать, пока квалифицированные монтажники AWS завершат установку, настройку и тестирование.

После запуска AWS будет осуществлять мониторинг, обслуживание и апгрейды вашего Outpost. Благодаря модульной архитектуре, компоненты Outpost можно заменять на месте без перерыва в работе. Для увеличения вычислительной мощности, размера хранилища или перехода на новое поколение инстансов EC2 понадобится несколько кликов мышки. Все остальное будет сделано за вас.

Знания и опыт вашей команды по использованию AWS могут быть полностью применены в работе с Outpost. Вы сможете использовать те же самые API, инструменты и подходы. Вы сможете создать единый пайплайн развертывания приложений, который будет работать с Outpost, или инфраструктурой в облаке AWS, или разворачивать гибридное решение.

Каждый Outpost подключается и контролируется конкретным родительским регионом AWS. До 96 стоек Outpost могут работать совместно, как единый пул ресурсов. VPC этого региона могут размещать подсети в этом пуле.

Аппаратное обеспечение

Outpost построен с помощью того же оборудования, которое AWS использует в собственных датацентрах и оснащён дополнительными устройствами безопасности. Оборудование спроектировано для обеспечения надежности и эффективности. Сетевое оборудование и электропитание дублированы. Высота стойки 203 см. (80 дюймов), ширина 61 см. (24 дюйма), глубина 122 см. (48 дюймов). Вес до 910 кг (2000 фунтов). Стойки поставляются полностью собранными. Оснащены колесиками для перемещения. Готовы для подключения к электричеству и сетям связи.

Outpost поддерживает различные семейства EC2 на базе платформы Nitro, включая M5, M5d, C5, C5d, R5, R5d, G4 и i3en. Вы можете выбрать комбинацию различных семейств, как это необходимо для ваших задач. Вы можете наращивать ёмкость по необходимости. Вы так же сможете сделать апгрейд на новые семейства инстансов, когда они появятся.

Outpost поддерживает хранилище EBS gp2 на базе SSD с минимальным объемом 2,7 Тб.

Сеть

Стойка Outpost оснащена двумя сетевыми устройствами с пропускной способностью 400 Гбит/сек. Устройства предлагают оптоволоконные интерфейсы 1GigE, 10GigE, 40GigE и 100GigE. Подключения обеспечивают две пары агрегатных соединений (Link Aggregation Group). Одно для соединения с родительским регионом AWS, второе для подключения к локальной сети. Соединение с родительским регионом осуществляется через несколько шифрованных VPN соединений. Они используются для управляющего трафика и трафика VPC. Инициатором соединений всегда выступает Outpost. Трафик из и в локальную сеть проходит через Local Gateway (LGW), что позволяет вам полностью контролировать доступ и маршрутизацию. Ниже представлена диаграмма сетевого обмена внутри вашей сети.

Для подключения вам понадобится CIDR-блок размером /26. Для защиты от аварий оборудования и каналов связи он будет анонсироваться как два блока по /27. Блок может быть из выделенного вам диапазона IP-адресов или приватными адресами RFC1918 с адресной трансляцией на краю вашей сети.

Outpost выглядит как ещё одна подсеть в существующем VPC родительского региона. Вот как её можно создать:

$ aws ec2 create-subnet --vpc-id VVVVVV \
--cidr-block A.B.C.D/24 \
--outpost-arn arn:aws:outposts:REGION:ACCOUNT_ID:outpost:OUTPOST_ID

Если вы используете оборудование Cisco или Juniper, воспользуйтесь следующей документацией.

Cisco – Automated Cloud Infrastructure: Extending ACI and AWS integration. Узнать больше о сотрудничестве между AWS и Cisco можно на странице Cisco and AWS Team Up for Better Application Performance, Enhanced Security.
Juniper – AWS Outposts in a Juniper QFX-Based Datacenter.

AWS Direct Connect – популярный способ подключить Outpost к родительскому региону. Для того чтобы узнать больше и спланировать подключение ознакомьтесь с руководством Outpost connectivity to AWS Regions.

Доступные сервисы

Outpost поддерживает следующие сервисы: Amazon Elastic Compute Cloud (Amazon EC2), Amazon Elastic Block Store (EBS), Amazon Simple Storage Service (S3), Amazon Virtual Private Cloud (Amazon VPC), Amazon Elastic Container Service (Amazon ECS), Amazon Elastic Kubernetes Service (EKS), Amazon EMR, Amazon RDS for PostgreSQL и Amazon RDS for MySQL, Amazon RDS for SQL Server, AWS IoT Greengrass, Amazon SageMaker Neo.

EC2 Scaling Groups, AWS CloudFormation, CloudWatch, CloudTrail, Elastic Beanstalk, Cloud9, Load Balancer, AWS Config могут использовать ресурсы Outpost. Дополнительная оплата за инстансы EC2 или тома EBS, запускаемые этими сервисами на Outpost не взимается.

Приложения, выполняемые на Outpost, могут обращаться к сервисам родительского региона через Interface Endpoint или через публичные точки доступа.

Как разместить заказ в Казахстане?

Заказать Outpost ненамного сложнее, чем запустить новый инстанс EC2 или создать новую корзину S3. Продемонстрирую, что для этого нужно сделать.

Первый шаг — выбор конфигурации. На момент написания статьи, AWS предлагал 23 готовых конфигурации. Указанная ёмкость EC2 – это максимальный размер инстанса данного типа.

В зависимости от задачи, вы можете запускать инстансы этого или меньшего размера. Например, ёмкость конфигурации OR-HUZEI16, выбранной на рисунке, указана как 8 инстансов размера m5.24xlarge и 4 инстанса c5.24xlarge. Можно будет запустить или 12 инстансов этих размеров, или, если нужны инстансы меньшего размера, 192 инстанса m5.xlarge и 96 инстансов c5.xlarge. Так же можно запускать разные комбинации размеров, в зависимости от доступной ёмкости и того, как инстансы были размещены на серверах.

Если стандартная конфигурация не подходит, можно заказать индивидуальную на странице Request a custom AWS Outposts capacity configuration.

На следующем шаге задаём параметры Outpost.

Третий шаг — описываем характеристики места установки и подтверждаем, что оно соответствует требованиям.

Для начала дадим ему название.

Укажем адрес.

Укажем вес, который выдерживают перекрытия датацентра и параметры электропитания.

Выбираем скорость, количество и тип интерфейся для подключения сети.

Проверяем и подтверждаем, что место размещения обеспечит надлежащие условия для разгрузки стойки в транспортной упаковке, что по пути к месту установки нет препятствий; температуру, влажность и силу воздушных потоков в месте установки шкафа и прочие условия, необходимые для работы оборудования.

Четвёртый шаг — выбор способа оплаты…

… и адреса доставки.

На последнем, пятом шаге, вы сможете увидеть выбранную конфигурацию и детали места установки; если необходимо, внести изменения; и разместить заказ кликнув “Place order”.

Заказ будет проверен, и, возможно, AWS свяжется с вами, чтобы уточнить некоторые детали. Outpost будет отправлен по указанному адресу. Затем прибудет команда квалифицированных монтажников AWS для того, чтобы распаковать Outpost, проверить, переместить к месту установки и, совместно с персоналом датацентра, подключить его к каналам связи и электропитанию.

После включения и настройки сети, Outpost выполнит настройку самостоятельно. В консоли можно будет увидеть ошибки нехватки ёмкости, то есть ситуации когда запрашивается большая, чем доступна ёмкость, доступную ёмкость и загрузку устройства.

Использование Outpost

Следующий шаг после запуска — настроить подсети на Outpost. После этого можно будет запускать в них инстансы EC2 или создавать тома EBS, так же как это делается в любой другой подсети VPC.

Дополнительную ёмкость можно заказать выбрав Increase capacity из меню Actions.

В течение 3 рабочих дней AWS свяжется с вами, чтобы обсудить варианты.

Дополнительная информация

Есть несколько вещей на которые стоит обратить внимание, если вы планируете использовать Outpost:

Доступность. Заказать Outpost можно в следующих странах:

Северная Америка: США
Европа: все страны Европейского союза, Швейцария и Норвегия, Казахстан
Тихоокеанский регион: Япония, Южная Корея, Австралия

Поддержка. Необходима подписка на AWS Enterprise Support или AWS Enterprise On-Ramp. AWS будет удаленно отслеживать состояние Outpost и поддерживать его работоспособность. При выявлении поломок, AWS будет производить замену без перерыва в работе.

Тарификация и варианты оплаты. Outpost приобретается на 3 года. Возможна полная предоплата, частичная предоплата или оплата помесячно. Стоимость приобретения покрывает все использование сервисов EC2 и EBS на Outpost. Прочие сервисы тарифицируется по часам, при этом оплата за ресурсы EC2 и EBS не взимается. За передачу данных между Outpost и подсетями данной VPC в других зонах доступности взимается стандартная плата. Доступ в Интернет через канал, соединяющий Outpost и родительский регион так же тарифицируют по стандартному тарифу доступа в Интернет.

Расширение емкости. На текущий момент в единый пул можно собрать до 96 стоек.

Как получить помощь по облаку Amazon Web Services?

Igor Sharfmesser — Thu, 13 Oct 2022 14:49:14 +0000

Облаком Amazon Web Services (AWS Cloud) можно воспользоваться без обращения в отдел продаж и подписания контракта на бумаге. Для того, чтобы запустить приложение в облаке, достаточно создать аккаунт, кликнув на «Создание аккаунта AWS» в правом верхнем углу сайта aws.amazon.com.

AWS старается, чтобы сервисами было пользоваться легко, удобно, а главное быстро. Самообслуживание, доступ к любому сервису в несколько кликов позволяют пользователям больше экспериментировать или обновлять свое приложение без необходимости тратить время на оформление документов.

Обучение и сертификация

Каждый сервис подробно описан в документации. Можно узнать, для чего он нужен, как его настроить. В блогах можно найти примеры настройки по шагам и советы по лучшим практикам.

AWS регулярно проводит бесплатные вебинары и встречи, узнать о которых можно на портале «Мероприятия AWS». На YouTube, здесь и здесь, выложены записи со многих из них, и много других видео, где рассказывают про новинки, погружаются в подробности работы сервисов и делятся опытом успешных внедрений.

На портале skillbuilder.aws, AWS предоставляет более 500 бесплатных обучающих курсов. Квалификацию можно подтвердить, сдавая экзамены на получение сертификатов AWS. Подготовка к сдаче экзамена помогает сформировать системные знания в предметной области.

87% опрошенных компаний заявили, что им удалось сократить время простоев, и 85% опрошенных компаний сообщили о снижении времени на развертывание приложений благодаря тому, что их сотрудники имеют сертификаты AWS.

Форумы и пользовательские коммьюнити

На онлайн-форуме re:Post можно задать вопрос и получить ответ от специалистов AWS или пользователей, которые уже сталкивались с подобной задачей. Можно присоединиться к группе пользователей AWS и обмениваться опытом с другими пользователями из вашей страны.

Техническая поддержка и помощь с биллингом

Всем пользователям AWS доступен бесплатный базовый уровень поддержки. Он включает в себя доступ к документации и автоматизированным инструментам «AWS Trusted Advisor» и «AWS Personal Health Dashboard».

Вопросы, касающиеся биллинга, так же можно задать в разделе поддержки в консоли AWS. Туда можно обращаться, если что-то непонятно в счете, или, если хотите уточнить как будет тарифицироваться какой-то сервис, как будут применяться тарифы Reserved Instance или Savings Plan, или как перейти с оплаты по карте на оплату по счету. Поддержка ответит на любые вопросы, касающиеся биллинга и тарификации.

Есть ситуации, когда документации недостаточно, и требуется помощь человека. Если нужна помощь с решением текущей проблемы, особенно с продуктивной нагрузкой, необходимо обращаться в техническую поддержку. AWS предоставляет несколько вариантов платной технической поддержки.

Инженеры поддержки имеют доступ к инструментам, которые помогают диагностировать проблемы в настройке и работе сервисов. Техническая поддержка – самый быстрый способ решить проблему и восстановить работоспособность приложения.

Помощь с планированием архитектуры и миграцией

Если вы хотите обсудить развитие архитектуры вашего приложения, миграцию нескольких десятков серверов, оптимизацию затрат, в облако AWS или вы еще не пользуетесь AWS, вопросы можно задать через форму «Обратиться в AWS».

Сообщения, поступающие через эту форму, попадают в команду, которая поможет найти ответ. Вопросы можно задавать не только на английском, но и на русском, украинском или белорусском языках.

Вам либо дадут пояснения по почте и поделятся ссылками, либо свяжут вас с аккаунт-командой. Аккаунт-команды помогают пользователям лучше использовать сервисы AWS. На момент написания этой статьи AWS предоставляет 267 сервисов. Одну и ту же задачу можно решить несколькими разными способами с использованием разнообразных сервисов.

AWS специально предоставляет множество вариантов решения одной и той же задачи для того, чтобы пользователи могли выбрать подходящий в зависимости от требований и компетенций команды.

Аккаунт-команда включает аккаунт-менеджеров и архитекторов решений.

Аккаунт-менеджер помогает по коммерческим и организационным вопросам: тарификация, оптимизация затрат, программы поддержки миграции. Аккаунт-менеджеры в AWS – технически грамотные специалисты. Они обязательно проходят сертификацию на уровень Solutions Architect Associate, поэтому компетентны обсуждать контейнеры, конвейеры CI/CD, SQL/NoSQL базы данных и другие технические вопросы.

Если знаний менеджера будет недостаточно, к беседе подключается архитектор решений. Архитектор решений в AWS – это технический специалист, имеющий практический опыт построения устойчивых высоконагруженных систем.

Он поможет разобраться в нюансах сервисов AWS и оптимизировать архитектуру приложения. Архитекторы руководствуются принципами Well Architected Framework и рассматривают приложения с 6 точек зрения: операционной эффективности, безопасности, надежности, производительности, экономической эффективности и экологической устойчивости.

Есть несколько способов взаимодействия между архитектором и пользователем:

Индивидуальные консультации – разговор или переписка по электронной почте, где вы можете обсудить архитектуру и нюансы применения того или иного сервиса;
Well Architected Review – архитектор объяснит что такое Well Architected Framework, инструмент Well Architected Review, разберет с вами полученные с помощью него результаты и поможет наметить шаги для улучшения;
Вебинар – архитектор может провести вебинар на котором подробно расскажет про сервисы AWS;
Воркшоп – пользователь учится конфигурировать сервисы AWS под руководством архитектора;
Immersion Day – день вебинаров и воркшопов, посвящённый одной теме, например сетям, машинному обучению, построению аналитической платформы;

Воркшопы и Immersion Day проводятся для групп от 10 человек. Если группа не собирается из сотрудников одной компании, мероприятие собирают из сотрудников разных компаний. Помощь архитекторов бесплатна.

Заключение

AWS предоставляет множество материалов, помогающих изучить и использовать облачные сервисы, чтобы пользователи могли быстро разворачивать собственные приложения не дожидаясь заключения договора или вмешательства инженеров AWS.

Учебные курсы и сертификация помогают системно подойти к изучению сервисов, что помогает быстрее разворачивать приложения в облаке и уменьшать время простоев.

На форумах и в пользовательских коммьюнити пользователи и специалисты AWS помогают друг-друг самостоятельно находить ответы на вопросы по использованию сервисов AWS.

AWS предоставляет несколько уровней технической поддержки. Техническая поддержка – самый быстрый способ получить ответы на вопросы, касающиеся биллинга и тарификации, решить техническую проблему и восстановить работоспособность приложения.

Аккаунт-команды помогают разобраться в разнообразии сервисов AWS, оптимизировать расходы на облако, спланировать архитектуру и осуществить миграцию.

6 стратегий миграции приложений в облако

AWS Central EurAsia & Russia Team — Tue, 26 Jul 2022 07:42:20 +0000

«Какой бывает эмиграция? Что ж, это зависит от многих факторов: образования, экономического положения, языка, нового места и того, какую поддержку там можно найти.» — Даниэль Аларкон

В первом посте серии представлена концепция массовой миграции, которую мы будем называть просто «миграцией» в каждом из материалов. Во втором посте серии описан процесс массовой миграции в облако, а в материале ниже — третьем по счету и заключительном — описаны 6 различных стратегий миграции, которые мы видим у клиентов для переноса приложений в облако. Стратегии основаны на 5 R, которые компания Gartner описала в 2011 году. Хотя каждый из этих постов является самостоятельным, мы считем, что их лучше читать вместе.

Разработка стратегии миграции

Предприятия обычно начинают задумываться о том, как перенести приложение, на втором этапе процесса миграции — этапе инвентаризации и планирования портфеля приложений. На этом этапе они составляют список имеющихся приложений, определяют взаимосвязи между ними, что будет легче мигрировать, а что труднее, и как именно будет осуществлять миграцию каждого приложения.

Используя эти знания, организации могут составить план (который может быть изменен по мере продвижения миграции и извлеченных уроков) того, как они будут подходить к миграции каждого из приложений в своем портфеле и в каком порядке.

Сложность миграции существующих приложений зависит от архитектуры и существующих лицензионных соглашений. Если оценивать множество приложений для миграции по степени сложности, мы бы поставили низкую оценку сложности виртуализированной и сервис-ориентированной архитектуре, а монолитному мэйнфрейму — высокую.

Мы предлагаем начинать с чего-то, что не требует больших усилий, по той очевидной причине, что это будет легче реализовать. К тому же, такой подход непосредственно поможет закрепить знания и даст «быстрый результат» в процессе вашего обучения.

6 стратегий миграции приложений: «6 R’s»

Мы видим 6 наиболее распространенных стратегий миграции приложений:

1. Рехостинг (rehosting) или “lift-and-shift” – перенос приложений “как есть”.

Многие новые проекты стараются с самого начала использовать облачные технологии, но в случаях крупных миграций традиционных систем, когда бизнес требует быстрой миграции большого количества приложений, организации предпочитают переносить их как есть. Например, компания GE Oil & Gas, выявила, что даже без внедрения каких-либо облачных оптимизаций она может сэкономить около 30 процентов своих затрат за счет рехостинга.

В большинстве случаев, процесс рехостинга можно автоматизировать с помощью инструментов (например, AWS Application Migration Service, AWS VM Import/Export), хотя некоторые клиенты предпочитают делать это вручную, пока они учатся применять свои устаревшие системы на новой облачной платформе.

Мы также обнаружили, что приложения легче оптимизировать и модернизировать, когда они уже работают в облаке. Отчасти потому, что ваша организация приобрела навыки по работе в облаке, а отчасти потому, что самая трудная часть — перенос приложения, данных и трафика — уже сделана.

2. Смена платформы (Replatforming) — перенос с оптимизацией.

Здесь вы можете сделать несколько облачных (или других) оптимизаций, чтобы получить ощутимую выгоду, но в остальном вы не меняете основную архитектуру приложения. Возможно, вы хотите сократить количество времени, которое вы тратите на управление экземплярами баз данных, путем перехода на платформу “база данных как сервис”, например Amazon Relational Database Service (Amazon RDS), или переведя свое приложение на полностью управляемую платформу, например Amazon Elastic Beanstalk.

Крупная медиакомпания, с которой мы сотрудничаем, перенесла сотни веб-серверов, которые работали локальном дата центре, на AWS, и в процессе перешла с WebLogic (контейнер приложений Java, требующий дорогостоящей лицензии) на Apache Tomcat, аналог с открытым исходным кодом. Эта медиа-компания сэкономила миллионы на лицензионных расходах вдобавок к экономии и гибкости, которые она получила благодаря переходу на AWS.

3. Повторная покупка (Repurchasing) — переход на другой продукт.

Чаще всего мы видим (repurchasing), как переход на SaaS платформу. Переход CRM на Salesforce.com, HR-системы на Workday, CMS на Drupal и так далее.

4. Рефакторинг / смена архитектуры (Refactoring / Re-architecting)

Переосмысление архитектуры и разработки приложения, как правило, с использованием нативных облачных (cloud-native) функций.

Как правило, это вызвано потребностью бизнеса в добавлении новых функций, масштабировании или производительности, которые было трудно реализовать в существующей среде приложения.

Если вы хотите перейти от монолитной архитектуры к сервис-ориентированной (или беcсерверной) архитектуре, чтобы повысить гибкость или улучшить непрерывность бизнеса (я слышал истории о том, как ремни вентиляторов для мейнфреймов заказывали на e-bay)? Этот подход миграции, как правило, самый дорогой, но, если ваш продукт востребован на рынке, он может быть и самым выгодным.

5. Вывести из эксплуатации (Retire) – избавиться от приложения.

После составления списка приложений, вы можете определить бизнес-заказчиков каждого приложения. Мы обнаружили, что до 10% (мы встречали и 20%) приложений корпоративного портфеля приложений больше не используются и их можно просто отключить. Такая экономия может повысить эффективность бизнеса, направив высвободившиеся бюджет другим командам на то, чем пользуются люди, а также сократить низкоприоритетные области, которые требуют обеспечения безопасности.

6. Оставить (Retain)

Обычно это означает «пересмотреть» или ничего не делать (пока что).
Возможно, вы недавно обновили свое приложения, или по другим причинам не склонны переносить некоторые приложения. Вы должны переносить только то, что имеет смысл для бизнеса; и по мере того, как ваш портфель приложений будет переходить от локальных систем к облачным, у вас, вероятно, будет все меньше причин оставаться в локальном дата центре.

***

Каков ваш опыт миграции? Мы бы хотели услышать об этом и разместить это в своем блоге!

Создание кластеров с помощью EKS Blueprints

AWS Central EurAsia & Russia Team — Thu, 09 Jun 2022 17:52:16 +0000

Оригинал статьи: ссылка (Kevin Coleman, Principal Container Specialist; Apoorva Kulkarni, Sr. Specialist Solutions Architect; Mikhail Shapirov, Senior Partner Solutions Architect; Vara Bonthu, Senior Open Source Engineer)

Сегодня мы представляем новый проект с открытым исходным кодом под названием EKS Blueprints, который упрощает и ускоряет внедрение Amazon Elastic Kubernetes Service (Amazon EKS). EKS Blueprints — это набор модулей Infrastructure as Code (IaC), которые помогут вам настроить и развернуть согласованные EKS кластеры в разных аккаунтах и регионах. Вы можете использовать EKS Blueprints для быстрого запуска EKS кластера с Amazon EKS дополнениями, а также широкого спектра популярных дополнений с открытым исходным кодом, включая Prometheus, Karpenter, Nginx, Traefik, AWS Load Balancer Controller, Fluent Bit, Keda, Argo CD и другие. EKS Blueprints также поможет вам внедрить соответствующие средства контроля безопасности, необходимые для управления рабочими нагрузками множеством команд в одном кластере.

EKS Blueprints реализован в двух популярных IaC-фреймворках, HashiCorp Terraform и AWS Cloud Development Kit (AWS CDK), которые помогают автоматизировать развертывание инфраструктуры. Для быстрого старта мы советуем ознакомиться с руководствами по началу работы с EKS Blueprints для Terraform или EKS Blueprints для CDK.

Мотивация

Kubernetes — это мощная и расширяемая технология оркестрации контейнеров, которая позволяет развертывать и управлять контейнерными приложениями в больших масштабах. Расширяемая природа Kubernetes также позволяет использовать в кластерах Kubernetes широкий спектр популярных инструментов с открытым исходным кодом, обычно называемых дополнениями. Обратите внимание, что создание специализированного кластера EKS, отвечающего конкретным потребностям вашего приложения, может занять значительное время при таком большом количестве доступных инструментов и вариантов дизайна. Это время также включает интеграцию широкого спектра инструментов с открытым исходным кодом и сервисов AWS, что требует глубоких знаний как в области AWS, так и Kubernetes.

Если в одном кластере взаимодействуют рабочие нагрузки от нескольких команд, могут возникнуть дополнительные сложности, например, управление сетевыми политиками, доступам к EKS кластерам или AWS ресурсам, которые работают вне EKS кластера. Обеспечение согласованности и стандартизации всего парка EKS кластеров по мере роста внедрения может создать дополнительные проблемы.

Клиенты AWS просят предоставить примеры, демонстрирующие, как интегрировать ландшафт инструментов Kubernetes и упростить процесс создания полноценных кластеров EKS, отвечающих требованиям конкретных приложений. Им нужны решения, использующие знакомые инструменты, такие как Terraform, CDK и Helm, которые помогают управлять жизненным циклом EKS кластеров, операционным программным обеспечением, работающим в каждом кластере, и конфигурацией для команд, которым необходимо запускать рабочие нагрузки в каждом кластере. EKS Blueprints был создан для удовлетворения этой потребности клиентов.

Что такое EKS Blueprints?

EKS Blueprints помогает вам настраивать EKS кластера c полностью сконфигурированным операционным программным обеспечением, необходимым для развертывания и эксплуатации рабочих нагрузок. Вы можете описать конфигурацию желаемого состояния EKS кластера, например, панель управления (control plane), рабочие узлы и дополнительные модули Kubernetes в виде IaC проекта.

Как только проект настроен, его можно использовать для развертывания согласованных сред в нескольких учетных записях и регионах AWS с помощью непрерывной автоматизации развертывания (continuous deployment). EKS Blueprints базируется на существующих наработках сообщества разработчиков EKS с открытым исходным кодом, включая использование terraform-aws-eks модуля для инициализации кластеров.

На следующей архитектурной схеме представлена среда EKS, которую можно настроить и развернуть с помощью EKS Blueprints. На схеме показан EKS кластер, который работает в трех зонах доступности, cконфигурирован с большим количеством дополнительных модулей Kubernetes и размещает рабочие нагрузки от нескольких команд:

С помощью EKS Blueprints вы можете подготовить как EKS, так и самоуправляемые дополнения в EKS кластере. Поскольку EKS сервис продолжает расширять свою библиотеку дополнений EKS, EKS Blueprints будет развиваться, добавляя эти возможности. EKS Blueprints также настраивает соответствующие IAM политики, роли и сервисные аккаунты для каждого дополнения (как указано в документации EKS IAM роли для сервисных аккаунтов (IRSA)).

Если вы хотите разрешить нескольким командам запускать рабочие нагрузки в одном кластере, вы можете использовать EKS Blueprints для настройки и управления пользователями и командами, имеющими доступ к кластеру (команда администраторов) или пространствам имен в кластере (команда приложений).

Если вы хотите применять GitOps подход для управления конфигурацией кластера и рабочими нагрузками, вы можете использовать EKS Blueprints для настройки кластера с Argo CD и любым количеством ресурсов для Argo CD приложений. Поддержка Flux также включена в нашу дорожную карту.

Примеры EKS Blueprints

Мы также разработали библиотеку примеров реализации, демонстрирующих, как использовать EKS Blueprints для решения конкретных технических задач в EKS. В настоящее время наша библиотека включает примеры, демонстрирующие, как запустить EMR в EKS, как настроить EKS кластер с Karpenter для управления рабочими нодами, как реализовать наблюдаемость EKS кластеров и рабочих нагрузок в них, как сконфигурировать EKS кластер с Crossplane, как использовать EKS Blueprints с AWS Proton и многое другое.

Со временем наша библиотека примеров будет продолжать расти и развиваться. Если у вас есть дополнительные примеры, которые вы хотите увидеть в библиотеке, дайте нам знать об этом, создав задачу в GitHub. Кроме того, если вы хотите создать свой собственный blueprint и поделиться им с сообществом, мы будем рады вашему pull request!

Использование EKS Blueprints

Давайте посмотрим на EKS Blueprints в действии. В следующем Terraform примере представлена простая схема развертывания нового кластера EKS с группой управляемых узлов. Он также конфигурирует кластер с дополнениями vpc-cni, coredns, kube-proxy, aws-load-balancer-controller, metrics server и cluster-autoscaler. Указать, что дополнение должно быть установлено в кластере EKS, очень просто — достаточно определить флаг со значение true:

module "eks_blueprints" {
  source = "github.com/aws-ia/terraform-aws-eks-blueprints?ref=v4.0.2"

  # EKS Cluster VPC and Subnet mandatory config
  vpc_id             = <vpc_id>
  private_subnet_ids = <private_subnet_ids>

  # EKS CLUSTER VERSION
  cluster_version = "1.21"

  # EKS MANAGED NODE GROUPS
  managed_node_groups = {
    mg_5 = {
      node_group_name = "managed-ondemand"
      instance_types  = ["m5.large"]
      min_size        = "2"
    }
  }
}

# Add-ons
module "kubernetes_addons" {
  source = "github.com/aws-ia/terraform-aws-eks-blueprints//modules/kubernetes-addons?ref=v4.0.2"

  eks_cluster_id = module.eks_blueprints.eks_cluster_id

  # EKS Add-ons
  enable_amazon_eks_vpc_cni            = true
  enable_amazon_eks_coredns            = true
  enable_amazon_eks_kube_proxy         = true
  enable_amazon_eks_aws_ebs_csi_driver = true

  # Self-managed Add-ons
  enable_aws_for_fluentbit            = true
  enable_aws_load_balancer_controller = true
  enable_aws_efs_csi_driver           = true
  enable_cluster_autoscaler           = true
  enable_metrics_server               = true
}

Эта же конфигурация на CDK, будет выглядеть следующим образом:

const stackId = "<stack_id>";

// By default will provision in a new VPC
blueprints.EksBlueprint.builder()
    .region('us-west-2')
    .version(eks.KubernetesVersion.V1_21)
    .addOns(
        new blueprints.addons.VpcCniAddOn(),
        new blueprints.addons.CoreDnsAddOn(),
        new blueprints.addons.KubeProxyAddOn(),
        
        // Self-managed Add-ons
        new blueprints.addons.AwsForFluentBitAddOn(),
        new blueprints.addons.AwsLoadBalancerControllerAddOn(),
        new blueprints.addons.ClusterAutoScalerAddOn(),
        new blueprints.addons.EfsCsiDriverAddOn(),
        new blueprints.addons.MetricsServerAddOn()
    )
    .build(app, stackId);

Настройка дополнительных модулей (add-on) Kubernetes

Каждое дополнение указывает на Helm репозиторий с открытым исходным кодом. EKS Blueprints включает конфигурацию IAM ролей для сервисных аккаунтов (IRSA) по умолчанию для каждого дополнения, которое выполняет запросы к AWS API. Если вам нужна расширенная конфигурация (например, частный Helm репозиторий), вы можете легко переопределить значения по умолчанию.

Например, образы Docker, используемые в Helm чарте, можно заменить в values.yaml на частные Docker репозитории, такие как ECR или Artifactory. В следующем коде показано, как поддерживать расширенную настройку для AWS Load Balancer Controller дополнения:

module "kubernetes_addons" {
  source = "github.com/aws-ia/terraform-aws-eks-blueprints//modules/kubernetes-addons?ref=v4.0.2"

  eks_cluster_id = module.eks_blueprints.eks_cluster_id

  enable_aws_load_balancer_controller = true
  aws_load_balancer_controller_helm_config = {
    name       = "aws-load-balancer-controller"
    chart      = "aws-load-balancer-controller"
    repository = "https://aws.github.io/eks-charts"
    version    = "1.3.1"
    namespace  = "kube-system"
    values = [templatefile("${path.module}/values.yaml", { 
        operating_system = "linux"
    })]
  }
}

Эта же конфигурация на CDK:

const loadBalancerAddOn = new blueprints.AwsLoadBalancerControllerAddOn({
    name: "aws-load-balancer-controller",
    chart: "aws-load-balancer-controller",
    repository: "https://aws.github.io/eks-charts",
    version: "1.3.1",
    namespace: "kube-system",
    enableWaf: true, 
    values: {
        operating_system: "linux"
    } 
});

blueprints.EksBlueprint.builder()
    .addOns(loadBalancerAddOn)
    .build(app, stackId);

Рабочие ноды (Worker nodes)

EKS Blueprints поддерживает инициализацию EKS кластеров с различными вычислительными конфигурациями, включая управляемые группы нод, самоуправляемые группы нод и AWS Fargate профили:

module "eks_blueprints" {
  ...
 # Managed Node Groups
  managed_node_groups = {
    mg_5 = {
      node_group_name = "managed-ondemand"
      instance_types  = ["m5.large"]
      min_size        = "2"
      max_size        = "5"
    }
  }

  # Fargate Profiles
  fargate_profiles = {
    default = {
      fargate_profile_name = "default"
      fargate_profile_namespaces = [{
        namespace = "default"
      }]
      additional_tags = { ExtraTag = "Fargate" }
    }
  }
}

Вы также можете указать такую-же конфигурацию с помощью CDK:

...
// Managed Node Group
const props: blueprints.MngClusterProviderProps = {
  version: eks.KubernetesVersion.V1_21,
  minSize: 2,
  maxSize: 5,
  instanceTypes: [new ec2.InstanceType('m5.large')],
}
const mngClusterProvider = new blueprints.MngClusterProvider(props);

// Fargate Profile
const fargateProfiles: Map<string, eks.FargateProfileOptions> = new Map([
    ["default", { selectors: [{ namespace: "default" }] }]
]);
  
const fargateClusterProvider = new blueprints.FargateClusterProvider({
    fargateProfiles,
    version: eks.KubernetesVersion.V1_21
});
...

Кластеры для нескольких команд

Если вы хотите разрешить нескольким командам запускать рабочие нагрузки в одном кластере, EKS Blueprints предоставляет подход для обеспечения мягкой многопользовательской аренды (soft multi-tenancy). Как определено в руководстве EKS Best Practice Guides, soft multi-tenancy использует встроенные конструкции Kubernetes (например, пространства имен, роли, привязки ролей (role bindings) и сетевые политики) для создания логического разделения между владельцами. Если у вас есть жесткие требования к многопользовательской среде (hard multi-tenancy), например, поставщики программного обеспечения как услуги (SaaS), которым необходимо запускать полностью изолированные рабочие нагрузки для разных клиентов, мы рекомендуем создавать выделенные кластеры для каждого клиента.

Для soft multi-tenancy (мягкой мультиарендности) EKS Blueprints позволяет легко настроить команды и удостоверения, имеющие доступ к кластеру, а также ресурсы, к которым имеют доступ команды и удостоверения. В настоящее время поддерживаются два типа команд: платформы и приложения. Команды платформы представляют администраторов платформы, имеющих доступ администратора к кластеру EKS. Команды приложений представляют команды, управляющие рабочими нагрузками, запущенными в пространствах имен кластера. Команды приложений получают доступ к одному или нескольким выделенным пространствам имен в кластере:

module “eks-blueprints” {
  …
  application_teams = {
    team-blue = {
      "labels" = {
        "appName" = "blue-team-app",
      }
      "quota" = {
        "requests.cpu"    = "2000m",
        "requests.memory" = "4Gi",
        "limits.cpu"      = "2000m",
        "limits.memory"   = "8Gi",
      }
      users = ["arn:aws:iam::<aws-account-id>:user/team-blue-user"]
    }
  }

  platform_teams = {
    platform_admin = {
      users = ["arn:aws:iam::<aws-account-id>:user/platform-user"]
    }
  }
}

И CDK реализация:

const applicationTeam = new blueprints.ApplicationTeam({
    name: "team-blue",
    namespaceLabels: {
        appName: "example",
    },
    namespaceHardLimits: {
        "requests.cpu"   : "1000m",
        "requests.memory" : "4Gi",
        "limits.cpu"      : "2000m",
        "limits.memory"   : "8Gi",
    },
    users: [new ArnPrincipal("arn:aws:iam::<aws-account-id>:user/team-blue-user")]
});

const platformTeam = new blueprints.PlatformTeam({
    name: "platform-admin",
    users: [new ArnPrincipal("arn:aws:iam::<aws-account-id>:user/platform-user")]
});

blueprints.EksBlueprint.builder() 
    .teams(applicationTeam, platformTeam) 
    .build(app, stackId);

GitOps

Если вы хотите использовать GitOps подход к развертыванию дополнений и рабочих нагрузок в EKS кластере, EKS Blueprints предоставляет встроенную поддержку развертывания Argo CD. Вы можете легко развернуть EKS кластер с установленным Argo CD, с предустановленным одним или множеством Argo CD приложений.

EKS Blueprints предоставляет два примера репозиториев Argo CD: репозиторий рабочих нагрузок, который демонстрирует, как управлять конфигурацией рабочих нагрузок, и репозиторий дополнений, который демонстрирует, как управлять конфигурацией дополнений. Оба репозитория следуют шаблону Argo CD App of Apps Pattern. Следующий пример кода демонстрирует развертывание EKS кластера с установленным Argo CD, и двумя Argo CD приложениями, использующие репозитории с примерами:

module “kubernetes-addons” {
  ...
  enable_argocd         = true
  argocd_manage_add_ons = true # Indicates that Argo CD is responsible for managing/deploying Add-ons.
  addons = {
    path               = "chart"
    repo_url           = "https://github.com/aws-samples/eks-blueprints-add-ons.git"
    add_on_application = true
  }
  workloads = {
    path               = "envs/dev"
    repo_url           = "https://github.com/aws-samples/eks-blueprints-workloads.git"
    add_on_application = false
  }
}

И с помощью CDK

const stackId = "<stack_id>";

const argoBootstrapAddOn = new blueprints.ArgoCDAddOn({
    bootstrapRepo: {
        repoUrl: "https://github.com/aws-samples/eks-blueprints-workloads.git",
        path: 'envs/dev'
    }
});

blueprints.EksBlueprint.builder()
    .addOns(argoBootstrapAddOn)
    .build(app, stackId);

Сотрудничество с партнерами AWS

В процессе создания EKS Blueprints мы тесно сотрудничали с несколькими AWS партнерами по проектированию дополнений для их продуктов и услуг. Создав дополнение для EKS Blueprints, наши партнеры могут снизить затраты, связанные с загрузкой своего программного обеспечения в EKS кластер с надлежащей конфигурацией. Datadog, Dynatrace, HashiCorp, Kubecost, NewRelic, Ondat, Rafay, Snyk, Tetrate, Kasten By Veeam создали дополнения, которые позволяют клиентам использовать их продукты с EKS Blueprints. Для других партнеров AWS, заинтересованных в создании дополнений, пожалуйста, ознакомьтесь с руководствами по расширению возможностей в соответствующих репозиториях Terraform и CDK.

Концептуально возможности EKS Blueprints не ограничены конкретными инструментами, такими как CDK или Terraform. Партнеры AWS могут свободно использовать наши инструменты, участвовать в коллективной разработке посредством совместной работы с открытым исходным кодом или разрабатывать свои собственные инструменты. Например, Pulumi, AWS партнер и владелец популярного инструмента «инфраструктура как код» (IaC), присоединилась к нашим стараниям, объявив о выпуске собственной версии EKS Blueprints от Pulumi, доступной в предварительной версии уже сегодня.

Куда мы движемся

EKS Blueprints был разработан с открытым исходным кодом в течение последнего года увлеченной группой архитекторов решений и специалистов AWS. Нам посчастливилось работать с сообществом разработчиков открытого кода, нашими клиентами и партнерами, чтобы получить обратную связь и помочь сформировать направление развития проекта. Наша публичная дорожная карта доступна сегодня в репозиториях Terraform и CDK, и мы хотим услышать ваше мнение. Какие дополнительные модули были бы полезны? Какие новые blueprints мы можем создать?

Наконец, сообщество EKS Blueprints открыто для всех. У нас есть небольшое, но растущее сообщество разработчиков открытого исходного кода, которое вносит свой вклад в проект, и мы хотим расширить нашу базу участников. Если вы заинтересованы в участии в проекте, мы приветствуем любой вклад в проекты Terraform или CDK, включая сообщения об ошибках, новые возможности, исправления или дополнительную документацию.

Следующие шаги

Чтобы начать работу с EKS Blueprints, посетите репозитории EKS Blueprints для Terraform или EKS Blueprints для CDK. Там вы найдете ссылки на полную документацию по проекту и инструкции по началу работы.

Доступность, цены и поддержка

EKS Blueprints для Terraform и CDK уже доступны на GitHub. Их можно использовать для создания EKS сред в любом AWS регионе, где EKS доступен в настоящее время. Поддержка EKS Anywhere включена в нашу дорожную карту.

EKS Blueprints бесплатен в использовании — вы платите только за ресурсы, которые вы развертываете. Например, при развертывании EKS кластера с управляемой группой нод, взимается стандартная плата за EKS и EC2.

EKS Blueprints — это проект с открытым исходным кодом, управляемый сообществом, а не часть услуги AWS, поэтому он не включен в корпоративную поддержку (enterprise support) AWS. Все службы AWS, предоставляемые EKS Blueprints, такие как EKS, полностью поддерживаются. Если вам нужна помощь в использовании EKS Blueprints, пожалуйста, создайте задачу в нашем репозитории GitHub. AWS Professional Services и партнеры AWS также готовы помочь.

AWS Cloud Adoption Framework (CAF) 3.0 уже доступен

Jeff Barr — Wed, 04 May 2022 13:15:31 +0000

AWS Cloud Adoption Framework (AWS CAF) предназначен для того, чтобы помочь вам построить и затем реализовать комплексный план цифровой трансформации. Используя лучшие практики AWS и опыт, извлеченный из тысяч клиентских проектов, AWS CAF поможет вам определить возможности трансформации и расставить приоритеты, оценить и улучшить вашу готовность к облаку, а также итеративно развивать дорожные карты, по которым вы будете вести свою трансформацию.

Версия 3.0 уже доступна

Мы рады сообщить, что версия 3.0 AWS CAF уже доступна. Эта версия включает в себя то, что мы узнали с момента выпуска версии 2.0, с фокусом на цифровую трансформацию и акцентом на использование данных и аналитики.

Фреймворк начинается с определения шести групп фундаментальных перспектив – бизнес, люди, управление, платформа, безопасность и поддержка, в общей сложности 47 отдельных возможностей по сравнению с 31 в предыдущей версии.

Далее определяются четыре области трансформации – технология, процесс, организация и продукт, которые должны участвовать в успешной цифровой трансформации.

Взяв за основу возможности и области трансформации, AWS Cloud Adoption Framework рекомендует набор из четырех итеративных и постепенных этапов облачной трансформации:

Представление – демонстрация того, как облако ускоряет достижение бизнес-результатов. Этот этап проводится в виде интерактивного семинара под руководством координатора, который поможет вам определить возможности трансформации и создать основу для цифровой трансформации.

Согласование – выявление недостатков во всех основных возможностях. Этот этап также проходит в форме интерактивного семинара под руководством координатора, по результатам которого составляется план действий.

Запуск – создание и внедрение пилотных инициатив в производство одновременно с демонстрацией дополнительных преимуществ для бизнеса.

Масштабирование – расширение пилотных инициатив до желаемого масштаба с реализацией ожидаемых и желаемых бизнес-преимуществ.

В целом, AWS Cloud Adoption Framework опирается на сотни предложений и программ AWS, которые помогут вам достичь конкретных бизнес и технических результатов.

Начало работы с AWS Cloud Adoption Framework

Вы можете воспользоваться следующими ресурсами, чтобы узнать больше и начать работу:

Посетите веб-страницу AWS Cloud Adoption Framework.

White Paper – загрузите и прочитайте обзор AWS CAF (на русском языке).

Команда по работе с клиентами готова помочь вам на всех этапах внедрения AWS Cloud Adoption Framework.

— Jeff;

Тонкая настройка и хостинг Hugging Face BERT моделей на Amazon SageMaker

AWS Central EurAsia & Russia Team — Wed, 09 Feb 2022 11:04:40 +0000

Оригинал статьи: ссылка (Eddie Pick, Senior Startup Solutions Architect и Dhawalkumar Patel, Startup Senior Solutions Architect)

Несколько лет назад начала расти популярность архитектуры deep-learning нейронных сетей «трансформер» для построения моделей обработки естественных языков (NLP). Адаптация архитектуры «трансформер» в таких моделях, как BERT, RoBERTa, T5, GPT-2 и DistilBERT, превосходит предыдущие модели NLP в широком круге задач, таких как классификация текста, ответы на вопросы, обобщение и генерация текста. Эти модели экспоненциально увеличивались в размерах от нескольких миллионов параметров до нескольких сотен миллиардов параметров. По мере увеличения числа параметров модели увеличивается и вычислительная инфраструктура, необходимая для обучения этих моделей.

Для обучения и оптимизации подобных моделей требуется значительное количество времени, навыков и вычислительных ресурсов.

К сожалению, эта сложность не позволяет большинству организаций эффективно использовать эти модели, либо они не используют их вообще. Не было бы продуктивнее, если бы вы могли начать с предварительно обученной версии и сразу же приступить к работе? Это бы также позволило вам тратить больше времени на решение бизнес-задач.

В этом посте показано, как использовать Amazon SageMaker и Hugging Face для тонкой настройки предварительно обученной модели BERT и развертывания ее в качестве конечной точки управляемого вывода в SageMaker.

Общие сведения

Hugging Face — это технологический стартап с активным open source сообществом, который способствовал внедрению моделей на основе трансформеров во всем мире. Ранее в этом году было объявлено о сотрудничестве между Hugging Face и AWS, чтобы компаниям было проще использовать модели машинного обучения (ML) и быстрее получать модели с современными возможностями обработки текстов. В рамках этого сотрудничества Hugging Face использует AWS в качестве предпочтительного поставщика облачных сервисов для предоставления сервисов своим клиентам. В числе готовых моделей в репозитории Hugging Face есть и большое количество моделей на русском языке.

Чтобы помочь нашим общим клиентам начать работу, Hugging Face и AWS представили новые контейнеры глубокого обучения Hugging Face (DLC), которые упрощают обучение и развертывание моделей с использованием трансформеров Hugging Face на SageMaker. DLC полностью интегрированы с библиотеками распределенного обучения SageMaker для более быстрого обучения моделей с использованием Accelerated Computing инстансов последнего поколения, доступных в Amazon Elastic Compute Cloud (Amazon EC2). С SageMaker Python SDK вы можете обучать и развертывать свои модели с помощью одной строчки кода, что позволяет вашим командам быстрее перейти от идеи к работающему решению. Чтобы развернуть модели Hugging Face в SageMaker, вы можете использовать DLC Hugging Face с новым Hugging Face Inference Toolkit. С новыми Hugging Face Inference DLC вы можете развернуть свои модели для инференса с помощью еще одной строчки кода или выбрать из более чем 10 000 предварительно обученных моделей, включая модели с поддержкой русского языка, доступных в Hugging Face Hub, и развернуть их с помощью SageMaker, чтобы легко создавать готовые к использованию конечные точки, которые легко масштабируются с помощью встроенных средств мониторинга и безопасности корпоративного уровня.

Одной из самых больших проблем, с которыми сталкиваются специалисты по обработке данных в проектах NLP, является нехватка обучающих данных; для обучения модели часто используется всего несколько тысяч примеров текстовых данных с проставленными людьми метками. Однако современные задачи NLP с глубоким обучением требуют большого количества размеченных данных. Одним из способов решения этой проблемы является использование трансферного обучения. Трансферное обучение — это метод машинного обучения, при котором предварительно обученная модель, например, предварительно обученная модель ResNet для классификации изображений, используется повторно в качестве отправной точки для другой, но связанной проблемы. Повторное использование параметров из предварительно обученных моделей позволяет значительно сэкономить время и затраты на обучение. Модель BERT была обучена на данных BookCorpus и английской Википедии, которые содержат 800 млн слов и 2500 млн слов соответственно. Обучение BERT с нуля было бы непомерно дорого. Воспользовавшись преимуществами трансферного обучения, вы можете быстро настроить BERT для другого варианта использования с относительно небольшим объемом обучающих данных, чтобы получить самые продвинутые результаты для типичных задач NLP, таких, как классификация текстов и ответы на вопросы.

В этом посте мы покажем вам, как использовать DLC SageMaker Hugging Face, сделать тонкую настройку предварительно обученной модели BERT и развернуть её в SageMaker как управляемую конечную точку HTTP для инференса.

Работа с моделями Hugging Face в SageMaker

В этом примере используются трансформеры и датасеты от Hugging Face вместе с SageMaker для тонкой настройки предварительно обученной модели на базе трансформеров для бинарной классификации текста и развертывание этой модели для инференса.

Для демонстрации здесь используется модель DistilBERT — небольшая, быстрая, дешевая и легкая модель на основе трансформеров и архитектуре BERT. Дистилляция знаний в ней была сделана на этапе предварительного обучения, чтобы уменьшить размер модели BERT на 40%. Заранее обученная модель доступна в библиотеке transformers из Hugging Face.

Вы доработаете эту предварительно обученную модель с помощью датасета Amazon Reviews Polarity, который содержит около 35 миллионов отзывов от клиентов Amazon, и сможете классифицировать отзыв как положительный или отрицательный. Отзывы были собраны в 1995—2013 годах и включают информацию о продукте и пользователях, рейтинги и текстовые комментарии. Он доступен как датасет amazon_polarity на Hugging Face.

Подготовка данных

В этом примере подготовка данных проста, поскольку непосредственно из Hugging Face вы используете библиотеку datasets для загрузки и предварительной обработки датасета amazon_polarity.

Ниже приведен пример данных:

dataset_name = 'amazon_polarity'

train_dataset, test_dataset = load_dataset(dataset_name, split=['train', 'test'])
train_dataset = train_dataset.shuffle().select(range(10000)) # We're limiting the dataset size to speed up the training during the demo
test_dataset = test_dataset.shuffle().select(range(2000))

Метка 1 означает положительный отзыв, а 0 — отрицательный отзыв. Ниже приведен пример положительного отзыва:

{'content': 'Little Slow on Review.. I only get to read at Dr Appts and other type breaks in day.Worth the read and I can understand mind set of why book is popular in war zones.I would suggest it to anyone that enjoys military reading..',
 'label': 1,
 'title': 'Soild Number 1 Book In Iraq and Afganastan'}

Ниже приведен пример негативного отзыва:

{'content': 'I just received and needs a couple more clicks on my head to fit correct. And if I try to turn dial to tighten, the release is on top of dial and I keep pressing it and it gets loose again. I dont know why they designed it with points on the dial. It starts to hurt my thumb if I try to tighten. I bought this cause the light weight but sticker on helmet says 298 g the description says 255. This sucks..',
 'label': 0,
 'title': 'Feels heavy.'}

Как показано на следующей визуализации, набор данных уже хорошо сбалансирован и дальнейшая предварительная обработка не требуется.

Модели на основе трансформеров в целом, и BERT и DistilBERT в частности, используют токенизацию. Это означает, что слово может быть разбито на одно или несколько подслов, на которые ссылается словарь модели. Например, предложение «Меня зовут Мария» обозначается как [CLS] Меня зовут Мари # #я [SEP], которое представлено вектором [101, 1422, 1271, 1110, 27859, 2328, 102]. Hugging Face предоставляет серию предварительно обученных токенизаторов для разных моделей.

Чтобы импортировать токенизатор для DistilBERT, используйте следующий код:

tokenizer_name = 'distilbert-base-cased'
tokenizer = AutoTokenizer.from_pretrained(tokenizer_name)

Этот токенизатор используется для токенизации тренировочного и тестового датасетов, а затем конвертирует их в формат PyTorch, используемый во время обучения. См. следующий код:

# Helper function to get the content to tokenize
def tokenize(batch):
    return tokenizer(batch['content'], padding='max_length', truncation=True)

# Tokenize
train_dataset = train_dataset.map(tokenize, batched=True, batch_size=len(train_dataset))
test_dataset = test_dataset.map(tokenize, batched=True, batch_size=len(test_dataset))

# Set the format to PyTorch
train_dataset.rename_column_("label", "labels")
train_dataset.set_format('torch', columns=['input_ids', 'attention_mask', 'labels'])
test_dataset.rename_column_("label", "labels")
test_dataset.set_format('torch', columns=['input_ids', 'attention_mask', 'labels'])

После обработки данных вы загружаете их в Amazon Simple Storage Service (Amazon S3) для обучения:

import botocore
from datasets.filesystems import S3FileSystem

# Upload to S3
s3 = S3FileSystem()
s3_prefix = f'samples/datasets/{dataset_name}'
training_input_path = f's3://{sess.default_bucket()}/{s3_prefix}/train'
train_dataset.save_to_disk(training_input_path,fs=s3)
test_input_path = f's3://{sess.default_bucket()}/{s3_prefix}/test'
test_dataset.save_to_disk(test_input_path,fs=s3)

print(f'Uploaded training data to {training_input_path}')
print(f'Uploaded testing data to {test_input_path}')

Обучение с помощью Hugging Face Estimator

Вам нужен Hugging Face Estimtor, чтобы создать Training Job в SageMaker. Estimator полностью берет на себя процесс обучения в SageMaker. В Estimator вы определяете, какой скрипт тонкой настройки следует использовать как entry_point, какой instance_type следует использовать и какие гиперпараметры нужно передать.

Гиперпараметры могут быть следующими:

Количество эпох
Размер пакета
Название модели
Название токенизатора
Выходной каталог

Скрипт обучения использует имя модели и название токенизатора для загрузки предварительно обученной модели и токенизатора из Hugging Face:

huggingface_estimator = HuggingFace(entry_point='train.py',
                            source_dir='./scripts',
                            instance_type='ml.p3.2xlarge',
                            instance_count=1,
                            role=role,
                            transformers_version='4.6.1',
                            pytorch_version='1.7.1',
                            py_version='py36',
                            hyperparameters = hyperparameters)

Когда вы создаете Training Job в SageMaker, SageMaker позаботится о следующем:

Запуск и управление всеми необходимыми вычислительными инстансами с помощью контейнера huggingface
Загрузка предоставленного скрипта тонкой настройки train.py
Загрузка данных из sagemaker_session_bucket в контейнер в каталог /opt/ml/input/data

Затем он запускает Training Job, выполнив следующую команду:

/opt/conda/bin/python train.py --epochs 10 --model_name distilbert-base-cased --token_name distilbert-base-cased--train_batch_size 1024

Гиперпараметры, заданные в Estimator, передаются как именованные аргументы.

SageMaker предоставляет полезные возможности по настройке среды обучения с помощью различных переменных среды, включая следующие:

SM_MODEL_DIR — Строка, представляющая путь, по которому обучающее задание записывает артефакты модели. После обучения артефакты из этого каталога загружаются в Amazon S3, для того чтобы после модель можно было где-то разместить.
SM_NUM_GPUS — Целое число, представляющее количество графических процессоров, доступных для хоста.
SM_CHANNEL_XXXX — Строка, представляющая путь к каталогу, содержащему входные данные для указанного канала. Например, если в вызове функции fit объекта Estimator указать два входных канала, называемых train и test, будут установлены переменные окружения SM_CHANNEL_TRAIN и SM_CHANNEL_TEST.

Начните тренировку с помощью функции fit:

huggingface_estimator.fit({'train': training_input_path, 'test': test_input_path}, wait=False, job_name=training_job_name )

По завершении обучения метрики можно нарисовать на графике.

Архитектура для разворачивания модели Hugging Face на SageMaker для инференса

Hugging Face Inference Toolkit for SageMaker — это библиотека с открытым исходным кодом для разворачивания моделей Hugging Face на основе трансформеров на SageMaker. В нем используется SageMaker Inference Toolkit для запуска сервера с моделью, который отвечает за обработку запросов на инференс. SageMaker Inference Toolkit использует Multi Model Server (MMS) для разворачивания ML. Он загружает MMS с конфигурацией и настройками, которые делают его совместимым с SageMaker и позволяют вам настраивать важные параметры производительности, такие как количество обработчиков на модель, в зависимости от потребностей вашего сценария.

MMS — это фреймворк с открытым исходным кодом для разворачивания ML моделей с гибким и простым в использовании инструментом для разворачивания моделей глубокого обучения, обученных с использованием любого фреймворка ML/DL. Вы можете использовать CLI для сервера MMS или предварительно настроенные образы Docker для запуска службы, которая настраивает конечные точки HTTP для обработки запросов на инференс моделей. Он также предоставляет подключаемый бэкэнд, который поддерживает подключаемый пользовательский бэкенд-обработчик, в котором вы можете реализовать свой собственный алгоритм.

Вы можете развернуть тонко настроенные или предварительно обученные модели с DLC Hugging Face на SageMaker, используя Hugging Face Inference Toolkit для SageMaker без необходимости написания каких-либо пользовательских функций инференса. Вы также можете настроить инференс, предоставив свой собственный скрипт для инференса и переопределяя методы по умолчанию в HuggingFaceHandlerService. Это можно сделать, переопределяя методы input_fun (), output_fn (), predict_fn (), model_fn () или transform_fn ().

На следующей диаграмме показана анатомия конечной точки инференса SageMaker Hugging Face.

Как показано в архитектуре, MMS слушает порт, принимает входящий запрос на инференс и перенаправляет его процессу Python для дальнейшей обработки. В MMS используется фронтенд сервер на базе Java, который использует инфраструктуру клиентского сервера NIO под названием Netty. Платформа Netty обеспечивает лучшую пропускную способность, меньшую задержку и меньшее потребление ресурсов, минимизирует ненужные копии в памяти и позволяет использовать гибко настраиваемую модель потоков — один поток или один или несколько пулов потоков. Можно точно настроить конфигурацию MMS, включая количество потоков Netty, количество рабочих процессов на модель, размер очереди заданий, время ожидания ответа, конфигурацию JVM и т. д., изменив файл конфигурации MMS. Дополнительные сведения см. в разделе Расширенная настройка.

MMS перенаправляет запрос на инференс в обработчик по умолчанию, предоставленный SageMaker Hugging Face, или в пользовательский скрипт. Обработчик по умолчанию SageMaker Hugging Face использует Hugging Face pipeline abstraction API для выполнения предсказаний для моделей с использованием соответствующей базовой платформы глубокого обучения, а именно PyTorch или TensorFlow. В зависимости от типа настроенного инстанса EC2, конвейер использует устройства CPU или GPU для выполнения инференса и возврата ответа клиенту через фронтенд сервер MMS. Вы можете настроить переменные среды для точной настройки SageMaker Hugging Face Inference Toolkit. Кроме того, вы можете точно настроить стандартную конфигурацию Hugging Face.

Разворачивание тонко настроенной модели BERT для инференса

Чтобы развернуть вашу тонко настроенную модель для инференса, выполните следующие шаги:

1. Определите модель Hugging Face, используя следующий код:

from sagemaker.huggingface.model import HuggingFaceModel

# create Hugging Face Model Class
huggingface_model = sagemaker.huggingface.HuggingFaceModel(
env={ 'HF_TASK':'sentiment-analysis' },
model_data=huggingface_estimator.model_data,
role=role, # iam role with permissions to create an Endpoint
transformers_version="4.6.1", # transformers version used
pytorch_version="1.7.1", # pytorch version used
py_version='py36', # python version
)

2. Разверните конечную точку инференса для этой тонко настроенной модели:

# deploy model to SageMaker Inference
predictor = huggingface_model.deploy(
initial_instance_count=1,
instance_type="ml.g4dn.xlarge"
)

3. После развертывания, проверьте модель с помощью следующего кода:

data = {
"inputs": "This is a very good product!"
}

# request
predictor.predict(data)

Результатом является положительный (LABEL_1) для 99.88%.

Полностью решение доступно в репозитории GitHub.

Очистка

После завершения экспериментов с этим проектом запустите predictor.delete_endpoint(), чтобы удалить конечную точку.

Заключение

В этом посте показано, как тонко настроить предварительно обученную модель на базе трансформеров посредством датасета с помощью SageMaker Hugging Face Estimator, а затем разместить ее на SageMaker с помощью инструментария SageMaker Hugging Face Inference Toolkit для инференса в реальном времени. Мы надеемся, что этот пост позволит вам быстро настроить модель на базе трансформеров с собственным датасетом и внедрить современные методы NLP в свои продукты. Полное решение доступно в репозитории на GitHub. Попробуйте и сообщите нам, что вы думаете в комментариях!