Вопросы и ответы по Amazon S3: облачное объектное хранилище

Общие вопросы и ответы по S3

Открыть все

Amazon S3 – это объектное хранилище, рассчитанное на хранение и извлечение любых объемов данных из любой точки сети. S3 – это простой сервис хранилища, который отличается самой высокой надежностью, доступностью, производительностью и безопасностью в отрасли, а также практически неограниченной масштабируемостью при очень низких затратах.

Amazon S3 предоставляет простой интерфейс веб-сервиса, который можно использовать для хранения и извлечения любых объемов данных в любое время из любого места. Такой сервис позволяет просто создавать приложения, использующие полностью облачное хранилище. Поскольку сервис Amazon S3 обеспечивает широкие возможности масштабирования, а плата начисляется только за фактически использованные ресурсы, можно начать работу с небольших масштабов и наращивать приложение по мере необходимости, не жертвуя при этом производительностью или надежностью. Сервис Amazon S3 спроектирован для максимально гибкой работы. Вы можете хранить данные любого типа и в любом количестве; считывать те же самые данные миллион раз или только для аварийного восстановления; создавать простое FTP-приложение или сложное веб-приложение, сравнимое с розничным интернет-магазином Amazon.com. Amazon S3 позволяет сосредоточиться на инновациях, не переживая о том, как хранить данные.

Чтобы зарегистрироваться на Amazon S3, перейдите в консоль S3. Для доступа к сервису требуется аккаунт Amazon Web Services. Если у вас нет аккаунта AWS, вам будет предложено создать его в начале регистрации в сервисе Amazon S3. После регистрации обратитесь к документации по Amazon S3, просмотрите материалы по началу работы с S3 и дополнительные ресурсы в центре ресурсов, чтобы начать использовать Amazon S3.

Сервис Amazon S3 позволяет использовать преимущества, которые дает Amazon в большом масштабе, без предварительной оплаты или снижения собственной производительности. Использование Amazon S3 позволяет недорого и просто обеспечить быстрый доступ к данным, их постоянную доступность и безопасность.

Можно хранить практически любые типы данных в любом формате. Дополнительную информацию см. в Лицензионном соглашении Amazon Web Services.

Общий объем хранимых данных и количество объектов в Amazon S3 не ограничены. Размер отдельных объектов Amazon S3 может составлять от 0 байт до 50 ТБ. Самый крупный объект, который можно загрузить через один запрос PUT – 5 ГБ. Для объектов крупнее 100 МБ клиентам рекомендуется использовать многокомпонентную загрузку.

Корзина общего назначения – это контейнер, в котором можно хранить любое количество объектов, находящихся в Amazon S3. Корзины общего назначения – это базовый тип корзин S3. Любая корзина общего назначения может содержать объекты, хранящиеся в любых классах хранения кроме S3 Express One Zone. Такие корзины рекомендуются для большинства примеров использования и шаблонов доступа.

Корзина каталогов – это контейнер, в котором можно хранить любое количество объектов, находящихся в Amazon S3. В корзинах каталогов S3 могут содержаться только объекты, хранящиеся в классе S3 Express One Zone. Это обеспечивает более быструю обработку данных в пределах одной зоны доступности. Они рекомендуются для случаев, когда необходимо обеспечить малую задержку. Каждая корзина каталогов S3 может поддерживать до 2 млн транзакций в секунду (TPS), независимо от количества каталогов в корзине.

Корзина таблиц специально создана для хранения таблиц в формате Apache Iceberg. Используйте Таблицы Amazon S3 для создания корзин таблиц и настройки разрешений на уровне таблиц всего за несколько шагов. Корзины таблиц S3 специально оптимизированы для рабочих нагрузок аналитики и машинного обучения. Благодаря встроенной поддержке Apache Iceberg вы можете запрашивать табличные данные в S3 с помощью популярных движков запросов, включая Amazon Athena, Amazon Redshift и Apache Spark. Используйте корзины таблиц S3 для хранения табличных данных, таких как ежедневные транзакции покупок, потоковые данные датчиков или показы рекламы, в виде таблицы Iceberg в Amazon S3, а затем взаимодействуйте с этими данными с помощью возможностей аналитики.

Бакет векторов специально создан для хранения векторов и запросов к ним. Внутри векторного бакета используются не объектные API S3, а специализированные векторные API для записи векторных данных и выполнения запросов к ним на основе семантического значения и сходства. Доступ к векторным данным можно контролировать с помощью существующих механизмов управления доступом в Amazon S3, включая политики бакетов и IAM. Все операции записи в векторный бакет обладают строгой согласованностью, что означает возможность немедленного доступа к самым недавно добавленным векторам. При записи, обновлении и удалении векторов бакеты векторов S3 автоматически оптимизируют хранящиеся в них векторные данные для достижения оптимального соотношения цены и эффективности даже при масштабировании и развитии наборов данных.

Бакет – это контейнер для объектов и таблиц, хранящихся в Amazon S3. В нем можно хранить любое количество объектов. Корзины общего назначения – это базовый тип корзин S3. Любая корзина общего назначения может содержать объекты, хранящиеся в любых классах хранения кроме S3 Express One Zone. Такие корзины рекомендуются для большинства вариантов использования и шаблонов доступа. В корзинах каталогов S3 могут содержаться только объекты, хранящиеся в классе S3 Express One Zone. Это обеспечивает более быструю обработку данных в пределах одной зоны доступности. Они рекомендуются для случаев, когда необходимо обеспечить малую задержку. Каждая корзина каталогов S3 может поддерживать до 2 млн транзакций в секунду (TPS), независимо от количества каталогов в корзине. Корзины таблиц S3 специально созданы для хранения табличных данных в S3, таких как ежедневные транзакции покупок, потоковые данные датчиков или показы рекламы. При использовании корзины таблиц ваши данные хранятся в S3 в виде таблицы Iceberg, а затем вы можете взаимодействовать с этими данными, используя такие возможности аналитики, как транзакции на уровне строк, снимки таблиц с возможностью запроса и многое другое, – все это под управлением S3. Кроме того, бакеты таблиц осуществляют непрерывное обслуживание таблиц для автоматической оптимизации эффективности запросов с течением времени даже в условиях масштабирования и развития озера данных. Векторные бакеты Amazon S3 специально разработаны для хранения векторов и запросов к ним. В таких бакетах используются специальные API для записи векторных данных и запросов к ним на основе семантического значения и сходства. Управлять доступом к векторным данным можно с помощью существующих механизмов контроля доступа в Amazon S3, включая политики бакетов и IAM. При записи, обновлении и удалении векторов векторные бакеты S3 автоматически оптимизируют хранящиеся в них векторные данные для достижения оптимального соотношения цены и эффективности даже при масштабировании и развитии наборов данных.

Amazon хранит данные клиентов и прослеживает их использование для выставления счета. Amazon не имеет доступа к вашим данным ни с какими целями, не связанными с сервисом Amazon S3, за исключением случаев, когда это требуется законом. Дополнительную информацию см. в Лицензионном соглашении Amazon Web Services.

Да. Организации в сотрудничестве с Amazon используют Amazon S3 для самых разнообразных проектов. Многие из этих проектов используют Amazon S3 в качестве надежного хранилища данных в критически важных для бизнеса процессах.

Amazon S3 – это простое хранилище объектов на основе ключа. При хранении данных объектам назначается уникальный ключ, который может использоваться впоследствии для доступа к данным. Ключи могут иметь любые строковые значения; их можно создавать так, чтобы имитировать иерархические атрибуты. Кроме того, для организации данных во всех бакетах и (или) с любыми префиксами S3 можно воспользоваться возможностью назначения тегов объектам S3.

Amazon S3 предоставляет простые стандартизированные интерфейсы веб-сервисов REST, предназначенные для работы с любым инструментарием интернет-разработки. Мы намеренно упростили все системные процессы, чтобы вам было проще добавлять новые протоколы распределения и функциональные уровни.

Amazon S3 предоставляет вам доступ к той же высокомасштабируемой, высокодоступной, быстрой и недорогой инфраструктуре хранения данных, которую Amazon использует для управления своей собственной глобальной сетью веб-сайтов. Класс хранилища «Amazon S3 Стандартный» обеспечивает доступность на уровне 99,99 %, классы S3 Standard – IA, «Интеллектуальное многоуровневое хранение Amazon S3» и «Мгновенное извлечение данных Amazon S3 Glacier» – на уровне 99,9 %, класс S3 One Zone – IA – на уровне 99,5 %, а классы «Гибкое извлечение данных Amazon S3 Glacier» и «Глубокий архив Amazon S3 Glacier» обеспечивают доступность на уровне 99,99 % и сопровождаются SLA на уровне 99,9 %. Использование хранилищ всех перечисленных классов регулируется Соглашением об уровне обслуживания Amazon S3.

Amazon S3 с самого начала был создан для обработки трафика из любого интернет-приложения. Оплата по мере использования и неограниченный объем ресурсов предотвращают дополнительные издержки и прерывание сервиса. Огромный масштаб Amazon S3 позволяет равномерно распределять нагрузку, чтобы пики трафика не сказывались на отдельных приложениях.

Да. Соглашение об уровне обслуживания Amazon S3 предусматривает компенсацию в случае, если время непрерывной работы за любой учетный период окажется ниже согласованного.

Amazon S3 автоматически тщательно проверяет согласованность операций чтения после записи. Этот процесс не влияет на производительность или доступность и региональную изолированность приложений, а также абсолютно бесплатный. После успешной записи нового объекта или повторной записи существующего все последующие запросы на чтение незамедлительно получают последнюю версию объекта. S3 также тщательно проверяет согласованность операций получения списка, благодаря чему сразу после записи вы сможете создать список объектов в корзине со всеми внесенными изменениями.

Тщательная проверка согласованности операций чтения после записи помогает в тех случаях, когда требуется чтение объектов сразу после их записи. Например, если вы часто считываете объекты и составляете списки непосредственно после записи. Высокопроизводительные вычислительные рабочие нагрузки также получают преимущества, когда объект повторно записывается, после чего многократно одновременно считывается: тщательная проверка согласованности операций чтения после записи обеспечивает считывание объекта во время каждой попытки. Эти приложения автоматически и мгновенно получают преимущества от тщательной проверки согласованности операций чтения после записи. Инструмент тщательной проверки согласованности операций чтения после записи в S3 также устраняет потребность в дополнительной инфраструктуре.

Регионы AWS

Открыть все

При создании бакета общего назначения Amazon S3 можно выбрать регион AWS. Хранилища классов «Amazon S3 Стандартный», «Amazon S3 со стандартным редким доступом (S3 стандарт-IA)», «Интеллектуальное многоуровневое хранение Amazon S3», «Мгновенное извлечение данных Amazon S3 Glacier», «Гибкое извлечение данных Amazon S3 Glacier» и «Глубокий архив Amazon S3 Glacier» обеспечивают автоматическое хранение объектов на нескольких устройствах, расположенных как минимум в трех зонах доступности. Каждая зона доступности физически расположена на большом расстоянии (много километров) от любой другой зоны доступности, хотя все они находятся в пределах 100 км (60 миль) друг от друга. Объекты, размещаемые в хранилище класса «S3 одна зона-IA», сохраняются с избыточностью в пределах одной зоны доступности в выбранном регионе AWS. При создании корзины каталогов вы указываете одну зону доступности или локальную зону AWS. Объекты в корзинах каталогов резервно хранятся в одной зоне доступности или в одной локальной зоне. При использовании локальных зон ваши объекты остаются в локальной зоне, если вы не перенесете их в регион AWS. При использовании S3 на базе Outposts данные размещаются в локальной среде Outpost, однако вы можете вручную переместить их в регион AWS. Дополнительные сведения о доступности Amazon S3 в конкретных регионах AWS см. в списке региональных сервисов AWS.

Классы хранилищ S3 следует использовать для выделенных локальных зон AWS, если у вас есть конфиденциальные данные и приложения, которые должны работать в физически изолированной инфраструктуре, выделенной исключительно для вашего использования и размещенной в определенной юрисдикции для соблюдения требований безопасности и соответствия нормативным требованиям. Например, некоторые нормативные акты требуют хранения данных в определенной стране или штате по нормативным, договорным соображениям или соображениям информационной безопасности, характерным для государственного сектора, здравоохранения, нефтегазовой отрасли и других строго регулируемых отраслей. AWS вместе с вами настроит собственные частные зоны с расширенными возможностями безопасности и управления, необходимыми для соблюдения нормативных требований.

S3 следует использовать в локальных зонах AWS, если у вас есть данные и приложения, которые необходимо запускать в определенных географических местоположениях в соответствии с требованиями к размещению данных и соответствию требованиям. Например, некоторые нормативные акты требуют хранения данных в определенной стране по нормативным, договорным соображениям или соображениям информационной безопасности, характерным для государственного сектора, здравоохранения, нефтегазовой отрасли и других строго регулируемых отраслей.

Регион AWS – это физическое местоположение, где находятся центры обработки и передачи данных AWS. Группа связанных между собой центров обработки данных в регионе называется «зоной доступности» (AZ). Каждый регион AWS состоит минимум из трех изолированных и физически разделенных зон доступности в одной географической области. В отличие от других поставщиков облачных услуг, которые часто обозначают регион как отдельный центр обработки данных, структура наших зон доступности в каждом регионе AWS обладает перечисленными ниже преимуществами. Каждая зона доступности оснащена автономным источником питания и охлаждения. Она тщательно охраняется, а также подключена к резервным сетям со сверхнизкими задержками.

Зона доступности – это один или несколько центров обработки данных с резервным источником питания, сетевой конфигурацией и подключением в регионе AWS. По сравнению с использованием одного ЦОД, такие зоны доступности позволяют обеспечить для приложений и баз данных в рабочей среде повышенный уровень доступности, отказоустойчивость и возможность масштабирования. Все зоны доступности в регионе AWS объединены в полностью резервированную выделенную сеть из метроволокна с высокой пропускной способностью и низким уровнем задержек, которая обеспечивает высокую скорость и низкие задержки при передаче данных между зонами доступности. Хранилища классов «Amazon S3 Стандартный», «Amazon S3 со стандартным редким доступом (S3 стандарт-IA)», S3 Intelligent-Tiering, «Мгновенное извлечение данных Amazon S3 Glacier», «Гибкое извлечение данных Amazon S3 Glacier» и «Глубокий архив Amazon S3 Glacier» реплицируют данные как минимум в трех зонах доступности для обеспечения защиты данных в случае полного выхода одной из зон доступности из строя. Это условие остается в силе и в регионах, где публично доступно менее трех зон доступности. Объекты, размещенные в хранилищах этих классов, доступны из всех зон доступности в регионе AWS.
Хранилища класса «Amazon S3 одна зона-IA» реплицируют данные в пределах одной зоны доступности. Данные, размещаемые в хранилище класса «S3 одна зона-IA», не являются устойчивыми к физическому выходу из строя зоны доступности вследствие серьезных стихийных бедствий, таких как землетрясение или наводнение.

Следует принять во внимание несколько факторов, исходя из потребностей вашего конкретного приложения. Например, можно сократить задержку при доступе к данным, если хранить их в регионе, расположенном рядом с клиентами, центрами обработки данных или другими ресурсами AWS. Вам также, возможно, потребуется хранить данные в регионе, удаленном от других узлов и систем в целях географической избыточности и аварийного восстановления. Следует рассмотреть и те регионы, которые позволяют соблюдать определенные нормативные требования и (или) снижать затраты на хранение. В целях экономии средств можно выбрать менее дорогой регион. Подробности см. на странице цен на Amazon S3.

Сервис Amazon S3 доступен в регионах AWS по всему миру, и клиенты могут его использовать независимо от своего местоположения. Требуется только решить, в каких регионах AWS вы хотите хранить свои данные в Amazon S3. Список регионов AWS, в которых в настоящее время доступен сервис S3, см. в списке региональных сервисов AWS.

Оплата

Открыть все

Используя сервис Amazon S3, вы платите только за то, что реально используете. Минимальные платежи отсутствуют. Вы можете оценить ежемесячные расходы с помощью Калькулятора цен AWS. Чем ниже наши расходы, тем меньшую плату мы взимаем. Некоторые цены могут меняться в зависимости от региона Amazon S3. При выставлении счетов цены основываются на местоположении корзины S3. Плата за передачу данных через запрос COPY внутри региона Amazon S3 не взимается. Плата за передачу данных через запрос COPY между регионами AWS взимается по расценкам, указанным на странице цен на Amazon S3. Плата за передачу данных между Amazon EC2 (или любым сервисом AWS) и Amazon S3 внутри одного региона (например в регионе «Восток США (Северная Вирджиния)»), не взимается. Плата за передачу данных между Amazon EC2 (или любым сервисом AWS) и Amazon S3 в разных регионах (например, между Amazon EC2 в регионе «Восток США (Северная Вирджиния)» и Amazon S3 в регионе «Запад США (Северная Калифорния)»), взимается по тарифам, указанным на странице цен на Amazon S3. Затраты на передачу данных оплачиваются владельцем исходного бакета. Для ознакомления с ценами на S3 на Outposts посетите страницу цен на Outposts.

Для начала работы с Amazon S3 не требуются предоплата или какие-либо обязательства. В конце месяца с вас будет автоматически снята сумма за пользование сервисом по итогам месяца. Вы можете в любое время просмотреть свои расходы за текущий расчетный период, войдя в аккаунт Amazon Web Services и выбрав панель управления счетами, связанную с вашим профилем консоли. Уровень бесплатного пользования AWS* позволяет приступить к работе с Amazon S3 бесплатно во всех регионах, кроме регионов AWS GovCloud. После регистрации новые клиенты AWS получают 5 ГБ хранилища Amazon S3 Standard, 20 000 запросов GET и 2000 запросов PUT, а также 100 ГБ исходящего трафика (в Интернет, регионы AWS или Amazon CloudFront) каждый месяц в течение одного года. Неиспользованные за этот месяц ресурсы на следующий месяц не переносятся. Amazon S3 взимает плату за следующие типы использования. Обратите внимание на то, что приведенные расчеты не учитывают возможность применения уровня бесплатного пользования AWS.

С 15 июля 2025 года новые клиенты AWS будут получать кредиты уровня бесплатного пользования AWS на сумму до 200 долл. США, которые можно использовать для оплаты соответствующих сервисов AWS, включая Amazon S3. При регистрации аккаунта вы можете выбрать между бесплатным и платным планом. Бесплатный план будет доступен в течение шести месяцев после создания аккаунта. Если вы перейдете на платный план, оставшийся кредитный баланс уровня бесплатного пользования будет автоматически применен к вашим счетам AWS. Все кредиты уровня бесплатного пользования необходимо использовать в течение 12 месяцев с даты создания аккаунта. Подробнее о программе Уровня бесплатного пользования AWS см. на веб-сайте Уровня бесплатного пользования AWS и в документации Уровня бесплатного пользования AWS.

Чем ниже наши расходы, тем меньшую плату мы взимаем. Например, в регионе Восток США (Северная Вирджиния) расходы ниже, чем в регионе Запад США (Северная Калифорния).

Каждая помещаемая на хранение или запрашиваемая версия объекта оплачивается по обычным тарифам Amazon S3. Например, рассмотрим следующий сценарий для иллюстрации стоимости хранилища при использовании функции управления версиями (предположим, что текущий месяц длится 31 день): 1) 1-й день месяца: вы выполняете операцию PUT в 4 ГБ (4 294 967 296 байт) в своем бакете.
2) 16-й день месяца: вы выполняете операцию PUT в 5 ГБ (5 368 709 120 байт) в том же бакете, используя тот же ключ, что и при первой операции PUT в 1-й день.

Анализируя затраты на хранилище при вышеуказанных операциях, обратите внимание, что объект в 4 ГБ с 1-го дня не удаляется из корзины, когда объект в 5 ГБ записывается на 15-й день. Вместо этого объект в 4 ГБ сохраняется как более старая версия, а объект в 5 ГБ становится последней записанной версией объекта в бакете. В конце месяца: всего использовано байт-часов
[4 294 967 296 байт x 31 день x (24 часа / день)] + [5 368 709 120 байт x 16 дней x (24 часа / день)] = 5 257 039 970 304 байт-часов. Переводя в ГБ-месяцы:
5 257 039 970 304 байт-часов x (1 ГБ / 1 073 741 824 байта) x (1 месяц / 744 часа) = 6,581 ГБ-мес. Стоимость рассчитана с учетом текущих тарифов для конкретного региона на странице цен на Amazon S3.

При доступе в сервис через консоль управления AWS действуют стандартные цены на Amazon S3. Для оптимизации результатов консоль управления AWS может выполнять запросы заранее. Кроме того, некоторые интерактивные операции посылают более одного запроса в сервис.

При доступе к данным с другого аккаунта AWS применяются стандартные цены Amazon S3. Кроме того, можно установить для своей корзины настройку «Requester Pays» (Платит инициатор). В этом случае стоимость запросов к данным Amazon S3 и их загрузки будет оплачивать инициатор. Дополнительную информацию по настройке Requester Pays (Оплата отправителем запроса) для бакета см. в документации по Amazon S3.

Если не указано иное, представленные здесь цены не включают применимые налоги и сборы, в том числе НДС и применимый налог с продаж. Для клиентов с платежным адресом в Японии использование сервисов AWS облагается потребительским налогом Японии. Подробнее о налогах на использование сервисов AWS »

AWS предлагает отвечающим критериям клиентам бесплатную передачу данных в Интернет при перемещении всех данных из AWS в соответствии с описанной ниже процедурой.

Сделайте следующее: 1. Если у вас есть специальный отдел по работе с клиентами AWS, сначала свяжитесь с ними и сообщите о своих планах. В некоторых случаях, если у вас есть договорные обязательства с AWS, вам может потребоваться обсудить возможные варианты со своим отделом по работе с клиентами AWS. 2) Ознакомьтесь с критериями и процедурами, описанными на этой странице. 3) Обратитесь в службу поддержки клиентов AWS и укажите, что ваш запрос касается «бесплатной передачи данных для перемещения из AWS». Служба поддержки клиентов AWS попросит вас предоставить информацию, чтобы ознакомиться с вашими планами по переходу, оценить, можете ли вы претендовать на бесплатную передачу данных, и рассчитать подходящую сумму кредита. 4) Если служба поддержки клиентов AWS одобрит переход, вы получите временный кредит на оплату исходящих данных в зависимости от объема всех данных, которые вы хранили в сервисах AWS на момент расчета. Служба поддержки клиентов AWS уведомит вас об одобрении, и у вас будет 60 дней, чтобы завершить переход с AWS. Кредит будет засчитан только на использование исходящих данных и не будет распространяться на использование других услуг. После отказа от сервисов AWS в течение 60 дней вы должны удалить все оставшиеся данные и рабочие нагрузки из своего аккаунта AWS или закрыть его. Бесплатная передача данных для ИТ-провайдеров, осуществляющих переход, также регулируется следующими условиями: а) Только клиенты с активным аккаунтом AWS и хорошей репутацией имеют право на бесплатный перенос исходящих данных. б) Если в вашем аккаунте AWS хранится менее 100 ГБ данных, вы можете бесплатно вывести эти данные из AWS в рамках ежемесячного уровня бесплатного пользования AWS объемом 100 ГБ для вывода данных. Клиенты, у которых в аккаунте AWS хранится менее 100 ГБ данных, не имеют права на получение дополнительных кредитов. в) AWS предоставит вам бесплатную передачу данных в Интернет при переносе всех данных из AWS. Если вы хотите перенести данные только из одного сервиса, а не из всех сразу, обратитесь в службу поддержки клиентов AWS. г) Если ваши планы изменятся или вы не сможете завершить перемещение из AWS в течение 60 дней, вы должны уведомить об этом службу поддержки клиентов AWS. д) Стандартная плата за использование сервисов AWS не включена. Кредиты можно получить только за передачу исходящих данных, связанных с вашим переходом с AWS. Однако передача данных из специализированных сервисов, таких как Amazon CloudFront, AWS Direct Connect, AWS Snow Family и «Международный ускоритель AWS», не включена. е) AWS может проверить использование вами услуг, чтобы убедиться в соответствии этим требованиям. Если мы определим, что вы использовали передачу исходящих данных не для перехода с AWS, мы можем взыскать с вас плату за передачу данных, которая была начислена на ваш баланс. ж) AWS может в любое время внести изменения в отношении бесплатной передачи данных в Интернет.

Количество передач данных ежедневно составляет сотни миллионов, и, как правило, мы не знаем их причины. Например, клиенты могут передавать данные конечному пользователю своего приложения, посетителю своего веб-сайта или в другую облачную либо локальную среду для резервного копирования. Это означает, что мы можем узнать о том, что передача данных выполняется для перемещения из AWS, только если вы сообщите нам об этом заранее.

Таблицы S3

Открыть все

Таблицы Amazon S3 предоставляют хранилище S3, которое специально оптимизировано для аналитических рабочих нагрузок, что повышает производительность запросов и снижает затраты. Вы можете получить доступ к расширенным аналитическим возможностям Iceberg и выполнять запросы с помощью знакомых сервисов AWS, таких как Amazon Athena, Redshift и EMR, за счет предварительной интеграции Таблиц S3 с Хранилищем в озере данных Amazon SageMaker. Кроме того, для чтения и записи данных в Таблицы S3 можно использовать сторонние приложения, совместимые с Iceberg REST, такие как Apache Spark, Apache Flink, Trino, DuckDB и PyIceberg. Можно использовать корзины таблиц для хранения табличных данных, таких как ежедневные транзакции покупок, потоковые данные датчиков или показы рекламы, в виде таблицы Iceberg в Amazon S3, а затем взаимодействовать с этими данными, используя такие возможности аналитики, как транзакции на уровне строк, снимки таблиц с возможностью запроса и многое другое, но все это находится под управлением Amazon S3. Корзины таблиц осуществляют непрерывное обслуживание таблиц для автоматической оптимизации эффективности запросов с течением времени даже в условиях масштабирования и развития озера данных.

Таблицы S3 следует использовать для эффективного и экономичного способа хранения табличных данных в Amazon S3. Таблицы S3 позволяют организовать структурированные данные в таблицы, а затем запрашивать их с помощью стандартных инструкций SQL практически без настройки. Таблицы S3 обладают такими же характеристиками надежности, доступности, масштабируемости и производительности, как и сервис S3, и автоматически оптимизируют хранилище для максимальной производительности запросов и минимизации затрат. Благодаря классу хранилища Intelligent-Tiering алгоритмы Таблиц Amazon S3 автоматически оптимизирует затраты на основе шаблонов доступа без влияния на производительность и без дополнительной операционной нагрузки.

S3 представляют собой специальное хранилище S3 для хранения структурированных данных в формате Apache Iceberg. Используя бакет таблиц, вы можете создавать таблицы как первоклассные ресурсы непосредственно в S3. Эти таблицы можно защитить с помощью разрешений на уровне таблиц, заданных в политиках на основе удостоверений или ресурсов. Они доступны для приложений и инструментов, поддерживающих стандарт Apache Iceberg. Когда вы создаете таблицу в бакете таблиц, S3 сохраняет метаданные, необходимые для запроса этих данных приложениями. Сегменты таблиц включают адрес каталога Iceberg REST Catalog, который любые совместимые с Iceberg движки запросов могут использовать для обнаружения, доступа и обновления метаданных Iceberg для таблиц в бакете. Это позволяет нескольким клиентам безопасно считывать и записывать данные в ваши таблицы. Со временем S3 автоматически оптимизирует базовые данные, перезаписывая или «сжимая» ваши объекты. Сжатие оптимизирует данные в S3, повышая производительность запросов. Кроме того, функции истечения срока действия снимка и удаления файлов без ссылок позволяют оптимизировать затраты на хранение по мере старения данных в таблицах. Более подробную информацию можно найти в руководстве пользователя.

Начать работу с Таблицами S3 можно всего за несколько простых шагов без необходимости настраивать инфраструктуру за пределами Amazon S3. Сначала создайте бакет таблиц в консоли S3. При создании первого бакета таблиц с помощью консоли интеграция с сервисами аналитики AWS происходит автоматически, что позволяет S3 автоматически заполнять все бакеты и таблицы в вашем аккаунте и регионе в каталоге данных AWS Glue. После этого таблицы S3 становятся доступны движкам запросов AWS, таким как Amazon Athena, EMR и Redshift. В Athena вы можете быстро начать заполнять новые таблицы и запрашивать их. В Athena вы можете быстро начать заполнять новые таблицы и запрашивать их.

Кроме того, вы можете получить доступ к таблицам S3 с помощью адреса каталога Iceberg REST через каталог данных AWS Glue. Это позволит вам найти весь массив данных, включая все ресурсы таблиц. Можно также напрямую подключиться к адресу конкретного бакета таблиц для обнаружения всех ресурсов таблиц S3 в этом бакете. Таким образом можно использовать таблицы S3 с любым приложением или движком запросов, поддерживающим спецификацию каталога Apache Iceberg REST.

Таблицу в бакете таблиц можно создать с помощью консоли S3, API CreateTable или операции интерфейса командной строки. Чтобы создать таблицу с помощью консоли, перейдите в бакет таблиц в консоли S3 и выберите «Создать таблицу с помощью Athena». Вам будет предложено создать новое пространство имен или выбрать существующее. Выбрав пространство имен, вы перейдете в редактор запросов Athena, где сможете использовать предварительно заполненный образец инструкции SQL для создания таблицы. После выполнения запроса таблица будет создана и появится как в Athena, так и в консоли S3. Чтобы удалить таблицу, можно использовать API DeleteTable или операцию интерфейса командной строки. Кроме того, для этого можно воспользоваться движком запросов. Когда вы это сделаете, таблица больше не будет доступна движку запросов.

Таблицы S3 поддерживают стандарт Apache Iceberg, а для запросов к таблицам Iceberg можно использовать такие движки запросов, как Amazon Athena, Amazon Redshift и Apache Spark, с помощью стандартного языка SQL.

Таблицы S3 обеспечивают до 10 раз больше транзакций в секунду (TPS) по сравнению с хранением таблиц Iceberg в бакетах Amazon S3 общего назначения. Таблицы S3 автоматически сжимают базовые данные, постоянно оптимизируя таблицы для обеспечения максимальной производительности запросов. В зависимости от рабочей нагрузки и шаблонов запросов вы также можете выбрать передовые стратегии сжатия, такие как сортировка и z-упорядочивание, чтобы дополнительно повысить эффективность таблиц. Уплотнение сортировки упорядочивает данные на основе указанных столбцов для повышения производительности запросов с фильтрацией, тогда как z-упорядочивание оптимизирует организацию данных сразу по нескольким измерениям, что особенно эффективно при одновременном выполнении запросов по нескольким столбцам.

Нет. Во избежание случайного нарушения целостности таблиц или поломки последующих приложений в бакетах нельзя вручную перезаписывать или удалять объекты. Корзины таблиц поддерживают только набор интерфейсов API S3, необходимых для доступа к таблицам Iceberg и их обновления. Вместо этого для удаления данных вы можете настроить удаление неиспользуемых файлов и истечение срока действия снимков в таблицах.

Используя бакеты таблиц, вы можете применять политики ресурсов ко всему бакету или к отдельным таблицам. Политики для бакетов таблиц можно применять с помощью API PutTablePolicy и PutTableBucketPolicy. Политики на уровне таблиц позволяют управлять разрешениями на доступ к таблицам в бакетах на основе логической таблицы, с которой они связаны, без необходимости знать физическое местоположение отдельных файлов данных. Таблицы S3 поддерживают теги для контроля доступа на основе атрибутов (ABAC), что позволяет масштабировать разрешения на доступ и предоставлять доступ к таблицам на основе их тегов в политиках IAM, организаций AWS и ресурсов таблиц S3. Это упрощает управление доступом, уменьшая необходимость в частом обновлении политик по мере роста озера данных. Кроме того, к бакетам таблиц всегда применяется блокирование публичного доступа S3.

Да. В бакетах таблиц используется функция создания снимков Iceberg, которая обеспечивает согласованность таблиц при наличии нескольких параллельных процессов записи.

Бакеты таблиц поддерживают формат Apache Iceberg с данными Parquet.

Бакеты таблиц обеспечивают три операции обслуживания: сжатие, управление снимками и удаление неиспользуемых файлов. Сжатие периодически объединяет небольшие объекты в меньшее количество больших объектов для повышения производительности запросов.

Вы также можете использовать расширенные стратегии оптимизации, такие как сортировка и z-упорядочивание, чтобы дополнительно повысить производительность с учетом шаблонов ваших запросов.

Да, таблицы S3 поддерживают AWS CloudTrail. Данные и события управления CloudTrail можно настроить для бакетов таблиц так же, как и в случае с бакетом S3 общего назначения. Журналы CloudTrail для бакета таблиц содержат информацию о запросах на уровне таблиц и на уровне данных, а также об операциях автоматического обслуживания таблиц, выполняемых сервисом «Таблицы S3».

Да, данные в бакетах таблиц по умолчанию шифруются с использованием шифрования на стороне сервера, что обеспечивает базовую защиту данных при хранении. Для повышения безопасности вы можете зашифровать данные в таблицах S3 с помощью собственных ключей шифрования. Эти ключи создаются и управляются в вашем аккаунте AWS с помощью Сервиса управления ключами AWS (AWS KMS). KMS предоставляет отдельные разрешения на использование ключа KMS, что обеспечивает дополнительный уровень контроля и защиты от несанкционированного доступа к таблицам, хранящимся в корзинах таблиц. Кроме того, KMS создает подробный контрольный журнал, позволяющий отслеживать, кто и когда обращался к какой таблице, используя ваш ключ. KMS также предлагает дополнительные средства управления безопасностью для поддержки ваших усилий по соблюдению отраслевых требований, таких как PCI-DSS, HIPAA/HITECH и FedRAMP. Такой комплексный подход к шифрованию и управлению ключами обеспечивает безопасность и гибкость, необходимые для эффективной защиты конфиденциальных данных.

Используя Таблицы S3, вы отдельно платите за хранение, запросы и мониторинг каждого объекта, хранящегося в бакетах таблиц. Кроме того, дополнительная плата взимается за обслуживание таблицы и репликацию. Подробные сведения о ценах см. на странице цен на S3.

Сжатие объединяет небольшие объекты в меньшее количество больших объектов для повышения производительности запросов Iceberg. По умолчанию сервис таблиц S3 использует стратегию сжатия binpack. Для дальнейшей оптимизации производительности можно также использовать расширенные стратегии сжатия, такие как сортировка и z-упорядочивание. Сжатые файлы записываются как самый последний снимок таблицы. Amazon S3 сжимает таблицы на основе целевого размера файла, оптимального для вашей схемы доступа к данным, или указанного вами значения. Размер целевого файла по умолчанию составляет 512 МБ. Вы можете изменить размер целевого файла с 64 до 512 МБ с помощью API PutTableMaintenanceConfiguration.

Когда истекает срок действия управления снимками, снимки таблиц удаляются в соответствии с вашей конфигурацией хранения. Управление снимками определяет количество активных снимков для ваших таблиц на основе значений MinimumSnapshots (по умолчанию 1) и MaximumSnapshotAge (по умолчанию 120 часов). По истечении срока действия снимка Amazon S3 создает маркеры удаления для файлов данных и метаданных, на которые ссылается уникальный снимок, и помечает эти файлы как неактуальные. Эти файлы удаляются по истечении количества дней, указанного свойством NoncurrentDays в вашей политике удаления неиспользуемых файлов. Вы можете изменить значения по умолчанию для снимка с помощью API PutTableMaintenanceConfiguration. Управление снимками не поддерживает значения хранения, заданные в файле Iceberg metadata.json, включая хранение на основе ветвей или тегов. Управление снимками для Таблиц S3 отключается при настройке политики хранения на основе ветвей или тегов или настройке политики хранения для файла metadata.json, длина которого превышает значения, заданные с помощью API PutTableMaintenanceConfiguration.

При удалении неиспользуемых файлов выявляются и удаляются все объекты, на которые не ссылаются никакие снимки таблиц. В рамках политики удаления неиспользуемых файлов вы можете настроить два свойства: ExpireDays (по умолчанию 3 дня) и NoncurrentDays (по умолчанию 10 дней). Для любого объекта, на который нет ссылок в таблице и который старше значений, указанного в свойстве ExpireDays, S3 безвозвратно удаляет объекты по истечении количества дней, указанного в свойстве NoncurrentDays. Можно настроить удаление неиспользуемых файлов на уровне корзины таблиц. Вы можете изменить значения по умолчанию для хранения снимков с помощью API PutTableBucketMaintenanceConfiguration.

Репликация таблиц S3 обеспечивает автоматическую асинхронную репликацию таблиц Apache Iceberg в регионах и аккаунтах AWS. Репликация таблиц S3 создает и поддерживает реплики таблиц, доступные только для чтения, включая все табличные данные, метаданные и историю снимков, что помогает сократить задержку при обработке запросов для географически распределенных рабочих групп. Репликация таблиц S3 автоматически создает реплики таблиц, доступные только для чтения, в целевых бакетах, заполняет их данными, исходя из последнего состояния исходной таблицы, и непрерывно отслеживает новые изменения для синхронизации реплик. В процессе репликации сохраняется порядок снимков и отношения между родительскими и дочерними объектами в истории снимков. Вы можете настроить репликацию на уровне бакета таблиц для репликации всех таблиц или на уровне отдельных таблиц для выборочной репликации.

Векторы S3

Открыть все

Начать работу с векторами S3 можно за четыре простых шага без необходимости настраивать инфраструктуру за пределами Amazon S3. Во-первых, создайте бакет векторов в определенном регионе AWS с помощью API CreateVectorBucket или консоли S3. Во-вторых, чтобы организовать данные векторов в бакете, вам потребуется создать векторный индекс с помощью API CreateIndex или консоли S3. При создании векторного индекса вы указываете метрику расстояния (косинус или евклидово расстояние) и размерность (количество измерений вектора, до 4092). Для получения наиболее точных результатов выберите метрику расстояния, рекомендованную вашей моделью встраивания. В-третьих, добавьте векторные данные в векторный индекс с помощью API PutVectors. При желании к каждому вектору можно прикрепить метаданные в виде пар «ключ-значение» для фильтрации запросов. В-четвертых, выполните запрос сходства с помощью API QueryVectors, указав искомый вектор и количество возвращаемых наиболее похожих результатов.

Векторный индекс можно создать с помощью консоли S3 или API CreateIndex. При создании индекса вы указываете бакет векторов, индекс, метрику расстояния, размерность и, при необходимости, список полей метаданных, которые вы хотите исключить из фильтрации в запросах сходства. Например, если вы хотите хранить данные, связанные с векторами, исключительно для справки, вы можете указать их как поля метаданных, не подлежащие фильтрации. После создания каждому индексу присваивается уникальное название ресурса Amazon (ARN). Когда вы в последствии будете отправлять запросы на запись или извлечение данных, вы будете направлять их в векторный индекс в бакете векторов.

Вы можете добавлять векторы в векторный индекс с помощью API PutVectors. Каждый вектор состоит из ключа, который однозначно идентифицирует этот вектор в векторном индексе (например, можно программно создавать идентификаторы UUID). Чтобы максимально повысить пропускную способность записи, векторы рекомендуется вставлять большими партиями, вплоть до максимального размера запроса. Кроме того, к каждому вектору можно прикрепить метаданные (например, год, автор, жанр и местоположение) в виде пар «ключ-значение». При включении метаданных по умолчанию все поля можно использовать в качестве фильтров в запросе на сходство (если при создании векторного индекса они не были указаны как нефильтруемые метаданные). Для создания новых векторных встраиваний неструктурированных данных можно использовать API InvokeModel в Amazon Bedrock, указав идентификатор нужной модели встраивания.

Вы можете использовать API GetVectors для поиска и возврата векторов и связанных метаданных по ключу вектора.

Можно выполнить запрос сходства с помощью API QueryVectors, указав вектор, количество возвращаемых релевантных результатов (k ближайших соседних записей) и ARN индекса. При создании вектора запроса следует использовать ту же модель встраивания, которая использовалась для создания исходных векторов, хранящихся в векторном индексе. Например, если вы используете Встраивание текста Amazon Titan 2-й версии в Amazon Bedrock для создания встраиваний для документов, для преобразования вопроса в вектор рекомендуется использовать ту же модель. Кроме того, в запросе можно использовать фильтры метаданных для поиска векторов, соответствующих фильтру. При выполнении запроса сходства по умолчанию возвращаются ключи векторов. При желании вы можете включить в ответ расстояние и метаданные.

Векторы S3 предлагают высокий уровень надежности хранения и доступности векторного хранилища. Данные, записываемые в Векторы S3, хранятся в S3, которое рассчитано на надежность хранения уровня «11 девяток». Векторы S3 рассчитаны на обеспечение доступности 99,99 % с SLA по доступности на уровне 99,9 %.

Векторы S3 обеспечивают задержку выполнения запросов менее одной секунды. Решение использует гибкую пропускную способность Amazon S3 для выполнения поиска по миллионам векторов и оптимально подходит для рабочих нагрузок с нечастыми запросами.

На средний показатель полноты поиска при выполнении запросов сходства для векторных представлений могут влиять несколько факторов, включая модель встраивания, размер набора векторных данных (количество векторов и размерность), а также распределение запросов. Векторы S3 обеспечивают средний показатель полноты поиска более 90 % для большинства наборов данных. Средний показатель полноты поиска отражает качество результатов запросов: при значении 90 % ответ содержит 90 % векторов, наиболее близких к вектору запроса, из эталонного набора, хранящегося в индексе. Однако поскольку фактическая производительность может различаться в зависимости от конкретного сценария использования, мы рекомендуем проводить собственное тестирование с использованием репрезентативных данных и запросов, чтобы убедиться, что векторные индексы S3 соответствуют вашим требованиям к полноте поиска.

Чтобы просмотреть список векторов в векторном индексе, можно использовать API ListVectors, который возвращает до 1000 векторов за раз (в сопровождении индикатора, если ответ усечен). Ответ включает дату последнего изменения, ключ вектора, данные и метаданные вектора. API ListVectors также позволяет легко экспортировать данные векторов из указанного векторного индекса. Операция ListVectors строго согласована. То есть, после записи вы можете сразу получить список векторов с отраженными изменениями.

Используя векторы S3, вы платите за хранение и любые соответствующие запросы на запись и чтение (например, за вставку векторов и выполнение операций запросов с векторами в векторном индексе). Подробные сведения о ценах см. на странице цен S3.

Да. При создании базы знаний Bedrock с помощью консоли или API Bedrock вы можете настроить существующий векторный индекс S3 в качестве векторного хранилища, чтобы сэкономить на хранении векторов для сценариев RAG. Если вы хотите, чтобы сервис Bedrock создал векторный индекс и управлял им за вас, используйте рабочий процесс быстрого создания в консоли Bedrock. Кроме того, можно настроить новый векторный индекс S3 в качестве векторного хранилища для рабочих процессов RAG в единой студии Amazon SageMaker.

Да. Есть два способа использования векторов S3 с сервисом Amazon OpenSearch. Во-первых, клиенты S3 могут экспортировать все векторы из векторного индекса S3 в бессерверный OpenSearch в виде новой бессерверной коллекции, используя консоль S3 или OpenSearch. Если вы изначально используете векторы S3, вы можете выборочно использовать бессерверный OpenSearch для рабочих нагрузок, требовательных к запросам в реальном времени. Во-вторых, если вы используете управляемую версию OpenSearch, теперь вы можете выбрать векторы S3 в качестве движка для векторных данных, которые можно запрашивать с задержкой менее секунды. OpenSearch будет автоматически использовать векторы S3 в качестве базового движка для векторов, а вы сможете обновлять данные векторов и искать их с помощью API OpenSearch. Таким образом вы получаете преимущества векторов S3, не внося изменения в свои приложения.

Файлы S3

Открыть все

Amazon S3 Files – это общая файловая система, обеспечивающая прямое подключение любых вычислительных ресурсов AWS к данным в Amazon S3. Он обеспечивает быстрый прямой доступ ко всем данным S3 в виде файлов с полной поддержкой семантики файловой системы и низкой задержкой, при этом данные не покидают S3. Это означает, что работающие с файлами приложения, агенты и рабочие группы теперь могут получать доступ к данным S3 и работать с ними как с файловой системой, применяя уже имеющиеся инструменты. Вам больше не потребуется дублировать данные или регулярно переносить их между объектным хранилищем и хранилищем файловой системы. Основанные на файлах средства и приложения организации теперь могут работать с данными S3 напрямую из любого вычислительного инстанса, контейнера или функции с использованием тех же инструментов, что уже применяются вашими специалистами и агентами.

Благодаря S3 Files решение Amazon S3 становится первым и единственным объектным хранилищем в облаке, предоставляющим доступ к полнофункциональной и высокопроизводительной файловой системе для ваших данных. S3 Files сочетает производительность и простоту файловой системы с масштабируемостью, надежностью и экономической эффективностью S3. Отсутствуют обособленные базы данных и сложности с синхронизацией, при этом не приходится жертвовать функциональностью или производительностью. Файловое и объектное хранилище – вместе в едином пространстве.

S3 Files следует использовать, если вашим файловым приложениям, агентам ИИ и инструментам требуется напрямую работать с данными, хранящимися в S3. S3 Files избавляет от необходимости копировать данные между системами хранения или создавать собственные интеграции. Существующие библиотеки Python, фреймворки машинного обучения, утилиты интерфейса командной строки и сценарии оболочки работают с данными S3 с помощью стандартных файловых операций без необходимости изменения кода. Бакет S3 можно разместить на нескольких вычислительных ресурсах (EC2, EKS, ECS, Lambda, Fargate и Batch) для распределенных приложений, в которых группы, агенты и рабочие нагрузки совместно работают над общими наборами данных в режиме реального времени.

Файлы S3 работают как традиционная высокопроизводительная файловая система, доступ к которой возможен из любого вычислительного ресурса на базе Linux, при этом представление файлов и папок отражает содержимое вашего бакета S3. Сервис «Файлы S3» создан с использованием Amazon EFS, которая обеспечивает интеллектуальную загрузку активного рабочего набора в высокопроизводительное хранилище. Это позволяет снизить задержки при доступе к часто используемым данным и при этом сохранить уровень расходов, пропорциональный объему активно используемых ресурсов. Когда вы считываете файлы, сервис неспешно загружает части метаданных и содержимого файлов в высокопроизводительное хранилище. Данные, которые не соответствуют заданному пороговому размеру файла, считываются непосредственно из S3 без использования хранилища файловой системы. Когда вы записываете данные, записи отправляются в надежное высокопроизводительное хранилище, а затем синхронизируются с S3 для обеспечения согласованности бакета. Данные, доступ к которым не осуществлялся в течение заданного периода (от 1 до 365 дней, по умолчанию 30 дней), автоматически удаляются из этого хранилища, поэтому вы платите только за то, чем активно пользуетесь, а достоверные данные всегда остаются в S3.

S3 Files интеллектуально размещает активно используемый набор данных в высокопроизводительном хранилище, обеспечивая задержку менее миллисекунды при доступе к часто используемым данным. Каждая файловая система обеспечивает пропускную способность записи до 5 ГиБ/с, до 250 тыс. IOPS при чтении и до 50 тыс. IOPS при записи. Максимальная пропускная способность чтения для одного клиента составляет 3 ГиБ/с, а совокупная пропускная способность чтения может достигать нескольких ТиБ/с.

При обращении к файлам, не находящимся в кэше файловой системы, системе сначала необходимо получить данные из бакета, что сопровождается задержкой порядка десятков миллисекунд. Данные, хранящиеся в файловой системе, считываются с задержкой менее миллисекунды. Операции записи выполняются в файловой системе с задержкой в пределах нескольких миллисекунд.

Файловую систему S3 можно создать с помощью консоли S3, интерфейса командной строки AWS или API S3, а затем подключить ее к инстансам EC2 с помощью стандартных команд подключения. Если вы используете дистрибутив Linux, отличный от Amazon Linux, установите amazon-efs-utils на свой инстанс, прежде чем подключать бакет.

Для кластеров EKS установите надстройку драйвера интерфейса контейнерного хранилища (CSI) efs-csi-driver, а затем используйте интерфейс командной строки Kubernetes (kubectl), чтобы подключить бакет. Для инстансов ECS добавьте файловую систему S3 с помощью определений задач в консоли ECS или API ECS, а затем подключите определение задачи к кластеру. Для функций Lambda выберите файловую систему S3 в консоли или добавьте ее в качестве файловой системы в API настройки функций. Пошаговое руководство см. в документации.

S3 Files поддерживает все классы хранилища в бакетах S3 общего назначения. Все объекты отображаются в файловой системе как файлы независимо от используемого класса хранилища S3.

При попытке открыть файл, размещенный в асинхронном классе хранилища (S3 Glacier Flexible Retrieval и S3 Glacier Deep Archive), вы получите сообщение об ошибке ввода-вывода. Чтобы получить доступ к файлу, сначала его необходимо восстановить с помощью API S3 (см. документацию).

S3 Files не поддерживает данные в Таблицах S3, Векторах S3 или бакетах каталогов.

Сервис «Файлы S3» поддерживает разрешения POSIX для файлов и каталогов. При получении доступа к файлам файловая система проверяет идентификаторы UID и GID клиента на соответствие разрешениям файла. Эти разрешения хранятся в виде метаданных объектов в бакете S3 в том же формате, что и в других файловых сервисах AWS.

Данные шифруются всегда: как при передаче, так и во время хранения. При передаче между вычислительными ресурсами и файловой системой данные шифруются с помощью протокола TLS 1.3. По умолчанию S3 шифрует все данные, хранящиеся в вашей файловой системе, с помощью ключей, управляемых S3 (SSE-S3), кроме того, вы можете указать нужный ключ KMS (SSE-KMS) при создании файловой системы.

Файловые системы S3 автоматически синхронизируются с вашим бакетом S3 для оптимизации затрат и производительности. Сначала файловая система запускается пустой, а метаданные объектов импортируются по требованию при доступе к файлам и каталогам. Например, при размещении каталога в файловой системе метаданные каталога импортируются из бакета S3. При первом доступе к каталогу и импорте связанных с ним метаданных синхронизация каталога с S3 будет продолжаться по мере внесения изменений в бакет S3. Для оптимизации производительности файловая система автоматически загружает данные для файлов размером менее 128 КБ при первом доступе к каталогу. Данные для больших файлов считываются непосредственно из S3.

Вы также можете настроить точные правила импорта данных из бакета S3 в файловую систему с помощью API PutSynchronizationConfiguration или консоли S3. Например, можно настроить правило автоматического хранения данных в файловой системе после считывания файла из определенного префикса S3.

По умолчанию файловая система автоматически экспортирует все новые файлы и изменения файлов в виде нового объекта или новой версии существующего объекта в течение нескольких минут. Если вы удалите файл, соответствующему объекту в вашем бакете будет присвоен маркер удаления как текущей версии объекта.

Файловые системы S3 поддерживают согласованность между закрытием и открытием файлов NFS, а это значит, что когда клиент закрывает файл, в будущем при открытии этого файла любым клиентом будет отображаться последняя версия содержимого файла. Все вычислительные ресурсы, выполняющие чтение и запись в одной и той же подключенной файловой системе, получают согласованные данные в режиме реального времени. Это стандартная модель непротиворечивости, на которую рассчитывает большинство файловых приложений.

В файлах S3 реализована модель непротиворечивости, в которой бакет S3 служит авторитетным источником достоверной информации. Операции API S3 поддерживают высокую согласованность чтения после записи, тогда как операции файловой системы обеспечивают согласованность между закрытием и открытием файлов, что, в конечном итоге, дает стабильную синхронизацию между этими двумя системами.

Сервис S3 Files разработан для обеспечения надежности хранения на уровне 99,999999999 % («11 девяток») для основного набора данных в вашем бакете S3. Кроме того, данные в файловой системе по умолчанию хранятся с резервированием как минимум в трех зонах доступности (AZ), что обеспечивает встроенную защиту от масштабных сбоев, включая полную потерю целого центра обработки данных.

Вы можете отслеживать файлы S3 с помощью метрик Amazon CloudWatch. CloudWatch включает метрики файловой системы, такие как использование хранилища файловой системы и количество клиентских подключений. В CloudWatch также есть метрики для мониторинга обновлений между файловой системой и бакетом, включая количество файлов, ожидающих экспорта. Кроме того, можно использовать AWS CloudTrail для регистрации событий управления в файловой системе. Например, в CloudTrail создаются записи для таких событий, как создание файловой системы или создание цели подключения. Подробнее см. в документации.

Используйте S3 Files, если данные уже хранятся в S3 и вам необходимо, чтобы файловые приложения, агенты ИИ или команды могли работать с ними напрямую с помощью стандартных файловых операций. S3 Files — оптимальный выбор, если ваша основная задача заключается в предоставлении файлового доступа к существующим данным S3 без их дублирования и без необходимости управления отдельной системой хранения. Данные остаются в S3 в качестве основного источника данных, а поверх них предоставляется доступ через файловую систему.

Используйте Amazon EFS, если вам требуется полностью управляемая оптимизированная для облака файловая система в качестве основного хранилища для таких рабочих нагрузок, как общие домашние каталоги, управление контентом, конфигурации приложений и среды разработки, в которых данные изначально создаются и преимущественно используются через файловую систему.

Используйте Amazon FSx, если у вас есть существующие файловые приложения, работающие с сетевым файловым хранилищем. FSx специально разработан для поддержки таких рабочих нагрузок и предоставляет полностью управляемые развертывания популярных файловых систем (NetApp ONTAP, Windows File Server, OpenZFS и Lustre) с привычными для вас функциями и производительностью.

Amazon S3 и IPv6

Открыть все

Каждый сервер и устройство, подключенные к Интернету, должны иметь уникальный адрес. Интернет-протокол версии 4 (IPv4) изначально имел 32-битную адресацию. Непрерывное развитие Интернета приведет к тому, что через некоторое время все доступные IPv4-адреса будут использованы. Интернет-протокол версии 6 (IPv6) использует схему адресации, предназначенную для того, чтобы обойти глобальное ограничение адресации протокола IPv4.

Amazon S3 поддерживает использование протокола IPv6. Приложения могут подключаться к Amazon S3 без необходимости использования программного обеспечения или систем для преобразования адресов IPv4 в адреса IPv6. Это дает возможность обеспечить соответствие требованиям, проще выполнять интеграцию с существующими локальными приложениями на базе IPv6 и устраняет необходимость применения дорогого сетевого оборудования для преобразования адресов. С адресами IPv6 теперь можно использовать существующие возможности фильтрации адресов, имеющиеся в политиках IAM и политиках бакетов, расширив возможности обеспечения безопасности приложений, взаимодействующих с Amazon S3.

Вы можете начать работу, указав приложению новый адрес сервера Amazon S3 с «двойным стеком» (поддерживающий доступ по протоколам IPv4 и IPv6). В большинстве случаев для доступа по IPv6 дополнительных настроек не требуется, так как большинство сетевых клиентов предпочитают по умолчанию использовать адреса IPv6. Приложения, на работе которых отражается использование протокола IPv6, можно в любое время переключить на работу со стандартными адресами серверов, работающими только по протоколу IPv4. Протокол IPv6 для работы с Amazon S3 поддерживается во всех коммерческих регионах AWS, включая AWS GovCloud (США), Amazon Web Services Китай (Пекин), управляемый Sinnet, и Amazon Web Services Китай (Нинся), управляемый NWCD.

Нет, качество функционирования сервиса Amazon S3 не зависит от того, будет при работе с ним использоваться протокол IPv4 или IPv6.

Оповещения о событиях S3

Открыть все

Вы можете использовать функцию оповещения о событиях Amazon S3 для получения уведомлений при наступлении определенных событий в вашем бакете S3, таких как события PUT, POST, COPY и DELETE. Доступна публикация оповещений в Amazon EventBridge, Amazon SNS, Amazon SQS или напрямую в AWS Lambda.

Оповещения о событиях в Amazon S3 позволяют запускать рабочие процессы, отправлять предупреждения или выполнять другие действия при изменении объектов, хранимых в бакете S3. Оповещения о событиях S3 можно использовать для настройки триггеров, запускающих выполнение определенных действий, таких как перекодировка мультимедийных файлов по завершении загрузки, обработка файлов данных по мере их поступления или синхронизация объектов S3 с другими хранилищами данных. Также вы можете настроить оповещения о событиях на основе префиксов и суффиксов имени объекта. Например, можно получать оповещения об объектах, имя которых начинается с images/.

Подробное описание информации, включенной в оповещения о событиях Amazon S3, см. в документации по оповещениям о событиях Amazon S3.

Подробную информацию о настройке оповещений о событиях см. в документации по оповещениям о событиях Amazon S3. Подробнее о сервисах AWS для обмена сообщениями см. в документации по Amazon SNS и документации по Amazon SQS.

Amazon S3 не взимает дополнительную плату за оповещения о событиях. Оплачивается только использование Amazon SNS или Amazon SQS для доставки оповещений о событиях или стоимость исполнения функции AWS Lambda. Сведения о ценах на Amazon SNS, Amazon SQS или AWS Lambda см. на страницах цен на данные сервисы.

Amazon S3 Transfer Acceleration

Открыть все

Функция ускорения передачи данных Amazon S3 (Amazon S3TA) выполняет быструю и безопасную передачу файлов на большие расстояния между вашим клиентом и корзиной Amazon S3. При ускорении передачи данных Amazon S3 используются распределенные по всему миру периферийные местоположения AWS для сервиса Amazon CloudFront. После того как данные окажутся в периферийном местоположении AWS, они будут направлены в вашу корзину Amazon S3 по оптимизированному сетевому маршруту.

Чтобы начать работу с ускорением переноса данных S3, включите этот сервис для бакета S3 с помощью консоли Amazon S3, API Amazon S3 или интерфейса командной строки AWS. После включения ускорения передачи данных Amazon S3 (Amazon S3TA) можно будет направлять запросы PUT и GET сервиса Amazon S3 на доменное имя s3-accelerate для соответствующего адреса. Для ускоренной передачи данных приложение должно использовать при передаче данных один из следующих адресов для подключения к корзине: .s3-accelerate.amazonaws.com или .s3-accelerate.dualstack.amazonaws.com для адреса «dual-stack». Для стандартной передачи данных можно будет по-прежнему использовать обычные адреса. Существует ряд условий, которые должны быть выполнены, чтобы бакеты поддерживали ускорение передачи данных Amazon S3 (Amazon S3TA). Подробную информацию см. в документации по Amazon S3.

Ускорение переноса данных S3 помогает полностью использовать имеющуюся полосу пропускания и свести к минимуму влияние расстояний на пропускную способность. Это обеспечивает неизменно высокую скорость передачи данных в Amazon S3 независимо от местонахождения клиента. Уровень ускорения зависит главным образом от доступной пропускной способности, расстояния между источником и местом назначения и показателями потери пакетов на сетевом маршруте. В целом ускорение будет тем выше, чем дальше источник от места назначения, чем шире полоса пропускания и/или чем больше размер объекта. Один из клиентов зафиксировал сокращение среднего времени вдвое при получении файлов размером 300 МБ от глобальной базы пользователей, находящихся в США, Европе и некоторых странах Азии, в корзину в регионе Азия и Тихий океан (Сидней). Другой клиент наблюдал повышение пропускной способности на 500 % для пользователей из Юго-Восточной Азии и Австралии при загрузке файлов размером 250 МБ (часть из них размером 50 МБ) в корзину S3 в регионе Восток США (Северная Вирджиния). Попробуйте инструмент сравнения скорости ускорения передачи данных Amazon S3 (Amazon S3TA) для предварительной оценки прироста производительности при передаче из конкретного местоположения.

Возможность S3 Transfer Acceleration предназначена для оптимизации скорости передачи данных в корзины S3 по всему миру. При выполнении загрузки в централизованный бакет из географически рассредоточенных местоположений или во время регулярной передачи гигабайтов или терабайтов данных через целые континенты функция ускорения передачи данных Amazon S3 позволит сэкономить при передаче часы или даже дни.

Сервис ускорения передачи данных Amazon S3 (Amazon S3TA) так же безопасен, как и обычная передача данных в Amazon S3. Она поддерживает все инструменты безопасности сервиса Amazon S3, например ограничение доступа по IP-адресу клиента. Возможность ускорения передачи данных Amazon S3 (Amazon S3TA) взаимодействует с клиентами по стандартному протоколу TCP и не требует изменений в настройках брандмауэра. Данные не сохраняются в периферийных местоположениях AWS.

Каждый раз, когда для загрузки объекта в корзину используется S3 Transfer Acceleration, мы проверяем, действительно ли передача данных с помощью S3 Transfer Acceleration выполняется быстрее, чем обычная передача данных с помощью Amazon S3. Если передача данных с использованием S3 Transfer Acceleration оказывается не быстрее, чем обычная передача Amazon S3 того же объекта в тот же регион AWS, AWS не начисляет плату за использование функции S3 Transfer Acceleration для этой передачи и игнорирует использование системы S3 Transfer Acceleration для этой загрузки.

Да, Ускорение передачи данных Amazon S3 поддерживает все возможности на уровне бакетов, включая многокомпонентные загрузки.

Возможность ускорения передачи данных S3 оптимизирует протокол TCP и расширяет логические функции передачи данных между клиентом и бакетом S3, поэтому ее стоит выбрать, если требуется увеличение пропускной способности. Если размер передаваемых объектов или передаваемого набора данных менее 1 ГБ, для оптимальной производительности воспользуйтесь командами PUT/POST сервиса Amazon CloudFront.

AWS Direct Connect подходит клиентам, которым требуется использование частной сети или у которых есть доступ к обмену данными AWS Direct Connect. Ускорение передачи данных Amazon S3 (Amazon S3TA) оптимально подходит для отправки данных от распределенных клиентских местоположений через публичный Интернет или для тех случаев, когда неоднородные условия сети ухудшают пропускную способность. Некоторые клиенты, использующие AWS Direct Connect, используют ускорение передачи данных Amazon S3 (Amazon S3TA) для передачи данных из удаленных офисов, где скорость передачи данных через Интернет может быть низкой.

Вы получите преимущество, задав адрес бакета назначения в шлюзе стороннего поставщика с использованием домена адреса ускорения передачи данных Amazon S3 (Amazon S3TA).
Подробнее о таком использовании AWS можно узнать в разделе «Файловый шлюз» на странице вопросов и ответов по сервису Storage Gateway.

Да. Пакеты ПО, которые подключаются непосредственно к Amazon S3, могут использовать преимущества S3 Transfer Acceleration при отправке заданий в Amazon S3. Подробнее о решениях партнеров в сфере хранения данных »

Да, AWS расширила программу соответствия требованиям HIPAA, и теперь сервис ускорения передачи данных Amazon S3 соответствует требованиям HIPAA. Если вы заключили с AWS договор делового партнерства (BAA), вы можете использовать ускорение передачи данных Amazon S3 (Amazon S3TA) для быстрой, простой и безопасной передачи файлов, включая закрытую медицинскую информацию (PHI), на большие расстояния между клиентом и бакетом Amazon S3.

Безопасность

Открыть все

Amazon S3 безопасен по умолчанию. Сразу после создания корзин Amazon S3 доступ к ним имеет только владелец. Он же полностью контролирует доступ других пользователей. Amazon S3 поддерживает аутентификацию пользователей для управления доступом к данным. Можно использовать механизмы управления доступом, такие как политики управления корзинами, для выборочного предоставления разрешений пользователям и группам пользователей. Консоль Amazon S3 выделяет общедоступные корзины, указывает на источник общедоступности, а также предупреждает пользователя, если производимые изменения в политиках и списке контроля доступа корзины сделают эту корзину общедоступной. Необходимо включить блокирование публичного доступа Amazon S3 для всех аккаунтов и бакетов, которые не должны быть общедоступными. Во всех новых бакетах функция блокировки публичного доступа включена по умолчанию. Существует также возможность загружать данные в сервис Amazon S3 и из него в безопасном режиме через адреса SSL, используя протокол HTTPS. Amazon S3 автоматически шифрует все передаваемые в ваш бакет объекты (с 5 января 2023 г.). Кроме того, можно использовать собственные библиотеки шифрования для шифрования данных перед их передачей на хранение в Amazon S3.
Дополнительные сведения о безопасности в AWS см. на странице по безопасности AWS, а сведения о безопасности в S3 − на странице по безопасности S3 или в руководстве с рекомендациями по безопасности S3.

У клиентов есть несколько способов управления доступом к ресурсам Amazon S3, включая политики Управления идентификацией и доступом AWS (AWS IAM), политики бакетов и точек доступа, списки контроля доступа (ACL), аутентификацию строки запроса, политики адресов Amazon Virtual Private Cloud (Amazon VPC), политики управления сервисами (SCP) в AWS Organizations и блокирование публичного доступа к Amazon S3.

Да. При необходимости можно настроить бакет Amazon S3 так, чтобы все запросы к нему фиксировались в журнале доступа. Кроме того, если требуется записывать в журналы информацию сервиса IAM и идентификации пользователей, можно настроить AWS CloudTrail для регистрации событий, связанных с данными. Записи в журналах доступа можно использовать в целях аудита. В них могут фиксироваться такие сведения о запросе, как тип запроса, ресурсы, указанные в запросе, а также время и дата обработки запроса.

Amazon S3 шифрует все новые данные, загруженные в любой бакет. Amazon S3 применяет шифрование на стороне сервера, управляемое S3 (SSE-S3) в качестве шифрования базового уровня для всех передаваемых объектов (с 5 января 2023 г.). SSE-S3 предоставляет полностью управляемое решение, в котором Amazon берет на себя управление ключами и их защиту с использованием несколько уровней безопасности. Если вы предпочитаете, чтобы Amazon управлял вашими ключами, рекомендуем продолжать использовать SSE-S3. Также можно выбрать механизм шифрования данных с помощью SSE-C, SSE-KMS, DSSE-KMS или клиентской библиотеки, например Клиент шифрования Amazon S3. Каждый вариант позволяет хранить зашифрованные данные в покое в Amazon S3. SSE-C дает Amazon S3 возможность выполнять шифрование и расшифровку объектов, сохраняя за вами контроль над ключами шифрования. При использовании SSE-C отпадает необходимость во внедрении или использовании клиентской версии библиотеки для шифрования и расшифровки хранимых в Amazon S3 объектов, но вам нужно будет управлять ключами, посылаемыми в Amazon S3 для шифрования и расшифровки объектов. Используйте SSE-C, если вы предпочитаете поддерживать свои собственные ключи шифрования, но не желаете внедрять или использовать клиентскую версию библиотеки шифрования. SSE-KMS позволяет Сервису управления ключами AWS (AWS KMS) управлять ключами шифрования. Использование AWS KMS для управления ключами имеет несколько дополнительных преимуществ. AWS KMS применяет отдельные разрешения на использование ключа KMS, обеспечивая таким образом дополнительный уровень контроля, а также защиту от несанкционированного доступа к хранилищу ваших объектов в Amazon S3. AWS KMS предоставляет аудит с информацией о том, кто и когда использовал ваш ключ и к какому объекту, а также о безуспешных попытках пользователей, не имеющих прав на расшифровку данных, получить к ним доступ. Кроме того, AWS KMS предоставляет клиенту дополнительные элементы управления безопасностью для соответствия таким требованиям отрасли, как PCI-DSS, HIPAA / HITECH и FedRAMP. DSSE-KMS упрощает применение двухуровневого шифрования данных без необходимости вкладывать средства в инфраструктуру, необходимую для шифрования на стороне клиента. Каждый уровень шифрования использует отдельную реализацию 256-битного стандарта расширенного шифрования с алгоритмом Galois Counter Mode (AES-GCM), а также каждый из них проверен и одобрен к использованию в сверхсекретных рабочих нагрузках. DSSE-KMS использует AWS KMS для генерации ключей данных и позволяет AWS KMS управлять вашими ключами шифрования. AWS KMS применяет отдельные разрешения на использование ключа KMS, обеспечивая таким образом дополнительный уровень контроля, а также защиту от несанкционированного доступа к хранилищу ваших объектов в Amazon S3. AWS KMS предоставляет аудит с информацией о том, кто и когда использовал ваш ключ и к какому объекту, а также о безуспешных попытках пользователей, не имеющих прав на расшифровку данных, получить к ним доступ. Кроме того, AWS KMS предоставляет клиенту дополнительные элементы управления безопасностью для соответствия таким требованиям отрасли, как PCI-DSS, HIPAA/HITECH и FedRAMP. Используя клиентскую библиотеку шифрования, вы сохраняете контроль над ключами и завершаете шифрование и расшифровку объектов клиентом с помощью выбираемой вами библиотеки шифрования. Некоторые клиенты предпочитают иметь полный контроль над шифрованием и расшифровкой объектов; таким образом, только зашифрованные объекты передаются через Интернет в Amazon S3. Используйте клиентскую библиотеку шифрования, если вы предпочитаете сохранить контроль над своими ключами шифрования, можете внедрить или использовать библиотеку шифрования на стороне клиента и вам необходимо, чтобы объекты были зашифрованы перед доставкой на хранение в Amazon S3. Подробную информацию об использовании Amazon S3 SSE-S3, SSE-C или SSE-KMS см. в документации по защите данных с помощью шифрования.

Клиенты могут решить хранить все данные в Европе и выбрать один из следующих регионов: Европа (Франкфурт), Европа (Ирландия), Европа (Париж), Европа (Стокгольм), Европа (Милан), Европа (Испания), Европа (Лондон) или Европа (Цюрих). Кроме того, вы можете использовать Amazon S3 в Outposts для хранения всех локальных данных в AWS Outpost, а также у вас есть возможность переместить данные из одного экземпляра AWS Outposts в другой либо в регион AWS. Ответственность за выполнение европейских законов о конфиденциальности данных лежит на вас. Для получения дополнительной информации ознакомьтесь с материалами Центра Общих норм защиты данных (GDPR) AWS и Центра конфиденциальности данных AWS. Если у вас есть более специфические требования к расположению данных или вы должны выполнять требования особых норм по конфиденциальности данных, для чего необходимо хранить данные в таком расположении, для которого не подходят регионы AWS, вы можете использовать классы хранилищ S3 для выделенных локальных зон AWS или S3 на базе Outposts.

По умолчанию данные объекта и метаданные объекта остаются в одной локальной зоне (включая выделенные локальные зоны), в которую вы помещаете объект. Данные управления корзинами и телеметрии, включая имена корзин, показатели емкости, журналы CloudTrail, метрики CloudWatch, управляемые клиентами ключи из Сервиса управления ключами AWS (KMS) и политики управления идентификацией и доступом (IAM), хранятся в родительском регионе AWS. При желании другие функции управления бакетами, такие как Пакетные операции S3, позволяют хранить метаданные управления с именами бакеты и объекта в родительском регионе AWS.

Адрес Amazon VPC для Amazon S3 представляет собой логический объект в облаке VPC, который поддерживает связь с S3 по глобальной сети AWS. Существует два типа адресов VPC для S3: шлюзный и интерфейсный. Шлюзные адреса являются шлюзом, который вы указываете в таблице маршрутизации для получения доступа к S3 из VPC по сети AWS. Интерфейсные адреса расширяют функциональность шлюзных адресов путем использования частных IP-адресов для маршрутизации запросов к S3 из VPC, локальных сетей или других регионов AWS. Подробную информацию см. в документации по AWS PrivateLink для Amazon S3.

С помощью политик Amazon S3 можно ограничить доступ к бакету из определенной конечной точки Amazon VPC или из набора точек. Теперь в политики корзин S3 добавлена поддержка условия aws:sourceVpce, которое можно использовать для ограничения доступа. Для получения более подробной информации и примеров политик ознакомьтесь с документацией по конечным точкам шлюза для S3.

AWS PrivateLink для S3 обеспечивает частное подключение между Amazon S3 и локальной средой. Вы можете предоставить интерфейсные адреса VPC для S3 в VPC для подключения локальных приложений непосредственно к S3 по AWS Direct Connect или AWS VPN. Для получения доступа к S3 из локальной сети больше не нужно использовать публичные IP-адреса, изменять правила брандмауэра или настраивать шлюз Интернета. Подробную информацию см. в документации по AWS PrivateLink для Amazon S3.

Интерфейсный адрес VPC можно создать с помощью консоли управления AWS VPC, интерфейса командной строки AWS (AWS CLI), AWS SDK или API. Подробнее см. в документации.

AWS рекомендует использовать интерфейсные адреса VPC для получения доступа к S3 из локальных сетей или из VPC в другом регионе AWS. Для ресурсов, которые получают доступ к S3 из VPC, расположенного в том же регионе AWS, что и S3, мы рекомендуем использовать шлюзные адреса VPC, поскольку плата за их использование не взимается. Подробнее см. в документации.

Да. Если у вас уже есть шлюзный адрес VPC, создайте интерфейсный адрес VPC и добавьте в клиенты названия необходимых адресов VPC. Например, если идентификатор адреса VPC интерфейсного адреса в регионе Восток США 1 такой: vpce-0fe5b17a0707d6abc-29p5708s, то конкретное имя DNS адреса будет: vpce-0fe5b17a0707d6abc-29p5708s.s3.us-east-1.vpce.amazonaws.com. В таком случае только запросы к конкретному имени адреса VPC будут направляться к S3 через интерфейсные адреса VPC, а все остальные запросы – и далее через шлюзный адрес VPC. Подробнее см. в документации.

Amazon Macie – это сервис обеспечения безопасности на базе искусственного интеллекта. Он помогает клиентам предотвращать потерю данных путем автоматического обнаружения, классификации и защиты конфиденциальных данных, хранящихся в Amazon S3. Amazon Macie использует машинное обучение для распознавания конфиденциальных данных, таких как персональная информация (PII) или интеллектуальная собственность, определяет их коммерческую ценность и обеспечивает наглядное представление того, где хранятся эти данные, как к ним осуществляется доступ и как они используются в организации клиента. Amazon Macie непрерывно проводит мониторинг действий по доступу к данным для выявления отклонений от нормы и генерирует подробные предупреждения, если обнаруживает риск несанкционированного доступа или неумышленной утечки данных. Amazon Macie предназначен для защиты от угроз безопасности путем непрерывного контроля за данными для доступа и другими важными данными клиента. Amazon Macie предоставляет автоматизированный, практически не требующий обслуживания способ обнаружения и классификации коммерческих данных клиентов. Он предоставляет элементы управления с помощью созданных по шаблонам функций Lambda, позволяющие отменить доступ или вызвать политику сброса пароля при обнаружении подозрительного поведения систем, несанкционированного доступа к данным сущностей или во время работы сторонних приложений. После создания предупреждения можно использовать Amazon Macie для реагирования на инцидент, используя Amazon CloudWatch Events для быстрого принятия мер по защите данных. Подробнее см. в документации об Amazon Macie.

Анализатор доступа для S3 – это возможность, которая упрощает управление разрешениями по мере назначения, проверки и уточнения политик для точек доступа и корзин S3. Анализатор доступа для S3 выполняет мониторинг существующих политик доступа и предоставляет к ресурсам S3 исключительно требуемый доступ. Анализатор доступа для S3 оценивает ваши политики доступа к корзине, а также помогает обнаруживать и оперативно вносить изменения в тех корзинах, доступ к которым не требуется. Анализатор доступа для S3 отправляет вам оповещение при наличии корзины с настройками, разрешающими доступ для всех в Интернете, или корзины, доступной из других аккаунтов AWS. Вы получаете результаты с информацией об источниках и уровне публичного или общего доступа. Например, Анализатор доступа для S3 заблаговременно сообщит, если нежелательный доступ для чтения или записи был предоставлен посредством списка контроля доступа или политики корзин. Получив такие результаты, вы сможете немедленно задать или восстановить требуемую политику доступа. При проверке результатов, указывающих на возможный общий доступ к корзине, можно заблокировать публичный доступ к корзине одним нажатием в консоли S3. Можно также перейти к настройкам разрешений на уровне корзины, чтобы точно указать уровни доступа. В целях аудита результаты работы сервиса Access Analyzer для S3 можно загрузить в виде CSV‑отчета. Кроме того, по мере авторизации политик S3 на консоли S3 отображаются предупреждения, ошибки и предложения в разрезе безопасности от IAM Access Analyzer. Консоль автоматически проводит более 100 проверок политик для подтверждения ваших политик. Эти проверки экономят ваше время, а также предоставляют возможность исправить ошибки и применить рекомендации в отношении безопасности.
Дополнительные сведения см. в документации об Анализаторе доступа IAM.

Права доступа S3

Открыть все

Разрешения на доступ к Amazon S3 сопоставляют идентификационные данные, хранящиеся в Active Directory, других каталогах или субъектах AWS IAM, с наборами данных в S3. Это помогает масштабировать разрешения на данные, автоматически предоставляя конечным пользователям доступ к S3 в соответствии с особенностями организации. Кроме того, S3 Access Grants регистрирует идентификационные данные конечного пользователя, а также приложение, используемое для доступа к данным S3, в AWS CloudTrail. Это помогает предоставить подробную историю аудита вплоть до идентификации конечного пользователя для любого доступа к данным в ваших бакетах S3.

Права доступа S3 следует использовать, если ваши данные S3 совместно используются и доступны многим пользователям и приложениям, а некоторые их идентификационные данные находятся в вашем корпоративном каталоге, например Okta или Entra ID, и вам нужен масштабируемый, простой и контролируемый способ предоставления доступа к этим наборам данных S3 в нужном масштабе.

Для начала работы с разрешениями на доступ к S3 нужно выполнить четыре шага. Первый шаг: настройте инстанс для прав доступа S3. Если вам нужно использовать права доступа S3 с пользователями и группами в корпоративном каталоге, на этом этапе включите Центр идентификации AWS и подключите права доступа S3 к инстансу Центра идентификации. Далее зарегистрируйте местоположение с помощью S3 Access Grants. В ходе этого процесса вы предоставляете S3 Access Grants роль IAM, которая используется для создания временных учетных данных S3, которые пользователи и приложения могут применять для доступа к S3. После этого определите разрешения – кто имеет доступ к каким данным. Затем в процессе доступа отправьте запрос от приложения на временные мандаты разрешений на доступ к S3. Используйте их для получения доступа к S3.

Права доступа S3 поддерживают два вида удостоверений: удостоверения корпоративных пользователей или групп из Центра идентификации AWS и доверителей AWS IAM, включая пользователей и роли IAM. При использовании прав доступа S3 вместе с Центром идентификации AWS можно определить права доступа к данным на основе членства в группах каталогов. Центр идентификации AWS – это сервис AWS, который подключается к часто используемым поставщикам удостоверений, таким как Entra ID, Okta, Ping и другие. Помимо поддержки удостоверений каталогов через Центр идентификации AWS права доступа S3 также поддерживают правила разрешений для доверителей AWS IAM, включая пользователей и роли IAM. Это необходимо в случаях, когда вы управляете либо собственной федерацией удостоверений не через Центр идентификации AWS, а с помощью утверждений IAM и SAML (пример реализации), либо удостоверениями приложений на основе доверителей IAM, но все же хотите использовать права доступа S3 ввиду их масштабируемости и возможности аудита.

В разрешениях на доступ к S3 предусмотрены три уровня: READ, WRITE и READWRITE. READ позволяет просматривать и извлекать объекты из S3. WRITE позволяет осуществлять запись в S3 и удаление из него. READWRITE объединяет уровни READ и WRITE.

Нет. Можно использовать только три стандартных уровня доступа (READ/WRITE/READWRITE), которые предусмотрены в разрешениях на доступ к S3.

Да. Можно создать до 100 000 грантов на каждый экземпляр разрешений на доступ к S3 и до 1000 местоположений на экземпляр разрешений на доступ к S3.

Нет. Задержка получения временных мандатов от прав доступа S3 на сегодняшний день аналогична задержке получения временных мандатов от AWS STS. Получив мандаты от прав доступа S3, вы можете повторно использовать мандаты, срок действия которых еще истек, для последующих запросов. Для таких последующих запросов дополнительная задержка прав доступа S3 по сравнению с другими методами отсутствует.

Если вы собираетесь использовать права доступа S3 для удостоверений каталогов, сначала необходимо настроить Центр идентификации AWS IAM. Центр идентификации AWS IAM помогает создавать и связывать удостоверения сотрудников, созданные и хранящиеся как в Центре идентификации, так и у сторонних поставщиков удостоверений. Процесс настройки см. в документации по Центру идентификации. После настройки инстанса Центра идентификации вы сможете подключить его к правам доступа S3. После этого права доступа S3 будут использовать для оценки запросов и принятия решений об авторизации Центр идентификации, получая из него атрибуты пользователей, такие как членство в группах.

Да. При текущей схеме работы инициализация вашего клиента S3 выполняется с использованием мандатов IAM, связанных с вашим приложением (например, мандаты роли IAM для EC2 или IAM Roles Anywhere, либо с использованием долгосрочных мандатов пользователей IAM). При новой схеме вашему приложению перед инициализацией клиента S3 понадобится получить мандаты прав доступа S3. Такие мандаты прав доступа S3 будут относится к конкретному аутентифицированному пользователю в вашем приложении. После инициализации клиента S3 с использованием мандатов разрешений на доступ к S3 клиент сможет в обычном режиме запрашивать данные из S3, используя эти мандаты.

На данный момент разрешения на доступ к S3 уже интегрированы с EMR и Spark с открытым исходным кодом через коннектор S3A. Кроме того, права доступа S3 интегрируются со сторонним ПО, таким как Immuta и Informatica, что позволяет централизовать управление разрешениями. И наконец, разрешения на доступ к S3 поддерживают Terraform и CloudFormation, что позволяет предоставлять разрешения на доступ S3 программно.

Нет. Разрешения на доступ к S3 не заменяют IAM. Более того, они хорошо сочетаются с существующими стратегиями защиты данных на основе IAM (правила шифрования, сети, периметра данных). Разрешения на доступ к S3 построены на примитивах IAM и позволяют использовать детальные разрешения S3 в нужных масштабах.

Да. Чтобы использовать права доступа S3 для объектов, зашифрованных с помощью KMS, владельцу корзины нужно включить необходимые разрешения KMS в роль IAM, которую он предоставляет правам доступа S3 при регистрации местоположения. Затем разрешения на доступ к S3 смогут использовать эту роль IAM для доступа к зашифрованным с помощью KMS объектам в бакетах.

Вы можете использовать консоль разрешений на доступ к S3 в Консоли управления AWS или SDK и API CLI для просмотра разрешений на доступ к S3 и управления ими.

Нет, вы не можете предоставить публичный доступ к данным с помощью разрешений на доступ S3.

Запрос приложения на запуск сеанса доступа к данным с помощью разрешений на доступ к S3 записывается в CloudTrail. CloudTrail будет различать удостоверение пользователя, отправившего запрос, и удостоверение приложения, получающего доступ к данным от имени пользователя. Это поможет вам проверить удостоверение конечного пользователя, который обращался к конечным данным, а также время обращения.

Плата за разрешения на доступ к S3 взимается в зависимости от количества запросов к этому сервису. Подробнее см. на странице цен.

AWS Lake Formation предназначен для тех случаев, когда необходимо управлять доступом к табличным данным (например, таблицам Glue), где вам может потребоваться предоставление доступа на уровне строк и столбцов. Права доступа S3 предназначены для управления разрешениями на прямой доступ к S3 – неструктурированным данным, таким как видео, изображения, журналы и т. д.

Нет. В настоящее время разрешения на доступ к S3 не интегрированы с Анализатором доступа IAM. На данный момент Анализатор доступа IAM нельзя использовать для анализа прав доступа S3. Клиенты могут проверять разрешения на доступ к S3 напрямую, перейдя на страницу разрешений на доступ к S3 в консоли S3, или программно, используя API ListAccessGrants.

Точки доступа S3

Открыть все

Точки доступа Amazon S3 упрощают управление доступом к данным для любого приложения или сервиса AWS, работающего с S3. Точки доступа S3 поддерживают бакеты S3, а также Amazon FSx для NetApp ONTAP и Amazon FSx для файловых систем OpenZFS. Создавая точки доступа с соответствующими именами и разрешениями для отдельных приложений или пользователей, можно контролировать и упрощать их доступ к данным.

Если вы используете точки доступа S3 с бакетами S3, вам больше не нужно управлять единой комплексной политикой с сотнями различных правил разрешений, которые необходимо записывать, читать, отслеживать и проверять. Вы можете создать тысячи точек доступа для одного бакета с настраиваемыми схемами доступа, используя уникальное имя хоста и политику доступа, которая применяет определенные разрешения и средства контроля сети к любому запросу через точку доступа.

Используя точки доступа S3 с FSx для NetApp ONTAP и FSx для OpenZFS, вы можете получать доступ к данным FSx с помощью API S3, как если бы данные находились в S3. Благодаря этой новой возможности данные файлов из FSx для OpenZFS будут доступны для использования в широком спектре сервисов и приложений искусственного интеллекта, машинного обучения и аналитики, работающих с S3, в то время как эти данные будут по-прежнему храниться в файловой системе FSx для OpenZFS.

Точки доступа S3 упрощают управление доступом к общим наборам данных в сервисе S3. Больше не нужно управлять единой комплексной политикой корзин с сотнями различных правил разрешений, которые необходимо записывать, читать, отслеживать и проверять. С помощью сервиса Точки доступа S3 вы можете создавать точки доступа или предоставлять разрешения доверенным аккаунтам для создания точек доступа к нескольким аккаунтам в своей корзине. Таким образом, обеспечивается доступ к общим наборам данных с политиками, разработанными для конкретного приложения. С помощью Access Points можно разделить большую политику корзин на отдельные политики точек доступа для каждого приложения, которому требуется доступ к общим наборам данных. Это позволяет сосредоточиться на создании правильной политики доступа для приложения и не беспокоиться о нарушениях, вызванных работой других приложений с общими наборами данных. Можно также создать политику управления сервисами (SCP) и сделать обязательным требованием для всех точек доступа получение запросов только из виртуального частного облака (VPC). Это позволит защитить данные в частных сетях.

С помощью точек доступа S3 вы можете получать доступ к данным файлов в Amazon FSx для NetApp ONTAP и FSx для OpenZFS, используя API S3, без необходимости переноса данных в S3. Точки доступа S3, подключенные к FSx для NetApp ONTAP и FSx для файловых систем OpenZFS, работают аналогично точкам доступа S3, подключенным к бакетам S3: они обеспечивают контролируемый политиками доступ к данным через S3, при этом данные продолжают храниться в файловых системах FSx или бакетах S3. Например, подключив точку доступа S3 к FSx для NetApp ONTAP или файловой системы OpenZFS клиенты могут использовать ее с сервисами и приложениями генеративного ИИ, машинного обучения и аналитики, поддерживающими S3, для доступа к данным FSx.

Для каждой точки доступа S3 настраивается политика доступа в зависимости от конкретного варианта использования и приложения, а в бакете могут быть тысячи точек доступа. Например, можно создать точку доступа к корзине S3, которая предоставляет доступ группам пользователей или приложений к озеру данных. Компонент Access Point поддерживает как одного пользователя или приложение, так и группы пользователей и приложений в рамках одного или нескольких аккаунтов, что позволяет раздельно управлять каждой точкой доступа. Кроме того, вы можете создавать точки доступа или предоставлять разрешения доверенным аккаунтам для создания точек доступа к нескольким аккаунтам в своей корзине. Точки доступа к нескольким аккаунтам не позволяют получить доступ к данным до тех пор, пока вы не получите разрешения от владельца корзины. Владелец корзины сохраняет полный контроль над данными и должен обновить политику корзины, чтобы разрешить запросы от точки доступа к нескольким аккаунтам. Образец политики корзины можно найти в руководстве пользователя. Каждая точка доступа связана с одной корзиной и содержит средство контроля сетевого источника и средство контроля Block Public Access. Можно создать точку доступа со средством контроля сетевого источника, которое разрешает доступ к хранилищу только из Virtual Private Cloud, логически изолированного раздела облака AWS. Кроме того, существует возможность создать точку доступа и настроить политику доступа для нее так, чтобы разрешить доступ только к объектам с определенными префиксами или с конкретными тегами. Есть два способа получить данные из общих бакетов через точку доступа. Для операций с объектами S3 можно использовать точку доступа ARN вместо имени корзины. Для запросов, требующих имя бакета в стандартном формате S3, можно использовать псевдоним точки доступа. Псевдонимы точек доступа S3 генерируются автоматически и взаимозаменяемы с именами корзин S3 везде, где это имя используется для доступа к данным. Каждый раз при создании точки доступа для бакета S3 автоматически создает новый псевдоним. Полный список совместимых операций и сервисов AWS см. в документации по S3.

В бакетах аккаунта и кросс-аккаунта по умолчанию можно создать 10 000 точек доступа S3 на регион для каждого аккаунта. Жесткого ограничения на количество точек доступа S3 на один аккаунт AWS не существует. Чтобы отправить запрос на увеличение этой квоты, перейдите на страницу Квот на обслуживание.

Для точек доступа S3 предусмотрена специальная политика точек доступа IAM. Вы записываете политики точек доступа так же, как политику корзин, используя в качестве ресурса ARN точки доступа. В соответствии с политиками точек доступа разрешается или запрещается доступ к данным S3 через точку доступа. Сервис Amazon S3 оценивает все релевантные политики, в том числе те, которые касаются пользователя, бакета, точки доступа, адреса VPC, и политики управления сервисами (SCP), а также списки контроля доступа. На основании оценки он определяет, необходимо ли выполнить авторизацию запроса.

Можно записать политику для точек доступа так же, как и политику для корзин, используя правила IAM для управления разрешениями и ARN точки доступа в документе политики.

Вы можете продолжать использовать политики бакетов, чтобы ограничить доступ к бакетам, разрешив его только из определенных VPC. Точки доступа обеспечивают более легкий и проверяемый способ разрешить для общего набора данных (всего или части) трафик только из VPC в отношении всех приложений организации с использованием средств контроля API. С помощью политики управления сервисами (SCP) AWS Organizations можно сделать обязательным требованием для любой точки доступа, созданной в организации, установку значения «vpc» для параметра API «network origin control» (средство контроля сетевого источника). После этого любая новая созданная точка доступа автоматически ограничивает доступ к данным, разрешая его только для трафика из VPC. Нет необходимости указывать дополнительную политику доступа, чтобы запросы на получение данных обрабатывались только от указанных VPC.

Да. Чтобы применить политику запрета доступа к данным через Интернет для точек доступа в организации, вам нужно для всех точек доступа разрешить доступ только из VPC. Для этого необходимо написать SCP AWS, которая поддерживает только значение «vpc» в параметре «network origin control» (средство контроля сетевого источника) в API «create_access_point()». Если у вас были ранее созданные точки доступа, взаимодействующие с Интернетом, их можно удалить. Вам также потребуется изменить политику корзин для каждой из корзин, чтобы дополнительно ограничить доступ по Интернету непосредственно к этим корзинам с использованием их имен хостов. Поскольку другие сервисы AWS могут напрямую получать доступ к вашей корзине, настройте политику так, чтобы разрешить доступ для нужных сервисов AWS. Примеры выполнения такой задачи показаны в документации по S3.

В настоящее время это невозможно, но вы можете подключить политику для корзины, которая отклоняет запросы, сделанные без применения точки доступа. Дополнительные сведения приведены в документации по S3.

Да. Если удалить точку доступа, доступ к связанному с ней бакету с использованием других точек доступа и имени хоста бакета не будет заблокирован.

За точки доступа и за корзины, использующие точки доступа, дополнительная плата не взимается. Применяются обычные тарифы на запросы Amazon S3.

Вы можете начать создавать точки доступа S3 для новых и существующих бакетов, используя консоль управления AWS, интерфейс командной строки AWS (AWS CLI), интерфейс прикладного программирования (API) и клиент пакета средств разработки ПО AWS (SDK). Подробнее о сервисе «Точки доступа S3» см. в руководстве пользователя.

Надежность и защита данных

Открыть все

Amazon S3 – это самое надежное хранилище в облаке. Благодаря уникальной архитектуре S3 рассчитано на надежность данных на 99,999999999 % (11 девяток). Кроме того, S3 хранит данные с резервированием как минимум в трех зонах доступности (AZ), обеспечивая устойчивость к широкомасштабным авариям. Клиенты могут хранить данные в одной зоне доступности, чтобы сократить затраты на хранение или задержки, или в нескольких зонах доступности для обеспечения устойчивости к безвозвратной потере всего центра обработки данных, а также в нескольких регионах AWS для соблюдения требований географической устойчивости.

Надежность системы Amazon S3 зависит от частоты отказов устройств хранения данных и скорости, с которой S3 может обнаружить неисправность, а затем повторно реплицировать данные на этих устройствах. S3 выполняет комплексную оценку целостности каждого загружаемого объекта, а также проверяет правильность и резервирование всех данных на нескольких устройствах хранения, а только потом признает загрузку выполненной. После сохранения данных S3 постоянно отслеживает их надежность с течением времени, периодически проверяя целостность всех данных в местах хранения. S3 также активно отслеживает резервируемость данных, чтобы убедиться, что объекты способны выдерживать одновременный отказ нескольких устройств хранения.

В маловероятном случае потери или повреждения зоны доступности AWS данные в классе хранилища для одной зоны могут быть потеряны. Потеря данных может быть связана с чрезвычайными ситуациями, такими как пожар и затопление. Тем не менее в классах хранилищ для одной зоны используются те же технические решения, что и в классе региональных хранилищ, которые обеспечивают защиту объектов от независимых сбоев на уровне дисков, хостов и стоек и надежность данных на уровне 99,999999999 %.

В Amazon S3 сложилась прочная культура обеспечения надежности, а передовые методы обеспечения надежности закладываются в наши системы и программное обеспечение на этапе проектирования. У AWS больше опыта работы с высоконадежными хранилищами, чем у любого другого поставщика облачных сервисов, и мы используем этот опыт для снижения рисков и внедрения мер безопасности во все, что мы делаем.

Да. Система надежности Amazon S3 не защищает от случайных или злонамеренных удалений. S3 полагается на то, что клиенты самостоятельно решают, какие данные они хотят сохранить, а от каких данных избавиться, а также какие дополнительные меры необходимы им для защиты от некорректного удаления (случайного или злонамеренного). Когда вы запрашиваете у Amazon S3 удаление данных, такие данные немедленно удаляются и не могут быть восстановлены AWS. Выполнение таких запросов на удаление является важной функцией сервиса.

Управление версиями объектов S3, репликация S3 и блокировка объектов S3 — все это дополнительные функции, которые можно использовать для дополнительной защиты данных, выходящей за рамки надежности, автоматически обеспечиваемой S3. Кроме того, для резервного копирования всех или части данных в корзинах S3 можно использовать приложение резервного копирования.

Amazon S3 использует сочетание контрольных сумм Content-MD5, алгоритмов безопасного хэширования (SHA) и циклических проверок избыточности (CRC) для проверки целостности данных. Amazon S3 проверяет эти контрольные суммы на данных в местах хранения и восстанавливает любые повреждения, используя резервную копию данных. Кроме того, новые пакеты AWS SDK автоматически вычисляют эффективные контрольные суммы на основе CRC для всех загрузок. S3 самостоятельно проверяет контрольные суммы и принимает объекты только после подтверждения сохранения целостности данных при передаче через общедоступный Интернет. Если для загрузки объекта используется версия SDK без предварительного расчета контрольных сумм, S3 вычисляет контрольную сумму всего объекта на основе CRC даже при загрузке несколькими частями. Контрольные суммы хранятся в метаданных объекта и поэтому доступны для проверки целостности данных в любое время. Вы можете выбрать один из пяти поддерживаемых алгоритмов контрольных сумм для проверки целостности данных в запросах на передачу и загрузку. В зависимости от потребностей вашего приложения можно выбрать алгоритм контрольных сумм SHA-1, SHA-512, SHA-256, CRC32, CRC32C, CRC64NVME, MD5, xxHash64, xxHash3 или xxHash128. Вы можете автоматически вычислять и проверять контрольные суммы при сохранении или извлечении данных из S3, а также получать информацию о контрольных суммах в любой момент с помощью API S3 HeadObject, API S3 GetObjectAttributes или отчета S3 Inventory. Вычисление контрольной суммы при потоковой передаче данных в S3 экономит время, потому что вы можете и проверять и передавать данные за один проход, а не в ходе двух последовательных операций. Использование контрольных сумм для проверки данных – это рекомендуемая практика обеспечения надежности данных. Такие возможности повышают производительность и сокращают затраты.

Функция управления версиями позволяет сохранять, извлекать и восстанавливать любую версию любого объекта, сохраненного в корзине сервиса Amazon S3. После включения функции управления версиями для корзины Amazon S3 будет сохранять существующие объекты каждый раз, когда вы выполняете операцию PUT, POST, COPY или DELETE на них. По умолчанию на запросы GET извлекается последняя записанная версия. Более старые версии перезаписанного или удаленного объекта можно извлечь, указав в запросе номер версии.

Amazon S3 предоставляет клиентам инфраструктуру хранилища с высокой степенью надежности. Управление версиями предлагает дополнительный уровень защиты, предоставляя механизм восстановления, когда клиенты случайно переписывают или удаляют объекты. Эта функция позволяет легко восстанавливать систему после непреднамеренных действий пользователей и сбоев приложений. Управление версиями можно также использовать для хранения данных и архивирования.

Чтобы начать использовать управление версиями, необходимо включить параметр настройки бакета Amazon S3. Дополнительные сведения о включении функции управления версиями см. в документации по Amazon S3.

Если пользователь выполнит операцию DELETE для объекта, последующие простые (без использования управления версиями) запросы уже не смогут извлекать объект. Однако все версии этого объекта будут по-прежнему сохраняться в корзине Amazon S3 и могут быть извлечены или восстановлены. Только владелец корзины Amazon S3 может окончательно удалить версию. Можно задать правила управления жизненным циклом для управления сроками хранения и расходами на хранение нескольких версий объектов.

Для реализации периода отката для объектов в S3 можно использовать правила управления жизненным циклом Amazon S3 в сочетании с управлением версиями S3. Например, для корзины с включенным управлением версиями можно установить правило, которое архивирует все предыдущие версии в более экономичный класс хранилища S3 Glacier Flexible Retrieval и удаляет их через 100 дней, что обеспечит 100-дневный период отката любых изменений данных и поможет снизить расходы на хранилище. Кроме того, вы можете экономить, удаляя устаревшие (не текущие) версии объекта по истечении пяти дней при наличии как минимум двух новых версий объекта. Количество дней или более новых версий можно менять в зависимости от требуемой оптимизации затрат. Это позволяет при необходимости сохранять дополнительные версии объектов, но сокращает расходы за счет их перемещения или удаления через определенные промежутки времени.

Для обеспечения дополнительного уровня безопасности можно использовать функцию удаления многофакторной аутентификации (MFA Delete) в системе управления версиями. По умолчанию все запросы к вашей корзине Amazon S3 требуют подтверждения ваших прав доступа к аккаунту AWS. Если на корзине Amazon S3 включено управление версиями с функцией MFA Delete, для окончательного удаления версии объекта требуются два этапа аутентификации: права доступа к аккаунту AWS и действительный шестизначный код и серийный номер устройства аутентификации, находящегося в ваших руках. Дополнительную информацию о включении функции управления версиями с MFA Delete, включая приобретение и активацию устройства аутентификации, см. в документации по Amazon S3.

Каждая помещаемая на хранение или запрашиваемая версия объекта оплачивается по обычным тарифам Amazon S3. Например, рассмотрим следующий сценарий для иллюстрации стоимости хранилища при использовании функции управления версиями (предположим, что текущий месяц длится 31 день): 1) 1-й день месяца: вы выполняете операцию PUT в 4 ГБ (4 294 967 296 байт) в своем бакете.
2) 16-й день месяца: вы выполняете операцию PUT в 5 ГБ (5 368 709 120 байт) в том же бакете, используя тот же ключ, что и при первой операции PUT в 1-й день.

Анализируя затраты на хранилище при вышеуказанных операциях, обратите внимание, что объект в 4 ГБ с 1-го дня не удаляется из корзины, когда объект в 5 ГБ записывается на 15-й день. Вместо этого объект в 4 ГБ сохраняется как более старая версия, а объект в 5 ГБ становится последней записанной версией объекта в бакете. В конце месяца: всего использовано байт-часов
[4 294 967 296 байт x 31 день x (24 часа / день)] + [5 368 709 120 байт x 16 дней x (24 часа / день)] = 5 257 039 970 304 байт-часов. Переводя в ГБ-месяцы:
5 257 039 970 304 байт-часов x (1 ГБ / 1 073 741 824 байта) x (1 месяц / 744 часа) = 6,581 ГБ-мес. Стоимость рассчитана с учетом текущих тарифов для конкретного региона на странице цен на Amazon S3.

Блокировка объектов Amazon S3 – это возможность Amazon S3, которая предотвращает удаление или перезапись версий объектов в течение установленного периода времени. Эта возможность позволяет применять политики хранения в качестве дополнительного уровня защиты данных либо для выполнения нормативных требований. Рабочие нагрузки можно переносить из существующих систем для однократной записи и многократного чтения (WORM) в Amazon S3 и настроить S3 Object Lock на уровне объектов или корзин для предотвращения удаления версий объектов до заданной даты, которую можно определить самостоятельно (Retain Until Date), или продолжать хранение в течение неопределенного срока (Legal Hold Date). Защита S3 Object Lock обеспечивается независимо от класса хранилища, в котором находится версия объекта, а также при переносах из одного класса хранилища в другой в течение жизненного цикла S3. S3 Object Lock следует использовать, если на вас распространяются законодательные требования по защите данных по правилам WORM либо если вы хотите использовать дополнительный уровень защиты данных в Amazon S3. S3 Object Lock может помочь в выполнении законодательных требований о том, что данные должны храниться в неизменяемом формате, а также может обеспечить защиту от случайного или злонамеренного удаления данных в Amazon S3.
Дополнительную информацию см. в руководстве пользователя Блокировки объектов S3.

Блокировка объектов Amazon S3 предотвращает удаление версии объекта в течение заданного периода сохранения либо сохраняет блокировку бессрочно (Legal Hold), пока она не будет снята. С помощью S3 Object Lock гарантируется неизменность версии объекта, пока применяется защита WORM. Защиту WORM можно применить либо путем задания даты Retain Until Date или применения статуса Legal Hold к версии объекта с помощью AWS SDK, CLI, REST API или консоли управления S3. Настройки сохранения можно задать в запросе PUT либо применить к существующему объекту после его создания. Срок сохранения Retain Until Date определяет период времени, в течение которого версия объекта будет неизменной. После присвоения Retain Until Date объекту эту версию объекта будет невозможно удалить или изменить, пока не пройдет Retain Until Date. Если пользователь попытается удалить объект до даты Retain Until Date, в операции будет отказано. Кроме того, можно сделать объект неизменным, применив к нему Legal Hold. Legal Hold предотвращает изменение или удаление версии объекта на неопределенный срок до тех пор, пока она не будет удалена явным образом. Для установки и снятия защиты Legal Hold аккаунт AWS должен иметь разрешение на запись для действия PutObjectLegalHold. Legal Hold можно применить к любому объекту в корзине с поддержкой защиты S3 Object Lock, независимо от наличия у этого объекта в текущий момент защиты WORM на какой‑либо срок сохранения.
S3 Object Lock можно настроить в одном из двух режимов. При использовании в режиме Governance аккаунты AWS с определенными разрешениями IAM могут снимать защиту WORM с версии объекта. Если вам требуется большая надежность по неизменности для выполнения законодательных требований, можно использовать режим Compliance. В режиме соответствия (Compliance) защиту WORM не может снять ни один пользователь, в том числе аккаунт root.

Нет, после включения блокировки объектов S3 нельзя отключить ни блокировку объектов S3, ни управление версиями S3 для корзин.

Чтобы начать репликацию объектов с помощью сервиса репликации S3 из бакетов с включенной блокировкой объектов S3, добавьте конфигурацию репликации в исходный бакет, указав целевой бакет в том же или другом регионе AWS и в том же или другом аккаунте AWS. Можно реплицировать все объекты на уровне корзины S3 или отфильтровать объекты — на уровне общих префиксов или на уровне объектов, с помощью тегов объектов S3. Также необходимо указать роль Управления идентификацией и доступом AWS (IAM) с необходимыми разрешениями для выполнения операции репликации. Для репликации можно использовать консоль S3, AWS API, интерфейс командной строки AWS, AWS SDK или AWS CloudFormation. Кроме того, необходимо включить управление версиями S3 как для исходной, так и для целевой корзин. Также для репликации объектов из корзин с поддержкой блокировки объектов S3 в целевой корзине должна быть включена блокировка объектов S3. Дополнительные сведения см. в документации по настройке репликации S3 и использованию блокировки объектов S3 при репликации S3.

Да, для репликации объектов из бакетов с включенной блокировкой объектов S3 необходимо предоставить два новых разрешения — s3:GetObjectRetention и s3:GetObjectLegalHold — в исходном бакете в роли IAM, которую вы используете для настройки репликации. Если роль IAM имеет разрешение s3:Get*, она удовлетворяет требованию, и предоставлять другие разрешения не нужно. Дополнительные сведения см. в документации по использованию блокировки объектов S3 с репликацией S3.

Нет. При репликации из бакетов с включенной блокировкой объектов S3 поддерживаются все функции репликации S3, такие как репликация S3 в том же регионе (S3 SRR), межрегиональная репликация S3 (S3 CRR), метрики репликации S3 для отслеживания прогресса, контроль времени репликации S3 (S3 RTC) и пакетная репликация S3.

Для репликации существующих объектов из бакетов с включенной блокировкой объектов S3 можно использовать пакетную репликацию S3. Дополнительные сведения о репликации существующих объектов см. в документации по пакетной репликации S3.

Классы хранилищ

Открыть все

Amazon S3 предоставляет целый спектр классов хранилищ, что позволяет выбрать подходящий, исходя из требований рабочих нагрузок к типу доступа к данным, отказоустойчивости и стоимости. Классы хранилищ S3 отличаются минимальной стоимостью и предназначены для различных шаблонов доступа. Классы хранилищ S3 прекрасно подойдут для стандартных примеров использования, в том числе в случаях, когда необходима высокая производительность, выдвигаются требования к размещению данных, имеются неизвестные или изменчивые шаблоны доступа либо же архивное хранилище. В сумму платежа за класс хранилища S3 входит стоимость хранения данных и доступа к ним. Чтобы оптимизировать расходы и обеспечить минимальную стоимость обработки данных в течение всего срока их службы, при выборе подходящего для рабочей нагрузки класса хранилища S3 необходимо учитывать схемы доступа и период хранения данных.

Чтобы оптимизировать расходы и обеспечить минимальную стоимость обработки данных в течение всего срока их службы, при выборе подходящего для рабочей нагрузки класса хранилища S3 необходимо учитывать схемы доступа и период хранения данных. Схемы доступа во многих рабочих нагрузках носят изменяющийся (пользовательский контент), непредсказуемый (аналитика, озера данных) или неизвестный (новые приложения) характер. Поэтому, чтобы автоматически снижать затраты на хранение, в качестве класса хранилища по умолчанию необходимо использовать Интеллектуальное многоуровневое хранение S3. Если вы знаете схемы доступа к собственным данным, то воспользуйтесь данным руководством. Класс хранилища S3 Standard идеально подходит для часто используемых данных.Это наилучший выбор в том случае, если доступ к данным осуществляется более одного раза в месяц. S3 Standard – Infrequent Access предназначен для данных, которые хранятся не менее месяца и доступ к которым осуществляется раз в месяц или два. Классы хранилища Amazon S3 Glacier предназначены специально для архивных данных и обеспечивают максимальную производительность, гибкость при извлечении и минимальную стоимость облачного архивного хранилища. Теперь вы можете выбрать любой из трех классов хранилища для архивов, оптимизированных под разные шаблоны доступа и длительность хранения. Для архивных данных, к которым может потребоваться мгновенный доступ (например, в случае с медицинскими изображениями, ресурсами новостных мультимедиа или данными геномных исследований) лучше выбрать архивный класс хранилища мгновенного извлечения данных Amazon S3 Glacier, который отличается минимальной стоимостью хранения и возможностью извлечения за несколько миллисекунд. Для архивных данных, к которым не требуется мгновенный доступ, но может потребоваться ситуативный доступ к огромным наборам данных без дополнительных затрат на их извлечение (например, для резервных копий и при аварийном восстановлении), лучше выбрать класс хранилища S3 Glacier Flexible Retrieval, который поддерживает извлечение за несколько минут для небольших объемов и за 5–12 часов для пакетов. Чтобы сэкономить еще больше при длительном хранении архивных копий (например, для обеспечения соответствия требованиям или архивов цифровых СМИ), лучше выбрать класс хранилища глубокого архива Amazon S3 Glacier, который отличается минимальной стоимостью облачного хранилища и возможностью извлечения данных в пределах 12 часов. Все эти классы хранилищ обеспечивают отказоустойчивость нескольких зон доступности за счет избыточного хранения данных на множестве устройств и в физически разделенных зонах доступности региона AWS.

В том случае, когда требования к отказоустойчивости данных не столь высоки, можно выбрать класс хранилища с одной зоной доступности, например S3 One Zone – Infrequent Access (для нечастого доступа), и тем самым сократить расходы. Если ваши требования к локализации или изоляции данных не могут быть выполнены в существующем регионе AWS, вы можете использовать классы хранилищ S3 для выделенных локальных зон AWS или S3 на стойках Outposts для хранения данных в определенном периметре.

Интеллектуальное многоуровневое хранение S3

Открыть все

S3 Intelligent-Tiering является первым облачным хранилищем, автоматически снижающим стоимость хранения на уровне конкретных объектов путем автоматического перемещения данных на наиболее экономичные уровни доступа исходя из частоты получения доступа к этим данным и без ущерба производительности, платы за извлечение и операционных расходов. S3 Intelligent-Tiering отличается миллисекундной задержкой и высокой пропускной способностью в разрезе данных, к которым часто, нечасто и редко требуется доступ, на уровнях Frequent, Infrequent и Archive Instant Access. За небольшую ежемесячную плату S3 Intelligent-Tiering осуществляет мониторинг схем доступа и автоматически перемещает объекты с одного уровня на другой. За извлечение данных из S3 Intelligent-Tiering плата не взимается, а значит, вы не столкнетесь с неожиданным повышением платежей при изменении схемы доступа. Можно использовать S3 Intelligent-Tiering как класс хранилища по умолчанию для практически любой рабочей нагрузки, особенно для озер данных, аналитики данных, машинного обучения, новых приложений и созданного пользователями контента.

Класс хранилища «Интеллектуальное многоуровневое хранение Amazon S3» создан для оптимизации расходов на хранение путем автоматического перемещения данных на наиболее экономичный уровень доступа при изменении схемы доступа. За небольшую ежемесячную плату за мониторинг и автоматизацию объектов S3 Intelligent-Tiering осуществляет мониторинг шаблонов доступа, автоматически перемещает объекты, к которым не обращались в течение 30 дней подряд, на уровень Infrequent Access и обеспечивает экономию до 40 %. При отсутствии доступа в течение 90 дней подряд объекты перемещаются на уровень Archive Instant Access, что позволяет сэкономить на хранении до 68 %. Данный процесс не влияет на производительность, а за извлечение данных из хранилища S3 Intelligent-Tiering плата не взимается. Если в дальнейшем запрашивается доступ к объекту на уровне Infrequent Access или Archive Instant Access, он автоматически перемещается на уровень Frequent Access. Если используются данные, доступ к которым можно получать асинхронно, то наиболее низкие тарифы доступны при активации дополнительных возможностей архивирования. После подключения одного или обоих уровней асинхронного доступа к архивным данным S3 Intelligent-Tiering перемещает объекты, доступ к которым не осуществлялся в течение как минимум 90 дней подряд, на уровень Archive Access и экономит до 71 %. Если к объектам не обращались в течение 180 дней, то они перемещаются на уровень Deep Archive Access для редко используемых данных, а экономия в таком случае составляет до 95 %. Если позже требуется получить объект, находящийся на дополнительных уровнях Archive или Deep Access, то он перемещается обратно на уровень Frequent Access, а перед получением восстанавливается с помощью RestoreObject. Подробно о восстановлении архивированных объектов см. в разделе Восстановление архивированных объектов. За извлечение данных из хранилища S3 Intelligent-Tiering плата не взимается. При использовании класса хранилища S3 Intelligent-Tiering дополнительная плата и политика жизненного цикла за перемещение объектов между уровнями доступа и операционные расходы также отсутствуют.

Для хранилища S3 Intelligent-Tiering не задан минимальный размер объекта, однако для объектов меньше 128 КБ автоматическая смена уровней не выполняется. Такие объекты можно сохранять в S3 Intelligent-Tiering, но за них будет взиматься плата по тарифам уровня Frequent Access. Плата за мониторинг и автоматизацию не взимается. Если необходимо задать уровень S3 Intelligent-Tiering в качестве класса хранилища по умолчанию для вновь созданных данных, можно внести изменения в приложения, указав INTELLIGENT-TIERING в заголовке запроса API PUT S3. S3 Intelligent-Tiering спроектирован для того, чтобы предлагать доступность на уровне 99,9 % и надежность на уровне 99,999999999 %, а также по умолчанию обеспечивает низкую задержку и высокую пропускную способность хранилища S3 Standard. Чтобы посчитать дополнительную экономию от использования уровня мгновенного доступа к архиву, воспользуйтесь Обозревателем затрат AWS.

Можно использовать S3 Intelligent-Tiering как класс хранилища по умолчанию для практически любой рабочей нагрузки, особенно для озер данных, аналитики данных, машинного обучения, новых приложений и созданного пользователями контента. S3 Intelligent-Tiering является первым облачным хранилищем, автоматически снижающим стоимость хранения на уровне конкретных объектов путем автоматического перемещения данных на наиболее экономичные уровни доступа исходя из частоты получения доступа к этим данным и без ущерба производительности, платы за извлечение и операционных расходов. Если схемы доступа ваших данных, включая озера данных, аналитику данных и новые приложения, неизвестны или меняются, мы рекомендуем использовать S3 Intelligent-Tiering. При работе с данными, не требующими немедленного извлечения, доступ к которым в течение продолжительного времени осуществляется редко, рекомендуется активировать уровень Deep Archive Access, на котором оплата составляет всего 1 USD за ТБ в месяц. Хранилище S3 Intelligent‑Tiering предназначено для данных с неизвестной или меняющейся схемой доступа. При использовании класса хранилища S3 Intelligent-Tiering плата за извлечение данных не взимается.

S3 Intelligent-Tiering автоматически оптимизирует затраты на хранение без ущерба для производительности. Уровни S3 Intelligent-Tiering Frequent, Infrequent и Archive Instant Access предлагают миллисекундную задержку и высокую пропускную способность.

При работе с данными с асинхронным доступом уровень Archive Access имеет ту же производительность, что и хранилище класса S3 Glacier Flexible Retrieval, а уровень Deep Archive Access – ту же производительность, что и хранилище класса S3 Glacier Deep Archive. Функцию асинхронного архивирования следует использовать только в том случае, если приложение может ждать от нескольких минут до нескольких часов. Если получаемый объект хранится на уровне доступа Archive или Deep Archive, то перед получением объекта сначала необходимо восстановить объект с помощью RestoreObject. Подробно о восстановлении архивированных объектов см. в разделе Восстановление архивированных объектов. Объекты, хранящиеся на уровне для доступа к архиву, перемещаются на уровень для частого доступа через 3–5 часов, а те, что хранятся на уровне для доступа к глубокому архиву, – в течение 12 часов. Если требуется более быстрый доступ к объекту на уровне для доступа к архиву, вы можете заплатить за ускоренное извлечение, выбрав повышенную скорость извлечения на консоли.

Интеллектуальное многоуровневое хранение Amazon S3 обеспечивает ту же надежность 99,999999999 %, что и хранилище класса S3 стандартный. Интеллектуальное многоуровневое хранение Amazon S3 обеспечивает доступность на уровне 99,9 %, а соглашение об уровне обслуживания предусматривает компенсацию в том случае, если уровень непрерывной работы за любой платежный период был ниже согласованного.

Поместить данные в хранилище «Интеллектуальное многоуровневое хранение Amazon S3» можно двумя способами. Вы можете напрямую отправлять данные методом PUT, указав INTELLIGENT_TIERING в заголовке файла x-amz-storage-class, или задать политики жизненного цикла для перемещения объектов из хранилищ S3 стандартный или S3 стандартный-IA в S3 INTELLIGENT_TIERING.

Начисляется ежемесячная плата за хранение, выполнение запросов на получение и передачу данных, находящихся в хранилище «Интеллектуальное многоуровневое хранение Amazon S3», а также небольшая ежемесячная плата за мониторинг и автоматизацию для каждого объекта. Хранилище класса S3 Intelligent-Tiering автоматически сохраняет объекты на трех уровнях доступа: уровне частого доступа Frequent Access по ценам хранилища S3 Standard, уровне для нечастого доступа Infrequent Access по ценам хранилища S3 Standard-Infrequent Access и уровне Archive Instant Access по ценам хранилища S3 Glacier Instant Retrieval. Кроме того, S3 Intelligent-Tiering имеет два дополнительных уровня для асинхронного доступа к архиву: уровень Archive Access по цене хранилища S3 Glacier Flexible Retrieval и уровень Deep Archive Access по цене хранилища S3 Glacier Deep Archive.

S3 Intelligent-Tiering, взимая небольшую плату за мониторинг и автоматизацию, отслеживает схемы доступа и автоматически перемещает объекты между уровнями доступа с низкой задержкой и высокой пропускной способностью, а также между двумя уровнями асинхронного архивного доступа с самыми низкими тарифами на облачное хранение данных.

Для хранилища S3 Intelligent-Tiering не задан минимальный размер объекта, за хранение которого начисляется оплата, однако для объектов меньше 128 КБ автоматическая смена уровней не выполняется. Эти небольшие объекты не будут контролироваться, но за них будет взиматься плата по тарифам уровня Frequent Access; плата за мониторинг и автоматизацию не взимается. Для каждого объекта, помещенного в архив или глубокий архив в хранилище «Интеллектуальное многоуровневое хранение Amazon S3», Amazon S3 использует 8 КБ хранилища для имени объекта и других метаданных (плата начисляется по тарифам хранилища S3 стандартный) и 32 КБ хранилища для индекса и связанных метаданных (плата начисляется по тарифам хранилища «Гибкое извлечение данных S3 Glacier» и «Глубокий архив S3 Glacier».

Нет. За извлечение данных из хранилища «Интеллектуальное многоуровневое хранение Amazon S3» плата не взимается. Интеллектуальное многоуровневое хранение Amazon S3 отслеживает схемы доступа к данным и, при обращении к объекту, расположенному на уровнях редкого доступа, мгновенного доступа к архиву или асинхронного архивного уровня, автоматически перемещает его на уровень частого доступа.

Чтобы получить доступ к объекту на уровнях для доступа к архиву или глубокому архиву, вам необходимо отправить запрос на восстановление, и объект вернется на уровень для частого доступа в том же классе хранилища «Интеллектуальное многоуровневое хранение Amazon S3». Объекты, хранящиеся на уровне для доступа к архиву, перемещаются на уровень для частого доступа через 3–5 часов, а объекты, хранящиеся на уровне для доступа к глубокому архиву – в течение 12 часов. Когда объект будет перемещен на уровень для частого доступа, вы сможете отправить запрос GET для его извлечения.

Для создания отчетов об уровне доступа к объектам, хранящимся в классе хранилища «Интеллектуальное многоуровневое хранение Amazon S3», можно воспользоваться сервисом «Инвентаризация Amazon S3». Amazon S3 Inventory на ежедневной или еженедельной основе предоставляет выходные файлы CSV, ORC или Parquet, в которых перечислены объекты корзины S3 или объекты с общим префиксом и соответствующие им метаданные. Также можно отправить запрос HEAD для своих объектов и создать отчет по уровням доступа к хранилищу «Интеллектуальное многоуровневое хранение S3».

Да. Объекты жизненного цикла могут перемещаться из уровней S3 Intelligent-Tiering Frequent Access, Infrequent и Archive Instant Access на уровни S3 One-Zone Infrequent Access, S3 Glacier Flexible Retrieval и S3 Glacier Deep Archive. Кроме того, в рамках жизненного цикла объекты могут переходить из дополнительных уровней архивного доступа Интеллектуального многоуровневого хранения Amazon S3 в гибкое извлечение S3 Glacier и глубокий архив S3 Glacier, а с уровня доступа к глубокому архиву Интеллектуального многоуровневого хранения Amazon S3 на уровень гибкого архива S3 Glacier.

Нет. Для класса хранилища «Интеллектуальное многоуровневое хранение Amazon S3» минимальный срок хранения не предусмотрен.

Нет. Для хранилища класса «Интеллектуальное многоуровневое хранение Amazon S3» не задан минимальный размер объекта, за хранение которого начисляется оплата, однако для объектов меньше 128 КБ автоматическая смена уровней не выполняется. За более мелкие объекты будет взиматься плата по тарифам уровня Frequent Access; плата за мониторинг и автоматизацию не взимается. Для каждого объекта, заархивированного на переходном уровне Archive Access или Deep Archive Access в S3 Intelligent-Tiering, Amazon S3 использует 8 КБ хранилища для имени объекта и других метаданных (плата начисляется по тарифам хранилища S3 Standard) и 32 КБ хранилища для индекса и связанных метаданных (плата начисляется по тарифам хранилища S3 Glacier и S3 Glacier Deep Archive). Подробные сведения см. на странице цен на Amazon S3.

S3 Standard

Открыть все

Amazon S3 Standard предлагает надежное хранилище с миллисекундной задержкой доступа и высокой пропускной способностью для данных, доступ к которым осуществляется часто, как правило, более одного раза в месяц. S3 Standard предназначен для таких примеров использования, где важна производительность: озера данных, облачные приложения, динамические веб-сайты, доставка контента, мобильные и игровые приложения, аналитика и модели машинного обучения. S3 Standard обеспечивает доступность на уровне 99,99 % и хранение объектов с надежностью 99,999999999 % в нескольких зонах доступности в течение года. Чтобы обеспечить внимательный контроль за тем, когда данные перемещаются между Amazon S3 Standard и более экономичными классами хранения, можно не вносить изменения в приложение, а использовать политики жизненного цикла S3.

S3 Standard обеспечивает высокую производительность и доступ на уровне миллисекунд, а значит идеально подходит для данных, которые часто используются или изменяются. Кроме того, в рамках S3 Standard не взимается плата за извлечение данных, поэтому его можно использовать в тех случаях, когда осуществляется множество операций чтения или записи. S3 Standard оптимально подходит для различных видов использования, включая озера данных, облачные приложения, динамические веб‑сайты, распространение контента, мобильные приложения и игры, а также аналитику.

S3 Express One Zone

Открыть все

Amazon S3 Express для одной зоны – это высокопроизводительный класс хранилища Amazon S3 в одной зоне доступности, специально разработанный для обеспечения доступа к данным с задержкой, не превышающей несколько миллисекунд, для приложений клиентов, наиболее чувствительных к задержкам. Amazon S3 Express для одной зоны – это класс облачных объектных хранилищ с наименьшей задержкой, доступной на сегодняшний день: скорость доступа к данным в 10 раз выше, а стоимость запросов на 80 % ниже, чем у Amazon S3 Стандартный. Используя S3 Express для одной зоны, вы можете выбрать для хранения данных определенную зону доступности AWS в регионе AWS. Для еще большей оптимизации производительности можно разместить хранилище в одной зоне доступности с вычислительными ресурсами.

S3 Express One Zone — идеальный класс хранилища данных для приложений, чувствительных к задержкам, которым требуется самая высокая скорость доступа к данным. S3 Express One Zone — лучший класс хранения данных для операций с интенсивным использованием запросов, таких как тренировка и анализ систем машинного обучения (ML), интерактивная аналитика или создание мультимедийного контента.

Для начала можно создать бакет каталогов S3 в выбранной зоне доступности AWS. Для еще большей оптимизации производительности можно разместить хранилище в одной зоне доступности с вычислительными ресурсами. В корзинах каталогов по умолчанию включена функция блокировки публичного доступа S3. После создания корзины каталогов можно напрямую загрузить объекты в класс хранилища S3 Express One Zone или копировать объекты из существующих классов хранилища S3 в S3 Express One Zone. Также можно импортировать данные S3 Express для одной зоны одним щелчком мыши из Консоли управления AWS или использовать пакетные операции S3 для копирования всего бакета, префикса или подмножества данных из существующего класса хранилища S3 в S3 Express для одной зоны.

После создания бакета каталогов можно импортировать данные из того же региона AWS в класс хранилища Amazon S3 Express для одной зоны через консоль S3, используя опцию «Импорт». Импорт упрощает копирование данных в бакеты каталогов S3, позволяя выбрать префикс или бакет для импорта данных без необходимости указывать все объекты для копирования по отдельности. Пакетные операции S3 позволяют копировать объекты в выбранном префиксе или бакете общего назначения. Отслеживать ход выполнения задания на импорт можно на странице сведений о задании пакетных операций S3.

Объекты S3 Express для одной зоны хранятся в одной выбранной вами зоне доступности AWS. Хранение объектов в одной зоне дает возможность хранить данные рядом с вычислительными мощностями, чтобы минимизировать задержку. Доступ к данным можно осуществлять и из других зон доступности, но задержка при этом будет увеличиваться.

S3 Express One Zone обеспечивает такую же производительность, как и другие классы хранилищ S3, но задержка запросов на чтение первого бита и запись не превышает нескольких миллисекунд, что до 10 раз меньше, чем у существующих классов хранилищ S3. Благодаря S3 Express One Zone клиентам не нужно заранее планировать или выделять требования к емкости или пропускной способности. Они сразу же получают выгоду от выполнения запросов на порядок быстрее. S3 Express One Zone идеально подходит для аналитических задач, где снижение задержки хранения данных сокращает время выполнения задач и снижает общую стоимость владения. Также этот класс идеально подходит для интерактивных рабочих нагрузок, в которых специалистам при работе нужен максимально быстрый доступ к данным S3 — таких как редактирование видео.

Для оптимизации производительности и обеспечения стабильно низкой задержки запросов S3 Express для одной зоны использует уникальную архитектуру. S3 Express для одной зоны хранит данные на высокопроизводительном оборудовании, а его объектный протокол был усовершенствован, чтобы оптимизировать издержки на аутентификацию и метаданные. Для еще большего повышения скорости доступа и поддержки до 2 млн запросов в секунду данные хранятся в корзине нового типа – корзине каталогов Amazon S3. Используя S3 Express для одной зоны, вы можете выбрать для хранения данных определенную зону доступности AWS в регионе AWS. Для еще большей оптимизации производительности можно разместить хранилище в одной зоне доступности с вычислительными ресурсами.

Каждый бакет каталогов S3 может поддерживать до 2 млн операций чтения и до 200 000 записей в секунду на каждый из бакетов S3, независимо от количества каталогов в бакете. По умолчанию каждая корзина каталогов S3 поддерживает до 200 000 операций чтения и до 100 000 записей в секунду. Если для рабочей нагрузки требуется превышение установленных по умолчанию лимитов TPS, вы можете запросить его с помощью Поддержки AWS.

Корзины каталогов S3, в которых не было запросов в течение как минимум 3 месяцев, перейдут в неактивное состояние. В неактивном состоянии корзина каталогов временно недоступна для чтения и записи. В ней также содержатся все хранилища, метаданные объектов и метаданные корзины. Существующая плата за хранение будет применяться к неактивным корзинам. При запросе доступа к неактивной корзине она переходит в активное состояние, обычно в течение нескольких минут. В течение этого переходного периода при чтении и записи будет возвращен код ошибки 503 SlowDown.

Amazon S3 Express для одной зоны обеспечивает такую же высокую эластичную пропускную способность, как и другие классы хранилищ Amazon S3. Еще при разработке в S3 Express One Zone закладывалась возможность увеличивать отдельным клиентам пропускную способность до очень высоких совокупных уровней. Например, приложения для тренировки моделей машинного обучения могут работать с миллионами объектов и петабайтами данных. За счет распределения этих запросов по отдельным подключениям — и, соответственно, максимального расширения доступной полосы пропускания — можно добиться оптимальной эффективности.

В S3 Express для одной зоны аутентификация и авторизация запросов выполняется с помощью нового механизма, основанного на сеансах — S3 CreateSession, который оптимизирован для обеспечения минимальной задержки. С помощью CreateSession можно запросить временные мандаты, обеспечивающие доступ к корзине с низкой задержкой. Эти временные мандаты привязаны к определенной корзине каталогов S3. Дополнительные сведения об этой модели, основанной на сеансах, см. в разделе S3 Create Session руководства для разработчиков.

При разработке S3 Express для одной зоны учитывалось требование по обеспечению доступности на уровне 99,95% в пределах одной зоны доступности. В соглашении об уровне обслуживания используется уровень доступности 99,9%.

При использовании S3 Express для одной зоны ваши данные резервируются на нескольких устройствах в одной зоне доступности. Сервис спроектирован так, чтобы выдерживать параллельные отказы устройств, быстро обнаруживая и восстанавливая любую потерю резервирования. Это означает, что в случае сбоя существующего устройства S3 Express One Zone автоматически перенаправляет запросы на новые устройства в зоне доступности. Такое резервирование обеспечивает бесперебойный доступ к вашим данным в зоне доступности.

Для начала работы с Amazon S3 Express для одной зоны не требуются предоплата или какие-либо обязательства. S3 Express One Zone взимает плату за хранение и запросы. Счета выставляются ежемесячно за объем хранилища, использованный за определенное время — измеряется в гигабайтах в месяц (ГБ-мес). Кроме того, взимается плата за доступ к данным – за каждый запрос в зависимости от его типа, например PUT и GET. Вы будете вносить дополнительную плату за каждый ГБ за загрузку и извлечение данных. Пример 1
Предположим, что вы храните 10 ГБ данных в S3 Express One Zone в течение 30 дней, проводя 1 000 000 операций записи и 9 000 000 операций чтения с помощью Athena (размер запроса — 10 КБ). К концу 30 дней вы удаляете 1 000 000 файлов. Приведенная ниже цена рассчитана для бакета, размещенного в регионе «Восток США (Северная Вирджиния)».
Всего использованных байт-часов = 10 ГБ/мес
Общая стоимость хранилища = 10 ГБ-мес x 0,11 долл. США = плата за запрос в размере 1,10 долл. США
1 000 000 запросов PUT: 1 000 000 запросов x 0,00113 долл. США / 1000 = 1,13 долл. США
9 000 000 запросов GET: 9 000 000 запросов x 0,00003 долл. США / 1000 = 0,27 долл. США
1 000 000 запросов DELETE = 1 000 000 запросов x 0,00 долл. США (бесплатно) = 0 долл. США Плата за загрузку данных: 10 КБ/1 048 576 x 1 000 000 x 0,0032 долл. США = 0,03 долл. США
Плата за извлечение данных: 10 КБ / 1 048 576 x 9 000 000 x 0,0006 долл. США = 0,05 долл. США
Общая стоимость = 1,10 долл. США + 1,13 долл. США + 0,27 долл. США + 0,03 долл. США + 0,05 долл. США = 2,58 долл. США. Пример 2.
Предположим, что вы храните 10 ТБ данных для обучения системы машинного обучения в течение 8 часов каждый день, а затем удаляете их. За 8 часов рабочей нагрузки вы совершаете 5 242 880 операций записи и 10 485 760 операций чтения, размер запроса составляет 2 МБ. Общий срок использования составляет 30 дней (один месяц). Стоимость хранилища
Общее использование байт-часов = [10 995 116 277 760 байт x 30 дней x (8 часов в день)] = 2 638 827 906 662 400 байт-часов = 3303,77 ГБ-мес
Общая стоимость хранилища = 3303,77 ГБ x 0,11 долл. США = 363,41 долл. США. Стоимость запроса
5 242 880 запросов PUT в день: 5 242 880 запросов x 30 x 0,00113 долл. США / 1000 = 177,73 долл. США
10 485 760 запросов GET в день: 10 485 760 запросов x 30 x 0,00003 долл. США / 1000 = 9,44 долл. США
5 242 880 запросов на удаление в день: 5 242 880 запросов x 0,00 долл. США (бесплатно) = 0 долл. США Плата за загрузку данных: 2 МБ/1024 x 5 242 880 x 30 x 0,0032 долл. США = 983,04 долл. США
Плата за извлечение данных: 2 МБ / 1024 x 10 485 760 x 30 x 0,0006 долл. США = 368,64 долл. США
Общая стоимость = 363,41 долл. США + 177,73 долл. США + 9,44 долл. США + 983,04 долл. США + 368,64 долл. США = 1902,26 долл. США

Плата за запросы на доступ к данным в S3 Express для одной зоны включает расходы на передачу данных в сети AWS в регионе. Дополнительная плата за передачу данных между Amazon EC2 (или любым сервисом AWS) и Amazon S3 Express для одной зоны в одном и том же регионе (например, внутри региона «Восток США (Северная Вирджиния)») не взимается.

Плата за запросы на доступ к данным в S3 Express для одной зоны включает стоимость использования шлюзовых адресов VPC. Дополнительная плата за использование шлюзовых адресов VPC с Amazon S3 Express для одной зоны не взимается.

S3 Standard-Infrequent Access (S3 Standard-IA)

Открыть все

S3 Standard-Infrequent Access (S3 Standard-IA) – это хранилище Amazon S3 для данных, доступ к которым выполняется относительно редко, но при необходимости должен обеспечиваться быстро. Хранилище S3 Standard – IA обеспечивает такую же высокую надежность, пропускную способность и низкие задержки, как и хранилище класса Amazon S3 Standard, но отличается более низкими ценами за гигабайт сохраняемых и извлекаемых данных. Такое сочетание низкой стоимости и высокой производительности делает хранилище S3 Standard – IA идеальным выбором для долгосрочного хранения данных, резервного копирования, а также хранения данных на случай аварийного восстановления. Класс хранилища S3 Standard-Infrequent Access устанавливается на уровне объекта и может применяться в одной корзине с классами хранилищ S3 Standard или S3 One Zone – IA, что позволяет автоматически переносить объекты между классами хранилищ с помощью политик жизненного цикла S3 без каких-либо изменений в приложении.

Класс хранилища S3 Standard – IA является идеальным выбором для хранения данных, доступ к которым осуществляется относительно редко, но при этом должен обеспечиваться быстро. S3 Standard – IA идеально подходит для длительного хранения файлов, для устаревающих данных синхронизации, общих данных или других данных, подверженных устареванию.

S3 Standard – IA обеспечивает те же показатели миллисекундной задержки и высокой пропускной способности, что и хранилище класса S3 Standard.

Поместить данные в хранилище S3 Standard-IA можно двумя способами. Можно непосредственно выполнить для записи в S3 Standard – IA запрос PUT, указав в заголовке запроса x-amz-storage-class значение STANDARD_IA. Кроме того, можно задать политики жизненного цикла для переноса объектов из класса хранилища S3 стандарт в S3 стандарт-IA.

С вас будет взиматься плата за запрос COPY S3 стандарт (класс целевого хранилища) и за получение данных S3 стандарт – IA (класс хранилища-источника). Подробную информацию см. на странице цен на Amazon S3.

Хранилище S3 стандарт-IA предназначено для продолжительного хранения и нечастого доступа к данным, которые требуется хранить месяцы и годы. Если данные удаляются из «Amazon S3 со стандартным редким доступом (S3 стандарт-IA)» в течение первых 30 дней, плата начисляется за полные 30 дней хранения. Общую информацию о ценах на хранилище Amazon S3 стандарт — редкий доступ (S3 стандарт-IA) см. на странице цен на Amazon S3.

Хранилище S3 стандарт-IA предназначено для крупных объектов, при этом предусмотрена минимальная плата за хранение объектов на уровне 128 КБ. За объекты размером менее 128 КБ будет взиматься плата как за объекты по 128 КБ. Например, за объект размером 6 КБ в хранилище «Amazon S3 со стандартным редким доступом (S3 стандарт-IA)» будет взиматься плата за хранение фактических 6 КБ и дополнительных 122 КБ. Общую информацию о ценах на хранилище Amazon S3 стандарт — редкий доступ (S3 стандарт-IA) см. на странице цен на Amazon S3.

Да. Помимо политик жизненного цикла для миграции объектов из хранилища S3 стандартный в S3 стандартный-IA можно настроить политики жизненного цикла, позволяющие перемещать объекты из хранилища S3 стандартный-IA в классы хранилища «S3 для одной зоны-IA», «Мгновенное извлечение данных S3 Glacier», «Гибкое извлечение данных S3 Glacier» и «Глубокий архив S3 Glacier».

Хранилище S3 One Zone-Infrequent Access (S3 One Zone-IA)

Открыть все

S3 One Zone – IA представляет собой класс хранилища Amazon S3, который можно выбрать для хранения объектов в одной зоне доступности. S3 One Zone – IA обеспечивает избыточное хранение данных в пределах одной зоны доступности и стоит на 20 % дешевле, чем географически избыточное хранилище S3 Standard – IA, обеспечивающее избыточное хранение данных в нескольких географически изолированных зонах доступности. В соответствии с Соглашением об уровне обслуживания (SLA) хранилище S3 One Zone – IA обеспечивает доступность на уровне 99% и надежность на уровне 99,999999999% в пределах зоны доступности. Однако данные в хранилище класса S3 One Zone – IA не являются устойчивыми к физическому выходу из строя всей зоны доступности. Хранилище S3 One Zone – IA предоставляет те же возможности Amazon S3, что и хранилища S3 Standard и S3 Standard – IA; его можно использовать посредством API Amazon S3, интерфейса командной строки или консоли сервиса. Класс хранилища S3 One Zone – IA устанавливается на уровне объектов и может применяться в одной корзине с классами хранилищ S3 Standard и S3 Standard – IA. С помощью политик жизненного цикла S3 можно автоматически переносить объекты между классами хранилищ без каких-либо изменений в приложении.

Клиенты могут использовать S3 One Zone – IA в качестве хранилища нечастого доступа для таких данных, как резервные копии, копии для аварийного восстановления, или для других легко восстанавливаемых данных.

Хранилище S3 One Zone – IA обеспечивает те же показатели задержки и пропускной способности, что и хранилища классов S3 Standard и S3 Standard-Infrequent Access.

Класс хранилища Amazon S3 для одной зоны-IA обеспечивает надежность на уровне 99,999999999 % в пределах зоны доступности. Однако данные в хранилище класса S3 One Zone – IA не являются устойчивыми к потере связи с зоной доступности и ее физическому выходу из строя. Для сравнения: хранилища классов S3 Standard, S3 Intelligent-Tiering, S3 Standard – IA и S3 Glacier спроектированы таким образом, чтобы выдерживать потерю связи с зоной доступности или ее выход из строя. Amazon S3 для одной зоны-IA может обеспечить уровень надежности и доступности, сравнимый с современными физическими ЦОД или превосходящий их, обеспечивая в то же время дополнительные преимущества в виде эластичности хранилища и функциональных возможностей Amazon S3.

Да. Каждый регион AWS представляет собой отдельную географическую область. В каждом регионе имеется несколько изолированных местоположений, называемых зонами доступности. Хранилище класса Amazon S3 One Zone – IA использует одну зону доступности AWS в пределах региона.

В каждой зоне доступности применяются резервные системы электропитания и сети передачи данных. В пределах региона AWS зоны доступности располагаются в различных поймах и сейсмических районах; они отделены друг от друга географически для обеспечения защиты в случае пожара. Хранилища классов S3 Standard и S3 Standard – IA обеспечивают защиту от аварийных ситуаций путем избыточного хранения данных в нескольких зонах доступности. Хранилище S3 One Zone – IA обеспечивает защиту от сбоев оборудования в пределах зоны доступности, не является устойчивым к физическому выходу из строя зоны доступности вследствие серьезных стихийных бедствий, таких как землетрясение или наводнение. Среди вариантов S3 для одной зоны-IA, S3 стандартный и S3 стандартный-IA клиенты могут выбрать класс хранилища, который наилучшим образом соответствует требованиям, предъявляемым к надежности и доступности.

Класс хранилища Amazon S3 Glacier Instant Retrieval

Открыть все

Класс хранилища S3 Glacier Instant Retrieval отличается минимальной стоимостью длительного хранения данных, доступ к которым требуется редко и которые необходимо извлекать за несколько миллисекунд. S3 Glacier Instant Retrieval обеспечивает самый быстрый доступ к архивному хранилищу с той же пропускной способностью и за то же количество миллисекунд, что и классы хранилищ S3 Standard и S3 Standard – IA. S3 Glacier Instant Retrieval обеспечивает надежность хранения данных на уровне 11 девяток (99,999999999 %) и доступность на уровне 99,9 % благодаря использованию избыточного размещения как минимум в трех физически удаленных зонах доступности AWS.

S3 Glacier Instant Retrieval подходит для работы с данными, доступ к которым осуществляется редко (раз в квартал), но с миллисекундной скоростью. Этот класс хранилища идеален в том случае, когда нужна такая же низкая задержка и высокая пропускная способность, как у S3 Standard – IA, но доступ к данным происходит реже. S3 Glacier Instant Retrieval предлагает низкую стоимость хранения и чуть более высокие тарифы доступа к данным.

Мгновенное извлечение данных S3 Glacier, как и S3 стандартный-IA, обеспечивает надежность хранения данных на уровне 11 девяток (99,999999999 %) и доступность на уровне 99,9 %. Кроме того, в соответствии с соглашением об уровне обслуживания вам предоставляются кредиты на услуги сервиса в том случае, если доступность в течение любого платежного периода составляет менее 99 %.

S3 Glacier Instant Retrieval обеспечивает те же показатели миллисекундной задержки и высокой пропускной способности, что и хранилища классов S3 Standard и Standard – IA. В отличие от классов хранилищ S3 Glacier Flexible Retrieval и S3 Glacier Deep Archive, предназначенных для асинхронного доступа, перед обращением к объекту в S3 Glacier Instant Retrieval не нужно отправлять запрос на восстановление.

Поместить данные в хранилище «Мгновенное извлечение данных S3 Glacier» можно двумя способами. Можно напрямую отправлять данные методом PUT, указав GLACIER_IR в заголовке файла x-amz-storage-class, или задать политики жизненного цикла S3 для перемещения объектов из хранилищ S3 стандартный или S3 стандартный-IA в хранилище «Мгновенное извлечение данных S3 Glacier».

S3 Glacier Instant Retrieval предназначен для продолжительного хранения данных с нечастым доступом, хранящихся месяцы и годы. Объекты, архивированные в S3 Glacier Instant Retrieval, хранятся не менее 90 дней. При этом плата за объекты, которые удаляются, перезаписываются или перемещаются до истечения 90 дней, будет взиматься согласно тарифам на хранение, пропорционально оставшимся дням. Подробнее о ценах на Мгновенное извлечение данных Amazon S3 Glacier см. на странице цен на Amazon S3.

Хранилище «Мгновенное извлечение данных S3 Glacier» предназначено для крупных объектов, при этом предусмотрена минимальная плата за хранение объектов размером 128 КБ. За объекты размером менее 128 КБ будет взиматься плата как за объекты по 128 КБ. Например, за объект размером 6 КБ в хранилище S3 Glacier Instant Retrieval будет взиматься плата за хранение фактических 6 КБ и дополнительных 122 КБ. Подробнее о ценах на Мгновенное извлечение данных Amazon S3 Glacier см. на странице цен на Amazon S3.

Мгновенное извлечение данных S3 Glacier предусматривает ежемесячную плату за хранение, отправку запросов (в зависимости от типа запроса) и извлечение данных. Объем подлежащего оплате за месяц хранилища основан на среднем объеме хранилища, использованном на протяжении месяца и измеряемом в гигабайтах за месяц (ГБ-Месяцах). Плата за запросы начисляется в зависимости от использованных типов запросов, например PUT, COPY и GET. Кроме того, при возврате данных начисляется плата за каждый ГБ.

Класс хранилища Amazon S3 Glacier Flexible Retrieval

Открыть все

Хранилище класса гибкого извлечения данных Amazon S3 Glacier обеспечивает экономичное хранение, снижая затраты на 10 % (по сравнению с классом мгновенного извлечения данных Amazon S3 Glacier) для архивных данных, доступ к которым требуется 1–2 раза в год в асинхронном режиме, а также предлагает бесплатное пакетное извлечение. Класс хранилища гибкого извлечения данных S3 Glacier идеально подходит для архивных данных, к которым не требуется мгновенный доступ, но может потребоваться ситуативный доступ к огромным наборам данных без дополнительных затрат на их извлечение (например, для резервных копий и при аварийном восстановлении). Гибкое извлечение данных Amazon S3 Glacier предоставляет наиболее гибкий баланс между стоимостью и скоростью доступа, позволяя получать данные за несколько минут или за несколько часов в пакетном режиме. Это идеальное решение для резервного копирования, аварийного восстановления, хранения данных вне предприятия или для других данных, которые нужно иногда получать с задержкой в несколько минут и на хранение которых нет смысла тратить много средств. S3 Glacier Flexible Retrieval обеспечивает надежность хранения данных на уровне 11 девяток (99,999999999 %) и доступность на уровне 99,99 % за год благодаря использованию избыточного размещения в нескольких физически удаленных зонах доступности AWS.

Для архивных данных, не требующих немедленного доступа, но предполагающих возможность бесплатного извлечения больших объемов данных — например, в сценариях резервного копирования или аварийного восстановления, — S3 Glacier Flexible Retrieval является оптимальным классом хранилища. Гибкое извлечение данных Amazon S3 Glacier предоставляет наиболее гибкий баланс между стоимостью и скоростью доступа, позволяя получать данные за несколько минут или за несколько часов в пакетном режиме. Это оптимальное решение для резервного копирования, аварийного восстановления и внешнего хранения данных, а также для сценариев, в которых часть данных требуется время от времени получать в течение нескольких минут без дополнительных затрат на их извлечение.

Поместить данные в хранилище «Гибкое извлечение данных S3 Glacier» можно двумя способами. Можно непосредственно выполнить запрос PUT для записи в S3 Glacier Flexible Retrieval, указав в заголовке запроса x-amz-storage-class значение GLACIER. Можно также использовать правила жизненного цикла S3 для перемещения объектов из любых классов хранилища S3 для активных данных (S3 Standard, S3 Intelligent-Tiering, S3 Standard − IA, S3 One Zone − IA и S3 Glacier Instant Retrieval) в Amazon S3 Glacier Flexible Retrieval исходя из возраста объектов. Для непосредственного выполнения запроса PUT в Amazon S3 Glacier или создания правил архивирования используйте консоль управления Amazon S3, AWS SDK или API Amazon S3.

Примечание. Гибкое извлечение данных Amazon S3 Glacier также доступно через оригинальные прямые Glacier API и в консоли управления Amazon S3 Glacier. Для более широких возможностей и доступа к полному набору функций S3, включая управление жизненным циклом, репликацию S3, Объектив хранения данных Amazon S3 и многое другое, мы рекомендуем использовать API S3 и консоль управления S3.

Доступ к объектам, помещенным в архив гибкого извлечения данных S3 Glacier, осуществляется асинхронно. Для извлечения данных, сохраненных в S3 Glacier Flexible Retrieval, необходимо инициировать запрос на извлечение с помощью API Amazon S3 или консоли Amazon S3. В ходе запроса на извлечение создается временная копия данных в хранилище класса S3 Standard, при этом архивные данные в S3 Glacier Flexible Retrieval остаются неизменными. Временная копия будет храниться в Amazon S3 на протяжении указанного пользователем срока (в днях). После извлечения доступ к временной копии из Amazon S3 можно получить, выполнив запрос GET сервиса Amazon S3 к заархивированному объекту. В регионах AWS, где стоимость хранилища с пониженной избыточностью ниже стоимости S3 Standard, временно доступные данные оплачиваются как хранилище с пониженной избыточностью. Однако класс биллингового хранилища с пониженной избыточностью не отражает способ хранения данных. Благодаря уведомлениям о восстановлении теперь можно получать оповещение о событии S3, когда объект успешно восстанавливается из хранилища S3 Glacier Flexible Retrieval и вам становится доступна его временная копия. Владелец бакета (или другие лица, которым политикой IAM предоставлено соответствующее разрешение) может настроить отправку оповещений в Amazon Simple Queue Service (SQS) или Amazon Simple Notification Service (SNS). Уведомления также могут доставляться в AWS Lambda для обработки функцией Lambda.

Обрабатывая задание на извлечение данных, Amazon S3 сначала извлекает запрошенные данные из сервиса «Гибкое извлечение данных S3 Glacier», а затем создает временную копию запрашиваемых данных в Amazon S3. Обычно это занимает несколько минут. Время доступа к запрашиваемым данным зависит от выбранного пользователем варианта извлечения: ускоренное, стандартное или пакетное. При использовании ускоренного извлечения доступ к данным предоставляется обычно в течение 1–5 минут для любых объектов, кроме самых крупных (более 250 МБ). Извлечение объектов по стандартному варианту обычно занимает 3–5 часов. Стандартные операции извлечения при запуске с помощью пакетных операций S3 обычно начинаются через несколько минут. Пакетное извлечение выполняется бесплатно, как правило, за 5–12 часов. Подробнее об опциях S3 Glacier Flexible Retrieval см. раздел Восстановление архивированного объекта в руководстве пользователя S3.
С выделенными единицами емкости класса хранилища S3 Glacier можно внести фиксированный авансовый платеж за определенный месяц, чтобы обеспечить доступ к ресурсам для ускоренного извлечения из S3 Glacier Flexible Retrieval. Вы можете приобрести две единицы выделенной емкости в месяц, чтобы увеличить объем извлекаемых данных. Каждая единица ресурса гарантирует, что каждые пять минут можно выполнить минимум три ускоренных извлечения, и обеспечивает пропускную способность извлечения до 150 МБ/с. Если для вашей рабочей нагрузки требуется высоконадежный, быстрый и предсказуемый доступ к подмножеству данных, следует приобрести выделенные ресурсы извлечения. Без выделенных ресурсов в периоды высокого спроса могут не приниматься запросы на ускоренное извлечение. Если вам при любых обстоятельствах требуется доступ к ускоренному извлечению, мы рекомендуем приобрести выделенные ресурсы извлечения.
Выделенные ресурсы можно приобрести с помощью консоли Amazon S3, REST API для покупки выделенных ресурсов, пакеты AWS SDK или AWS CLI. Срок службы единиц выделенных ресурсов составляет один месяц, начиная с даты и времени покупки. Работа единицы заканчивается в дату окончания, которая наступает точно через месяц во время, аналогичное времени приобретения, и ни секундой больше. Подробные цены на выделенные ресурсы см. на странице цен Amazon S3.

Объем подлежащего оплате за месяц хранилища основан на среднем объеме хранилища, использованном на протяжении месяца и измеряемом в гигабайт-месяцах (ГБ-месяцах). Amazon S3 рассчитывает размер объектов как объем хранимых данных плюс дополнительные 32 КБ данных в S3 Glacier плюс дополнительные 8 КБ данных в хранилище класса Amazon S3 Standard. S3 Glacier Flexible Retrieval занимает дополнительно 32 КБ данных на каждый объект для своего индекса и метаданных, необходимых для идентификации и извлечения данных. Amazon S3 требует 8 КБ для хранения и поддержания определяемого пользователем имени и метаданных объектов, архивируемых в S3 Glacier Flexible Retrieval. С помощью API LIST сервиса Amazon S3 или отчета S3 Inventory можно получить актуальный список всех имен объектов Amazon S3 в режиме реального времени, в том числе объектов, размещенных в S3 Glacier Flexible Retrieval. Например, если вы заархивировали 100 000 объектов в 1 ГБ каждый, оплачиваемое хранилище было бы:
1,000032 гигабайта на каждый объект x 100 000 объектов = 100 003,2 гигабайта хранилища S3 Glacier.
0,000008 гигабайт на каждый объект x 100 000 объектов = 0,8 гигабайт хранилища S3 Standard.
Стоимость вычисляется на основе текущего тарифа для конкретного региона AWS, который можно узнать на странице цен на Amazon S3. Примеры расчета цен на Amazon S3 см. на странице вопросов и ответов по выставлению счетов за S3 или воспользуйтесь Калькулятором цен AWS.

Объекты, архивированные в сервисе «Гибкое извлечение данных Amazon S3 Glacier», хранятся там как минимум 90 дней. При удалении, перезаписи или перемещении объектов до истечения 90-дневного срока начисляется плата за хранение, пропорциональная количеству дней, оставшихся до этого минимального срока.

Для сервиса Гибкое извлечение данных S3 Glacier также нужны 40 КБ дополнительных метаданных для каждого архивированного объекта. В них входят 32 КБ метаданных, за которые взимается плата по тарифу на Гибкое извлечение данных S3 Glacier и которые нужны для идентификации и извлечения ваших данных. За остальные 8 КБ данных взимается плата по стандартному тарифу на S3. Они нужны, чтобы хранить определенное пользователем имя и метаданные для объектов, архивированных в сервисе Гибкое извлечение данных S3 Glacier. Это позволяет в реальном времени получать список всех объектов в S3 с помощью API S3 LIST или отчета S3 Inventory. Подробнее о ценах на сервис «Гибкое извлечение Amazon S3 Glacier» см. на странице цен на Amazon S3.

Существует три способа извлечения данных из хранилища «Гибкое извлечение данных S3 Glacier»: ускоренное, стандартное и пакетное. Для ускоренного и стандартного извлечения установлены тарифы за гигабайт извлекаемых данных и за запрос (т. е. вы платите за запросы к объектам Amazon S3). Плата за пакетное извлечение из S3 Glacier Flexible Retrieval не взимается. Подробную информацию о расценках S3 Glacier по регионам AWS см. на странице цен на Amazon S3.

Классы хранилища Amazon S3 Glacier предназначены специально для архивации данных и обеспечивают максимальную производительность, гибкость при извлечении и минимальную стоимость облачного архивного хранилища. Теперь вы можете выбрать любой из трех классов хранилища для архивов, оптимизированных под разные шаблоны доступа и длительность хранения. Для архивных данных, к которым может потребоваться мгновенный доступ (например, в случае с медицинскими изображениями, ресурсами новостных мультимедиа или данными геномных исследований) лучше выбрать архивный класс хранилища мгновенного извлечения данных Amazon S3 Glacier, который отличается минимальной стоимостью хранения и возможностью извлечения за несколько миллисекунд. Для архивных данных, к которым не требуется мгновенный доступ, но может потребоваться ситуативный доступ к огромным наборам данных без дополнительных затрат на их извлечение (например, для резервных копий и при аварийном восстановлении), лучше выбрать класс хранилища S3 Glacier Flexible Retrieval, который поддерживает извлечение за несколько минут для небольших объемов и за 5–12 часов для пакетов. Чтобы дополнительно сэкономить при длительном хранении архивных копий (например, для обеспечения соответствия требованиям или архивов цифровых СМИ), лучше выбрать класс хранилища глубокого архива Amazon S3 Glacier, который отличается минимальной стоимостью облачного хранилища и возможностью извлечения данных в пределах 12 часов.

Мы предпочитаем говорить об итоговых преимуществах для клиента в отношении производительности, надежности, доступности и безопасности. Однако клиенты часто задают нам этот вопрос. Мы используем ряд технологий, позволяющих нам предлагать клиентам текущие цены. Наши сервисы основаны на распространенных технологиях хранилищ данных. Они реализованы в специально спроектированных системах с оптимальными экономическими характеристиками и работают под управлением собственного программного обеспечения AWS. Максимальная эффективность доступа к классам хранилищ S3 Glacier достигается благодаря оптимизации последовательности ввода‑вывода.

Amazon S3 Glacier Deep Archive

Открыть все

S3 Glacier Deep Archive – это класс хранилища Amazon S3, позволяющий использовать надежное и безопасное объектное хранилище для долгосрочного хранения данных, доступ к которым осуществляется один‑два раза в год. S3 Glacier Deep Archive стоит от 0,00099 USD за гигабайт в месяц – менее одной десятой цента, или 1 USD за терабайт в месяц. S3 Glacier Deep Archive представляет собой самое дешевое хранилище в облаке. Сервис обходится существенно дешевле, чем хранение и обслуживание данных в локальных библиотеках магнитных лент или в удаленных архивах.

S3 Glacier Deep Archive — это оптимальный класс хранилища, обеспечивающий автономную защиту наиболее важных наборов данных вашей компании, или для случаев, когда требуется долгосрочное хранение данных в соответствии с корпоративными, договорными или нормативными требованиями. Клиенты считают S3 Glacier Deep Archive отличным выбором для защиты интеллектуальной собственности, финансовых и медицинских записей, результатов исследований, юридических документов, исследований по сейсморазведке и долгосрочных резервных копий, особенно в отраслях со строгими нормативными требованиями, таких как финансовые услуги, здравоохранение, нефтегазовый и государственный сектор. Кроме того, некоторым организации, например в сфере мультимедиа и развлечений, требуется сохранять резервную копию основной интеллектуальной собственности. Во многих случаях клиенты, использующие S3 Glacier Deep Archive, могут сократить использование или совсем отказаться от локальных библиотек магнитных лент и локальных служб ленточной архивации.

Глубокий архив S3 Glacier расширяет возможности архивирования данных, позволяя выбрать класс хранилища, оптимальный по стоимости хранения и извлечения данных, а также по времени извлечения. Если требуется быстрый миллисекундный доступ и недорогая архивация данных, выбирайте класс хранения мгновенного извлечения данных Amazon S3 Glacier. Для архивных данных, к которым не требуется мгновенный доступ, но может потребоваться ситуативный доступ к огромным наборам данных без дополнительных затрат на их извлечение (например, для резервных копий и при аварийном восстановлении), лучше выбрать класс хранилища гибкого извлечения данных Amazon S3 Glacier, который поддерживает извлечение за несколько минут для небольших объемов и за 5–12 часов для пакетов. Глубокий архив Amazon S3 Glacier, напротив, предназначен для данных, доступ к которым выполняется редко и с малой степенью вероятности, но для которых требуется долговременное и надежное хранение. Глубокий архив Amazon S3 Glacier на 75 % дешевле, чем Гибкое извлечение данных Amazon S3 Glacier, и при стандартной скорости извлечения обеспечивает извлечение в течение 12 часов. Стандартные операции извлечения обычно начинаются в течение 9 часов при запуске с помощью пакетных операций S3. Вы также можете сократить расходы на извлечение, выбрав опцию «Пакетное извлечение», которая предусматривает получение данных в течение 48 часов.

Самый простой способ хранения данных в глубоком архиве S3 Glacier — использование API S3 для прямой загрузки данных. Просто укажите «S3 Glacier Deep Archive» в качестве класса хранилища. Вы можете сделать это с помощью Консоли управления AWS, API REST сервиса S3, AWS SDK или интерфейса командной строки AWS. Также для начала работы с S3 Glacier Deep Archive можно создать политики переноса данных с помощью S3 Lifecycle, что позволяет определить жизненный цикл вашего объекта и снизить стоимость его хранения. Эти политики переноса объектов в S3 Glacier Deep Archive можно определить по срокам хранения объекта. Вы можете указать политику для всей корзины S3 или для конкретных префиксов. Стоимость переноса данных в рамках жизненного цикла определяется стоимостью загрузки S3 Glacier Deep Archive. Ленточный шлюз как облачная функция виртуальной ленточной библиотеки AWS Storage Gateway теперь интегрируется в S3 Glacier Deep Archive, позволяя хранить виртуальные долгосрочные резервные копии и ленточные архивы в S3 Glacier Deep Archive, обеспечивая самую низкую стоимость хранения данных в облаке. Для начала работы создайте новую виртуальную ленту с помощью консоли AWS Storage Gateway или API и в качестве цели архивного хранения укажите S3 Glacier Flexible Retrieval или S3 Glacier Deep Archive. Когда приложение резервного копирования извлекает ленту, она архивируется в выбранное целевое хранилище.

Есть несколько способов переноса данных из существующих ленточных архивов в глубокий архив S3 Glacier. Вы можете воспользоваться ленточным шлюзом AWS для интеграции с существующими приложениями резервного копирования через интерфейс виртуальной ленточной библиотеки (VTL). Этот интерфейс представляет виртуальные ленты для приложения резервного копирования. Их можно использовать для хранения данных в сервисах Amazon S3, Мгновенное извлечение данных S3 Glacier, Гибкое извлечение данных S3 Glacier и Глубокий архив S3 Glacier без дополнительной подготовки.
AWS Snowball также можно использовать для миграции данных. Snowball позволяет ускорить перенос данных в объеме нескольких терабайтов или петабайтов в среду AWS и из нее благодаря использованию безопасных физических устройств хранения для перемещения данных. Использование устройств Snowball решает распространенные проблемы, связанные с передачей больших объемов данных, такие как высокая стоимость передачи данных по сети, длительность передачи, а также обеспечение безопасности. И наконец, вы можете использовать сервис AWS Direct Connect для создания выделенного сетевого соединения между локальной сетью и платформой AWS. Как правило, Direct Connect позволяет снизить затраты, повысить пропускную способность и обеспечить более стабильную работу вашей сети по сравнению с подключением через Интернет.

Для извлечения данных, хранящихся в глубоком архиве S3 Glacier, необходимо инициировать запрос на восстановление с помощью интерфейсов API Amazon S3 или консоли управления Amazon S3. В ходе запроса на восстановление создается временная копия данных в хранилище класса S3 Standard, при этом архивные данные в S3 Glacier Deep Archive остаются неизменными. Временная копия будет храниться в S3 на протяжении указанного пользователем срока (в днях). После извлечения доступ к временной копии из Amazon S3 можно получить, выполнив запрос GET сервиса Amazon S3 к заархивированному объекту. При восстановлении заархивированного объекта вы можете указать один из следующих параметров в элементе Tier в тексте запроса: уровень по умолчанию Standard позволяет получить доступ к любому из заархивированных объектов в течение 12 часов, а извлечение обычно начинается в течение 9 часов при запуске с помощью Пакетных операций Amazon S3. Пакетные операции позволяют недорого извлекать большие объемы данных, вплоть до петабайтов. Обычно это занимает 48 часов.

Стоимость хранения данных в глубоком архиве S3 Glacier зависит от объема данных в ГБ, от количества запросов PUT и запросов на изменение жизненного цикла, от объема извлеченных данных в ГБ и от количества запросов на восстановление. Эта модель ценообразования схожа с моделью гибкого извлечения данных Amazon S3 Glacier. Общую информацию о ценах на глубокий архив Amazon S3 Glacier см. на странице цен на Amazon S3.

Данные о затратах и использовании глубокого архива S3 Glacier будут отображаться как отдельная позиция в вашем ежемесячном счете за обслуживание AWS, отдельно от оплаты за использование Amazon S3. Однако если вы используете инструмент управления затратами на AWS, оплата за использование глубокого архива S3 Glacier в подробных ежемесячных отчетах о расходах будет включена в раздел «Затраты и использование Amazon S3», а не выделена в отдельную позицию.

Архивированные объекты хранятся в глубоком архиве S3 Glacier не менее 180 дней. При удалении, перезаписи или перемещении объектов до истечения 180-дневного срока начисляется плата за хранение, пропорциональная количеству дней, оставшихся до этого минимального срока. Для сервиса Глубокий архив S3 Glacier также нужны 40 КБ дополнительных метаданных для каждого архивированного объекта. В них входят 32 КБ метаданных, за которые взимается плата по тарифу на гибкое извлечение данных S3 Glacier и которые нужны для идентификации и извлечения ваших данных. За остальные 8 КБ данных взимается плата по стандартному тарифу на S3. Они нужны, чтобы хранить определенное пользователем имя и метаданные для объектов, архивированных в сервисе Глубокий архив S3 Glacier. Это позволяет в реальном времени получать список всех объектов в S3 с помощью API S3 LIST или отчета Инвентаризации S3. Информацию о ценах на глубокий архив S3 Glacier см. на странице цен на Amazon S3.

Глубокий архив S3 Glacier интегрирован с возможностями Amazon S3, включая назначение тегов объектам S3, политики управления жизненным циклом S3, блокировку объектов S3 и репликацию в S3. Благодаря возможностям управления хранилищем S3 можно использовать одну корзину Amazon S3 для хранения комбинации данных S3 Glacier Deep Archive, S3 Standard, S3 Standard – IA, S3 One Zone – IA и S3 Glacier Flexible Retrieval. Это позволяет администраторам хранилищ принимать решения на основании характера данных и шаблонов доступа к ним. Клиенты могут использовать политики управления жизненным циклом Amazon S3 для автоматического переноса данных в более дешевые классы хранилищ по мере старения данных или на основании политики внутрирегиональной или межрегиональной репликации S3 для репликации данных в тот же или другой регион. Сервис AWS Storage Gateway объединяет ленточный шлюз с классом хранилища S3 Glacier Deep Archive, позволяя хранить виртуальные ленты в хранилище класса Amazon S3 с наименьшими затратами, что на 75 % снижает ежемесячные расходы на долговременное хранение данных в облаке. С помощью этой функции ленточный шлюз поддерживает архивирование ваших новых виртуальных лент непосредственно в S3 Glacier Flexible Retrieval и S3 Glacier Deep Archive, помогая выполнять требования к резервному копированию, архивированию и восстановлению. Ленточный шлюз помогает перенести резервные ленточные копии в AWS без каких-либо изменений в существующих рабочих процессах резервного копирования. Ленточный шлюз поддерживает большинство ведущих приложений резервного копирования, таких как Veritas, Veeam, Commvault, Dell EMC NetWorker, IBM Spectrum Protect (в ОС Windows) и Microsoft Data Protection Manager.

S3 на базе Outposts

Открыть все

Amazon S3 on Outposts предоставляет возможности хранения объектов в вашей локальной среде с помощью API S3 и современных возможностей AWS. AWS Outposts – это полностью управляемый сервис, который делает инфраструктуру, сервисы, API и инструменты AWS доступными практически для любого центра обработки данных, колокационного центра или локального объекта. При использовании S3 on Outposts вы можете безопасно обрабатывать и хранить созданные на локальной основе данные клиентов, а затем перемещать их в регион AWS, предоставлять локальный доступ для приложений или хранить данные в своем экземпляре Outpost для компаний, расположенных в местах со специфическими требованиями к размещению данных и (или) относящихся к отраслям с повышенными требованиями к безопасности. Для получения дополнительной информации о S3 on Outposts посетите обзорную страницу.

Управление хранилищем

Открыть все

Теги объектов S3 — это пары «ключ-значение», назначаемые объектам S3. Эти пары можно создавать, изменять и удалять в любое время в течение жизненного цикла объекта. С их помощью можно создавать политики управления идентификацией и доступом AWS (IAM), настраивать политики жизненного цикла Amazon S3, а также настраивать метрики хранилища. Эти теги на уровне объектов могут затем использоваться для управления перемещением данных между хранилищами разных классов и управления объектами, срок действия которых истекает, в фоновом режиме. Теги можно добавлять для новых объектов (во время их загрузки) или для существующих объектов. Для каждого объекта S3 можно добавить до десяти тегов, при этом для добавления тегов объектов можно использовать консоль управления AWS, обработку запросов на основе передачи состояния, интерфейс командной строки AWS или AWS SDK.
Дополнительную информацию см. в руководстве пользователя по работе с тегами объектов S3.

Теги объектов – это инструмент, который упрощает управление хранилищем S3. Благодаря наличию возможности создавать, обновлять и удалять теги в любое время в течение всего жизненного цикла объекта можно адаптировать хранилище к любым потребностям бизнеса. С помощью этих тегов можно контролировать доступ к объектам, которым присвоены определенные пары «ключ-значение», что позволяет обеспечить дополнительную защиту конфиденциальных данных, предоставив к ним доступ только выбранной группе или пользователю. С помощью тегов объектов можно также помечать объекты, которые относятся к определенному проекту или бизнес-подразделению. Эти теги можно использовать вместе с политиками жизненного цикла S3 для управления переносом в хранилища других классов (S3 Standard-IA, S3 One Zone-IA, Amazon S3 Glacier Instant Retrieval, Amazon S3 Glacier Flexible Retrieval и Amazon S3 Glacier Deep Archive) или для выборочной репликации S3 между регионами AWS.

Теги объектов можно изменять в любое время в течение всего жизненного цикла объекта S3. Для изменения тегов объектов можно использовать консоль управления AWS, обработку запросов на основе передачи состояния, интерфейс командной строки AWS или AWS SDK. Учтите, что все изменения тегов, которые выполняются без использования консоли управления AWS, выполняются над полным набором тегов. Если у определенного объекта есть пять тегов и необходимо добавить шестой, в запрос следует включить исходные пять тегов.

Плата за теги объектов начисляется по количеству тегов и запросов для их добавления. Плата за запросы, связанные с добавлением и обновлением тегов объектов, взимается по существующим тарифам на запросы. Дополнительную информацию см. на странице цен на Amazon S3.

Чтобы выявить редко запрашиваемые данные, которые можно перенести в хранилище класса S3 стандарт-IA, S3 для одной зоны-IA либо заархивировать в классах хранилища S3 Glacier, можно воспользоваться консолью управления AWS или API PUT Bucket Analytics сервиса S3 для настройки политик Storage Class Analysis. Для управления метриками Storage Class Analysis, сервисом «Инвентаризация S3» и CloudWatch необходимо перейти на вкладку Management (Управление) в консоли S3.

S3 Metadata Amazon следует использовать, если вы хотите с помощью SQL выполнять запросы к информации об объектах S3, чтобы быстро находить нужные наборы данных для генеративного ИИ, аналитики и других сценариев использования. S3 Metadata поддерживает актуальность метаданных практически в режиме реального времени, благодаря чему можно использовать любой клиент с поддержкой Iceberg для выполнения SQL-запросов и поиска объектов по их метаданным. Например, с помощью SQL-запроса можно получить список объектов, соответствующих определенным условиям, например объектов, добавленных за последние 30 дней, в любых бакетах.

Сервис «Метаданные S3» предназначен для автоматического создания метаданных, содержащих дополнительную информацию об объектах, загружаемых в бакет, и обеспечения возможности запроса этих метаданных в таблице, доступной только для чтения. Таблицы метаданных хранятся в таблицах Amazon S3, разработанных на основе Apache Iceberg и обеспечивающих управляемый способ хранения и запроса табличных данных в S3. Сервис «Метаданные S3» создает и обрабатывает метаданные системного уровня (такие как размер объекта), настраиваемые метаданные (такие как теги и метаданные, определенные пользователем во время загрузки объекта), а также метаданные событий (такие как IP-адрес, отправивший запрос). По мере изменения данных в бакете метаданные S3 обновляются почти в реальном времени, отражая последние изменения. Вы можно запрашивать таблицы метаданных с помощью различных сервисов аналитики и инструментов с открытым исходным кодом AWS, совместимых с Iceberg, включая Amazon Athena, Amazon QuickSight и Apache Spark.

Чтобы начать работу с сервисом метаданных S3, достаточно нескольких щелчков мышью в консоли управления S3. Просто выберите бакет S3 общего назначения, в котором вы хотите включить метаданные S3. S3 проанализирует данные в бакете и создаст полностью управляемую таблицу Apache Iceberg, содержащую метаданные для всех ваших объектов. Через несколько минут вы можете начать запрашивать метаданные с помощью любого механизма запросов или инструмента, поддерживающего Apache Iceberg.

Таблицы метаданных S3 хранятся в бакете управляемых таблиц AWS в вашем аккаунте AWS под названием aws-s3. Ваши таблицы будут доступны только для чтения, и только S3 будет иметь разрешение на запись, обновление или удаление метаданных.

S3 Metadata хранит метаданные в двух управляемых таблицах в вашем аккаунте: таблицах журналов и таблицах текущих запасов.

В таблице журнала S3 Metadata представлены изменения, внесенные в бакет. По мере добавления, обновления и удаления объектов в ваших бакетах S3 общего назначения соответствующие изменения практически в режиме реального времени отражаются в таблицах журналов. Таблицы журналов полезны для понимания поведения приложений и выявления любых изменений, внесенных в наборы данных. Например, можно писать SQL-запросы к таблицам журнала, чтобы найти объекты S3, соответствующие фильтру, например объекты, добавленные за последние 30 дней, объекты, добавленные активными отправителями запросов, или объектов, метаданные которых изменялись в течение последней недели.

Таблица живой инвентаризации S3 Metadata содержит полный список всех объектов в вашем бакете. Таблицы инвентаризации в реальном времени обновляются каждый час и содержат всю известную S3 информацию о ваших объектах. Таблицы инвентаризации в реальном времени полезны для обнаружения или идентификации наборов данных в бакете на основе характеристик, созданных в метаданных объекта. Например, таблицы инвентаризации в реальном времени можно использовать для определения наборов данных для машинного обучения, для использования в упражнениях по оптимизации затрат на хранение или для обеспечения контроля управления.

При добавлении новых объектов в бакет записи в таблице журнала появятся уже через несколько минут, а в таблице инвентаризации записи обновляются каждый час. Когда вы включите сервис «Метаданные S3» для существующего бакета, S3 автоматически запустит операцию заполнения для создания метаданных для всех существующих объектов. Заполнение обычно занимает несколько минут, но может занять несколько часов, если существующие наборы данных содержат миллионы или миллиарды объектов S3.

Да. Можно создавать собственные таблицы Iceberg в бакетах, содержащих настраиваемые метаданные, а затем объединять их с таблицами, генерируемыми сервисом метаданных S3, с помощью простых SQL-запросов.

Отчет S3 Inventory предоставляет альтернативу синхронному API Amazon S3 List, позволяющую выполнять задачи по расписанию. Можно настроить S3 Inventory для предоставления выходных данных объектов и соответствующих им метаданных корзины S3 или префикса в формате CSV, ORC или Parquet на ежедневной или еженедельной основе. С помощью S3 Inventory можно упростить и ускорить рабочие бизнес-процессы и задачи обработки больших данных. S3 Inventory можно также использовать для проверки состояния шифрования и репликации объектов на предмет соответствия требованиям бизнеса и применимых нормативных актов. Подробнее см. в руководстве пользователя по Инвентаризации Amazon S3.

С помощью консоли управления AWS или вызова API PUT Bucket Inventory Configuration можно настроить создание ежедневного или еженедельного отчета по инвентаризации всех объектов в бакете S3 или набора объектов с общим префиксом. При настройке можно указать корзину S3 для сохранения отчета S3 Inventory, формат выходных файлов (CSV, ORC или Parquet), а также определенные метаданные объектов, актуальные для конкретного бизнес-приложения, такие как имя объекта, размер, дата последнего изменения, класс хранилища, идентификатор версии, маркер удаления, метка устаревшей версии, метка многокомпонентной загрузки, состояние репликации или шифрования. S3 Inventory можно использовать для прямой передачи данных в рабочие процессы приложений или в задания по обработке больших данных. Можно также делать запросы к S3 Inventory с использованием стандартного языка SQL с помощью Amazon Athena, Amazon Redshift Spectrum или других инструментов, например Presto, Hive и Spark. Подробнее см. в руководстве пользователя Инвентаризации Amazon S3.

Цены на сервис «Инвентаризация S3» см. на странице цен на Amazon S3. После настройки шифрования с помощью шифрования на стороне сервера KMS будет взиматься плата за шифрование по тарифам сервиса KMS; подробнее см. на странице цен на KMS.

S3 Batch Operations – это функция, с помощью которой можно автоматизировать выполнение одной операции (например, копирования объекта или выполнения функции AWS Lambda) со многими объектами. С помощью S3 Batch Operations можно путем нескольких нажатий в консоли S3 или одного запроса API внести изменение в миллиарды объектов; при этом не потребуется писать собственный код приложения или запускать вычислительные кластеры для управления хранилищами. Инструмент S3 Batch Operations не только позволяет управлять работой хранилища для множества различных объектов, он также осуществляет повторные попытки, отображает ход выполнения операций, доставляет оповещения, создает отчет о выполнении и отправляет события в AWS CloudTrail для всех операций, проведенных над целевыми объектами. S3 Batch Operations можно использовать из консоли S3 либо с помощью AWS CLI и SDK. Подробнее см. на странице S3 Batch Operations или в руководстве пользователя.

Начать работу с пакетными операциями S3 можно, используя консоль Amazon S3, интерфейс командной строки AWS (AWS CLI) или пакет средств разработки ПО AWS (SDK) для создания первого задания в сервисе «Пакетные операции S3». Задание S3 Batch Operations состоит из списка объектов, над которыми требуется провести операцию, и типа проводимой операции (см. полный список доступных операций). Начните с выбора отчета S3 Inventory или составления собственного списка объектов для выполнения операций S3 Batch Operations. Отчет S3 Inventory – файл со списком всех объектов, хранящихся в корзине S3 или имеющих определенный префикс. Затем выберите в перечне операций S3, поддерживаемых S3 Batch Operations, нужные вам действия, например замену наборов тегов, изменение ACL, копирование хранилища из одной корзины в другую или инициацию восстановления из S3 Glacier Flexible Retrieval в хранилище класса S3 Standard. Затем можно настроить созданные задания S3 Batch Operations с помощью определенных параметров, таких как значения тегов, участники списка ACL и срок восстановления. Для дополнительной настройки действий хранилища под свои потребности можно написать собственную функцию Lambda и вызывать этот код через S3 Batch Operations. Когда задание S3 Batch Operations будет создано, S3 Batch Operations обработает список объектов и отправит задание в состояние "ожидание подтверждения", если в этом будет необходимость. После подтверждения сведений задания S3 Batch Operations начнет выполнение указанной операции. Ход выполнения задания можно просматривать программным образом или через консоль S3, можно получать оповещения о выполнении и просматривать отчет о выполнении, в котором приводятся подробные сведения об изменениях в хранилище.
Чтобы больше узнать о пакетных операциях S3, посмотрите обучающие видео и изучите документацию.

Для клиентов из сферы финансовых услуг Блокировка объектов S3 обеспечивает дополнительную поддержку брокерской и дилерской деятельности, поскольку эти компании обязаны хранить записи в нестираемом и неперезаписываемом формате в соответствии с нормативными требованиями Правила Комиссии по ценным бумагам и биржам 17a-4(f), Правила Агентства по регулированию деятельности финансовых институтов 4511 или Норматива Комиссии по торговле товарными фьючерсами 1.31. Вы легко можете указать необходимое время хранения записей, чтобы хранить нужные архивы в оригинальной форме в течение указанного срока, а также хранить определенные данные для судебных нужд в течение неограниченного периода (пока соответствующее требование не будет снято).

Отправьте регулятору или выбранному вами уполномоченному контролирующему органу (DEA) оповещение о намерении использовать сервис Amazon S3 в качестве электронного хранилища, а также экземпляр оценки компании Cohasset. В рамках этих требований AWS не является уполномоченной третьей стороной (D3P). Обязательно выберите D3P и укажите эту информацию в оповещении для своего DEA.

Можно использовать Консоль управления AWS для включения ежеминутных метрик запросов CloudWatch для бакета S3 или настройки фильтров для метрик на основании префикса, тега объекта или точки доступа. Кроме того, можно выполнить вызов API PUT Bucket Metrics сервиса S3, чтобы включить и настроить публикацию метрик хранилища S3. Метрики CloudWatch для запросов появятся в CloudWatch через 15 минут после включения. Метрики CloudWatch для запросов по умолчанию выключены для всех корзин, а отчет по ним составляется один раз в день. Подробнее о метриках CloudWatch для Amazon S3

С помощью CloudWatch вы можете задать пороговые значения для всех результатов подсчета, таймеров или рейтингов метрик хранилища с выполнением определенного действия при превышении порогового значения. Например, можно установить пороговое значение, выраженное в процентах, для ответов, содержащих информацию об ошибке с кодом 4xx, и когда значения хотя бы трех точек данных превысят пороговое значение, CloudWatch выдаст предупреждение ответственному специалисту DevOps.

Метрики CloudWatch для хранилища предоставляются бесплатно. Плата за запросы к метрикам CloudWatch начисляется по тарифам для пользовательских метрик Amazon CloudWatch. Общую информацию о ценах на метрики CloudWatch для S3 см. на странице цен на Amazon CloudWatch.

Функция управления жизненным циклом сервиса S3 предоставляет возможность определить жизненный цикл вашего объекта посредством предопределенной политики и уменьшить стоимость его хранения. Можно настроить политику жизненного цикла для автоматического переноса объектов, размещенных в хранилище класса S3 Standard, в хранилища S3 Standard-IA, S3 One Zone-IA, и/или S3 Glacier в зависимости от срока существования данных. Можно также настроить политики окончания жизненного цикла для автоматического удаления объектов на основе срока их хранения. Можно настроить политику окончания срока многокомпонентной загрузки, прекращающую незавершенные многокомпонентные загрузки на основании их продолжительности. Дополнительную информацию см. в руководстве пользователя по управлению жизненным циклом S3.

Создавать политики жизненного цикла и управлять ими можно с помощью Консоли управления AWS, обработки запросов на основе передачи состояния S3, AWS SDK или интерфейса командной строки AWS. Вы можете определить политику на уровне префикса или бакета.

С помощью политик жизненного цикла Amazon S3 можно настроить миграцию объектов из хранилища класса S3 стандартный в хранилище S3 стандартный-IA, S3 One Zone-IA и/или их архивацию в хранилища классов «Мгновенное извлечение данных S3 Glacier», «Гибкое извлечение данных S3 Glacier» и «Глубокий архив S3 Glacier».

Дополнительно можно задать политику жизненного цикла S3 для удаления объектов по истечении определенного периода времени. С помощью такой определяемой правилами автоматизации можно быстро и легко понизить затраты на хранилище, а также сэкономить время. В каждом правиле можно указать префикс, промежуток времени, перенос в хранилище S3 Standard – IA, S3 One Zone – IA, S3 Glacier Instant Retrieval, S3 Glacier Flexible Retrieval, S3 Glacier Deep Archive, а также окончание срока хранения. Например, можно создать правило, архивирующее в S3 Glacier Flexible Retrieval все объекты с общим префиксом "logs/" через 30 дней после их создания и прекращающее хранение этих объектов после 365 дней с момента их создания.

Можно создать отдельное правило, прекращающее хранение всех объектов с префиксом backups/ через 90 дней с момента их создания. Политики жизненного цикла S3 применяются как к существующим, так и к новым объектам S3, обеспечивая оптимизацию хранилища и максимальную экономию при размещении любых данных в S3 без затрат времени на проверку и перемещение данных вручную.

В рамках правила управления жизненным циклом объектов поле префикса определяет объекты, к которым правило применяется. Для того чтобы применить правило к отдельному объекту, необходимо указать имя ключа. Для того чтобы применить правило к набору объектов, необходимо указать их общий префикс (например, “logs/”). Для удаления объектов можно указать действие переноса (архивацию объектов или окончание срока действия). Укажите время: конкретную дату (например, 31 января 2015 года) или количество дней с момента создания (например, 30 дней), по истечении которого следует выполнять архивацию или удаление объектов. Можно создать несколько правил для разных префиксов.

За настройку и использование политик управления жизненным циклом плата не взимается. Плата за выполнение запроса на перенос объектов начисляется по количеству объектов, которые начинают соответствовать критериям переноса, указанным в правилах жизненного цикла. Подробную информацию о ценах см. на странице цен на Amazon S3.

Политика жизненного цикла S3, прекращающая незавершенные многокомпонентные загрузки, позволяет сократить расходы за счет ограничения времени хранения данных, загруженных в результате таких многокомпонентных загрузок. Например, если приложение загружает несколько частей многокомпонентного объекта и не подтверждает их запись, плата за хранение этих компонентов все-таки будет взиматься. Соответствующая политика позволяет сократить расходы на хранилище S3 за счет удаления незавершенных многокомпонентных загрузок и связанных с ними данных через определенное количество дней. Подробную информацию об использовании Жизненного цикла S3 для прекращения срока действия незавершенных многокомпонентных загрузок см. на этой странице.

Да, оповещения о событиях Amazon S3 можно настроить так, чтобы получать уведомления, когда жизненный цикл S3 перемещает или удаляет объекты. Например, при удалении или перемещении объектов жизненного цикла S3 в другой класс хранения, можно отправлять оповещения о событиях S3 теме Amazon SNS, очереди Amazon SQS или функции AWS Lambda.

Статистика и аналитика хранения данных

Открыть все

С помощью функции Объектив хранения данных S3 пользователь может получить наглядное представление об использовании объектного хранилища, тенденциях активности в масштабах организации, а также практические рекомендации по оптимизации расходов и применению передовых методов защиты данных. S3 Storage Class Analysis позволяет отслеживать шаблоны доступа к объектам, благодаря чему вы можете принять решение о переносе данных в хранилище подходящего класса для оптимизации расходов. Затем эти сведения можно использовать для настройки политики жизненного цикла S3, которая регулирует перенос данных. Amazon S3 Inventory предоставляет отчет об объектах и соответствующих им метаданных корзины S3 или префикса на ежедневной или еженедельной основе. Этот отчет можно использовать для обеспечения потребностям компании, соответствия требованиям и нормативным стандартам путем проверки состояния шифрования и репликации объектов.

С помощью функции Объектив хранения данных Amazon S3 пользователь может получить наглядное представление об использовании объектного хранилища, тенденциях активности в масштабах организации, а также практические рекомендации по оптимизации расходов и применению передовых методов защиты данных. Storage Lens – это интерактивная панель управления, которая обеспечивает наглядное представление об использовании объектного хранилища и активности в десятках или сотнях аккаунтов в вашей организации (с надлежащей детализацией для получения информации на нескольких уровнях агрегирования). Среди метрик доступны такие: байты, количество объектов и запросов, а также метрики, детализирующие использование функций S3, например количество зашифрованных объектов и количество правил определения жизненного цикла S3. S3 Storage Lens также предоставляет ситуативные рекомендации относительно снижения затрат на хранение и применения передовых методов защиты данных в десятках или сотнях аккаунтов и корзин. Бесплатные метрики S3 Storage Lens по умолчанию предлагаются всем пользователям Amazon S3. Если вы хотите повысить эффективность S3 Storage Lens, можно использовать дополнительные метрики и рекомендации. Дополнительную информацию см. в руководстве пользователя по Объективу хранения данных Amazon S3.

Объектив хранения данных S3 ежедневно собирает метрики использования хранилища и активности. Эти метрики можно просмотреть на интерактивной панели управления в Объективе хранения данных S3 или экспортировать в файл формата CSV или Parquet. По умолчанию создается панель управления на уровне аккаунта, но вы также можете создавать дополнительные пользовательские панели. Панели управления Объектива хранения данных Amazon S3 можно привязать к вашей организации AWS или конкретными учетным записям, регионам, сегментам или даже уровням префикса (при использовании дополнительных метрик Объектива хранения данных Amazon S3). Можно также использовать группы Объектива хранения данных Amazon S3 для агрегирования метрик с помощью настраиваемых фильтров на основе метаданных объекта, таких как тег, размер и возраст объекта. Во время настройки панели управления можно применять набор метрик по умолчанию либо выполнить обновление, чтобы за отдельную плату получить 35 дополнительных метрик и расширенные рекомендации на уровне префиксов. Кроме того, на панели управления Объектива хранения данных S3 отображаются ситуативные рекомендации с метриками хранилища. Вы можете оптимизировать свое хранилище на основе этих данных.

С помощью панели управления в Объективе хранения данных S3 можно ответить на четыре основных вопроса о вашем хранилище. С помощью фильтра «Сводные данные» можно получить ответы на вопросы, касающиеся общего использования хранилища и тенденций активности. Например: «Насколько быстро увеличивается общее количество байтов, использованных мной, и количество запросов?» С помощью фильтра «Оптимизация затрат» можно получить ответы на вопросы, касающиеся сокращения расходов на хранение данных. Например: «Могу ли я сократить расходы, сохраняя меньше устаревших версий?» С помощью фильтров «Защита данных» и «Управление доступом» можно получить ответы на вопросы о безопасности данных. Например: «Защищены ли данные в моем хранилище от случайного или намеренного удаления?» Наконец, с помощью фильтров «Производительность» и «События» можно получить ответы на вопросы, касающиеся повышения производительности рабочих процессов. Каждый из этих вопросов является первым слоем запроса, который, вероятно, приведет к более детальному анализу.

Объектив хранения данных S3 содержит более 60 метрик, которые делятся на бесплатные и дополнительные (предлагаются за отдельную плату). По умолчанию вы получаете бесплатные метрики для анализа объема использования (на основе ежедневного отслеживания ваших объектов), которые охватывают категории оптимизации затрат, защиты данных, управления доступом, контроля производительности и событий. Дополнительные метрики связаны с анализом активности (например, количества запросов), более глубокой оптимизацией затрат (например, количество правил определения жизненного цикла S3), расширенной защитой данных (например, количество правил репликации S3) и подробными кодами состояния (например, обработка ошибок 403). Кроме того, соединив между собой несколько основных метрик, можно получить производные метрики. Например: метрику скорости извлечения данных можно рассчитать, разделив количество загруженных байтов на общий объем хранилища. Список метрик см. в документации об Объективе хранения данных S3.

По умолчанию панель управления настраивается для всего аккаунта, но вы можете создавать дополнительные пользовательские панели для всей организации в AWS, конкретного региона или бакетов в аккаунте. Можно создавать несколько пользовательских панелей управления. Это полезно, если вам нужно разделить анализ хранилища на логические сегменты, например сегментирование на корзины, которые представляют разные внутренние команды. По умолчанию в вашей панели управления используются бесплатные метрики Объектива хранения данных Amazon S3, но вы также можете повысить уровень и получить усовершенствованные метрики и рекомендации Объектива хранения данных Amazon S3 (за отдельную плату). Дополнительные метрики Объектива хранения данных Amazon S3 делятся на 7 групп: метрики анализа активности, метрики расширенной оптимизации затрат, метрики расширенной защиты данных, метрики подробных кодов состояния, агрегирование префиксов, публикация CloudWatch и агрегирование Объектива хранения данных Amazon S3. Помимо этого, для каждой панели управления вы можете настроить экспорт метрик, указав целевой бакет и тип шифрования.

Бесплатные метрики Объектива хранения данных, отображаемые на интерактивной панели управления, включают исторические данные за 14 дней, тогда как дополнительные метрики (предоставляемые за отдельную плату) – за 15 месяцев. Для дополнительного экспорта метрик можно настроить любой срок хранения. Взимается плата за стандартное хранилище S3.

В Объективе хранения данных S3 доступно два уровня метрик. Бесплатные метрики активируются по умолчанию и доступны для всех клиентов S3, и за них не взимается дополнительная плата. Сведения о ценах на усовершенствованные метрики и рекомендации в S3 Storage Lens доступны на странице с ценами на S3. Вы получаете 28 бесплатных метрик Объектива хранения данных Amazon S3 на уровне корзины и можете просматривать исторические данные за 14 дней на панели управления. Также предлагаются 35 дополнительных метрик и расширенные рекомендации Объектива хранения данных Amazon S3, открывающие возможности агрегирования на уровне префикса, поддержки метрик CloudWatch, настраиваемой фильтрации метаданных объектов с помощью групп и получения доступа к историческим данным за 15 месяцев на панели управления.

Инвентаризация Amazon S3 предоставляет список ваших объектов и соответствующие им метаданные бакета S3 или общего префикса, которые можно использовать для выполнения анализа вашего хранилища на уровне объекта. Объектив хранения данных Amazon S3 предоставляет метрики, сгруппированные по уровням организации, аккаунта, региона, класса хранилища, бакета, префикса и групповых уровнях Объектива хранения данных Amazon S3, которые повышают наглядность состояния вашего хранилища на всех уровнях организации.

S3 Storage Class Analysis предоставляет рекомендации относительно оптимального класса хранилища путем создания возрастных групп объектов на основе шаблонов доступа на уровне объекта в конкретных бакете / префиксе / теге за прошедшие 30–90 дней. Объектив хранения данных Amazon S3 предоставляет ежедневные рекомендации на уровне организации относительно повышения рентабельности и применения передовых методов защиты данных, а также дополнительные более подробные рекомендации на уровнях учетной записи, региона, класса хранилища, корзины, групп Объектива хранения данных Amazon S3 и префикса (при наличии дополнительных метрик Объектива хранения данных Amazon S3). Вы также можете использовать специальные фильтры с группами Объектива хранения данных Amazon S3 для визуализации хранилища с учетом возраста объекта и разработки стратегии архивирования хранилища.

С помощью Storage Class Analysis можно проанализировать картину доступа к хранилищу для выбора его оптимального класса. Эта возможность S3 автоматически выявляет данные, к которым редко обращаются, и помогает перенести их в хранилище S3 Standard – IA. Политика Storage Class Analysis позволяет выполнять мониторинг всей корзины либо объектов с определенным префиксом/тегом. После выявления данных, к которым редко обращаются, можно просто создать новую политику S3 для управления жизненным циклом объектов на основании полученных результатов. Storage Class Analysis также обеспечивает ежедневное визуальное представление данных об использовании хранилища в Консоли управления AWS. Кроме того, соответствующие данные можно экспортировать в корзину S3 для последующего анализа с помощью удобных инструментов бизнес-аналитики, например Amazon QuickSight. Подробную информацию о возможностях S3 Storage Class Analysis и начале использования см. в руководстве пользователя.

Данные Storage Class Analysis в консоли управления S3 обновляются ежедневно, но первые рекомендации по смене класса хранилища предоставляются через 30 дней.

Запросы к данным без извлечения

Открыть все

Amazon S3 предоставляет клиентам возможность запуска сложных запросов к хранящимся данным без необходимости их перемещения на отдельную аналитическую платформу. Возможность выполнения запроса к данным без извлечения в Amazon S3 может существенно повысить производительность и снизить стоимость аналитических решений, использующих S3 в качестве озера данных. S3 предлагает разнообразные варианты выполнения запросов к данным без извлечения, в том числе посредством Amazon Athena и Amazon Redshift Spectrum. Можно выбрать вариант, который лучше всего подходит для конкретного примера использования.

Существует несколько способов запроса данных в S3, которые можно выбрать в зависимости от конкретного варианта использования. Можно использовать фильтрацию на стороне клиента, чтобы загрузить объект Amazon S3 в свой вычислительный компьютер AWS и отфильтровать содержимое с помощью библиотек анализа данных в клиентском приложении. Например, в приложении Python, которое запрашивает объекты Parquet в Amazon S3, можно использовать Amazon S3 GET API для загрузки объекта и фильтрации содержимого с помощью библиотеки Pandas. Можно применить Amazon Athena для обработки нескольких объектов S3 в одном запросе или даже выполнить операции объединения и использовать оконные функции для запросов объектов S3. Можно использовать S3 Object Lambda, добавляя свой собственный код в запросы S3 GET для фильтрации данных по мере их возврата в приложение. Если вы хотите добавлять преобразования при фильтрации данных, можно применить S3 Object Lambda. Прочтите публикацию в , чтобы узнать больше об этих методах запроса данных в Amazon S3.

Amazon Athena – это сервис интерактивных запросов, позволяющий анализировать данные в Amazon S3 с помощью стандартных SQL-запросов. Athena – бессерверный сервис, здесь нет инфраструктуры, требующей настройки или управления, поэтому можно сразу же приступить к анализу данных. Не нужно даже загружать данные в Athena, поскольку сервис работает непосредственно с данными, размещенными в хранилище S3 любого класса. Чтобы начать, просто войдите в Консоль управления Athena, задайте свою схему и приступайте к выполнению запросов. Сервис Amazon Athena использует Presto с полной поддержкой стандартных запросов SQL и работает с различными стандартными форматами данных, включая CSV, JSON, ORC и Apache Parquet и Avro. Athena идеально подходит для быстрого выполнения спонтанных запросов, просто интегрируется с Amazon QuickSight, обеспечивая удобную визуализацию, а также может выполнять сложные задачи анализа с использованием масштабных операций объединения, оконных функций и массивов.

Amazon Redshift Spectrum – это возможность сервиса Amazon Redshift, которая позволяет выполнять запросы к эксабайтам неструктурированных данных в Amazon S3 без загрузки или выполнения ETL-операций. При отправке запроса он поступает на SQL-сервер Amazon Redshift, который генерирует и оптимизирует план запроса. Amazon Redshift определяет, какие данные являются локальными, а какие находятся в Amazon S3, генерирует план минимизации объема данных Amazon S3, которые необходимо прочитать, и запрашивает исполнителей Amazon Redshift Spectrum из общего пула ресурсов, чтобы прочитать и обработать данные из Amazon S3. Redshift Spectrum при необходимости масштабируется до тысяч инстансов, поэтому запросы выполняются быстро при любых объемах данных. Теперь можно использовать для данных Amazon S3 тот же синтаксис SQL, что и для запросов Amazon Redshift, и подключаться к тому же адресу Amazon Redshift, используя привычные инструменты бизнес-аналитики. Redshift Spectrum позволяет разделить вычислительные ресурсы и хранилища и масштабировать их независимо друг от друга. Можно настроить необходимое количество кластеров Amazon Redshift, чтобы выполнять запросы к озеру данных Amazon S3, обеспечивая высокую доступность и неограниченную параллельную обработку. С Redshift Spectrum можно хранить данные где угодно и в каком угодно формате, при этом они всегда будут под рукой для обработки.

Репликация

Открыть все

Репликация Amazon S3 позволяет выполнять автоматическое асинхронное копирование объектов в корзинах Amazon S3. Корзины, для которых настроена репликация объектов, могут принадлежать как к одному, так и к разным аккаунтам AWS. Можно реплицировать новые объекты, записанные в корзину, в одну или несколько целевых корзин в разных регионах AWS (межрегиональная репликация в S3) или в пределах одного региона (внутрирегиональная репликация в S3). Также можно реплицировать существующее содержимое корзины (пакетная репликация S3), включая существующие и реплицированные из другого источника объекты, а также объекты, которые не удалось реплицировать ранее. Дополнительную информацию см. в руководстве по репликации S3.

Межрегиональная репликация (CRR) – это возможность Amazon S3, которая осуществляет автоматическую репликацию данных между корзинами в разных регионах AWS. Межрегиональная репликация позволяет с помощью тегов объектов S3 настроить репликацию на уровне корзин, общих префиксов или объектов. CRR позволяет предоставить доступ к данным с низкой задержкой в разных географических регионах. Межрегиональная репликация также полезна в тех случаях, когда для соблюдения правовых норм копии данных требуется хранить в сотнях километров друг от друга. Межрегиональную репликацию можно использовать для передачи владения реплицированными данными в другой аккаунт, чтобы предотвратить их случайное удаление. Подробнее см. в руководстве пользователя S3 CRR.

Внутрирегиональная репликация (SRR) – это возможность Amazon S3, которая осуществляет автоматическую репликацию данных между корзинами в одном регионе AWS. SRR позволяет с помощью тегов объектов S3 настроить репликацию на уровне корзин, общих префиксов или объектов. Внутрирегиональную репликацию можно использовать для создания одной или нескольких копий данных в том же регионе AWS. Внутрирегиональная репликация решает такие проблемы, как обеспечение суверенитета данных и соответствия требованиям, позволяя хранить копию данных в отдельном аккаунте AWS, но в том же регионе, что и оригинал. Внутрирегиональную репликацию можно использовать для изменения аккаунта-владельца реплицированных данных, чтобы предотвратить их случайное удаление. Кроме того, можно использовать SRR для простой агрегации журналов из разных корзин S3 в целях обработки в пределах региона или для настройки репликации в режиме реального времени между средами тестирования и разработки. Подробнее см. в руководстве пользователя S3 SRR.

Пакетная репликация S3 реплицирует существующие объекты между корзинами. Пакетную репликацию S3 можно использовать для заполнения новой корзины существующими объектами, повторной попытки неудавшейся ранее репликации объектов, переноса данных между аккаунтами или добавления новых хранилищ в озеро данных. Работу с пакетной репликацией S3 можно начать всего за несколько кликов в консоли S3 или с помощью одного запроса API. Подробнее см. в руководстве пользователя по пакетной репликации S3.

Репликация Amazon S3 (CRR и SRR) настраивается с помощью объектов S3 на уровне бакетов, общих префиксов или объектов. Чтобы добавить конфигурацию репликации для исходной корзины, необходимо задать целевую корзину для репликации в том же или другом регионе AWS. Для включения репликации можно использовать консоль S3, API, AWS CLI, AWS SDK или AWS CloudFormation. Управление версиями при использовании репликации должно быть включено и в исходной, и в целевой корзине. Подробнее см. в обзоре настройки репликации S3 в документации по Amazon S3.

Сперва необходимо включить репликацию S3 на уровне бакета. Подробнее см. в предыдущем вопросе. Затем можно запустить задание пакетной репликации S3 в консоли S3 после создания конфигурации новой репликации, изменения назначения в правиле репликации на странице конфигурации репликации или со страницы создания заданий пакетных операций S3. Дополнительно, задание пакетной репликации S3 можно запустить через AWS CLI или пакеты SDK. Подробнее см. на странице репликации S3 в документации по Amazon S3.

При использовании репликации в S3 можно создавать правила для копирования объектов в хранилище другого класса в том же или другом регионе. Действия в рамках жизненного цикла не реплицируются. Если вы хотите применить к исходной и целевой корзинам одинаковые конфигурации жизненного цикла, включите одну и ту же конфигурацию для обеих корзин. Например, можно настроить правило управления жизненным циклом для миграции данных из хранилища класса S3 Standard в хранилище класса S3 Standard – IA или S3 One Zone – IA либо для архивации данных в классы хранилищ S3 Glacier в целевой корзине. Если для целевой корзины настроен жизненный цикл S3, то мы рекомендуем отключить правила жизненного цикла на время выполнения задания пакетной репликации, чтобы обеспечить согласованность между актуальными и устаревшими версиями объектов в исходной и целевой коризнах.

Подробнее о конфигурации жизненного цикла и репликации см. в документации по репликации S3.

Да. Репликация S3 позволяет клиентам реплицировать их данные в несколько целевых корзин в том же или разных регионах AWS. Во время настройки нужно просто указать новую целевую корзину в существующей конфигурации репликации иди создать новую конфигурацию репликацию с несколькими целевыми корзинами. Для каждого нового назначения можно выбирать класс хранилища целевой корзины, тип шифрования, метрики репликации и уведомления, контроль времени репликации (RTC), а также другие свойства.

Можно ли использовать репликацию S3 для настройки двусторонней репликации между бакетами S3?

Да, можно настроить CRR или SRR между разными аккаунтами AWS, чтобы хранить реплицированные данные в другом аккаунте в целевом регионе. Чтобы назначить разных владельцев для исходных и целевых данных, а также предоставить право собственности на реплицированное хранилище целевому аккаунту, можно установить перезапись владельца в конфигурации репликации.

Репликация тегов объектов между регионами AWS может выполняться при использовании межрегиональной репликации. Клиентам с включенной межрегиональной репликацией для репликации тегов требуются новые разрешения. Дополнительные сведения о настройке межрегиональной репликации см. в разделе «Настройка межрегиональной репликации» документации Amazon S3.

Да. Маркеры удаления можно реплицировать из исходного бакета в целевой, если в конфигурации репликации включена репликация маркеров удаления. При репликации маркеров удаления Amazon S3 функционирует так, как если бы объект был удален в обеих корзинах. Включить репликацию маркера удаления можно как для нового, так и для существующего правила. Репликацию маркера удаления можно применить ко всей корзине или к объектам Amazon S3 со специфическим префиксом, используя правила репликации на основе префиксов. Репликация Amazon S3 не поддерживает репликацию маркеров удаления для правил репликации на основе тегов объектов. Подробнее о включении репликации маркеров удаления см. в статье, посвященной репликации маркеров удаления из одного бакета в другую.

Нет. Репликация Amazon S3 недоступна между регионами AWS в Китае и регионами AWS за пределами Китая. Репликация доступна только в пределах регионов в Китае.

Да. Для репликации существующих объектов между корзинами можно использовать пакетную репликацию S3. Подробнее см. в руководстве пользователя S3.

Да. Для повторной репликации объектов после неудачной попытки можно использовать пакетную репликацию S3. Подробнее см. в руководстве пользователя S3.

Репликация S3 поддерживает все типы шифрования, которые предлагает S3. S3 предлагает как шифрование на стороне сервера, так и шифрование на стороне клиента – в первом случае S3 запрашивает шифрование объектов для вас, а во втором – вы сами шифруете данные на стороне клиента перед их загрузкой в S3. Для шифрования на стороне сервера S3 предлагает шифрование на стороне сервера с помощью ключей, управляемых Amazon S3 (SSE-S3), шифрование на стороне сервера с помощью ключей KMS, хранящихся в Сервисе управления ключами AWS (SSE-KMS), и шифрование на стороне сервера с помощью ключей, предоставленных клиентом (SSE-C). Для получения более подробной информации об этих типах шифрования и о том, как они работают, посетите эту страницу.

С помощью репликации S3 можно настроить репликацию между аккаунтами, в которой исходные и целевые корзины принадлежат разным аккаунтам AWS. При использовании репликации S3 с клиентов взимается плата не только за хранилище S3 и соответствующее извлечение, но и за репликацию запросов PUT и передачу данных между регионами ИЗ S3 в ваш регион назначения. Если в настройках репликации включен контроль времени репликации S3 (S3 RTC), то отобразятся другие, характерные для S3 RTC, тарифы на репликацию запросов PUT и передачу данных между регионами. При репликации между учетными записями оплата за передачу данных (S3 RTC и S3 CRR) взимается с аккаунта источника, а для учетной записи назначения начисляется оплата за запросы на репликацию. Плата за передачу данных взимается только за репликацию между регионами S3 (S3 CRR) и контроль времени репликации S3 (S3 RTC), а за передачу данных репликации S3 в пределах одного региона (S3 SRR) оплата не начисляется. При использовании пакетной репликации S3 между аккаунтами плата будет взиматься за пакетные операции S3 в дополнение к расходам на отправку запросов PUT и исходящую передачу данных (обратите внимание, что S3 RTC не применяется к пакетной репликации). В стоимость пакетных операций входит плата за задания и объекты, которая рассчитывается исходя из количества заданий и обработанных объектов. Кроме того, при использовании сгенерированного в Amazon S3 манифеста плата за него будет взиматься в зависимости от количества объектов в исходной корзине.

Подробную информацию о ценах на репликацию S3 см. на странице цен на Amazon S3.

Контроль времени репликации Amazon S3 обеспечивает предсказуемую продуктивность репликации и способствует обеспечению соответствия нормативным или производственным требованиям. Благодаря контролю времени репликации в Amazon S3 большинство объектов копируется за считаные секунды. За 15 минут будет скопировано 99,99 % объектов. Контроль времени репликации в Amazon S3 регулируется Соглашением об уровне обслуживания (SLA), по условиям которого в течение любого расчетного месяца 99,9 % объектов реплицируются за 15 минут в каждой паре регионов репликации. Контроль времени работает со всеми возможностями репликации в S3. Подробнее см. в документации по репликации.

Контроль времени репликации Amazon S3 включается как параметр для каждого правила репликации. Можно создать новую политику репликации в S3 с контролем времени репликации или включить эту возможность в существующей политике. Для настройки репликации можно использовать консоль S3, API, AWS CLI, AWS SDK или AWS CloudFormation. Подробнее см. в обзоре настройки репликации в руководстве Amazon S3 для разработчиков.

Да, вы можете включить Контроль времени репликации Amazon S3 для репликации данных внутри и между регионами AWS Китай (Нинся) и Китай (Пекин).

Репликация Amazon S3 предоставляет четыре подробных метрики в консоли Amazon S3 и Amazon CloudWatch: ожидающие операции, количество байтов в ожидании, задержка репликации и неудачная репликация операций. С помощью этих метрик можно отслеживать общее количество операций и размер объектов, ожидающих репликации, задержку репликации между исходной и целевой корзинами и количество операций, которые не были успешно реплицированы по каждому правилу репликации. Кроме того, можно настроить уведомления о событиях Amazon S3 типа s3:Replication для получения дополнительной информации об объектах, которые не удалось реплицировать, и причинах сбоев. Мы рекомендуем использовать причины сбоев репликации Amazon S3 для быстрой диагностики ошибок и их устранения перед повторной репликацией неисправных объектов с помощью S3 Batch Replication. Наконец, если применяется контроль времени репликации в S3, вы также будете получать уведомления события S3 о том, что на репликацию объекта требуется более 15 минут, а также об успешном завершения репликации этого объекта в целевое расположение.

Метрики и события репликации Amazon S3 можно включить для каждого нового или существующего правила репликации. Метрики и события репликации применяются по умолчанию к правилам с включенным контролем времени репликации S3. Метрики репликации в S3 доступны в консоли Amazon S3, а также в Amazon CloudWatch. Как и другие события Amazon S3, события репликации в S3 доступны через простой сервис очередей Amazon (Amazon SQS), простой сервис уведомлений Amazon (Amazon SNS) или AWS Lambda. Подробнее см. в разделе руководства Amazon S3 для разработчиков, посвященном мониторингу репликации с помощью метрик и оповещений о событиях Amazon S3.

Для отслеживания хода пакетной репликации S3 нельзя использовать такие метрики, как количество отложенных байтов, отложенные операции и задержка репликации. Однако метрику неудачной репликации операций можно использовать для мониторинга существующих объектов, которые не удалось успешно реплицировать с помощью пакетной репликации S3. Кроме того, вы также можете использовать отчеты о завершении пакетных операций S3 для отслеживания объектов, реплицируемых с помощью пакетной репликации S3.

Контроль времени репликации Amazon S3 обеспечивает репликацию 99,99 % объектов в течение 15 минут. Это обязательство закреплено в соглашении об уровне обслуживания. Если в течение 15 минут будет реплицировано менее 99,9 % объектов в каждой паре регионов репликации в течение расчетного месяца, согласно SLA S3 RTC клиенту будут предоставлены кредиты на обслуживание за любой объект, репликация которого занимает более 15 минут. Кредиты на обслуживание покрывают определенную долю всех затрат, связанных с репликацией объектов, которая была выполнена с нарушением SLA. К таким затратам относятся плата за контроль времени репликации, израсходованная на репликацию пропускная способность, плата за запросы, а также расходы на хранение реплики в целевом регионе в течение затронутого расчетного месяца. Подробнее см. на странице SLA о контроле времени репликации Amazon S3.

При использовании репликации S3 (межрегиональной репликации и репликации в рамках региона) взимается плата по тарифам сервиса S3 за хранение в выбранном целевом классе хранилища S3, стоимость хранения основной копии и запросов PUT при репликации, а также применимая плата за извлечение из хранилищ для редко используемых данных. При использовании межрегиональной репликации также оплачивается передача ИСХОДЯЩИХ данных S3 в регион назначения. За метрики репликации S3 взимается такая же плата, как и за пользовательские метрики Amazon CloudWatch. Более того, используя контроль времени репликации S3, вы также платите за передачу данных контроля времени репликации. Подробную информацию см. на странице цен на Amazon S3. Если исходный объект загружается с использованием функции многокомпонентной загрузки, то он реплицируется с тем же количеством частей того же размера. Например, за объект размером 100 ГБ, загруженный с использованием многокомпонентной загрузки (800 частей по 128 МБ каждая), при репликации взимается плата как за 802 запроса (800 запросов на загрузку частей + 1 запрос на начало многокомпонентной загрузки + 1 запрос на окончание многокомпонентной загрузки). Будет взиматься плата за запросы в размере 0,00401 USD (802 запроса x 0,005 USD / 1000 запросов) и плата в размере 2 USD (0,020 USD за переданный гигабайт x 100 ГБ) за межрегиональную передачу данных, если репликация выполняется между разными регионами AWS. По окончании репликации взимается плата за хранение 100 ГБ данных по тарифам целевого региона.

Точки доступа Amazon S3 для нескольких регионов повышают производительность на 60 % при доступе к наборам данных, которые реплицируются в нескольких регионах AWS. Точки доступа S3 для нескольких регионов, основанные на Международном ускорителе AWS, учитывают такие факторы, как перегрузка сети и местоположение запрашивающего приложения, чтобы динамически направлять ваши запросы по сети AWS к копии ваших данных с наименьшей задержкой. Такая автоматическая маршрутизация позволяет использовать преимущества глобальной инфраструктуры AWS, сохраняя при этом простую архитектуру приложений.

Точки доступа S3 для нескольких регионов ускоряют и упрощают хранение ваших мультирегиональных приложений. За счет динамической маршрутизации запросов S3 к реплицированному набору данных точки доступа S3 для нескольких регионов сокращают задержку запросов, благодаря чему приложения работают до 60 % быстрее. Многорегиональные точки доступа S3 также помогают создавать отказоустойчивые приложения в нескольких регионах и с несколькими аккаунтами, которые лучше защищены от случайного или несанкционированного удаления данных. Кроме того, вы можете воспользоваться преимуществами глобальной инфраструктуры AWS, сохранив при этом простую регионально-независимую архитектуру ваших приложений.

Точки доступа для нескольких регионов динамически направляют клиентские запросы в одну или несколько базовых бакетов S3. Вы можете настроить свою точку доступа для нескольких регионов для маршрутизации через одну корзину на каждый регион AWS, но не более чем в 17 регионах AWS. Когда вы создаете точку доступа для нескольких регионов, S3 автоматически генерирует совместимое имя DNS. Это имя используется как глобальный адрес, который могут использовать ваши клиенты. Когда ваши клиенты делают запросы на этот адрес, S3 динамически направляет эти запросы в одну из базовых корзин, указанных в конфигурации вашей точки доступа для нескольких регионов. Интернет-запросы направляются в глобальную сеть AWS, чтобы избежать перегруженности сетевых сегментов в Интернете, что уменьшает задержку в сети и джиттер, одновременно улучшая производительность. На основе Международного ускорителя AWS приложения, которые получают доступ к S3 через Интернет, могут получить дополнительное повышение производительности до 60 % благодаря точкам доступа S3 для нескольких регионов. Чтобы напрямую управлять этой маршрутизацией, можно использовать точки доступа S3 для нескольких регионов в конфигурации «активная-активная» или «активная-пассивная». В конфигурации «активная-пассивная» вы можете использовать элементы управления отказоустойчивостью точек доступа S3 для нескольких регионов, чтобы в течение нескольких минут инициировать отказоустойчивость для переключения трафика запросов доступа к данным S3 на выбранный альтернативный регион или в аккаунт AWS.
В конфигурации «активная-активная» точки доступа S3 для нескольких регионов учитывают такие факторы, как перегрузка сети и местоположение запрашивающего приложения, чтобы динамически направлять ваши запросы по сети AWS к ближайшей копии ваших данных. Точки доступа S3 для нескольких регионов направляют запросы через ближайшую к клиенту точку AWS, а затем через глобальную частную сеть AWS к S3. В любой конфигурации точки доступа S3 для нескольких регионов позволяют использовать преимущества глобальной инфраструктуры AWS, сохраняя при этом простую архитектуру приложений.

S3 CRR и точки доступа S3 для нескольких регионов – это взаимодополняющие функции, которые работают вместе для репликации данных в регионах AWS, а затем для автоматической маршрутизации запросов к реплицированной копии с минимальной задержкой. Точки доступа S3 для нескольких регионов помогают управлять запросами в регионах AWS, а CRR позволяет перемещать данные по регионам AWS для создания изолированных реплик. Используя точки доступа S3 для нескольких регионов и CRR вместе, вы создаете реплицированный набор данных для нескольких регионов, доступный для одного глобального адреса.

Когда вы используете точку доступа S3 для нескольких регионов для маршрутизации запросов в AWS, вы вносите небольшую плату за маршрутизацию данных за каждый обработанный ГБ, а также оплачиваете стандартные сборы за запросы S3, хранение, передачу данных и репликацию. Если ваше приложение работает за пределами AWS и подключается к S3 через Интернет, точки доступа S3 для нескольких регионов повышают производительность за счет автоматической маршрутизации ваших запросов через периферийное местоположение AWS и глобальную частную сеть AWS к ближайшей копии ваших данных в зависимости от задержки доступа. Когда вы ускоряете запросы, сделанные через Интернет, вы платите за маршрутизацию данных и за ускорение Интернета. Цены на ускорение Интернета для точек доступа S3 для нескольких регионов зависят от того, находится ли исходный клиент в том же или другом месте, что и целевой регион AWS, и дополняют стандартные цены на передачу данных S3. В стоимость использования средств управления отказоустойчивостью точек доступа S3 для нескольких регионов входит только стоимость использования API S3 при просмотре текущего состояния управления маршрутизацией каждого региона и при внесении изменений в управление маршрутизацией для инициации отказоустойчивости. Дополнительную информацию о ценах см. на странице цен на Amazon S3 и на вкладке «Передача данных».

Да, базовые бакеты многорегиональной точки доступа S3 можно настроить как бакеты с параметром «Оплата отправителем запроса». При использовании этого параметра запрашивающая сторона оплачивает все расходы, связанные с использованием адреса, включая затраты на запросы и передачу данных, связанные как с корзиной, так и с многорегиональной точкой доступа. Как правило, вы предпочитаете настроить свои корзины с параметром «Оплата отправителем запроса», если вам нужно обмениваться данными, но не нести расходы, связанные с доступом других к данным. Как правило, владельцы корзин платят за все хранилище Amazon S3, связанное с корзиной. Чтобы узнать больше, перейдите на страницу S3 с настройкой Requester Pays.

Точки доступа S3 для нескольких регионов и ускорение переноса данных S3 обеспечивают аналогичные преимущества в производительности. Вы можете использовать S3 Transfer Acceleration для ускорения передачи содержимого на Amazon S3 и обратно с помощью глобальной сети AWS. S3 Transfer Accelerator поможет ускорить передачу больших объектов на большие расстояния в одну корзину Amazon S3 и обратно. С помощью точек доступа S3 для нескольких регионов вы можете выполнять аналогичные ускоренные передачи с использованием глобальной сети AWS, но через множество корзин S3 в нескольких регионах AWS для запросов к S3 и из S3 через Интернет, VPC и в локальных сетях. Если дополнить точки доступа S3 для нескольких регионов перекрестной репликацией S3, они смогут динамически направлять запросы к копии данных с наименьшей задержкой для приложений от клиентов, находящихся в нескольких местах.

Консоль S3 обеспечивает простой управляемый рабочий процесс, позволяющий быстро настроить все необходимое для работы хранилища для нескольких регионов на S3 всего за три простых шага. Во-первых, создайте конечную точку доступа Amazon S3 для нескольких регионов и укажите регионы AWS, между которыми необходимо осуществлять репликацию и обеспечить отказоустойчивость. Вы можете добавить корзины из нескольких аккаунтов AWS в новую многорегиональную точку доступа S3, введя идентификаторы аккаунтов, которым принадлежали корзины на момент создания. Во-вторых, для каждого региона AWS и корзины S3 за адресом доступа S3 для нескольких регионов следует указать, каким является их статус маршрутизации – активным или пассивным, при этом активные регионы AWS будут принимать трафик запросов данных S3, а пассивные регионы не будут маршрутизироваться до тех пор, пока вы не инициируете процесс отказоустойчивости. В-третьих, настройте правила межрегиональной репликации S3 для синхронизации данных в S3 между регионами и аккаунтами. Затем вы можете в любое время в течение считанных минут инициировать процесс отказоустойчивости между регионами AWS, чтобы перенести запросы данных S3 и отслеживать перемещение трафика S3 в новый активный регион AWS в Amazon CloudWatch. Кроме того, вы можете использовать AWS CloudFormation для автоматизации конфигурации многорегионального хранилища. Все компоненты, необходимые для настройки многорегионального хранилища на S3, включая точки доступа S3 для нескольких регионов, поддерживаются CloudFormation, что позволяет автоматизировать повторяемый процесс настройки вне консоли S3.

Обработка данных

Открыть все

Функция S3 Object Lambda дает возможность добавлять собственный код в запросы S3 GET, LIST и HEAD для изменения и обработки данных, возвращенных в приложение. Вы можете применить пользовательский код для изменения данных, возвращаемых запросами S3 GET, для фильтрации строк, динамического изменения размера изображений, удаления конфиденциальных данных и многого другого. Вы также можете использовать S3 Object Lambda для изменения результатов запросов S3 LIST, чтобы создать пользовательское представления объектов в корзине и запросы S3 HEAD с целью изменения метаданных объекта, таких как его имя и размер. S3 Object Lambda позволяет легко соблюдать специфические требования любого приложения касательно формата данных без необходимости строить дополнительную инфраструктуру и управлять ею (например, уровень прокси) или создавать и обслуживать множество производных копий данных. В S3 Object Lambda автоматическая обработка выходных данных стандартного запроса S3 GET, LIST и HEAD осуществляется с помощью функций AWS Lambda. AWS Lambda – это бессерверный вычислительный сервис, выполняющий заданный пользователем код без необходимости управления базовыми вычислительными ресурсами. Чтобы начать настройку функции Lambda и прикрепить ее к точке доступа к сервису S3 Object Lambda, достаточно нескольких щелчков мышью в консоли управления AWS. С этого момента S3 будет автоматически взывать функцию Lambda для обработки любых данных, полученных через адрес S3 Object Lambda, а приложение будет получать преобразованный результат. Вы сможете создавать и выполнять собственные пользовательские функции Lambda, адаптируя процесс преобразования данных Объект Lambda в Amazon S3 к требованиям конкретного примера использования. Для начала работы с функцией S3 Object Lambda используйте консоль управления S3, SDK или API. Подробнее см. на странице S3 Object Lambda или в руководстве пользователя S3 Object Lambda.

Использовать S3 Object Lambda следует, если вы хотите обрабатывать данные в запросе S3 GET, LIST или HEAD. S3 Object Lambda дает возможность совместного использования одного экземпляра данных в нескольких приложениях, избегая необходимости создавать и использовать настраиваемую инфраструктуру обработки или хранить производные копии данных. Например, с помощью функции S3 Object Lambda для обработки запросов S3 GET можно маскировать конфиденциальные данные для обеспечения соответствия, реструктурировать необработанные данные для их совместимости с приложениями машинного обучения, фильтровать данные для ограничения доступа к определенному контенту в пределах объекта S3 или для решения задач широкого спектра дополнительных примеров использования. Вы можете использовать S3 Object Lambda для расширения списков объектов путем опроса внешнего индекса, который содержит дополнительные метаданные объектов, применяют к спискам объектов фильтры и маски, чтобы оставить в них только объекты с определенным тегом или добавляют расширение файла ко всем именам объектов в ваших списках. Например, если у вас есть корзина S3 с несколькими дискретными наборами данных, то вы можете воспользоваться S3 Object Lambda для фильтрации ответа S3 LIST в зависимости от отправителя запроса. Для настройки S3 Object Lambda достаточно нескольких щелчков мышью в консоли управления Amazon S3. Подробную информацию см. в руководстве пользователя.

В объекте Lambda в S3 обработка выходных данных стандартного запроса GET, LIST и HEAD осуществляется с помощью функций Lambda. Определив функцию Lambda для обработки запрошенных данных, эту функцию можно прикрепить к точке доступа S3 Object Lambda. Стандартные запросы S3 GET, LIST и HEAD, отправленные через точку доступа S3 Object Lambda, теперь будут вызывать определенную функцию Lambda. Затем с помощью функции Lambda запрашиваемый клиентом объект S3 будет получен и обработан. После завершения обработки функция Lambda вернет обработанный объект вызывающему клиенту. Подробнее читайте в руководстве пользователя объекта Lambda в S3.

Есть несколько способов настроить S3 Object Lambda. S3 Object Lambda можно настроить в консоли S3, перейдя во вкладку «Точка доступа Object Lambda». Затем создайте точку доступа S3 Object Lambda, функцию Lambda, которую должен будет выполнять сервис S3 на основании запросов GET, LIST и HEAD, и поддерживающую точку доступа S3. Выдайте всем ресурсам разрешения на взаимодействие с Object Lambda. В-третьих, обновите SDK и приложение, чтобы начать использовать новую точку доступа Объекта Lambda в S3 для получения данных из S3 с помощью выбранного вами языка SDK. При выполнении запросов можно использовать псевдоним точки доступа Объекта Lambda в S3. Псевдонимы точек доступа Объекта Lambda в S3 генерируются автоматически и взаимозаменяемы с именами корзин S3 для данных, доступ к которым осуществляется через Объект Lambda в S3. Для существующих точек доступа Объекта Lambda в S3 псевдонимы назначаются автоматически и готовы к использованию. В документации AWS приведены примеры реализации функции Lambda, которые помогут вам начать работу. С помощью AWS CloudFormation можно также автоматизировать настройку Объекта Lambda в S3. При использовании шаблона AWS CloudFormation функция Lambda, развернутая в вашем аккаунте, вернет объекты S3 запрашивающему клиенту или приложению без каких-либо изменений. Вы можете добавить пользовательский код, чтобы изменять и обрабатывать данные, возвращаемые в приложение. Подробности об Объекте Lambda в S3 см. в руководстве пользователя.

Любые операции, поддерживаемые функцией Lambda, также будут поддерживаться функцией S3 Object Lambda. Это делает доступными широкий спектр параметров для обработки запросов. Вы указываете собственную функцию Lambda для выполнения пользовательских вычислений по запросам GET, LIST и HEAD, что предоставляет гибкие возможности для обработки данных в соответствии с требованиями приложения. Время обработки с помощью функции Lambda не превышает 60 секунд. Подробнее см. в документации по S3 Object Lambda.

S3 Object Lambda поддерживает запросы типа GET, LIST и HEAD. Все остальные вызовы S3 API, отправленные к точке доступа S3 Object Lambda, будут возвращать стандартный ответ S3 API. Подробную информацию о функции S3 Object Lambda см. в руководстве пользователя.

В случае сбоя в работе функции S3 Object Lambda вы получите ответ на запрос с подробным описанием сбоя. Как и в случае с другими вызовами функций Lambda, AWS также отслеживает функции от вашего имени и отправляет метрики через Amazon CloudWatch. Чтобы упростить процесс устранения сбоев, в Lambda ведется журнал всех запросов, обработанных вашей функцией, и с помощью журналов Amazon CloudWatch автоматически сохраняются журналы, сгенерированные вашим кодом. Подробную информацию о доступе к журналам CloudWatch для AWS Lambda см. в документации CloudWatch.

S3 Object Lambda подключает Amazon S3, AWS Lambda и другие сервисы AWS (необязательно) на ваш выбор для доставки объектов, соответствующих запрашивающим приложениям. Все сервисы AWS, используемые вместе с S3 Object Lambda, подчиняются положениям соответствующих соглашений об уровне обслуживания (SLA). Например, в случае если какой-либо сервис AWS не выполняет свои обязательства в соответствии с соглашением об уровне обслуживания, вы имеете право на получение компенсации по этому соглашению, которое указано в этом SLA. Создание точки доступа S3 Object Lambda никоим образом не влияет на надежность объектов. Тем не менее функция S3 Object Lambda будет вызывать конкретную функцию AWS Lambda, поэтому необходимо гарантировать соответствие этой функции Lambda и ее правильность. См. последнюю версию SLA для Amazon S3 здесь.

При использовании объекта Lambda S3 вы платите за каждый ГБ данных, возвращаемых вам через объект Lambda S3. Также с вас взимается плата за запросы в зависимости от их типа (GET, LIST и HEAD) и плата за время, которое заняли вычисления с использованием функции AWS Lambda для обработки запрошенных данных. Подробную информацию о ценах см. на странице цен на S3.

Доступ к данным

Открыть все

Mountpoint для Amazon S3 – это файловый клиент с открытым исходным кодом, который можно использовать для монтирования корзины S3 на вычислительном инстансе и доступа к ней как к локальной файловой системе. Mountpoint для Amazon S3 преобразует операции локальной файловой системы в вызовы REST API для объектов, хранящихся в Amazon S3. С помощью Mountpoint для Amazon S3 можно достичь высокой пропускной способности одного инстанса и ускорить выполнение заданий. Mountpoint для Amazon S3 обслуживается поддержкой AWS. Клиенты, имеющие доступ к Корпоративной поддержке AWS, получают круглосуточную техническую поддержку от инженеров поддержки Amazon и рекомендации по архитектуре в контексте их вариантов использования. Mountpoint для Amazon S3 работает с операционной системой Linux и вычислительными сервисами AWS, такими как Эластичное вычислительное облако Amazon (Amazon EC2). Узнайте больше на странице Mountpoint для Amazon S3 или в руководстве пользователя.

Mountpoint для Amazon S3 идеально подходит для рабочих нагрузок озера данных с большим объемом чтения, которые обрабатывают петабайты данных с помощью операций случайного и последовательного чтения существующих файлов и операций последовательной записи для создания новых файлов. Эти рабочие нагрузки записывают данные с одного узла и не изменяют существующие данные в Amazon S3. Распространенные варианты использования включают моделирование автономных транспортных средств в масштабе петабайтов, машинное обучение, анализ геномики и рендеринг изображений. Эти рабочие нагрузки быстро масштабируются вертикально и горизонтально и полагаются на эластичность Amazon S3, позволяющую минимизировать недоиспользуемую емкость и избежать расходов на избыточное выделение пропускной способности. С помощью Mountpoint для Amazon S3 можно сократить расходы на вычисления за счет эффективного использования пропускной способности сети вычислительных инстансов, а также надежно масштабировать до тысяч вычислительных инстансов для рабочих нагрузок озера данных петабайтного масштаба.

Mountpoint для Amazon S3 поддерживает базовые операции с файловой системой, такие как чтение файлов размером до 5 ТБ, запись новых файлов, составление списка существующих файлов, создание и перечисление каталогов. Mountpoint для Amazon S3 не поддерживает изменение существующих файлов или удаление существующих каталогов. Благодаря этим операциям Mountpoint для Amazon S3 идеально подходит для приложений, которые читают и записывают данные с высокой пропускной способностью в озерах данных Amazon S3. Этот сервис не подходит для приложений, требующих совместной работы и координации между несколькими вычислительными инстансами или пользователями. Этим приложениям обычно требуются функции общей файловой системы, такие как добавление к существующим файлам и блокировка файлов. Amazon FSx для Lustre можно использовать для приложений озер данных, которым требуется семантика POSIX и функции общей файловой системы.

Начать работу с Mountpoint для Amazon S3 можно, подключив бакет S3 в локальном каталоге вычислительного инстанса, следуя инструкциям, приведенным в документации. Как только вы смонтируете корзину S3 в локальном каталоге, ваши приложения смогут обращаться к объектам S3 в виде файлов, доступных локально на их вычислительном инстансе. Mountpoint для Amazon S3 поддерживает операции последовательного и произвольного чтения существующих объектов Amazon S3 и поддерживает последовательную запись новых объектов. Дополнительные сведения о поддерживаемых операциях с файловой системой см. в документации по семантике Mountpoint для Amazon S3. Вы можете использовать Mountpoint для Amazon S3 для доступа к объектам во всех классах хранилища S3, за исключением объектов гибкого извлечения данных Amazon S3 Glacier, глубокого архива Amazon S3 Glacier и объектов уровней доступа к архивам и доступа к глубокому архиву в сервисе интеллектуального многоуровневого хранения Amazon S3.

Дополнительная плата за использование Mountpoint для Amazon S3 не взимается. Вы платите за запросы API S3, такие как запросы GET, PUT и LIST, сделанные Mountpoint для Amazon S3 при выполнении операций файловой системы, например чтение файлов, запись файлов и составление списка каталогов. Чтобы узнать цены на S3, посетите страницу с ценами.

Mountpoint для Amazon S3 обеспечивает ту же производительность, что и AWS SDK. Это означает, что приложения озер данных достигают высокой скорости передачи данных на одном инстансе, эффективно используя доступную пропускную способность сети на своем инстансе Amazon EC2. Чтобы достичь еще большей пропускной способности, эти приложения могут агрегировать пропускную способность нескольких инстансов до нескольких Тбит/с.

При использовании Mountpoint для Amazon S3 вы можете управлять доступом к своим данным с помощью существующих механизмов контроля доступа Amazon S3, включая политики бакетов и политики управления идентификацией и доступом AWS (AWS IAM). Mountpoint для Amazon S3 преобразует операции файловой системы, такие как чтение и запись, в запросы API объектов, отправляемые в корзину S3. После этого Amazon S3 анализирует все соответствующие политики, например политики пользователя и корзины, чтобы решить, следует ли авторизовать запрос. Mountpoint для Amazon S3 не предусматривает новых механизмов контроля доступа.

Mountpoint для Amazon S3 не поддерживает чтение или запись метаданных в стиле POSIX, таких как идентификатор пользователя, идентификатор группы и поля разрешений. Amazon FSx для Lustre можно использовать с Amazon S3 или AWS DataSync для хранения метаданных объектов S3 в стиле POSIX.

Да, Mountpoint для Amazon S3 поддерживает доступ через AWS PrivateLink. AWS PrivateLink для S3 обеспечивает частное подключение между Amazon S3 и локальной средой. Вы можете предоставить интерфейсные адреса VPC для S3 в VPC для подключения локальных приложений непосредственно к S3 по AWS Direct Connect или AWS VPN.

Да, Mountpoint для Amazon S3 поддерживает доступ через шлюзовые адреса VPC. Мы рекомендуем использовать интерфейсные адреса VPC на базе AWS PrivateLink для получения доступа к S3 из локальных сетей или из VPC в другом регионе AWS. Для ресурсов, которые получают доступ к S3 из VPC, расположенного в том же регионе AWS, что и бакет S3, мы рекомендуем использовать шлюзовые адреса VPC, поскольку плата за их использование не взимается.

Да, вы можете получить доступ к Amazon S3 из Amazon EKS с помощью AWS SDK или интерфейса командной строки AWS. Для приложений, использующих интерфейс файловой системы для чтения и записи данных, можно использовать драйвер Mountpoint for Amazon S3 Container Storage Interface (CSI). С помощью драйвера CSI Mountpoint для Amazon S3 можно добиться высоких уровней совокупной пропускной способности (до терабит в секунду), не изменяя ни одной строки кода приложения или модели разрешений. Как и Mountpoint для Amazon S3, драйвер S3 CSI поддерживает последовательные и произвольные операции чтения существующих файлов и операции последовательной записи для создания новых файлов. Подробные сведения о поддерживаемых операциях с файловой системой см. в описании поведения файловой системы Mountpoint для Amazon S3. Установить, настроить и обновить драйвер Mountpoint для Amazon S3 CSI можно всего в несколько щелчков мыши в консоли EKS, в интерфейсе командной строки AWS, через API EKS или AWS CloudFormation. Чтобы узнать больше, посетите страницу драйвера CSI Mountpoint для Amazon S3 на GitHub.

Браузер хранилища для Amazon S3 – это инструмент с открытым исходным кодом, который можно добавить в свои веб-приложения, чтобы предоставить конечным пользователям, таким как клиенты, партнеры и сотрудники, простой интерфейс для данных, хранящихся в S3. С помощью Браузера хранилища для S3 можно предоставить уполномоченным конечным пользователям доступ к удобному интерфейсу для просмотра, загрузки, выгрузки, копирования и удаления данных в S3 непосредственно из собственных приложений.

Используйте Браузер хранилища, если вы хотите добавить простой пользовательский интерфейс, предназначенный для просмотра, выгрузки и загрузки данных S3 в свои приложения без необходимости писать собственный код для его поддержки. Браузер хранилища выполняет вызовы API к S3 от вашего имени, и вы можете настроить интерфейс в соответствии с дизайном и брендом существующего приложения.

Добавить Браузер хранилища в приложение можно всего за три шага. Сначала добавьте ссылку в свое веб-приложение для вызова Браузера хранилища при загрузке определенной страницы. Для этого необходимо импортировать пакет NPM для Браузера хранилища и добавить код в приложение, как описано в руководстве пользователя S3. Во-вторых, настройте авторизацию для работы Браузера хранилища с IAM Identity Center, Amazon Cognito или собственным сервисом авторизации. В-третьих, настройте правила совместного использования ресурсов из разных источников и политики безопасности контента в корзинах, которые вы хотите представить пользователям в Браузере хранилища, как определено в руководстве пользователя S3. На этом этапе аутентифицированные конечные пользователи, посетившие страницу вашего приложения, которое вы выбрали для инициализации Браузера хранилища, смогут работать с данными в S3, к которым у них есть доступ.

Чтобы использовать управляемую авторизацию AWS, сначала необходимо настроить Центр идентификации IAM и разрешения для своих пользователей и групп в сервисе «Разрешения на доступ к S3», как описано в разделе руководстве пользователя S3, посвященном настройке Браузера хранилища. Затем вы подключаете свое приложение к Identity Center и настраиваете приложение для обмена идентификационного токена от внешнего поставщика идентификации на токен от Identity Center. Наконец, вы настраиваете приложение так, чтобы оно предоставляло Браузеру хранилища токен Identity Center, когда пользователь открывает страницу вашего приложения для доступа к вашим данным в S3. В качестве альтернативы Identity Center можно использовать Amazon Cognito для предоставления мандатов Браузера хранилища, когда конечный пользователь открывает выбранную вами страницу интерфейса к данным S3. Чтобы использовать Cognito, необходимо настроить хранилище идентификационных данных в Cognito, связать его с ресурсом аутентификации в Amplify, развернуть ресурс в Amplify, а затем подключить код приложения к ресурсу аутентификации, как описано в документации по AWS Amplify. Как только вы добавите Браузер хранилища в свое приложение, оно будет предоставлять конечным пользователям доступ к данным от вашего имени на основе выбранного вами метода авторизации.

Чтобы применить настраиваемую авторизацию, необходимо настроить в приложении отправку в Браузер хранилища токенов STS, позволяющих пользователю работать с разрешенными ему наборами данных S3. В политике сеанса для каждого токена STS необходимо указать уровни доступа конечных пользователей к каждому набору данных S3, доступ к которому им разрешен.

Любой доступ к данным, полученный через Браузер хранилища, можно регистрировать с помощью журналов AWS CloudTrail. Включить эти журналы для корзин, используемых Браузером хранилища, можно всего несколькими щелчками мыши в Консоли управления AWS. При использовании разрешений на доступ к S3 сервис S3 регистрирует идентификационные данные конечных пользователей, получающих доступ к вашим данным, в журналах CloudTrail.

С помощью Браузера хранилища конечные пользователи могут просматривать корзины и префиксы, сортировать объекты по метаданным и искать префиксы и объекты по имени. Они также могут выгружать, загружать, копировать и удалять объекты в S3. Список оцениваемых нами функций см. в дорожной карте Браузера хранилища.

Нет. Браузер хранилища не поддерживает переименование префиксов или объектов.

Да. Можно добавить собственный логотип и настроить основные цвета, отступы, выравнивание, язык и другие аспекты интерфейса Браузера хранилища в соответствии с дизайном и фирменным стилем приложения. Полный список настраиваемых элементов см. в руководстве пользователя AWS Amplify.

Браузер хранилища для Amazon S3