AWS Lake Formation
AWS Lake Formation – сервис для удобной настройки безопасного озера данных всего за несколько дней. Озеро данных – это централизованный, специально организованный и защищенный фонд электронных материалов, в котором хранятся все ваши исходные данные и данные, подготовленные для анализа. Озеро данных позволяет отделять данные из обособленных баз данных и комбинировать различные аналитические данные для получения уникальной информации и выработки лучших бизнес-решений.
На сегодняшний день настройка озер данных и управление ими подразумевает выполнение вручную множества сложных и трудоемких задач. Сюда входят загрузка данных из разнообразных источников, мониторинг этих потоков данных, настройка разделов, включение шифрования и управление ключами, определение заданий преобразования и мониторинг их выполнения, реорганизация данных в столбчатый формат, дедупликация избыточных данных и сопоставление связанных записей. Когда данные будут загружены в озеро данных, вам нужно предоставить доступ к наборам данных с высоким уровнем детализации и регулярно проводить аудит доступа с помощью разных средств и служб аналитики и машинного обучения.
С помощью Lake Formation вы сможете без особых усилий создать озеро данных, а также определить источники данных и необходимые методы доступа и обеспечения безопасности. Используя Lake Formation, можно собирать и каталогизировать данные, полученные из баз данных и хранилищ объектов, перемещать данные в новое озеро данных Amazon Simple Storage Service (S3), очищать и классифицировать данные с помощью алгоритмов машинного обучения и безопасно предоставлять доступ к конфиденциальным данным с детализированной настройкой на уровнях столбцов, строк и ячеек. Ваши пользователи могут получить доступ к централизованному каталогу данных, в котором описаны доступные наборы данных и их допустимое применение. Затем они смогут применить к своим наборам данных любые сервисы аналитики и машинного обучения, например Amazon Redshift, Amazon Athena, Amazon EMR for Apache Spark или Amazon QuickSight. Lake Formation использует возможности, доступные в AWS Glue.
Преимущества
Быстрое создание озер данных
С помощью Lake Formation вы можете быстрее перемещать, сохранять, каталогизировать и очищать данные. Необходимо просто указать для Lake Formation источники данных, и он начнет постепенно сканировать эти источники и перемещать данные из них в новое озеро данных Amazon S3. Для повышения эффективности Lake Formation организует данные в S3 блоками правильного размера вокруг терминов, часто используемых для запросов. Также для более быстрой обработки и анализа данных Lake Formation преобразует данные в форматы, такие как Apache Parquet и ORC. Кроме того, в Lake Formation используются встроенные алгоритмы машинного обучения для дедупликации и поиска совпадающих записей (две записи, относящиеся к одному и тому же объекту) для повышения качества данных.
Простое управление безопасностью
Lake Formation предоставляет единое место для определения и применения средств управления доступом, которые действую на уровнях таблицы, столбца, строки и ячейки, ко всем пользователям и службам, использующим данные. Эти методы применяются единообразно, что исключает необходимость настраивать их вручную в службах безопасности, таких как AWS Identity and Access Management (IAM) и AWS Key Management Service (KMS), службах хранения данных, таких как S3, а также в службах аналитики и машинного обучения, таких как Redshift, Athena, AWS Glue и EMR для Apache Spark. В результате затрачивается меньше усилий на настройку методов разных служб, а также обеспечивается их согласованное применение и соблюдение.
Обеспечение самостоятельного доступа к данным
С помощью Lake Formation можно создать каталог данных, в котором описаны различные доступные наборы данных и указано, какие группы пользователей имеют к ним доступ. Это позволит повысить продуктивность ваших пользователей, поскольку они смогут быстрее найти правильный набор данных для анализа. Предоставляя каталог ваших данных с единообразными методами по обеспечению безопасности, Lake Formation упрощает для ваших аналитиков и специалистов по работе с данными использование их предпочтительной службы аналитики. Они могут применять EMR для Apache Spark, Redshift, Athena, AWS Glue и Amazon QuickSight для разных наборов данных, которые теперь размещены в одном озере. Пользователи также могут комбинировать эти сервисы, не перемещая данные между хранилищами.
Как это работает

Lake Formation помогает создавать озеро данных, обеспечивать его безопасность и управлять им. Сначала определите существующие хранилища данных в S3, реляционных базах данных и базах данных NoSQL и перенесите данные в озеро данных. Затем сканируйте, каталогизируйте и подготовьте данные для обработки и анализа. После этого предоставьте своим пользователям безопасный самостоятельный доступ к данным посредством выбора сервиса обработки и анализа. Другие сервисы AWS и сторонние приложения также могут получать доступ к данным через показанные сервисы. Lake Formation осуществляет управление всеми задачами, показанными в оранжевом поле, и интегрируется с хранилищами данных и службами, показанными в синих окнах.
Примеры использования
Быстрое создание озер данных
Lake Formation поддерживает схемы для ускорения процессов перемещения, сохранения, каталогизации, очистки и упорядочения данных. Преобразуйте данные в новые форматы, например Parquet или ORC, для ускорения аналитической обработки, а также примените встроенные возможности машинного обучения для дедупликации и поиска совпадающих записей. Упростите хранение и обслуживание данных с помощью Governed Tables, нового типа таблиц Amazon S3. Governed Tables используют транзакции формата ACID (atomic (атомарные), consistent (согласованные), isolated (изолированные) и durable (надежные)), которые автоматически разрешают конфликты и обеспечивают согласованное отображение данных для всех пользователей. Также Governed Tables отслеживают и автоматически оптимизируют данные для повышения производительности при запросах к Governed Tables.
Централизованное определение элементов управления доступом и управление ими
Применение классификации данных и детализированного доступа
Lake Formation применяет политики, не обязывая настраивать элементы управления доступом к данным отдельно в каждом сервисе, использующем эти данные. Lake Formation автоматически фильтрует данные и отображает авторизованным пользователям только те данные, к которым разрешает доступ соответствующая политика, позволяя обойтись без дублирования данных.
Поддержка непрерывного управления данными, перехода во времени и оптимизации хранилища
Повышайте надежность и достоверность озера данных для обновления пакетных и потоковых данных. Запрашивайте старые версии данных и контролируйте изменения данных. Автоматически сжимайте небольшие файлы и применяйте уточняющие фильтры для снижения количества сканирований и повышения эффективности запросов.
Настройка совместного использования несколькими аккаунтами для федеративных озер данных
Предоставляйте в организации децентрализованные продукты по работе с данными определенной предметной области, используя хорошо контролируемые процессы совместного доступа к данным с минимальным перемещением данных.
Дополнительные сведения можно найти в статье What is a data lake?.
Клиенты

Nu Skin Enterprises – транснациональная компания прямых продаж, которая занимается распространением более 200 высококачественных антивозрастных продуктов из сегментов средств личной гигиены и пищевых добавок.
«Нам необходимо было расширить возможности и масштабировать пропускную способность наших систем обработки и анализа. Наши данные хранились в разных базах и SaaS-решениях, что затрудняло анализ данных в масштабе, при этом доступ к конфиденциальным данным был ограничен. Чтобы решить эту задачу, мы создали озеро данных на AWS. Это позволило нам объединять данные из различных хранилищ в Amazon S3, где мы их каталогизировали и обеспечили безопасность с помощью AWS Lake Formation. Без AWS Lake Formation было бы невозможно достичь масштабируемого и простого в использовании уровня безопасности для всех данных в Amazon S3. Мы смогли легко настроить и применить элементы точного управления доступом на основе личностей пользователей».
Джо Сьюпер (Joe Sueper), вице-президент по корпоративной архитектуре и глобальным технологиям в Nu Skin Enterprises

Panasonic Avionics Corporation – ведущий мировой поставщик систем развлечений и связи для самолетов.
«Мы хотели создать платформу данных с возможностью управления настройками безопасности различных приложений в нашей среде. С помощью AWS Lake Formation мы теперь можем единоразово определить необходимые методы и применять их единообразно для нескольких сервисов, которые мы используем, включая AWS Glue и Amazon Athena. Более эффективный контроль обеспечивает безопасный доступ к данным и метаданным для столбцов и таблиц, а не только для групп объектов, что является важным требованием нашего стандарта безопасности и управления данными».
Анан Десикан (Anand Desikan), директор облачных сервисов и служб данных в Panasonic Avionics

Accenture – это ведущая транснациональная специализированная компания, которая предоставляет широкий спектр услуг и решений в области стратегического управления, консалтинга, цифровых технологий и операционной деятельности.
«Я оказываю помощь клиентам в перемещении данных на облако. По нашим наблюдениям, компании часто сталкиваются с нехваткой надежных данных, когда им необходимо проанализировать информацию, поступающую из разных источников. Очистка данных – это очень важный этап анализа данных, который может значительно повлиять на результат деловой деятельности и принятие решений. Новые функции в AWS Lake Formation помогли устранить проблему с наличием достоверных данных и обеспечить безопасный доступ к озеру данных. Мы пришли к выводу, что использование передовых технологий машинного обучения для подготовки данных, нахождения совпадающих записей, очистки и дедупликации данных из разных источников является чрезвычайно эффективным. Это помогает сократить время, усилия и затраты и одновременно улучшает качество и точность данных в озерах данных клиента».
Намрата Махешвари (Namrata Maheshwary), старший архитектор в Data Business Group, Accenture

Zalando – ведущая европейская онлайн-платформа в области моды и стиля жизни.
«Являясь самой модной IT-компанией Европы, мы прилагаем все усилия, чтобы найти цифровые решения для каждого аспекта путешествия по миру моды. AWS Lake Formation предоставила нам масштабируемую централизованную точку контроля доступа к данным посредством Amazon Redshift, которая помогла не только упростить процесс, но и улучшить его за счет точного контроля использования наших данных. Теперь мы можем обнаруживать данные в нашем озере данных, получать к ним доступ, анализировать их с помощью предпочтительных инструментов и затем использовать для обработки и бизнес-анализа. В результате такой оптимизации рабочего процесса наши руководители могут своевременно принимать правильные решения и внедрять технические новшества с использованием машинного обучения».
Альберто Морин (Alberto Miorin), руководитель отдела разработки в Zalando SE

Life360 – это ведущий сервис для душевного спокойствия семей. Приложение Life360 сближает семьи благодаря интеллектуальным функциям, разработанным для защиты и общения самых важных людей.
«Мы хотели с помощью AWS Lake Formation создать озеро данных для поддержки временных рядов географически привязанных данных, а также упрощения загрузки данных. Используя предварительно созданный проект архитектуры, мы перенесли данные в озеро данных, при этом нашей команде по инженерии данных не пришлось писать код с нуля, и они смогли сосредоточиться на вводе хранилища в эксплуатацию, а не занимались изобретением колеса. С помощью AWS Lake Formation мы смогли быстро разблокировать данные в Amazon S3 и сделать их доступными для анализа с использованием различных сервисов данных AWS. Данные остаются в Amazon S3, при этом мы можем анализировать их различными способами и полностью контролировать».
Ричард Ченнолт (Richard Chennault), начальник отдела облачных сервисов и служб данных в Life360, Inc.

Change Healthcare – ведущая независимая IT-компания в области здравоохранения, предоставляющая решения на основе данных и аналитики, которые охватывают примерно 2100 подключенных государственных и коммерческих плательщиков, 5500 больниц, 900 000 врачей и 33 000 аптек.
«Мы ежедневно обрабатываем данные о миллионах транзакций и при этом соблюдаем все требования, существующие в отрасли здравоохранения, включая HIPAA. Мы очень рады запуску сервиса AWS Lake Formation, который обеспечивает центральную точку управления для простой загрузки, очистки, защиты и каталогизации данных тысяч клиентов в нашем озере данных на базе AWS, что значительно снижает операционную нагрузку. Элементы управления доступом к данным в Lake Formation помогают нам единоразово определить набор методов и обеспечить его применение ко всем используемым службам аналитики и машинного обучения, а также к журналам аудита, чтобы показать соответствие».
Аарон Шимански (Aaron Symanski), технический директор в Change Healthcare

Fender Digital – это подразделение компании Fender, культового гитарного бренда, которое создает приложения, веб-сайты, платформы и инструменты для гитар, усилителей и звукового оборудования производства Fender.
«Мы генерируем тонны данных о пользователях и использовании из наших цифровых приложений и устройств. Мы планируем создать озеро данных на AWS для работы с нашим хранилищем данных на базе Amazon Redshift. Я не могу дождаться, когда моя команда получит в свое распоряжение AWS Lake Formation. Этот сервис облегчит нам загрузку, преобразование и каталогизацию данных. Работники нашей компании смогут получить защищенный доступ к этим данным посредством широкого спектра сервисов AWS. Используя такой готовый сервис, как Lake Formation, мы сможем тратить больше времени на извлечение ценности из наших данных, а не на трудоемкую ручную настройку озера данных и управление им».
Джошуа Кауч (Joshua Couch), вице-президент по инжинирингу в Fender Digital

После расширения своих возможностей благодаря программной платформе для миграции и управления Cloudamize Cloudreach обеспечивает простоту и абсолютную уверенность в принятии решений на основе данных.
«AWS Lake Formation позволяет предоставить пользователям доступ к озеру данных и создает точку для повышения эффективности стратегии использования корпоративных данных. С помощью AWS Lake Formation можно централизовать управление безопасностью и сервисами, и в результате оптимизировать контроль и снизить эксплуатационные расходы. Ускорение процесса внедрения данных по всему предприятию и реализация других инициатив в области данных, таких как машинное обучение, приводит к расширению бизнес-возможностей».
Кевин Дэйвис (Kevin Davis), технический директор в Cloudreach, отвечающий за внедрение AWS

Amgen – крупнейшая в мире независимая биотехнологическая компания.
«В Amgen мы более трех лет активно используем кластеры Amazon Redshift и Amazon EMR. Настройка безопасности и контроля доступа для каждого аккаунта AWS, службы, пользователя и набора данных на требуемом уровне детализации может быть обременительной. Благодаря центральной точке контроля AWS Lake Formation упрощает этот процесс, а также позволяет нам отслеживать, кто использует наши данные и каким образом. Данный сервис позволяет нам управлять разрешениями для объектов Amazon S3 так же, как если бы мы делали это в базе данных. Наши пользователи смогут найти данные, которые им нужны, получить к ним доступ и проанализировать с помощью тех инструментов, которые они предпочитают. Этот новый рабочий процесс может способствовать повышению продуктивности при использовании данных Amgen».
Керби Джонсон (Kerby Johnson), ответственный за разработку продуктов на базе озер данных в Amgen

Компания Alcon – лидер в области инноваций и разработки продуктов для зрения и ухода за глазами, которые меняют жизнь.
«Как и многие компании, мы начали использовать озера данных, чтобы решить проблему с недоступными хранилищами данных. С помощью AWS Lake Formation мы можем быстро предоставить доступ к существующим корзинам Amazon S3 и определить, что в них находится и как это содержимое можно использовать. Данные остаются в S3, при этом мы имеем над ними полный контроль и можем использовать для других целей».
Шринивас Равилизетти (Srinivas Ravilisetty), ведущий IT-аналитик в Alcon

Quantiphi – компания‑разработчик ПО и сервисов, использующих искусственный интеллект и большие данные, которая поставила перед собой задачу решить сложные проблемы бизнеса. Quantiphi специализируется на создании озер данных и решений с использованием искусственного интеллекта для клиентов, которые помогут обеспечить высокие количественные показатели.
«AWS Lake Formation позволяет нам создавать безопасное озеро данных с доступом к соответствующим данным за считаные дни. Теперь мы можем предоставить нашим клиентам лучшее – полную безопасность и упрощенный доступ к соответствующим данным, чтобы они могли принимать решения без особых усилий. Наши клиенты могут принимать более эффективные бизнес-решения, основанные на анализе, используя мощный централизованный источник данных».
Арнав Гупта (Arnav Gupta), ведущий специалист по внедрению AWS в Quantiphi

Curvo – это компания, предоставляющая ПО как услугу и специализирующаяся исключительно на цепочке поставок в сфере здравоохранения. Обладая глубокими знаниями в области и гибкими методиками разработки, они обеспечивают аналитику, рабочий процесс и автоматизацию, что позволяет упростить и ускорить управление расходами в сфере здравоохранения.
«Упорядочивание данных является чрезвычайно важным для результативности лечения пациентов, поскольку позволяет получить доступ к открытым данным эталонных цен на клиническую и медицинскую продукцию. Используя ML Transformations в AWS Lake Formation, мы теперь обрабатываем наборы данных за четыре часа, а не за одну неделю, и наша степень точности возросла почти до 100 %. Такая скорость и точность позволяют нашим клиентам в области здравоохранения быстро реагировать на изменения рынка и в конечном итоге предоставлять более доступный уход без ущерба для результативности лечения. В течение одного дня мы делаем для своих клиентов то, на что у наших конкурентов уходит 4–6 недель».
Ник Сагез (Nic Sagez), технический директор в Curvo
Новые возможности

Перейти на страницу с описанием возможностей AWS Lake Formation

Получите мгновенный доступ к уровню бесплатного пользования AWS.

Начните разработку с использованием AWS Lake Formation в Консоли управления AWS.