AWS Lake Formation

Создание безопасного озера данных за считаные дни

AWS Lake Formation – сервис для удобной настройки безопасного озера данных всего за несколько дней. Озеро данных – это централизованный, специально организованный и защищенный фонд электронных материалов, в котором хранятся все ваши исходные данные и данные, подготовленные для анализа. Озеро данных позволяет отделять данные из обособленных баз данных и комбинировать различные аналитические данные для получения уникальной информации и выработки лучших бизнес-решений.

Однако на сегодняшний день настройка озер данных и управление ими подразумевает выполнение вручную множества сложных и трудоемких задач, а именно загрузку данных из различных источников, мониторинг потоков данных, настройку разделов, включение шифрования и управление ключами, определение заданий преобразования и мониторинг их выполнения, реорганизацию данных в многоколончатый формат, настройку параметров управления доступом, дедупликацию избыточных данных, сопоставление связанных записей, предоставление доступа к наборам данных и контроль за доступом по прошествии времени.

С помощью Lake Formation вы сможете без особых усилий создать озеро данных, равно как и определить источники данных и необходимые методы доступа и обеспечения безопасности. Используя Lake Formation, можно собирать и каталогизировать данные, полученные из баз данных и хранилищ объектов, перемещать данные в новое озеро данных Amazon S3, очищать и классифицировать данные с помощью алгоритмов машинного обучения и обеспечивать безопасный доступ к конфиденциальным данным. Ваши пользователи могут получить доступ к централизованному каталогу данных, в котором описаны доступные наборы данных и их соответствующее применение. Затем они смогут эффективно использовать эти наборы данных с помощью выбранных служб аналитики и машинного обучения, таких как Amazon Redshift, Amazon Athena и Amazon EMR (в бета-версии) для Apache Spark. Lake Formation использует возможности, доступные в AWS Glue.

AWS re:Invent 2018. Announcing AWS Lake Formation (2:44)

Преимущества

Быстрое создание озер данных

С помощью Lake Formation вы можете быстрее перемещать, сохранять, каталогизировать и очищать данные. Необходимо просто указать Lake Formation в источниках данных, а Lake Formation сканирует эти источники и перемещает данные в новое озеро данных Amazon S3. Для повышения эффективности Lake Formation организует данные в S3 блоками правильного размера вокруг терминов, часто используемых для запросов. Также для более быстрой обработки и анализа данных Lake Formation преобразует данные в форматы, такие как Apache Parquet и ORC. Кроме того, в Lake Formation используются встроенные алгоритмы машинного обучения для дедупликации и поиска совпадающих записей (две записи, относящиеся к одному и тому же объекту) для повышения качества данных.

Простое управление безопасностью

Вы можете использовать Lake Formation, чтобы определять методы обеспечения безопасности, управления и аудита централизованно, а не для каждой службы отдельно, а затем применять их для своих пользователей в их приложениях обработки и анализа данных. Эти методы применяются единообразно, что исключает необходимость настраивать их вручную в службах безопасности, таких как AWS Identity and Access Management и AWS Key Management Service, службах хранения данных, таких как S3, а также в службах аналитики и машинного обучения, таких как Redshift, Athena и EMR для Apache Spark (в бета-версии). В результате затрачивается меньше усилий на настройку методов разных служб, а также обеспечивается их согласованное применение и соблюдение.

Обеспечение самостоятельного доступа к данным

С помощью Lake Formation можно создать каталог данных, в котором описаны различные доступные наборы данных и указано, какие группы пользователей имеют к ним доступ. Это позволит повысить продуктивность ваших пользователей, поскольку они смогут быстрее найти правильный набор данных для анализа. Предоставляя каталог ваших данных с единообразными методами по обеспечению безопасности, Lake Formation упрощает для ваших аналитиков и специалистов по работе с данными использование их предпочтительной службы аналитики.
Они могут применять EMR для Apache Spark (в бета-версии), Redshift или Athena для различных наборов данных, которые теперь размещены в одном озере. Пользователи также могут комбинировать эти сервисы, не перемещая данные между хранилищами.

Принцип работы

Принцип работы AWS Lake Formation

Lake Formation помогает создавать озеро данных, обеспечивать его безопасность и управлять им. Сначала определите существующие хранилища данных в S3, реляционных базах данных и базах данных NoSQL и перенесите данные в озеро данных. Затем сканируйте, каталогизируйте и подготовьте данные для обработки и анализа. После этого предоставьте своим пользователям безопасный самостоятельный доступ к данным посредством выбора сервиса обработки и анализа. Другие сервисы AWS и сторонние приложения также могут получать доступ к данным через показанные сервисы. Lake Formation осуществляет управление всеми задачами в оранжевом поле и интегрируется с хранилищами данных и службами, показанными в синих окнах.

Примеры использования

Подробнее об озерах данных и примерах использования.

Клиенты

Nu Skin

Nu Skin Enterprises – транснациональная компания прямых продаж, которая занимается распространением более 200 высококачественных антивозрастных продуктов из сегментов средств личной гигиены и пищевых добавок.

«Нам необходимо было расширить возможности и масштабировать пропускную способность наших систем обработки и анализа. Наши данные хранились в разных базах и SaaS-решениях, что затрудняло анализ данных в масштабе, при этом доступ к конфиденциальным данным был ограничен. Чтобы решить эту задачу, мы создали озеро данных на AWS. Это позволило нам объединять данные из различных хранилищ в Amazon S3, где мы их каталогизировали и обеспечили безопасность с помощью AWS Lake Formation. Без AWS Lake Formation было бы невозможно достичь масштабируемого и простого в использовании уровня безопасности для всех данных в Amazon S3. Мы смогли легко настроить и применить элементы точного управления доступом на основе личностей пользователей».

Джо Сьюпер (Joe Sueper), вице-президент по корпоративной архитектуре и глобальным технологиям в Nu Skin Enterprises

Panasonic

Panasonic Avionics Corporation – ведущий мировой поставщик систем развлечений и связи для самолетов.

«Мы хотели создать платформу данных с возможностью управления настройками безопасности различных приложений в нашей среде. С помощью AWS Lake Formation мы теперь можем единоразово определить необходимые методы и применять их единообразно для нескольких сервисов, которые мы используем, включая AWS Glue и Amazon Athena. Более эффективный контроль обеспечивает безопасный доступ к данным и метаданным для столбцов и таблиц, а не только для групп объектов, что является важным требованием нашего стандарта безопасности и управления данными».

Анан Десикан (Anand Desikan), директор облачных сервисов и служб данных в Panasonic Avionics

Accenture

Accenture – это ведущая транснациональная специализированная компания, которая предоставляет широкий спектр услуг и решений в области стратегического управления, консалтинга, цифровых технологий и операционной деятельности.

«Я оказываю помощь клиентам в перемещении данных на облако. По нашим наблюдениям, компании часто сталкиваются с нехваткой надежных данных, когда им необходимо проанализировать информацию, поступающую из разных источников. Очистка данных – это очень важный этап анализа данных, который может значительно повлиять на результат деловой деятельности и принятие решений. Новые функции в AWS Lake Formation помогли устранить проблему с наличием достоверных данных и обеспечить безопасный доступ к озеру данных. Мы пришли к выводу, что использование передовых технологий машинного обучения для подготовки данных, нахождения совпадающих записей, очистки и дедупликации данных из разных источников является чрезвычайно эффективным. Это помогает сократить время, усилия и затраты и одновременно улучшает качество и точность данных в озерах данных клиента».

Намрата Махешвари (Namrata Maheshwary), старший архитектор в Data Business Group, Accenture

Zalando

Zalando – ведущая европейская онлайн-платформа в области моды и стиля жизни.

«Являясь самой модной IT-компанией Европы, мы прилагаем все усилия, чтобы найти цифровые решения для каждого аспекта путешествия по миру моды. AWS Lake Formation предоставила нам масштабируемую централизованную точку контроля доступа к данным посредством Amazon Redshift, которая помогла не только упростить процесс, но и улучшить его за счет точного контроля использования наших данных. Теперь мы можем обнаруживать данные в нашем озере данных, получать к ним доступ, анализировать их с помощью предпочтительных инструментов и затем использовать для обработки и бизнес-анализа. В результате такой оптимизации рабочего процесса наши руководители могут своевременно принимать правильные решения и внедрять технические новшества с использованием машинного обучения».

Альберто Морин (Alberto Miorin), руководитель отдела разработки в Zalando SE

Life360

Life360 – это ведущий сервис для душевного спокойствия семей. Приложение Life360 сближает семьи благодаря интеллектуальным функциям, разработанным для защиты и общения самых важных людей.

«Мы хотели с помощью AWS Lake Formation создать озеро данных для поддержки временных рядов географически привязанных данных, а также упрощения загрузки данных. Используя предварительно созданный проект архитектуры, мы перенесли данные в озеро данных, при этом нашей команде по инженерии данных не пришлось писать код с нуля, и они смогли сосредоточиться на вводе хранилища в эксплуатацию, а не занимались изобретением колеса. С помощью AWS Lake Formation мы смогли быстро разблокировать данные в Amazon S3 и сделать их доступными для анализа с использованием различных сервисов данных AWS. Данные остаются в Amazon S3, при этом мы можем анализировать их различными способами и полностью контролировать».

Ричард Ченнолт (Richard Chennault), начальник отдела облачных сервисов и служб данных в Life360, Inc.

Change Healthcare

Change Healthcare – ведущая независимая IT-компания в области здравоохранения, предоставляющая решения на основе данных и аналитики, которые охватывают примерно 2100 подключенных государственных и коммерческих плательщиков, 5500 больниц, 900 000 врачей и 33 000 аптек.

«Мы ежедневно обрабатываем данные о миллионах транзакций и при этом соблюдаем все требования, существующие в отрасли здравоохранения, включая HIPAA. Мы очень рады запуску сервиса AWS Lake Formation, который обеспечивает центральную точку управления для простой загрузки, очистки, защиты и каталогизации данных тысяч клиентов в нашем озере данных на базе AWS, что значительно снижает операционную нагрузку. Элементы управления доступом к данным в Lake Formation помогают нам единоразово определить набор методов и обеспечить его применение ко всем используемым службам аналитики и машинного обучения, а также к журналам аудита, чтобы показать соответствие».

Аарон Шимански (Aaron Symanski), технический директор в Change Healthcare 

Fender Digital

Fender Digital – это подразделение компании Fender, культового гитарного бренда, которое создает приложения, веб-сайты, платформы и инструменты для гитар, усилителей и звукового оборудования производства Fender.

«Мы генерируем тонны данных о пользователях и использовании из наших цифровых приложений и устройств. Мы планируем создать озеро данных на AWS для работы с нашим хранилищем данных на базе Amazon Redshift. Я не могу дождаться, когда моя команда получит в свое распоряжение AWS Lake Formation. Этот сервис облегчит нам загрузку, преобразование и каталогизацию данных. Работники нашей компании смогут получить защищенный доступ к этим данным посредством широкого спектра сервисов AWS. Используя такой готовый сервис, как Lake Formation, мы сможем тратить больше времени на извлечение ценности из наших данных, а не на трудоемкую ручную настройку озера данных и управление им».

Джошуа Кауч (Joshua Couch), вице-президент по инжинирингу в Fender Digital

Cloudreach

После расширения своих возможностей благодаря программной платформе для миграции и управления Cloudamize Cloudreach обеспечивает простоту и абсолютную уверенность в принятии решений на основе данных.

«AWS Lake Formation позволяет предоставить пользователям доступ к озеру данных и создает точку для повышения эффективности стратегии использования корпоративных данных. С помощью AWS Lake Formation можно централизовать управление безопасностью и сервисами, и в результате оптимизировать контроль и снизить эксплуатационные расходы. Ускорение процесса объединения данных по всему предприятию и реализация других инициатив в области данных, таких как машинное обучение, приводит к расширению бизнес-возможностей».

Кевин Дэйвис (Kevin Davis), технический директор в Cloudreach, отвечающий за внедрение AWS

Amgen

Amgen – крупнейшая в мире независимая биотехнологическая компания.

«В Amgen мы более трех лет активно используем кластеры Amazon Redshift и Amazon EMR. Настройка безопасности и контроля доступа для каждой учетной записи AWS, службы, пользователя и набора данных на требуемом уровне детализации может быть обременительной. Благодаря центральной точке контроля AWS Lake Formation упрощает этот процесс, а также позволяет нам отслеживать, кто использует наши данные и каким образом. Данный сервис позволяет нам управлять разрешениями для объектов Amazon S3 так же, как если бы мы делали это в базе данных. Наши пользователи смогут найти данные, которые им нужны, получить к ним доступ и проанализировать с помощью тех инструментов, которые они предпочитают. Этот новый рабочий процесс может способствовать повышению продуктивности при использовании данных Amgen».

Керби Джонсон (Kerby Johnson), ответственный за разработку продуктов на базе озер данных в Amgen

Alcon

Компания Alcon – лидер в области инноваций и разработки продуктов для зрения и ухода за глазами, которые меняют жизнь.

«Как и многие компании, мы начали использовать озера данных, чтобы решить проблему с недоступными хранилищами данных. С помощью AWS Lake Formation мы можем быстро предоставить доступ к существующим корзинам Amazon S3 и определить, что в них находится и как это содержимое можно использовать. Данные остаются в S3, при этом мы имеем над ними полный контроль и можем использовать для других целей».

Шринивас Равилизетти (Srinivas Ravilisetty), ведущий IT-аналитик в Alcon

Quantiphi

Quantiphi – компания‑разработчик ПО и сервисов, использующих искусственный интеллект и большие данные, которая поставила перед собой задачу решить сложные проблемы бизнеса. Quantiphi специализируется на создании озер данных и решений с использованием искусственного интеллекта для клиентов, которые помогут обеспечить высокие количественные показатели.

«AWS Lake Formation позволяет нам создавать безопасное озеро данных с доступом к соответствующим данным за считаные дни. Теперь мы можем предоставить нашим клиентам лучшее, а именно полную безопасность и упрощенный доступ к соответствующим данным, чтобы они могли принимать решения без особых усилий. Наши клиенты могут принимать более эффективные бизнес-решения, основанные на анализе, используя мощный централизованный источник данных».

Арнав Гупта (Arnav Gupta), ведущий специалист по внедрению AWS в Quantiphi

Curvo

Curvo – это компания, предоставляющая ПО как услугу и специализирующаяся исключительно на цепочке поставок в сфере здравоохранения. Обладая глубокими знаниями в области и гибкими методиками разработки, они обеспечивают аналитику, рабочий процесс и автоматизацию, что позволяет упростить и ускорить управление расходами в сфере здравоохранения.

«Упорядочивание данных является чрезвычайно важным для результативности лечения пациентов, поскольку позволяет получить доступ к открытым данным эталонных цен на клиническую и медицинскую продукцию. Используя ML Transformations в AWS Lake Formation, мы теперь обрабатываем наборы данных за четыре часа, а не за одну неделю, и наша степень точности возросла почти до 100 %. Такая скорость и точность позволяют нашим клиентам в области здравоохранения быстро реагировать на изменения рынка и в конечном итоге предоставлять более доступный уход без ущерба для результативности лечения. В течение одного дня мы делаем для своих клиентов то, на что у наших конкурентов уходит 4–6 недель».

Ник Сагез (Nic Sagez), технический директор в Curvo

Новые возможности

дата
  • дата
1
AWS Lake Formation
Подробнее о возможностях AWS Lake Formation

Перейти на страницу с описанием возможностей AWS Lake Formation

Подробнее 
Зарегистрировать аккаунт AWS
Зарегистрируйте аккаунт

Получите мгновенный доступ к уровню бесплатного пользования AWS.

Регистрация 
Начать разработку в консоли
Начать разработку в консоли

Начните разработку с использованием AWS Lake Formation в Консоли управления AWS.

Вход