AWS Lake Formation

Xây dựng kho dữ liệu bảo mật trong vài ngày

AWS Lake Formation là một dịch vụ giúp bạn dễ dàng thiết lập một hồ dữ liệu bảo mật chỉ trong vài ngày. Hồ dữ liệu là một kho lưu trữ trung tâm, được chọn lọc và bảo mật để chứa toàn bộ dữ liệu của bạn, ở cả định dạng gốc lẫn chuẩn bị cho tác vụ phân tích. Hồ dữ liệu cho phép bạn chia nhỏ silo dữ liệu và kết hợp các loại hình phân tích khác nhau để có thông tin chuyên sâu và định hướng tốt hơn cho các quyết định kinh doanh.

Tuy nhiên, việc thiết lập và quản lý hồ dữ liệu hiện nay bao gồm rất nhiều tác vụ thủ công, phức tạp và tốn thời gian. Công việc này bao gồm: tải dữ liệu từ các nguồn khác nhau, giám sát các dòng dữ liệu đó, thiết lập phân vùng, bật mã hóa và quản lý khóa, xác định tác vụ chuyển đổi và giám sát quá trình vận hành các tác vụ đó, sắp xếp lại dữ liệu thành định dạng dọc, định cấu hình cài đặt kiểm soát quyền truy cập, loại bỏ dữ liệu trùng lặp, khớp bản ghi liên kết, cấp quyền truy cập vào các bộ dữ liệu và kiểm tra quyền truy cập theo thời gian.

Quá trình tạo hồ dữ liệu bằng Lake Formation cũng đơn giản như việc xác định nguồn dữ liệu, quyền truy cập dữ liệu và chính sách bảo mật mà bạn muốn áp dụng. Sau đó, Hồ dữ liệu hỗ trợ bạn thu thập và lập danh mục dữ liệu từ các cơ sở dữ liệu và kho lưu trữ đối tượng, di chuyển dữ liệu vào hồ dữ liệu Amazon S3 mới, làm sạch và phân loại dữ liệu bằng thuật toán máy học, cũng như bảo mật quyền truy cập vào dữ liệu nhạy cảm. Người dùng của bạn có thể truy cập vào danh mục dữ liệu trung tâm, trong đó mô tả các bộ dữ liệu hiện có và cách sử dụng thích hợp. Sau đó, người dùng của bạn tận dụng các bộ dữ liệu này cùng với dịch vụ phân tích và máy học mà họ chọn, như Amazon Redshift, Amazon Athena, và Amazon EMR (bản beta) dành cho Apache Spark. Lake Formation dựa trên các khả năng có trong AWS Glue.

AWS re:Invent 2018 - Công bố AWS Lake Formation (2:44)

Lợi ích

Xây dựng hồ dữ liệu nhanh chóng

Với Lake Formation, bạn có thể di chuyển, lưu trữ, lập danh mục và làm sạch dữ liệu nhanh hơn. Bạn chỉ cần hướng Lake Formation đến nguồn dữ liệu của mình. Lake Formation sẽ thu thập dữ liệu từ các nguồn đó và di chuyển dữ liệu vào hồ dữ liệu Amazon S3 mới của bạn. Lake Formation sắp xếp dữ liệu trong S3 xung quanh các thuật ngữ truy vấn thường dùng và thành các đoạn có kích thước phù hợp để tăng hiệu quả. Lake Formation cũng thay đổi dữ liệu thành các định dạng như Apache Parquet và ORC để phân tích nhanh hơn. Ngoài ra, Lake Formation còn tích hợp công nghệ máy học để loại bỏ dữ liệu trùng lặp và tìm bản ghi trùng khớp (hai mục đề cập đến cùng một nội dung) nhằm nâng cao chất lượng dữ liệu.

Đơn giản hóa việc quản lý bảo mật

Bạn có thể sử dụng Lake Formation để xác định tập trung các chính sách bảo mật, quản trị và kiểm tra ở cùng một nơi, thay vì thực hiện các tác vụ này theo mỗi dịch vụ, rồi thực thi các chính sách đó với người dùng trên các ứng dụng phân tích của họ. Các chính sách của bạn được triển khai nhất quán, nhờ đó bạn không phải định cấu hình chính sách theo cách thủ công trên các dịch vụ bảo mật như AWS Identity and Access Management và AWS Key Management Service, các dịch vụ lưu trữ như S3, cùng dịch vụ phân tích và máy học như Redshift, Athena và EMR (bản beta) dành cho Apache Spark. Điều này góp phần giảm công sức trong việc định cấu hình chính sách trên các dịch vụ, đồng thời mang lại quá trình thực thi và tuân thủ nhất quán.

Cung cấp quyền truy cập tự phục vụ vào dữ liệu

Với Lake Formation, bạn xây dựng một danh mục dữ liệu mô tả các bộ dữ liệu khác nhau sẵn có, cũng như nhóm người dùng có quyền truy cập vào từng bộ dữ liệu. Điều này sẽ nâng cao hiệu suất của người dùng qua việc giúp họ tìm được đúng bộ dữ liệu để phân tích. Bằng cách cung cấp danh mục dữ liệu có biện pháp thực thi bảo mật nhất quán, Lake Formation giúp nhà phân tích và nhà khoa học dữ liệu của bạn sử dụng dịch vụ phân tích mà họ muốn dễ dàng hơn.
Họ có thể sử dụng EMR dành cho Apache Spark (bản beta) Redshift hoặc Athena trên các tập dữ liệu đa dạng hiện được lưu trữ trong một hồ dữ liệu. Người dùng cũng có thể kết hợp các dịch vụ này mà không phải di chuyển dữ liệu giữa các silo.

Cách thức hoạt động

Cách thức hoạt động của AWS Lake Formation

Lake Formation hỗ trợ xây dựng, bảo mật và quản lý hồ dữ liệu của bạn. Đầu tiên, xác định các kho dữ liệu hiện có trong S3 hoặc các cơ sở dữ liệu quan hệ và NoSQL, rồi di chuyển dữ liệu vào hồ dữ liệu của bạn. Sau đó, thu thập dữ liệu, lập danh mục và chuẩn bị dữ liệu cho tác vụ phân tích. Tiếp đến, cung cấp cho người dùng của bạn quyền truy cập tự phục vụ bảo mật vào dữ liệu thông qua dịch vụ phân tích mà họ chọn. Các dịch vụ AWS khác và ứng dụng bên thứ ba cũng có thể truy cập vào dữ liệu thông qua các dịch vụ được hiển thị. Lake Formation quản lý tất cả các công việc trong ô màu cam và được tích hợp với các dịch vụ và kho dữ liệu trong ô màu xanh lam.

Trường hợp sử dụng

Đọc thêm về “Hồ dữ liệu là gì?” và các trường hợp sử dụng.

Khách hàng

Nu Skin

Nu Skin Enterprises là công ty bán hàng trực tiếp toàn cầu, hiện đang phân phối hơn 200 sản phẩm chống lão hóa chất lượng cao thuộc cả ngành hàng chăm sóc cá nhân lẫn thực phẩm bổ sung dinh dưỡng.

“Chúng tôi gặp khó khăn khi nâng cao chức năng và mở rộng thông lượng của các hệ thống phân tích hiện có. Dữ liệu của chúng tôi được phân bổ trong nhiều cơ sở dữ liệu và giải pháp SaaS không được kết nối, khiến cho việc phân tích dữ liệu ở quy mô lớn trở nên rất khó khăn khi bị hạn chế truy cập vào dữ liệu nhạy cảm. Để khắc phục khó khăn này, chúng tôi đã xây dựng giải pháp hồ dữ liệu trên AWS. Giải pháp này cho phép chúng tôi tổng hợp dữ liệu từ nhiều silo dữ liệu khác nhau vào Amazon S3. Tại đó, chúng tôi lập danh mục và bảo mật toàn bộ dữ liệu bằng AWS Lake Formation. Nếu không có AWS Lake Formation, chúng tôi sẽ không thể đạt được mục tiêu về một lớp bảo mật có thể mở rộng, dễ sử dụng cho toàn bộ dữ liệu trên Amazon S3. Thật dễ dàng để thiết lập và áp dụng các biện pháp kiểm soát quyền truy cập đã được tinh chỉnh dựa trên chân dung của người dùng.”

Joe Sueper, Phó chủ tịch kiến trúc doanh nghiệp, bộ phận Công nghệ toàn cầu - Nu Skin Enterprises

Panasonic

Panasonic Avionics Corporation là nhà cung cấp hệ thống giải trí và liên lạc trên máy bay hàng đầu thế giới.

“Chúng tôi muốn tạo ra một nền tảng dữ liệu có khả năng quản lý cài đặt bảo mật cho tất cả các ứng dụng khác nhau trong môi trường của mình. Với AWS Lake Formation, giờ đây, chúng tôi chỉ cần xác định chính sách một lần và thực thi chính sách theo cùng một cách, ở mọi nơi, cho nhiều dịch vụ mà chúng tôi sử dụng, bao gồm cả AWS Glue và Amazon Athena. Nhờ mức độ kiểm soát nâng cao, chúng tôi có thể truy cập bảo mật vào dữ liệu và siêu dữ liệu cho cột và bảng, chứ không chỉ cho các đối tượng lớn. Đây là một phần quan trọng trong tiêu chuẩn bảo mật và quản trị dữ liệu của chúng tôi.”

Anand Desikan, Giám đốc dịch vụ đám mây và dữ liệu - Panasonic Avionics

Accenture

Accenture là một công ty dịch vụ chuyên nghiệp hàng đầu thế giới, cung cấp nhiều dịch vụ và giải pháp về chiến lược, tư vấn, kỹ thuật số, công nghệ và vận hành.

“Tôi tập trung hỗ trợ khách hàng trong hành trình “Dữ liệu trên đám mây” của họ. Cụ thể, chúng tôi nhận thấy các tổ chức đang gặp phải vấn đề thiếu dữ liệu đáng tin cậy khi cần thực hiện phân tích dữ liệu đến từ nhiều nguồn khác nhau. Làm sạch dữ liệu là một bước quan trọng trong hoạt động phân tích dữ liệu và có thể ảnh hưởng lớn đến kết quả kinh doanh cùng quá trình ra quyết định. Các tính năng mới trong AWS Lake Formation đã mang lại lợi ích vô cùng to lớn để khắc phục khó khăn về tính chính xác của dữ liệu và quyền truy cập bảo mật vào hồ dữ liệu. Chúng tôi nhận thấy lợi ích to lớn khi tận dụng các kỹ thuật máy học nâng cao cho khâu chuẩn bị dữ liệu để tìm bản ghi trùng khớp, làm sạch và loại bỏ dữ liệu trùng lặp khỏi các nguồn dữ liệu khác nhau. Điều này góp phần giảm thời gian, công sức và chi phí, đồng thời nâng cao chất lượng và độ chính xác của dữ liệu trong hồ dữ liệu của khách hàng.”

Namrata Maheshwary, Kiến trúc sư cấp cao thuộc Nhóm kinh doanh dữ liệu - Accenture

Zalando

Zalando là nền tảng trực tuyến hàng đầu tại châu Âu trong lĩnh vực thời trang và lối sống.

“Là công ty công nghệ thời trang nhất châu Âu, chúng tôi luôn nỗ lực tìm ra giải pháp kỹ thuật số cho mọi khía cạnh của hành trình thời trang. AWS Lake Formation mang lại cho chúng tôi một điểm trung tâm, có thể mở rộng để kiểm soát quyền truy cập dữ liệu thông qua Amazon Redshift. Điều này không chỉ đơn giản hóa mà còn cải thiện quy trình thông qua biện pháp kiểm soát chi tiết về cách sử dụng dữ liệu. Giờ đây, chúng tôi có thể khám phá, truy cập và phân tích dữ liệu trong hồ dữ liệu bằng công cụ mình muốn, đồng thời tận dụng hồ dữ liệu cho mảng nghiệp vụ thông minh và khoa học dữ liệu. Quy trình công việc tinh giản này hỗ trợ các chuyên viên của chúng tôi kịp thời ra đúng quyết định, cũng như vun đắp sự đổi mới thông qua công nghệ máy học.”

Alberto Miorin, Trưởng bộ phận kỹ thuật - Zalando SE

Life360

Life360 là dịch vụ hàng đầu thế giới chuyên mang lại sự an tâm cho các gia đình. Ứng dụng Life360 gắn kết thành viên gia đình bằng các tính năng thông minh, được thiết kế để bảo vệ và kết nối những người quan trọng nhất.

“Chúng tôi muốn sử dụng AWS Lake Formation để xây dựng hồ dữ liệu nhằm hỗ trợ dữ liệu chuỗi thời gian dựa trên vị trí, cũng như tạo điều kiện để tải dữ liệu dễ dàng hơn. Các bản thiết kế dựng sẵn đã hỗ trợ đưa dữ liệu vào hồ dữ liệu mà không cần đội ngũ kỹ thuật dữ liệu của chúng tôi viết mã từ đầu. Nhờ vậy, họ có thể tập trung vận hành quá trình thu nạp thay vì mất công tạo ra thứ đã có sẵn. Với AWS Lake Formation, chúng tôi có thể nhanh chóng khai thác dữ liệu có trong Amazon S3 và tiến hành phân tích trên một loạt các dịch vụ dữ liệu AWS đa dạng. Dữ liệu vẫn còn trong Amazon S3, chúng tôi có thể phân tích theo nhiều cách khác nhau và có toàn quyền kiểm soát dữ liệu.”

Richard Chennault, Trưởng bộ phận dịch vụ đám mây và dữ liệu - Life360, Inc.

Change Healthcare

Change Healthcare là một công ty độc lập hàng đầu về công nghệ chăm sóc sức khỏe, chuyên cung cấp giải pháp dựa trên dữ liệu và phân tích cho khoảng 2.100 hệ thống chi trả chính phủ và thương mại, 5.500 bệnh viện, 900.000 y bác sĩ và 33.000 hãng dược phẩm.

“Mỗi ngày, chúng tôi xử lý dữ liệu từ hàng triệu giao dịch trong khi vẫn tuân thủ các quy định của ngành chăm sóc sức khỏe, trong đó có HIPAA. Chúng tôi rất háo hức về việc triển khai AWS Lake Formation. Dịch vụ này cung cấp một điểm kiểm soát trung tâm để dễ dàng tải, làm sạch, bảo mật và lập danh mục dữ liệu của hàng nghìn khách hàng vào hồ dữ liệu dựa trên AWS, qua đó giảm đáng kể khối lượng vận hành. Các biện pháp kiểm soát quyền truy cập dữ liệu trong Lake Formation sẽ giúp chúng tôi dễ dàng xác định chính sách một lần và thực thi trên tất cả các dịch vụ phân tích và máy học mà mình sử dụng, cùng với nhật ký kiểm tra để cho thấy sự tuân thủ.”

Aaron Symanski, CTO - Change Healthcare 

Fender Digital

Fender Digital là một phần của Fender, thương hiệu guitar trứ danh chuyên tạo ứng dụng, trang web, nền tảng và công cụ để sử dụng với đàn guitar, ampli và thiết bị âm thanh mà Fender sản xuất.

“Chúng tôi tạo ra vô số dữ liệu người dùng và dữ liệu sử dụng từ các ứng dụng và thiết bị kỹ thuật số của mình. Chúng tôi đang lên kế hoạch xây dựng một hồ dữ liệu trên AWS để vận hành cùng với kho dữ liệu dựa trên Amazon Redshift. Tôi rất mong đội ngũ của mình có thể trải nghiệm AWS Lake Formation. Lake Formation sẽ giúp chúng tôi dễ dàng tải, chuyển đổi và lập danh mục dữ liệu, cũng như bảo mật dữ liệu trong tổ chức, trên danh mục các dịch vụ AWS đa dạng. Với lựa chọn sẵn sàng cho doanh nghiệp như Lake Formation, chúng tôi có thể dành nhiều thời gian khai thác giá trị từ dữ liệu, thay vì mất nhiều công sức thiết lập và quản lý hồ dữ liệu của mình theo cách thủ công.”

Joshua Couch, Phó chủ tịch kỹ thuật - Fender Digital

Cloudreach

Được vận hành bởi nền tảng phần mềm di chuyển và quản lý Cloudamize, Cloudreach mang sự đơn giản và tin cậy tuyệt đối đến với khâu ra quyết định dựa trên dữ liệu.

“AWS Lake Formation cung cấp rộng rãi hồ dữ liệu và tạo ra một điểm thúc đẩy cho chiến lược dữ liệu của doanh nghiệp. AWS Lake Formation tập trung tính bảo mật và khả năng quản trị của các dịch vụ, tinh giản quá trình quản lý và giảm chi phí vận hành. Bằng cách đẩy nhanh quá trình loại bỏ silo dữ liệu trong doanh nghiệp, các sáng kiến về dữ liệu khác (như máy học) bắt đầu làm tăng giá trị doanh nghiệp.”

Kevin Davis, CTO phụ trách biện pháp AWS - Cloudreach

Amgen

Amgen là công ty công nghệ sinh học độc lập lớn nhất thế giới.

“Tại Amgen, chúng tôi đã tích cực sử dụng cụm Amazon Redshift và Amazon EMR được hơn 3 năm nay. Việc thiết lập các biện pháp kiểm soát về bảo mật và quyền truy cập cho từng tài khoản, dịch vụ, người dùng và bộ dữ liệu AWS ở cấp độ chi tiết bắt buộc có thể là công việc khó khăn. AWS Lake Formation đơn giản hóa quy trình bằng một điểm kiểm soát trung tâm, đồng thời cho phép chúng tôi quản lý đối tượng đang sử dụng dữ liệu và cách thức sử dụng với nhiều chi tiết hơn. AWS Lake Formation hỗ trợ chúng tôi quản lý quyền trên các đối tượng Amazon S3 như khi quản lý các quyền đối với dữ liệu trong cơ sở dữ liệu. Người dùng của chúng tôi có thể tìm, truy cập và phân tích dữ liệu mình cần bằng công cụ yêu thích. Quy trình công việc mới này có thể giúp mọi người làm việc năng suất hơn khi sử dụng dữ liệu của Amgen.”

Kerby Johnson, Chủ sở hữu sản phẩm hồ dữ liệu doanh nghiệp - Amgen

Alcon

Alcon là đơn vị tiên phong trong lĩnh vực đổi mới và phát triển sản phẩm chăm sóc mắt và thị lực thay đổi cuộc sống.

“Giống như bao công ty khác, chúng tôi bắt đầu sáng kiến hồ dữ liệu để loại bỏ những silo dữ liệu không thể truy cập được. Với AWS Lake Formation, chúng tôi có thể nhanh chóng bổ sung quyền truy cập vào các vùng lưu trữ Amazon S3 hiện có và xác định trong đó có gì, cách sử dụng ra sao. Dữ liệu vẫn ở trong S3 nhưng chúng tôi có toàn quyền kiểm soát dữ liệu cho các mục đích sử dụng khác.”

Srinivas Ravilisetty, Trưởng bộ phận phân tích CNTT - Alcon

Quantiphi

Quantiphi là một công ty cung cấp phần mềm và dịch vụ về Trí tuệ nhân tạo và Dữ liệu lớn, với mong muốn giải quyết những vấn đề phức tạp của doanh nghiệp. Quantiphi chuyên xây dựng các hồ dữ liệu và giải pháp AI cho khách hàng để mang lại giá trị có thể đo lường được.

“AWS Lake Formation cho phép chúng tôi cung cấp hồ dữ liệu bảo mật với quyền truy cập vào dữ liệu có liên quan chỉ trong vài ngày. Giờ đây, chúng tôi có khả năng cung cấp cả hai lợi ích cho khách hàng: bảo mật toàn diện, cùng đơn giản hóa quyền truy cập vào dữ liệu liên quan để người dùng ra quyết định dễ dàng. Khách hàng của chúng tôi có thể tập trung đưa ra quyết định kinh doanh sáng suốt hơn, dựa trên phân tích bằng cách tận dụng nguồn dữ liệu mạnh mẽ, tập trung.”

Arnav Gupta, Trưởng bộ phận biện pháp AWS - Quantiphi

Curvo

Curvo là một công ty Phần mềm dưới dạng dịch vụ, tập trung hoàn toàn vào chuỗi cung ứng y tế. Với chuyên môn sâu rộng và các biện pháp phát triển linh hoạt, họ xây dựng hệ thống phân tích, quy trình công việc và tự động hóa để việc quản lý chi tiêu trong lĩnh vực chăm sóc sức khỏe diễn ra nhanh chóng và dễ dàng hơn.

“Chuẩn hóa dữ liệu là một bước quan trọng để mang lại kết quả tốt hơn cho bệnh nhân, qua việc đưa sự minh bạch vào dữ liệu định giá chuẩn cho các sản phẩm lâm sàng và sản phẩm y tế. Sử dụng Chuyển đổi máy học trong AWS Lake Formation, chúng tôi giảm thời gian xử lý bộ dữ liệu từ 1 tuần xuống còn 4 tiếng, đồng thời tăng độ chính xác đến gần 100%. Tốc độ và độ chính xác này cho phép khách hàng thuộc lĩnh vực chăm sóc sức khỏe của chúng tôi phản ứng nhanh với thay đổi của thị trường, cuối cùng cung cấp dịch vụ chăm sóc phải chăng hơn mà không làm mất đi kết quả của bệnh nhân. Chúng tôi cung cấp cho họ chỉ trong 1 ngày, trong khi đối thủ cạnh tranh cần tới 4 - 6 tuần.”

Nic Sagez, CTO - Curvo

Có gì mới

ngày
  • ngày
1
AWS Lake Formation
Tìm hiểu thêm về các tính năng của AWS Lake Formation

Truy cập vào trang tính năng để tìm hiểu thêm về các tính năng của AWS Lake Formation.

Tìm hiểu thêm 
Đăng ký tài khoản AWS
Đăng ký tài khoản

Nhận quyền sử dụng ngay lập tức Bậc miễn phí của AWS.

Đăng ký 
Bắt đầu xây dựng trong bảng điều khiển
Bắt đầu xây dựng trong bảng điều khiển

Bắt đầu xây dựng với AWS Lake Formation trong Bảng điều khiển quản lý AWS.

Đăng nhập