Kho dữ liệu và Phân tích trên AWS

Danh mục dịch vụ toàn diện, bảo mật, quy mô linh hoạt và có mức chi phí hợp lý nhất để xây dựng kho dữ liệu và giải pháp phân tích

AWS cung cấp một bộ dịch vụ tích hợp mang đến mọi thứ cần thiết để nhanh chóng và dễ dàng xây dựng cũng như quản lý một kho dữ liệu để phân tích. Các kho dữ liệu do AWS cung cấp có thể xử lý quy mô, tốc độ và tính linh hoạt cần thiết để kết hợp các loại dữ liệu và phương pháp phân tích khác nhau nhằm có được những hiểu biết sâu sắc hơn, theo cách mà các data silo truyền thống và data warehouse không thể làm được. AWS cung cấp cho khách hàng mảng dịch vụ phân tích và machine learning phong phú nhất, để dễ dàng truy cập vào tất cả các dữ liệu liên quan mà không ảnh hưởng đến bảo mật hoặc quản trị.

Ngày càng có nhiều tổ chức sử dụng kho dữ liệu và phân tích trên AWS hơn so với bất kỳ nơi nào khác. Các khách hàng như NASDAQ, Zillow, Yelp, iRobot và FINRA đã tin tưởng AWS để vận hành khối lượng công việc phân tích quan trọng trong kinh doanh của họ.

Kho dữ liệu và Phân tích trên AWS

Kho dữ liệu và Phân tích trên AWS

Để xây dựng giải pháp kho dữ liệu và phân tích, AWS cung cấp danh mục dịch vụ toàn diện nhất để bạn di chuyển, lưu trữ và phân tích dữ liệu.

aws-datalake-diagram-simplified

Di chuyển dữ liệu

Nhập dữ liệu tại chỗ và theo thời gian thực.

Kho dữ liệu

Lưu bất kỳ loại dữ liệu nào một cách bảo mật, từ hàng gigabyte đến hàng exabyte.

Phân tích

Phân tích dữ liệu của bạn với lựa chọn dịch vụ phân tích phong phú nhất.

Machine Learning

Dự đoán kết quả trong tương lai và quy định các hành động để ứng phó nhanh chóng.

Di chuyển dữ liệu

Bước đầu tiên để xây dựng kho dữ liệu trên AWS là di chuyển dữ liệu lên đám mây. Giới hạn vật lý về băng thông và tốc độ truyền làm hạn chế khả năng di chuyển dữ liệu trong đó không xảy ra gián đoạn nghiêm trọng, chi phí cao và mất nhiều thời gian. Để giúp cho việc truyền dữ liệu được dễ dàng và linh hoạt, AWS cung cấp nhiều lựa chọn khác nhau để truyền dữ liệu lên đám mây.

Để tạo các tác vụ ETL và ML Transform cho kho dữ liệu của bạn, hãy tìm hiểu về AWS Lake Formation.

Di chuyển dữ liệu tại chỗ

AWS cung cấp nhiều phương thức để di chuyển dữ liệu từ trung tâm dữ liệu của bạn lên AWS. Để thiết lập kết nối mạng chuyên biệt giữa mạng của bạn và AWS, bạn có thể sử dụng AWS Direct Connect. Để di chuyển hàng petabyte đến hàng exabyte dữ liệu lên AWS bằng cách sử dụng thiết bị thực tế, bạn có thể sử dụng AWS SnowballAWS Snowmobile. Để cho phép ứng dụng tại chỗ lưu trữ dữ liệu trực tiếp lên AWS, bạn có thể sử dụng AWS Storage Gateway.  

Di chuyển dữ liệu theo thời gian thực

AWS cung cấp nhiều phương thức để sử dụng dữ liệu theo thời gian thực được tạo ra từ các nguồn mới như trang web, ứng dụng trên di động và thiết bị có kết nối internet. Để đơn giản hóa việc thu thập và tải luồng dữ liệu hoặc dữ liệu thiết bị IoT, bạn có thể sử dụng Amazon Kinesis Data Firehose, Amazon Kinesis Video StreamsAWS IoT Core.  

Kho dữ liệu

Sau khi dữ liệu đã sẵn sàng cho đám mây, AWS giúp dễ dàng lưu trữ dữ liệu theo bất kỳ định dạng nào, một cách bảo mật và theo quy mô lớn bằng cách sử dụng Amazon S3 và Amazon Glacier. Để giúp cho người dùng cuối dễ dàng tìm dữ liệu có liên quan để sử dụng cho hoạt động phân tích của mình, AWS Glue tự động tạo một danh mục mà người dùng có khả năng tìm kiếm và truy vấn được.

Để tạo kho dữ liệu an toàn và nhanh hơn, hãy tìm hiểu thêm về AWS Lake Formation.

Lưu trữ đối tượng

Amazon S3

Amazon S3 là dịch vụ lưu trữ đối tượng bảo mật, có độ linh hoạt và độ bền cao với độ trễ tính theo mili giây dành cho truy cập dữ liệu. S3 được xây dựng để lưu trữ bất kỳ lượng dữ liệu nào từ bất cứ đâu – trang web và ứng dụng di động, ứng dụng doanh nghiệp và dữ liệu từ cảm biến hoặc thiết bị IoT. Dịch vụ này được xây dựng để lưu trữ và truy xuất bất kỳ lượng dữ liệu nào, có độ sẵn sàng không đối thủ nào sánh được và được xây dựng từ đầu để mang lại độ bền bằng 99,999999999% (11 số chín). S3 Select tập trung vào việc đọc và truy xuất dữ liệu, giảm thời gian ứng phó lên đến 400%. S3 cung cấp các khả năng bảo mật và tuân thủ toàn diện đáp ứng ngay cả những yêu cầu quy định nghiêm ngặt nhất.  

Sao lưu và lưu trữ

Amazon Glacier

Amazon Glacier là một kho lưu trữ bảo mật, bền bỉ và có mức phí cực kỳ thấp để lưu trữ và sao lưu dài hạn, giúp truy cập dữ liệu tính bằng phút, tương tự, Glacier Select chỉ đọc và truy xuất những dữ liệu cần thiết. Dịch vụ này được thiết kế mang lại độ bền bằng 99,999999999% và tính năng bảo mật toàn diện cũng như các tính năng tuân thủ khác, giúp thỏa mãn thậm chí cả những yêu cầu luật định khắt khe nhất. Khách hàng có thể lưu trữ dữ liệu với mức phí thấp chỉ bằng 0,004 USD mỗi gigabyte mỗi tháng, tiết kiệm được khá nhiều so với các giải pháp tại cơ sở.

Danh mục dữ liệu

AWS Glue

AWS Glue là dịch vụ được quản lý toàn phần, cung cấp danh mục dữ liệu để làm cho kho dữ liệu có thể tìm kiếm được, đồng thời có khả năng trích xuất, chuyển đổi và tải (ETL) để chuẩn bị dữ liệu sẵn sàng cho hoạt động phân tích. Danh mục dữ liệu được tự động tạo ra dưới dạng kho siêu dữ liệu lâu dài cho tất cả các bộ dữ liệu, giúp có thể tìm kiếm và truy vấn được tất cả dữ liệu trên cùng một cửa sổ hiển thị.

Phân tích

AWS cung cấp một hệ thống các dịch vụ phân tích rộng rãi và có mức chi phí hợp lý nhất để chạy trên kho dữ liệu. Mỗi dịch vụ phân tích được xây dựng chuyên dụng cho nhiều trường hợp sử dụng phân tích khác nhau chẳng hạn như phân tích tương tác, xử lý dữ liệu lớn bằng cách sử dụng Apache Spark và Hadoop, kho dữ liệu, phân tích theo thời gian thực, phân tích vận hành, bảng thông tin và hình ảnh.

Để quản lý quyền truy cập dữ liệu an toàn, tự phục vụ trong kho dữ liệu cho các dịch vụ phân tích, hãy tìm hiểu thêm về AWS Lake Formation.

Phân tích tương tác

Amazon Athena

Đối với phân tích tương tác, Amazon Athena giúp dễ dàng phân tích dữ liệu trực tiếp trên S3 và Glacier bằng các lệnh truy vấn SQL tiêu chuẩn. Athena là dịch vụ serverless, nên không cần thiết lập hay quản lý cơ sở hạ tầng. Bạn có thể bắt đầu truy vấn dữ liệu ngay lập tức, nhận kết quả trong vài giây và chỉ phải trả phí cho những truy vấn bạn chạy. Chỉ cần trỏ vào dữ liệu của bạn trong Amazon S3, xác định sơ đồ và bắt đầu truy vấn bằng cách sử dụng SQL tiêu chuẩn. Hầu hết kết quả thu được trong vài giây.  

Xử lý dữ liệu lớn

Amazon EMR

Đối với xử lý dữ liệu lớn bằng cách sử dụng framework Spark và Hadoop, Amazon EMR cung cấp dịch vụ có quản lý để giúp xử lý lượng dữ liệu lớn một cách dễ dàng, nhanh chóng và bằng mức chi phí hợp lý. Amazon EMR hỗ trợ 19 dự án mã nguồn mở khác nhau bao gồm Hadoop, Spark, HBase, và Presto, với EMR Notebooks được quản lý để kiến trúc dữ liệu, phát triển khoa học dữ liệu và cộng tác. Mỗi dự án được cập nhật trên EMR trong vòng 30 ngày kể từ khi phát hành phiên bản, đảm bảo bạn dễ dàng có được phiên bản mới nhất và tốt nhất từ cộng đồng.

Kho dữ liệu

Amazon Redshift

Đối với kho dữ liệu, Amazon Redshift cung cấp khả năng chạy các truy vấn phân tích phức tạp trên hàng petabyte dữ liệu có cấu trúc và bao gồm Redshift Spectrum chạy truy vấn SQL trực tiếp trên hàng Exabyte dữ liệu có hoặc không có cấu trúc trên S3 mà không cần thực hiện việc di chuyển dữ liệu không cần thiết. Amazon Redshift có mức chi phí chưa bằng một phần mười chi phí của các giải pháp truyền thống. Bắt đầu ở quy mô nhỏ với mức phí chỉ bằng 0,25 USD mỗi giờ và thay đổi quy mô lên hàng petabyte dữ liệu với mức phí bằng 1.000 USD mỗi terabyte mỗi năm.

Phân tích theo thời gian thực

Amazon Kinesis

Đối với phân tích theo thời gian thực, Amazon Kinesis giúp dễ dàng thu thập, xử lý và phân tích luồng dữ liệu như dữ liệu IoT từ xa, nhật ký ứng dụng và phân tích vùng nhấp chuột trên trang web. Dịch vụ này cho phép bạn xử lý và phân tích dữ liệu ngay khi dữ liệu về đến kho dữ liệu và phản ứng theo thời gian thực thay vì phải chờ thu thập toàn bộ dữ liệu trước khi có thể bắt đầu xử lý.

Phân tích vận hành

Amazon Elasticsearch Service

Đối với phân tích vận hành chẳng hạn như giám sát ứng dụng, phân tích nhật ký và phân tích vùng nhấp chuột, Amazon Elasticsearch Service cho phép bạn tìm kiếm, mở, lọc, tập hợp và hình ảnh hóa dữ liệu gần theo thời gian thực. Amazon Elasticsearch Service cung cấp các API dễ sử dụng và khả năng phân tích theo thời gian thực của Elasticsearch với độ sẵn sàng, khả năng thay đổi quy mô và độ bảo mật mà khối lượng công việc sản xuất đòi hỏi.

 

Bảng thông tin và hình ảnh

Amazon QuickSight

Đối với bản thông tin và hình ảnh, Amazon QuickSight cung cấp cho bạn dịch vụ phân tích công việc tốc độ nhanh, do đám mây vận hành để giúp dễ dàng xây dựng hình ảnh và bảng thông tin giàu dữ liệu có sức hấp dẫn cao, có thể truy cập từ mọi trình duyệt hoặc thiết bị di động.

 

Machine Learning

Đối với trường hợp sử dụng phân tích dự báo, AWS cung cấp một hệ thống gồm nhiều dịch vụ machine learning và công cụ khác nhau để chạy trên kho dữ liệu của bạn trên AWS. Dịch vụ của chúng tôi dựa trên kiến thức và năng lực do chúng tôi gây dựng tại Amazon, trong đó ML đã vận hành các công cụ khuyến cáo, chuỗi cung ứng, dự báo, trung tâm hoàn thiện và hoạch định năng lực của Amazon.com.  

Framework và giao diện

Đối với những chuyên gia machine learning và nhà khoa học dữ liệu, AWS cung cấp AWS Deep Learning AMI  giúp dễ dàng xây dựng các mô hình deep learning và xây dựng các cụm bằng phiên bản GPU được tối ưu hóa cho ML và DL. AWS hỗ trợ tất cả các khuôn khổ machine learning quan trọng, bao gồm cả Apache MXNet, TensorFlow và Caffe2, do đó, bạn có thể đưa vào hoặc phát triển bất kỳ mô hình nào bạn chọn. Các tính năng này đem đến công suất, tốc độ và hiệu suất không đối thủ nào sánh được mà khối lượng công việc deep learning và machine learning đòi hỏi.

Dịch vụ nền tảng

Đối với những nhà phát triển muốn đi sâu về ML, Amazon SageMaker là dịch vụ nền tảng giúp cho toàn bộ quá trình xây dựng, huấn luyện và triển khai các mô hình ML được dễ dàng bằng cách cung cấp mọi thứ bạn cần để kết nối đến dữ liệu huấn luyện, lựa chọn và tối ưu hóa thuật toán và framework tốt nhất, đồng thời triển khai mô hình của bạn trên các cụm auto scaling của Amazon EC2. Amazon SageMaker cũng gồm có các máy tính xách tay Jupyter có máy chủ lưu trữ giúp việc khám phá và hình ảnh hóa dữ liệu huấn luyện của bạn được lưu trữ trên Amazon S3 trở nên dễ dàng.

Dịch vụ ứng dụng

Đối với những nhà phát triển muốn bổ sung tính năng AI tích hợp sẵn vào ứng dụng, AWS cung cấp các API hướng giải pháp cho thị lực máy tính và xử lý ngôn ngữ tự nhiên. Các dịch vụ ứng dụng này cho phép nhà phát triển thêm trí tuệ vào ứng dụng mà không phải xây dựng và huấn luyện các mô hình của chính mình.

Nhiều kho dữ liệu và phân tích được xây dựng trên AWS hơn so với bất kỳ nơi nào khác

Tại sao lại sử dụng kho dữ liệu và phân tích trên AWS?

Linh hoạt và có nhiều lựa chọn

AWS cung cấp bộ công cụ và máy phân tích lớn nhất để phân tích dữ liệu bằng cách sử dụng định dạng mở và tiêu chuẩn mở. Bạn cần lưu trữ dữ liệu theo định dạng dữ liệu dựa theo tiêu chuẩn do bạn lựa chọn như CSV, ORC, Grok, Avro và Parquet cũng như sự linh hoạt khi phân tích ngày theo nhiều phương thức khác nhau như kho dữ liệu, truy vấn SQL tương tác, phân tích theo thời gian thực và xử lý dữ liệu lớn. Quy mô của các dịch vụ phân tích mà bạn có thể sử dụng với dữ liệu trên AWS đảm bảo sẽ đáp ứng được nhu cầu của bạn cho trường hợp sử dụng phân tích ở thời điểm hiện tại và trong tương lai.

Quy mô linh hoạt và độ sẵn sàng không đối thủ nào sánh được

Amazon S3 được xây dựng để lưu trữ và truy xuất bất kỳ lượng dữ liệu nào, có độ sẵn sàng không đối thủ nào sánh được và được xây dựng từ đầu để mang lại độ bền bằng 99,999999999% (11 số chín). Đây là dịch vụ lưu trữ duy nhất có thể lưu trữ dữ liệu ở nhiều trung tâm dữ liệu khác nhau giữa ba vùng sẵn sàng trong cùng một Khu vực AWS nhằm đảm bảo khả năng ứng phó không đối thủ nào sánh được trước các vấn đề về trung tâm dữ liệu và là dịch vụ lưu trữ duy nhất có khả năng sao chép liền mạch dữ liệu giữa bất kỳ khu vực nào.

Bảo mật cao

S3 là nền tảng lưu trữ đám mây duy nhất cho phép bạn áp dụng chính sách quyền truy cập, nhật ký và kiểm tra ở mức tài khoản và đối tượng. S3 cung cấp tính năng mã hóa tự động phía máy chủ, mã hóa bằng khóa do Dịch vụ quản lý khóa AWS (KMS) quản lý và mã hóa bằng khóa do bạn quản lý. S3 mã hóa dữ liệu đang trong quá trình truyền khi sao chép giữa các khu vực và cho phép bạn sử dụng các tài khoản độc lập cho khu vực nguồn và đích để bảo vệ chống các thao tác xóa phá hoại trong nội bộ. Để chủ động phát hiện một cuộc tấn công ở giai đoạn sớm, Amazon Macie, một dịch vụ bảo mật do ML vận hành theo dõi hoạt động truy cập dữ liệu để tìm ra các điểm bất thường đồng thời tạo ra các cảnh báo chi tiết khi phát hiện nguy cơ truy cập trái phép hoặc vô tình rò rỉ dữ liệu.

Mức chi phí hợp lý

Kho dữ liệu được xây dựng trên AWS có mức chi phí hợp lý nhất. Có thể di chuyển dữ liệu không thường xuyên sử dụng lên Amazon Glacier để sao lưu và lưu trữ dài hạn bằng mức chi phí rất thấp. Các tính năng quản lý của Amazon S3 có thể phân tích cấu trúc truy cập đối tượng để di chuyển dữ liệu không sử dụng thường xuyên lên Glacier, theo nhu cầu hoặc tự động, bằng các chính sách vòng đời. Bạn có thể bắt đầu truy vấn dữ liệu bằng Amazon Athena ở mức phí thấp tới mức 0,005 USD/GB được truy vấn. Các dịch vụ phân tích và machine learning khác được tính phí theo nhu cầu sử dụng đối với những tài nguyên bạn sử dụng.

Hiệu năng cao

Các dịch vụ phân tích AWS như Amazon Redshift và Amazon Athena được xây dựng có hiệu năng truy vấn tương tác cao để hỗ trợ nhiều truy vấn tương tác đồng thời một lúc. Khi chạy danh mục đa dạng các dịch vụ machine learning và phân tích của AWS bằng cách sử dụng Amazon S3 Select, chỉ những bộ dữ liệu con cần sử dụng trên đối tượng mới được trả về, giúp thực hiện truy vấn nhanh hơn nhiều, nhanh hơn tới 400% và ở mức chi phí thấp hơn nhiều. Glacier Select cung cấp tính năng tương tự, cho phép bạn truy xuất dữ liệu lưu trữ nhanh hơn, đồng thời cho phép bạn mở rộng tính năng phân tích lên kho dữ liệu để bao gồm cả lưu trữ cất giữ.  

 

Mạng lưới đối tác rộng lớn nhất

Mạng lưới đối tác AWS (APN) có tích hợp đối tác nhiều hơn gấp hai lần so với bất kỳ đơn vị nào khác, với hàng chục nghìn đối tác, bao gồm nhà cung cấp tư vấn và phần mềm độc lập, đến từ khắp nơi trên thế giới. Việc này giúp dễ dàng thao tác và tích hợp với nhiều công cụ giống với công cụ bạn đang sử dụng và yêu thích hiện nay. Hướng dẫn Bắt đầu nhanh kho dữ liệu, do kiến trúc sư và đối tác giải pháp AWS phát triển, giúp bạn xây dựng, thử nghiệm và triển khai giải pháp kho dữ liệu dựa trên biện pháp thực hành tốt nhất của AWS về bảo mật và độ sẵn sàng cao, bằng vài bước đơn giản. 

 

Bắt đầu với AWS

Step 1 - Sign up for an AWS account

Đăng ký tài khoản AWS

Có quyền sử dụng ngay lập tức Bậc miễn phí của AWS
 
icon2

Xây dựng kho dữ liệu bảo mật trong vài ngày

Tìm hiểu về AWS Lake Formation

 
icon3

Bắt đầu xây dựng với AWS

Bạn có thêm thắc mắc?
Hãy liên hệ với chúng tôi