Kho dữ liệu và Phân tích trên AWS

Cách nhanh nhất để tất cả người dùng của bạn nhận câu trả lời từ tất cả dữ liệu của bạn

AWS cung cấp một bộ dịch vụ tích hợp mang đến mọi thứ cần thiết để nhanh chóng và dễ dàng xây dựng cũng như quản lý một kho dữ liệu để phân tích. Các kho dữ liệu do AWS cung cấp có thể xử lý quy mô, tốc độ và tính linh hoạt cần thiết để kết hợp các loại dữ liệu và phương pháp phân tích khác nhau nhằm có được những hiểu biết sâu sắc hơn, theo cách mà các data silo truyền thống và data warehouse không thể làm được. AWS cung cấp cho khách hàng mảng dịch vụ phân tích và machine learning phong phú nhất, để dễ dàng truy cập vào tất cả các dữ liệu liên quan mà không ảnh hưởng đến bảo mật hoặc quản trị.

Ngày càng có nhiều tổ chức sử dụng kho dữ liệu và phân tích trên AWS hơn so với bất kỳ nơi nào khác. Các khách hàng như NASDAQ, Zillow, Yelp, iRobot và FINRA đã tin tưởng AWS để vận hành khối lượng công việc phân tích quan trọng trong kinh doanh của họ.

Kho dữ liệu và Phân tích trên AWS

Kho dữ liệu và Phân tích trên AWS

Để xây dựng giải pháp kho dữ liệu và phân tích, AWS cung cấp danh mục dịch vụ toàn diện nhất để bạn di chuyển, lưu trữ và phân tích dữ liệu.

aws-datalake-diagram-simplified

Di chuyển dữ liệu

Nhập dữ liệu tại chỗ và theo thời gian thực.

Kho dữ liệu

Lưu bất kỳ loại dữ liệu nào một cách bảo mật, từ hàng gigabyte đến hàng exabyte.

Phân tích

Phân tích dữ liệu của bạn với lựa chọn dịch vụ phân tích phong phú nhất.

Machine Learning

Dự đoán kết quả trong tương lai và quy định các hành động để ứng phó nhanh chóng.

Tại sao lại sử dụng kho dữ liệu và phân tích trên AWS?

Cách dễ nhất để xây dựng kho dữ liệu

Xây dựng kho dữ liệu bảo mật trong vài ngày thay vì vài tháng. Kinh nghiệm làm việc với hàng chục nghìn khách hàng để xây dựng các kho dữ liệu hiệu quả đã cho phép chúng tôi biến mọi khía cạnh của việc phân tích dữ liệu trên đám mây trở nên dễ dàng hơn. Ví dụ: AWS Lake Formation tự động hóa các bước thủ công cần thiết để xây dựng kho dữ liệu và cung cấp cơ chế bảo mật duy nhất trên mọi dữ liệu của bạn, nhờ đó bạn tốn ít thời gian hơn khi xử lý phần việc nặng nhọc không định hình để xây dựng kho dữ liệu, đồng thời có nhiều thời gian hơn để khám phá dữ liệu và tìm kiếm câu trả lời cho câu hỏi quan trọng nhất của bạn.

Hiệu năng tốt nhất với chi phí thấp nhất

AWS là nơi nhanh nhất và tiết kiệm chi phí nhất để lưu trữ và phân tích dữ liệu. Ví dụ: Amazon S3 cung cấp năm lớp lưu trữ và quản lý vòng đời dữ liệu tự động để bạn chỉ phải trả tiền cho những gì cần thiết đối với dữ liệu của bạn, dựa trên cách dữ liệu đó được sử dụng. Amazon Redshift nhanh gấp 3 lần bất cứ kho lưu trữ dữ liệu đám mây nào và tốc độ này ngày càng trở nên nhanh hơn qua từng năm. Amazon EMR cung cấp nơi nhanh nhất để chạy khối lượng công việc Apache Spark và Apache HIVE trên đám mây. Việc tích hợp sâu với các dịch vụ khác của AWS giúp EMR dễ dàng tận dụng các tính năng tiết kiệm chi phí, chẳng hạn như phiên bản Spot EC2, để giảm thiểu chi phí tới 90%.

Toàn diện và mở nhất

Việc khóa tất cả dữ liệu của bạn trong một dịch vụ phân tích tách biệt không còn hiệu quả nữa. Các phân tích hiện đại yêu cầu một loạt các công cụ và phương pháp khác nhau, bao gồm SQL, R, Scala, Jupyter và Python, để có được những thông tin chuyên sâu và câu trả lời đúng bằng nhiều ngôn ngữ. AWS cung cấp một tập hợp các dịch vụ phân tích hoàn chỉnh và toàn diện chạy trên kho dữ liệu mở để bạn có thể sử dụng công cụ phù hợp cho đúng tác vụ mà không cần phải di chuyển hoặc chuyển đổi dữ liệu theo từng phương pháp phân tích khác nhau. Tất cả các dịch vụ của chúng tôi đều hỗ trợ truy cập dữ liệu được lưu trữ trong một kho đối tượng (S3) với API mở, ở định dạng mở (ví dụ: Apache Paquet, Apache ORC, Apache Avro) và sử dụng cả công cụ độc quyền (Redshift để lưu trữ dữ liệu) lẫn công cụ mở (ví dụ: Spark, Hive). 

Bảo mật nhất

Việc lưu trữ dữ liệu của bạn an toàn và tuân thủ các quy định có liên quan là điều cần thiết. AWS cung cấp một bộ công cụ toàn diện vượt xa chức năng bảo mật tiêu chuẩn như mã hóa và kiểm soát truy cập để giám sát chủ động và quản lý thống nhất các chính sách bảo mật. Ví dụ: Amazon Macie giúp giám sát kho dữ liệu của bạn để đảm bảo bạn không vô tình để lộ thông tin đăng nhập hoặc thông tin nhận dạng cá nhân (PII). Amazon Inspector giúp thực thi các biện pháp thực hành tốt nhất và xác định các sự cố cấu hình có thể bị khai thác, đồng thời AWS Lake Formation cho phép bạn truy cập vào dữ liệu trong kho dữ liệu của mình trên mọi dịch vụ phân tích. 

Di chuyển dữ liệu

Bước đầu tiên để xây dựng kho dữ liệu trên AWS là di chuyển dữ liệu lên đám mây. Giới hạn vật lý về băng thông và tốc độ truyền làm hạn chế khả năng di chuyển dữ liệu trong đó không xảy ra gián đoạn nghiêm trọng, chi phí cao và mất nhiều thời gian. Để giúp cho việc truyền dữ liệu được dễ dàng và linh hoạt, AWS cung cấp nhiều lựa chọn khác nhau để truyền dữ liệu lên đám mây.

Để tạo các tác vụ ETL và ML Transform cho kho dữ liệu của bạn, hãy tìm hiểu về AWS Lake Formation.

Di chuyển dữ liệu tại chỗ

AWS cung cấp nhiều phương thức để di chuyển dữ liệu từ trung tâm dữ liệu của bạn lên AWS. Để thiết lập kết nối mạng chuyên biệt giữa mạng của bạn và AWS, bạn có thể sử dụng AWS Direct Connect. Để di chuyển hàng petabyte đến hàng exabyte dữ liệu lên AWS bằng cách sử dụng thiết bị thực tế, bạn có thể sử dụng AWS SnowballAWS Snowmobile. Để cho phép ứng dụng tại chỗ lưu trữ dữ liệu trực tiếp lên AWS, bạn có thể sử dụng AWS Storage Gateway.  

Di chuyển dữ liệu theo thời gian thực

AWS cung cấp nhiều phương thức để sử dụng dữ liệu theo thời gian thực được tạo ra từ các nguồn mới như trang web, ứng dụng trên di động và thiết bị có kết nối internet. Để đơn giản hóa việc thu thập và tải luồng dữ liệu hoặc dữ liệu thiết bị IoT, bạn có thể sử dụng Amazon Kinesis Data Firehose, Amazon Kinesis Video StreamsAWS IoT Core.  

Kho dữ liệu

Sau khi dữ liệu đã sẵn sàng cho đám mây, AWS giúp dễ dàng lưu trữ dữ liệu theo bất kỳ định dạng nào, một cách bảo mật và theo quy mô lớn bằng cách sử dụng Amazon S3 và Amazon Glacier. Để giúp người dùng cuối dễ dàng tìm dữ liệu có liên quan để sử dụng cho hoạt động phân tích của mình, AWS Glue tự động tạo một danh mục mà người dùng có thể tìm kiếm và truy vấn được.

Để tạo kho dữ liệu an toàn và nhanh hơn, hãy tìm hiểu thêm về AWS Lake Formation.

Lưu trữ đối tượng

Amazon S3

Amazon S3 là dịch vụ lưu trữ đối tượng bảo mật, có độ linh hoạt và độ bền cao với độ trễ tính theo mili giây dành cho truy cập dữ liệu. S3 được xây dựng để lưu trữ bất kỳ lượng dữ liệu nào từ bất cứ đâu – trang web và ứng dụng di động, ứng dụng doanh nghiệp và dữ liệu từ cảm biến hoặc thiết bị IoT. Dịch vụ này được xây dựng để lưu trữ và truy xuất bất kỳ lượng dữ liệu nào, có độ sẵn sàng không đối thủ nào sánh được và được xây dựng từ đầu để mang lại độ bền bằng 99,999999999% (11 số chín). S3 Select tập trung vào việc đọc và truy xuất dữ liệu, giảm thời gian ứng phó lên đến 400%. S3 cung cấp các khả năng bảo mật và tuân thủ toàn diện đáp ứng ngay cả những yêu cầu quy định nghiêm ngặt nhất.  

Sao lưu và lưu trữ

Amazon Glacier

Amazon Glacier là một kho lưu trữ bảo mật, bền bỉ và có mức phí cực kỳ thấp để lưu trữ và sao lưu dài hạn, giúp truy cập dữ liệu tính bằng phút, tương tự, Glacier Select chỉ đọc và truy xuất những dữ liệu cần thiết. Dịch vụ này được thiết kế mang lại độ bền bằng 99,999999999% và tính năng bảo mật toàn diện cũng như các tính năng tuân thủ khác, giúp thỏa mãn thậm chí cả những yêu cầu luật định khắt khe nhất. Khách hàng có thể lưu trữ dữ liệu với mức phí thấp chỉ bằng 0,004 USD mỗi gigabyte mỗi tháng, tiết kiệm được khá nhiều so với các giải pháp tại cơ sở.

Danh mục dữ liệu

AWS Glue

AWS Glue là dịch vụ được quản lý toàn phần, cung cấp danh mục dữ liệu để làm cho kho dữ liệu có thể tìm kiếm được, đồng thời có khả năng trích xuất, chuyển đổi và tải (ETL) để chuẩn bị dữ liệu sẵn sàng cho hoạt động phân tích. Danh mục dữ liệu được tự động tạo ra dưới dạng kho siêu dữ liệu lâu dài cho tất cả các bộ dữ liệu, giúp có thể tìm kiếm và truy vấn được tất cả dữ liệu trên cùng một cửa sổ hiển thị.

Phân tích

AWS cung cấp một hệ thống các dịch vụ phân tích rộng rãi và có mức chi phí hợp lý nhất để chạy trên kho dữ liệu. Mỗi dịch vụ phân tích được xây dựng chuyên dụng cho nhiều trường hợp sử dụng phân tích khác nhau chẳng hạn như phân tích tương tác, xử lý dữ liệu lớn bằng cách sử dụng Apache Spark và Hadoop, kho dữ liệu, phân tích theo thời gian thực, phân tích vận hành, bảng thông tin và hình ảnh.

Để quản lý quyền truy cập dữ liệu an toàn, tự phục vụ trong kho dữ liệu cho các dịch vụ phân tích, hãy tìm hiểu thêm về AWS Lake Formation.

Phân tích tương tác

Amazon Athena

Đối với phân tích tương tác, Amazon Athena giúp dễ dàng phân tích dữ liệu trực tiếp trên S3 và Glacier bằng các lệnh truy vấn SQL tiêu chuẩn. Athena là dịch vụ serverless, nên không cần thiết lập hay quản lý cơ sở hạ tầng. Bạn có thể bắt đầu truy vấn dữ liệu ngay lập tức, nhận kết quả trong vài giây và chỉ phải trả phí cho những truy vấn bạn chạy. Chỉ cần trỏ vào dữ liệu của bạn trong Amazon S3, xác định sơ đồ và bắt đầu truy vấn bằng cách sử dụng SQL tiêu chuẩn. Hầu hết kết quả thu được trong vài giây.  

Xử lý dữ liệu lớn

Amazon EMR

Đối với xử lý dữ liệu lớn bằng cách sử dụng framework Spark và Hadoop, Amazon EMR cung cấp dịch vụ có quản lý để giúp xử lý lượng dữ liệu lớn một cách dễ dàng, nhanh chóng và bằng mức chi phí hợp lý. Amazon EMR hỗ trợ 19 dự án mã nguồn mở khác nhau bao gồm Hadoop, Spark, HBase, và Presto, với EMR Notebooks được quản lý để kiến trúc dữ liệu, phát triển khoa học dữ liệu và cộng tác. Mỗi dự án được cập nhật trên EMR trong vòng 30 ngày kể từ khi phát hành phiên bản, đảm bảo bạn dễ dàng có được phiên bản mới nhất và tốt nhất từ cộng đồng.

Kho dữ liệu

Amazon Redshift

Đối với kho dữ liệu, Amazon Redshift cung cấp khả năng chạy các truy vấn phân tích phức tạp trên hàng petabyte dữ liệu có cấu trúc và bao gồm Redshift Spectrum chạy truy vấn SQL trực tiếp trên hàng Exabyte dữ liệu có hoặc không có cấu trúc trên S3 mà không cần thực hiện việc di chuyển dữ liệu không cần thiết. Amazon Redshift có mức chi phí chưa bằng một phần mười chi phí của các giải pháp truyền thống. Bắt đầu ở quy mô nhỏ với mức phí chỉ bằng 0,25 USD mỗi giờ và thay đổi quy mô lên hàng petabyte dữ liệu với mức phí bằng 1.000 USD mỗi terabyte mỗi năm.

Phân tích theo thời gian thực

Amazon Kinesis

Đối với phân tích theo thời gian thực, Amazon Kinesis giúp dễ dàng thu thập, xử lý và phân tích luồng dữ liệu như dữ liệu IoT từ xa, nhật ký ứng dụng và phân tích vùng nhấp chuột trên trang web. Dịch vụ này cho phép bạn xử lý và phân tích dữ liệu ngay khi dữ liệu về đến kho dữ liệu và phản ứng theo thời gian thực thay vì phải chờ thu thập toàn bộ dữ liệu trước khi có thể bắt đầu xử lý.

Phân tích vận hành

Amazon Elasticsearch Service

Đối với phân tích vận hành chẳng hạn như giám sát ứng dụng, phân tích nhật ký và phân tích vùng nhấp chuột, Amazon Elasticsearch Service cho phép bạn tìm kiếm, mở, lọc, tập hợp và hình ảnh hóa dữ liệu gần theo thời gian thực. Amazon Elasticsearch Service cung cấp các API dễ sử dụng và khả năng phân tích theo thời gian thực của Elasticsearch với độ sẵn sàng, khả năng thay đổi quy mô và độ bảo mật mà khối lượng công việc sản xuất đòi hỏi.

 

Bảng thông tin và hình ảnh

Amazon QuickSight

Đối với bản thông tin và hình ảnh, Amazon QuickSight cung cấp cho bạn dịch vụ phân tích công việc tốc độ nhanh, do đám mây vận hành để giúp dễ dàng xây dựng hình ảnh và bảng thông tin giàu dữ liệu có sức hấp dẫn cao, có thể truy cập từ mọi trình duyệt hoặc thiết bị di động.

 

Machine Learning

Đối với trường hợp sử dụng phân tích dự báo, AWS cung cấp một hệ thống gồm nhiều dịch vụ machine learning và công cụ khác nhau để chạy trên kho dữ liệu của bạn trên AWS. Dịch vụ của chúng tôi dựa trên kiến thức và năng lực do chúng tôi gây dựng tại Amazon, trong đó ML đã vận hành các công cụ khuyến cáo, chuỗi cung ứng, dự báo, trung tâm hoàn thiện và hoạch định năng lực của Amazon.com.  

Framework và giao diện

Đối với những chuyên gia machine learning và nhà khoa học dữ liệu, AWS cung cấp AWS Deep Learning AMI  giúp dễ dàng xây dựng các mô hình deep learning và xây dựng các cụm bằng phiên bản GPU được tối ưu hóa cho ML và DL. AWS hỗ trợ tất cả các khuôn khổ machine learning quan trọng, bao gồm cả Apache MXNet, TensorFlow và Caffe2, do đó, bạn có thể đưa vào hoặc phát triển bất kỳ mô hình nào bạn chọn. Các tính năng này đem đến công suất, tốc độ và hiệu suất không đối thủ nào sánh được mà khối lượng công việc deep learning và machine learning đòi hỏi.

Dịch vụ nền tảng

Đối với những nhà phát triển muốn đi sâu về ML, Amazon SageMaker là dịch vụ nền tảng giúp cho toàn bộ quá trình xây dựng, huấn luyện và triển khai các mô hình ML được dễ dàng bằng cách cung cấp mọi thứ bạn cần để kết nối đến dữ liệu huấn luyện, lựa chọn và tối ưu hóa thuật toán và framework tốt nhất, đồng thời triển khai mô hình của bạn trên các cụm auto scaling của Amazon EC2. Amazon SageMaker cũng gồm có các máy tính xách tay Jupyter có máy chủ lưu trữ giúp việc khám phá và hình ảnh hóa dữ liệu huấn luyện của bạn được lưu trữ trên Amazon S3 trở nên dễ dàng.

Dịch vụ ứng dụng

Đối với những nhà phát triển muốn bổ sung tính năng AI tích hợp sẵn vào ứng dụng, AWS cung cấp các API hướng giải pháp cho thị lực máy tính và xử lý ngôn ngữ tự nhiên. Các dịch vụ ứng dụng này cho phép nhà phát triển thêm trí tuệ vào ứng dụng mà không phải xây dựng và huấn luyện các mô hình của chính mình.

Nhiều kho dữ liệu và phân tích được xây dựng trên AWS hơn so với bất kỳ nơi nào khác

Bắt đầu với AWS

Step 1 - Sign up for an AWS account

Đăng ký tài khoản AWS

Có quyền sử dụng ngay lập tức Bậc miễn phí của AWS
 
icon2

Xây dựng kho dữ liệu bảo mật trong vài ngày

Tìm hiểu về AWS Lake Formation

 
icon3

Bắt đầu xây dựng với AWS

Bắt đầu với kho dữ liệu trên AWS

Triển khai kho dữ liệu với AWS Lake Formation
Bạn có câu hỏi khác?
Hãy liên hệ với chúng tôi