Chuyển đến nội dung chính

Phân tích cơ sở dữ liệu là gì

Dữ liệu nhấn mạnh việc đưa ra quyết định trong doanh nghiệp, do đó đòi hỏi phải quản lý, xử lý và phân tích cẩn thận. Các hoạt động dữ liệu không đúng, ngay cả bởi các nhà phân tích dữ liệu có kỹ năng cao nhất, cũng có thể dẫn đến các giả định không chính xác và quyết định sai lầm.

Một quy trình phân tích dữ liệu hoàn thiện cho phép các tổ chức xác định chính xác các xu hướng, thực hiện các phân tích mô tả, phân tích theo quy định và phân tích thống kê, cũng như giới thiệu các khả năng máy học và AI.

Chọn một hệ thống phân tích cơ sở dữ liệu phụ thuộc vào dữ liệu hiện có của bạn, định dạng cơ sở dữ liệu hiện tại và các loại phân tích khác được yêu cầu. Dữ liệu được lưu trữ trong các doanh nghiệp ở các định dạng khác nhau, bao gồm các cơ sở dữ liệu quan hệ, cơ sở dữ liệu phi quan hệ và các định dạng tệp khác. Các cơ sở dữ liệu quan hệ và phi quan hệ có hỗ trợ tích hợp cho các phân tích cơ bản, nhưng như vậy thì chưa đủ để có được những thông tin chuyên sâu hơn về toàn bộ các chức năng và nguồn của doanh nghiệp.

Các nhà phân tích dữ liệu yêu cầu kho dữ liệu, hồ dữ liệu và kho hồ dữ liệu để tích hợp dữ liệu từ các nguồn khác nhau, nhằm sẵn sàng cho việc khai thác và phân tích dữ liệu đa định dạng và đa chức năng.

Chúng tôi khám phá tất cả các công nghệ khác nhau này tại không gian phân tích cơ sở dữ liệu trong phần còn lại của hướng dẫn.

Các loại hệ thống dữ liệu chính được sử dụng trong phân tích là gì?

Dưới đây là tổng quan ngắn gọn về các loại hệ thống khác nhau có sẵn để sử dụng trong phân tích

Cơ sở dữ liệu quan hệ

Cơ sở dữ liệu quan hệ là tập hợp dữ liệu có cấu trúc được sắp xếp thành các bảng có hàng và cột. Mỗi bảng chứa một tập hợp các dữ liệu liên quan đại diện cho các đối tượng hoặc khái niệm trong thế giới thực.

Mỗi hàng trong bảng đại diện cho một bản ghi duy nhất, ví dụ như các chi tiết của khách hàng, bao gồm tên, số điện thoại và địa chỉ. Mỗi bảng có thể có quan hệ với một hoặc nhiều bảng khác. Ví dụ: bảng khách hàng có thể có quan hệ với bảng mua hàng, cho phép mỗi giao dịch mua hàng được liên kết với một khách hàng cụ thể.

Tất cả các hệ thống quản lý cơ sở dữ liệu quan hệ đều có một lược đồ cố định, như được mô tả ở trên và hỗ trợ Ngôn ngữ truy vấn có cấu trúc (SQL) để truy vấn dữ liệu trên và trong các bảng.

Các ví dụ về dịch vụ cơ sở dữ liệu quan hệ trên AWS bao gồm Amazon Relational Database ServiceAmazon Aurora, một giải pháp cơ sở dữ liệu quan hệ hiệu năng cao, có thể điều chỉnh quy mô toàn cầu cho PostgreSQL, MySQL, và DSQL.

Cơ sở dữ liệu phi quan hệ

Cơ sở dữ liệu phi quan hệ có lược đồ linh hoạt và còn được gọi là cơ sở dữ liệu NoSQL, vì chúng không hỗ trợ các truy vấn qua SQL. Các loại cơ sở dữ liệu phi quan hệ khác nhau bao gồm: cơ sở dữ liệu khóa-giá trị, cơ sở dữ liệu tài liệu, cơ sở dữ liệu cột rộng, cơ sở dữ liệu đồ thị, cơ sở dữ liệu nằm trong bộ nhớ và cơ sở dữ liệu tìm kiếm.

Mỗi loại cơ sở dữ liệu NoSQL phù hợp với một trường hợp sử dụng cụ thể. Ví dụ: Cơ sở dữ liệu tài liệu phù hợp với Hệ thống quản lý nội dung nội bộ, và kho cột rộng rất phù hợp cho dữ liệu chuỗi thời gian từ nhóm IoT.

Dưới đây là một số ví dụ về các dịch vụ cơ sở dữ liệu phi quan hệ trên AWS.

  • Amazon DynamoDB là một cơ sở dữ liệu phi máy chủ, NoSQL, được quản lý đầy đủ với hiệu năng dưới 10 mili giây, phù hợp với cơ sở dữ liệu khóa-giá trị và kho tài liệu.
  • Amazon DocumentDB (với khả năng tương thích MongoDB) là dịch vụ cơ sở dữ liệu tài liệu JSON gốc được quản lý toàn phần.
  • Amazon Keyspaces (dành cho Apache Cassandra) là một dịch vụ có thể điều chỉnh quy mô, có tính khả dụng cao và được quản lý cho các cơ sở dữ liệu cột rộng tương thích với Apache Cassandra.
  • Amazon Neptune là một dịch vụ cơ sở dữ liệu đồ thị có hiệu năng cao, phi máy chủ, cung cấp khả năng phân tích, khả năng điều chỉnh quy mô và độ sẵn sàng vượt trội.
  • Amazon ElastiCache là dịch vụ bộ nhớ đệm trong bộ nhớ được quản lý toàn phần, tương thích với cơ sở dữ liệu nằm trong bộ nhớ của Valkey, Redis, và Memcached.
  • Amazon MemoryDB là một dịch vụ cơ sở dữ liệu nằm trong bộ nhớ, bền bỉ, tương thích với Valkey và Redis OSS để đạt hiệu năng siêu cao.

Kho dữ liệu

Một kho dữ liệu là một giải pháp phân tích mở rộng khả năng của các cơ sở dữ liệu quan hệ trên quy mô lớn, hỗ trợ truy vấn SQL. Kho dữ liệu được sử dụng để lưu trữ và phân tích dữ liệu quan hệ trên một số lượng lớn các cơ sở dữ liệu. Một giải pháp kho có thể chuyển đổi dữ liệu phi quan hệ trong quá trình Trích xuất, chuyển đổi và tải (ETL), chuẩn hóa để sẵn sàng cho phân tích.

Amazon Redshift là giải pháp kho dữ liệu được quản lý giúp bạn lưu trữ dữ liệu và điều chỉnh quy mô khối lượng công việc phân tích dữ liệu một cách dễ dàng.

Hồ dữ liệu

Hồ dữ liệu là kho tập trung cho phép bạn lưu trữ toàn bộ dữ liệu có cấu trúc và phi cấu trúc ở bất kỳ quy mô nào. Việc chuyển đổi dữ liệu có thể xảy ra trước hoặc sau khi dữ liệu được truyền đến hồ dữ liệu. Một hồ dữ liệu yêu cầu các dịch vụ bổ sung cho ETL và phân tích; phân tích dữ liệu thô thường không phải là một tùy chọn.

Amazon S3 là một kho lưu trữ dữ liệu đối tượng được thiết kế để truy xuất bất kỳ lượng dữ liệu nào từ bất cứ đâu, có thể đóng vai trò như một hồ dữ liệu. S3 có thể được kết hợp với AWS Lake Formation để có quyền truy cập dữ liệu và chia sẻ dữ liệu được lưu trữ

Kho hồ dữ liệu

Kho hồ dữ liệu là sự kết hợp giữa kho dữ liệu và hồ dữ liệu. Một kho hồ chứa dữ liệu có thể lưu trữ dữ liệu có cấu trúc và phi cấu trúc, cung cấp một lớp định dạng để thêm lược đồ và cấu trúc, và bao gồm một công cụ truy vấn. Một kho hồ chứa dữ liệu là một lớp cần thiết trong phân tích dữ liệu doanh nghiệp hiện đại do khả năng thực thi các truy vấn trên tất cả dữ liệu cùng một lúc.

Lakehouse của Amazon SageMaker hợp nhất dữ liệu trên các hồ dữ liệu Amazon S3 và kho dữ liệu phân tích Amazon Redshift. Lakehouse của Amazon SageMaker cho phép bạn truy cập và truy vấn dữ liệu tại chỗ một cách linh hoạt bằng tất cả công cụ và máy tương thích với Apache Iceberg.

Các loại khác

Trong phân tích trên toàn doanh nghiệp, các loại dữ liệu khác nhau có thể không phù hợp với mô hình cơ sở dữ liệu quan hệ hoặc phi quan hệ, ví dụ như các tệp và bảng thô. Điều này có nghĩa là các dữ liệu được lưu trữ ở các định dạng khác nhau. Ví dụ: Dữ liệu phát trực tuyến bán cấu trúc có thể được lưu trữ trong các tệp Apache Avro, và Amazon S3 có thể được sử dụng để lưu trữ bất kỳ loại dữ liệu nào.

Khi chọn một hệ thống phân tích dữ liệu, bạn có thể sẽ yêu cầu khả năng phân tích các loại tệp này kết hợp với các cơ sở dữ liệu của bạn.

Làm thế nào để triển khai phân tích cơ sở dữ liệu trên AWS?

Các cơ sở dữ liệu, loại dữ liệu, các hệ thống quản lý và lưu trữ cơ sở dữ liệu khác nhau sẽ xử lý phân tích dữ liệu theo những cách riêng biệt. Thực hiện phân tích trên kho dữ liệu, hồ dữ liệu và kho hồ dữ liệu yêu cầu các chiến lược và công nghệ khác nhau.

Đảm bảo quản trị dữ liệu cơ bản ngay từ đầu bằng cách sử dụng Amazon DataZone để lập danh mục, khám phá, chia sẻ và quản lý dữ liệu được lưu trữ trên AWS, tại chỗ và các nguồn bên thứ ba.

Quy trình làm việc được quản lý của Amazon dành cho Apache Airflow (MWAA) có thể giúp sắp xếp quy trình phân tích dữ liệu thông qua truyền và chuyển đổi dữ liệu như một công cụ tự động hóa quy trình, đồng thời kích hoạt quy trình làm việc phân tích trên kho, hồ hoặc kho hồ của bạn.

Bước 1 – Tập trung dữ liệu từ các nguồn khác nhau sang một hệ thống lớn hơn

Có nhiều cách khác nhau để truyền dữ liệu của bạn từ các nguồn hiện tại sang kho dữ liệu, hồ dữ liệu và kho hồ dữ liệu. Dữ liệu có thể cần được chuyển đổi và dọn sạch trước khi lưu trữ. Có thể có những cân nhắc khác, ví dụ như các loại dữ liệu khách hàng nhạy cảm, quyền truy cập và quyền truy cập tại chỗ cho một số dữ liệu.

Cách dễ nhất để truyền dữ liệu trong việc chuẩn bị cấu hình cho kho, hồ hoặc kho hồ AWS là di chuyển dữ liệu sang S3 trước tiên.

Dữ liệu phát trực tuyến có thể yêu cầu các dịch vụ mới như Amazon Data Firehose để gửi dữ liệu phát trực tuyến thời gian thực hoặc Luồng dữ liệu Amazon Kinesis để tiếp nhận và tổng hợp.

Bước 2 – Chuyển đổi và chuẩn hóa dữ liệu

Để phân tích dữ liệu, một số dữ liệu sẽ yêu cầu chuyển đổi và chuẩn hóa.

AWS Glue khám phá và kết nối với hơn 100 nguồn dữ liệu đa dạng, quản lý dữ liệu của bạn trong danh mục dữ liệu tập trung, đồng thời tạo, chạy và theo dõi quy trình dữ liệu một cách trực quan khi tải dữ liệu vào hồ dữ liệu, kho dữ liệu và kho hồ dữ liệu của bạn. AWS Glue DataBrew là một công cụ chuẩn bị dữ liệu trực quan giúp các nhà phân tích dữ liệu và nhà khoa học dữ liệu dọn dẹp và chuẩn hóa dữ liệu dễ dàng hơn.

Amazon EMR có đặc trưng là thời gian hoạt động được tối ưu hóa hiệu suất cho phân tích dữ liệu lớn của Apache Spark, Trino, Apache Flink và Hive, đơn giản hóa quy trình làm việc và thời gian xử lý của hồ dữ liệu.

Amazon SageMaker Data Wrangler là cách nhanh nhất và dễ nhất để chuẩn bị dữ liệu cho máy học.

Bước 3 – Phân tích dữ liệu kết hợp

Ngay khi dữ liệu của bạn được lưu trữ, kết nối và chuyển đổi, các nhà phân tích dữ liệu tận dụng kho, hồ hoặc kho hồ của bạn để thực hiện phân tích. Có nhiều kỹ thuật phân tích dữ liệu phụ thuộc vào trường hợp sử dụng của bạn.

Truy vấn

Amazon Redshift có các khả năng truy vấn tích hợp cho kho dữ liệu của bạn. Amazon Athena giúp bạn phân tích và truy vấn dữ liệu phi cấu trúc, bán cấu trúc và có cấu trúc được lưu trữ trong hồ dữ liệu Amazon S3. Dịch vụ này được tối ưu hóa để thực hiện phân tích và khám phá dữ liệu thời gian thực, cho phép người dùng truy vấn tương tác và trực quan hóa dữ liệu. Lakehouse của Amazon SageMaker cũng cung cấp các khả năng truy vấn tích hợp.

Nghiệp vụ thông minh

Amazon QuickSight cung cấp phân tích dữ liệu của nghiệp vụ thông minh hợp nhất (BI) có thể điều chỉnh quy mô, bao gồm kho dữ liệu, hồ dữ liệu và kho hồ dữ liệu. Trực quan hóa dữ liệu là một dịch vụ quan trọng trong Amazon QuickSight.

Máy học

Amazon Redshift ML có thể được sử dụng cho phân tích máy học trên kho Redshift. Amazon SageMaker cung cấp các khả năng máy học và các khả năng phân tích khác trên hồ dữ liệu và kho hồ dữ liệu.

Trên Lakehouse của Amazon SageMaker

Trong Lakehouse của SageMaker, bạn truy cập và truy vấn dữ liệu của bạn tại chỗ với tất cả các công cụ tương thích với Apache Iceberg trên một bản sao dữ liệu duy nhất. Bạn có thể tận dụng các công cụ và máy phân tích tùy chọn, ví dụ như SQL, Apache Spark, nghiệp vụ thông minh (BI), và các công cụ AI/ML, đồng thời cộng tác với dữ liệu được lưu trữ trên các hồ dữ liệu Amazon S3 và kho dữ liệu Amazon Redshift.

Dữ liệu phát trực tuyến

Amazon Kinesis có thể thu thập, xử lý và phân tích các luồng dữ liệu và video theo thời gian thực theo cách an toàn và có thể thay đổi quy mô.

AWS có thể hỗ trợ nhu cầu phân tích cơ sở dữ liệu của bạn như thế nào?

Trong môi trường doanh nghiệp hiện đại, phân tích cơ sở dữ liệu đòi hỏi nhiều hơn là chỉ truy vấn SQL. Bằng cách tận dụng kho dữ liệu, hồ dữ liệu và kho hồ dữ liệu, các nhà phân tích dữ liệu có thể khai phá giá trị của dữ liệu, thực hiện phân tích dữ liệu trên các nguồn, loại và hàm khác nhau.

Kiến trúc phân tích cơ sở dữ liệu phù hợp giúp đảm bảo giải pháp của bạn có thể điều chỉnh quy mô, sẵn sàng chạy và có thể tích hợp với các dịch vụ ML thiết yếu hiện nay và các phân tích dự đoán. Bắt đầu bằng cách tạo tài khoản miễn phí trên AWS ngay hôm nay.