Chuyển đến nội dung chính

Tính toàn vẹn dữ liệu là gì?

Tính toàn vẹn dữ liệu nhấn mạnh việc duy trì tính toàn vẹn của dữ liệu, đảm bảo dữ liệu chính xác, không có lỗi, nhất quán và có đầy đủ chức năng trong suốt vòng đời của nó. Việc duy trì tính toàn vẹn dữ liệu trong một kho dữ liệu duy nhất phải dễ quản lý, bất kể số lượng yêu cầu truy cập, cũng như khối lượng dữ liệu và tốc độ. Môi trường đám mây hiện đại đòi hỏi sự di chuyển dữ liệu phức tạp, liên tục giữa các kho dữ liệu phân tán và dịch vụ. Hệ thống Xử lý giao dịch trực tuyến (OLTP) thông lượng cao yêu cầu việc kiểm tra tính toàn vẹn dữ liệu nghiêm ngặt nhằm duy trì tính nhất quán của hệ thống. Các kỹ sư dữ liệu phải thực hiện kiểm tra tính toàn vẹn dữ liệu trên các kho và quy trình dữ liệu mới và hiện có, bao gồm tích hợp, sao lưu và di chuyển lên đám mây. Bài viết này khám phá những thách thức và giải pháp đối với công tác quản lý toàn vẹn dữ liệu trên đám mây.

Tính toàn vẹn dữ liệu là quá trình duy trì tính chính xác, nhất quán và đầy đủ của dữ liệu trong suốt vòng đời của dữ liệu. Đây là phần quan trọng của đảm bảo chất lượng dữ liệu, giúp đảm bảo dữ liệu của tổ chức có liên quan và đáng tin cậy đối với việc xử lý giao dịch, nghiệp vụ thông minh và phân tích. Tính toàn vẹn dữ liệu bao gồm các phương pháp và giao thức khác nhau để xác thực dữ liệu trong khi bảo vệ thông tin nhạy cảm khỏi hoạt động truy cập trái phép.

Tại sao tính toàn vẹn dữ liệu lại quan trọng? Nó đảm bảo rằng dữ liệu của một tổ chức vẫn đáng tin cậy để ghi lại hoạt động tài chính và các hoạt động kinh doanh khác, cũng như việc đưa ra quyết định. Tính toàn vẹn của dữ liệu là điều cần thiết, bất kể các công cụ và vai trò xử lý dữ liệu và các biến đổi của nó.

Tính toàn vẹn dữ liệu là rất quan trọng trong các hệ thống xử lý giao dịch trực tuyến (OLTP) vì nó đảm bảo xử lý chính xác các giao dịch kinh doanh, tính nhất quán trong hoạt động tài chính và ngăn ngừa các vấn đề như trùng lặp giao dịch hoặc thất lạc giao dịch. Sai sót trong tính toàn vẹn dữ liệu có thể dẫn đến hậu quả bao gồm không tuân thủ quy định và giảm sự hài lòng của khách hàng.

Những thách thức trong việc duy trì tính toàn vẹn dữ liệu là gì?

Để đảm bảo tính toàn vẹn dữ liệu trong một tổ chức đòi hỏi phải giải quyết các thách thức về quản lý dữ liệu liên quan đến con người và công nghệ.

Môi trường OLTP

Thách thức lớn nhất về tính toàn vẹn dữ liệu trong môi trường OLTP là quản lý các giao dịch đồng thời vẫn duy trì tính nhất quán của dữ liệu, đặc biệt là trong các hoạt động có khối lượng lớn. Thách thức này đòi hỏi phải cân bằng giữa tuân thủ nghiêm ngặt về tính Nguyên tử, Nhất quán, Cô lập và Bền vững (ACID) và các yêu cầu về hiệu năng. Tại đây, nhiều người dùng phải có thể đồng thời sửa đổi cùng một dữ liệu mà không gặp phải tình trạng cạnh tranh và đình trệ hoàn toàn, trong khi vẫn duy trì khả năng xử lý thời gian thực của hệ thống.

Nghiệp vụ thông minh và phân tích

Đối với các trường hợp sử dụng phân tích và nghiệp vụ thông minh, khả năng tích hợp hạn chế giữa các nguồn dữ liệu và hệ thống khiến các công ty không thể duy trì một chế độ xem thống nhất, chính xác đối với tài sản dữ liệu của họ. Ngoài ra, phụ thuộc vào tác vụ nhập và thu thập dữ liệu thủ công có thể gây ra lỗi chính tả, thiếu sót và thiếu nhất quán, làm ảnh hưởng đến độ chính xác của dữ liệu.

Kiểm tra và dấu vết dữ liệu

Một thách thức khác là việc không có biên bản kiểm tra thích hợp, gây khó khăn cho việc theo dõi lịch sử dữ liệu, từ việc thu thập cho đến xóa. Các tổ chức có nguy cơ mất khả năng quan sát các sửa đổi dữ liệu trái phép. Các hệ thống cũ làm phức tạp thêm tính toàn vẹn dữ liệu do sử dụng các định dạng tệp lỗi thời hoặc thiếu các chức năng xác thực thiết yếu. Di chuyển dữ liệu lên đám mây cho phép triển khai các cơ chế chất lượng dữ liệu tập trung hơn, cũng như giảm thời gian và công sức cần thiết cho việc kiểm tra tính toàn vẹn dữ liệu.

Dữ liệu được bảo vệ trong đám mây như thế nào?

Tính toàn vẹn dữ liệu có thể được chia thành hai loại lớn.

Tính toàn vẹn vật lý

Quy trình toàn vẹn vật lý bảo vệ dữ liệu khỏi bị tổn hại và hư hỏng do thiên tai, mất điện, lỗi phần cứng hoặc các yếu tố khác ảnh hưởng đến thiết bị lưu trữ vật lý. Trong đám mây, tính toàn vẹn vật lý được nhà cung cấp đám mây tự động quản lý. Đây là trách nhiệm của nhà cung cấp đám mây theo Mô hình trách nhiệm chung.

Ví dụ: Trung tâm dữ liệu AWS cung cấp cơ sở hạ tầng bảo mật dữ liệu bốn lớp cho các thiết bị vật lý đang lưu trữ dữ liệu của bạn. Các tính năng bảo mật dữ liệu bao gồm:

  • Kiểm soát truy cập nghiêm ngặt với quyền truy cập phòng máy chủ được bảo mật bằng xác thực đa yếu tố và kiểm soát điện tử.
  • Các biện pháp ngăn chặn xâm nhập như tự động phát hiện tác vụ xóa dữ liệu trái phép.
  • Quản lý thiết bị lưu trữ an toàn từ cài đặt và cung cấp cho đến gỡ cài đặt và ngừng hoạt động.
  • Kiểm tra nghiêm ngặt của bên thứ ba đối với hơn 2.600 yêu cầu bảo mật, bao gồm kiểm tra thiết bị.

Tính toàn vẹn logic

Quy trình toàn vẹn logic đảm bảo rằng dữ liệu đáp ứng các quy tắc cơ bản của hệ thống lưu trữ có chứa dữ liệu đó. Tính toàn vẹn logic có thể được phân thành bốn loại nhỏ:

  • Tính toàn vẹn miền đảm bảo độ chính xác của dữ liệu bằng cách hạn chế các giá trị trong phạm vi, định dạng hoặc tập hợp định sẵn (ví dụ: sử dụng kiểu dữ liệu và các ràng buộc dữ liệu tương tự khác).
  • Tính toàn vẹn thực thể đảm bảo có thể xác định các bản ghi dữ liệu riêng lẻ thông qua các cơ chế như khóa chính, ngăn chặn các giá trị trùng lặp hoặc giá trị null trong các trường chính.
  • Tính toàn vẹn tham chiếu duy trì mối quan hệ nhất quán giữa các bảng bằng cách thực thi các ràng buộc khóa ngoại để ngăn các bản ghi dữ liệu bị cô lập.
  • Tính toàn vẹn do người dùng định nghĩa thực hiện các quy tắc kinh doanh cụ thể ngoài các ràng buộc tiêu chuẩn, chẳng hạn như logic xác thực tùy chỉnh hoặc thực thi cấp ứng dụng.

Người dùng đám mây chịu trách nhiệm thực hiện các ràng buộc về tính toàn vẹn logic và đảm bảo chất lượng dữ liệu. Đây là trách nhiệm của khách hàng theo Mô hình trách nhiệm chung.

Tuy nhiên, các dịch vụ dữ liệu AWS cung cấp nhiều cơ chế khác nhau để hỗ trợ kiểm tra tính toàn vẹn dữ liệu, chẳng hạn như thuật toán tổng kiểm, công cụ giám sát chất lượng dữ liệu và kiểm tra tính toàn vẹn dữ liệu tự động trong quá trình sao lưu và đồng bộ hóa dữ liệu.

Các dịch vụ được quản lý có thể cung cấp quy tắc bảo vệ tự động và có thể cấu hình cho tính toàn vẹn dữ liệu của bạn. Trong các hệ thống và cơ sở dữ liệu OLTP, các quy trình toàn vẹn logic giúp mỗi giao dịch luôn mang tính Nguyên tử, Nhất quán, Cô lập và Bền vững.

Làm thế nào để đảm bảo tính toàn vẹn dữ liệu trên đám mây?

Cân nhắc các biện pháp sau để triển khai tính toàn vẹn logic trong đám mây AWS.

Triển khai tính toàn vẹn dữ liệu đối tượng

Hầu hết các hoạt động dữ liệu đám mây đều bắt đầu với các vùng lưu trữ Amazon S3, có khả năng lưu trữ bất kỳ loại dữ liệu nào dưới dạng đối tượng. Bạn có thể thường xuyên di chuyển dữ liệu giữa các vùng lưu trữ Amazon S3, cơ sở dữ liệu, các dịch vụ đám mây khác hoặc lưu trữ tại chỗ. Amazon S3 cung cấp cơ chế tổng kiểm tích hợp sẵn để giảm rủi ro toàn vẹn dữ liệu trong quá trình tải lên, tải xuống và sao chép.

Tổng kiểm là một giá trị duy nhất, có độ dài cố định và được tạo ra từ dữ liệu bằng cách sử dụng một thuật toán cụ thể. Nó tạo ra một dấu vân tay kỹ thuật số độc nhất, cho phép các hệ thống phát hiện lỗi dữ liệu hoặc sửa đổi ngoài ý muốn. Khi sao chép các đối tượng, Amazon S3 sẽ tính tổng kiểm của đối tượng nguồn và áp dụng nó cho đối tượng đích. Cảnh báo sẽ được đưa ra trong trường hợp không khớp. Amazon S3 hỗ trợ cả tổng kiểm toàn bộ đối tượng và tổng hợp cho việc tải lên nhiều phần. Tổng kiểm toàn bộ đối tượng bao gồm toàn bộ tệp, trong khi tổng kiểm tổng hợp sẽ tổng hợp các tổng kiểm riêng lẻ theo cấp độ phần.

Sử dụng chức năng tổng kiểm theo giải thích dưới đây.

Tải lên

Amazon S3 hỗ trợ một số thuật toán như Thuật toán băm an toàn (SHA) và Kiểm tra dư thừa theo chu kỳ (CRC), bao gồm CRC-64/NVME, CRC-32, CRC-32C, SHA-1 và SHA-256. Nếu sử dụng Bảng điều khiển quản lý AWS, hãy chọn thuật toán tổng kiểm trong khi tải lên. Nếu không có tổng kiểm nào được chỉ định, Amazon S3 sẽ mặc định chọn CRC-64/NVME.

Tải xuống

Khi tải xuống các đối tượng, yêu cầu giá trị tổng kiểm được lưu trữ để xác minh tính toàn vẹn của dữ liệu. Tùy thuộc vào việc tải lên đã hoàn tất hay vẫn đang diễn ra, thực hiện truy xuất các giá trị tổng kiểm bằng các thao tác GetObject, HeadObject hoặc ListParts.

Sao chép

Nếu một đối tượng được sao chép bằng thao tác CopyObject, Amazon S3 sẽ tạo tổng kiểm trực tiếp cho toàn bộ đối tượng. Nếu ban đầu, đối tượng được tải lên dưới dạng tải lên nhiều phần, giá trị tổng kiểm sẽ thay đổi khi sao chép, ngay cả khi dữ liệu vẫn không thay đổi.

Triển khai tính toàn vẹn quy trình dữ liệu

Một trường hợp sử dụng phổ biến khác là di chuyển dữ liệu đến hồ dữ liệu đám mây, kho hoặc dịch vụ cơ sở dữ liệu được quản lý. Việc thiết lập kiểm tra tính toàn vẹn dữ liệu trong các quy trình dữ liệu như vậy rất dễ xảy ra lỗi, nhàm chán và tốn thời gian. Bạn phải viết thủ công mã giám sát và các quy tắc chất lượng dữ liệu để cảnh báo đối tượng sử dụng dữ liệu khi chất lượng dữ liệu xống cấp.

Trong quá trình di chuyển

Dịch vụ di chuyển cơ sở dữ liệu của AWS (DMS) bảo vệ tính toàn vẹn của dữ liệu trong quá trình di chuyển sang cơ sở dữ liệu Đám mây AWS thông qua nhiều cơ chế xác thực và bảo vệ tích hợp sẵn. DMS thực hiện xác thực tự động để so sánh dữ liệu nguồn và dữ liệu mục tiêu, xác định và giải quyết sự sai lệch thông qua đồng bộ hóa lại dữ liệu.

DMS bao gồm các tính năng điểm kiểm tra và khôi phục, cho phép việc di chuyển được tiếp tục từ trạng thái ổn định gần nhất được ghi nhận nếu xảy ra gián đoạn, đồng thời cung cấp khả năng giám sát và ghi nhật ký toàn diện để theo dõi tiến trình di chuyển. Ngoài ra, DMS đảm bảo bảo mật dữ liệu thông qua mã hóa SSL đối với dữ liệu đang được truyền và tích hợp với các dịch vụ bảo mật AWS.

Cơ sở hạ tầng của cơ sở dữ liệu

Cơ sở dữ liệu AWS bảo vệ tính toàn vẹn của dữ liệu thông qua nhiều cơ chế và tính năng toàn diện, bao gồm sao lưu tự động và triển khai nhiều vùng sẵn sàng, giúp đảm bảo độ bền và tính nhất quán của dữ liệu. Các cơ sở dữ liệu này thực thi tính toàn vẹn tham chiếu thông qua các ràng buộc tích hợp sẵn, duy trì tuân thủ ACID để đảm bảo tính nhất quán của giao dịch, đồng thời cung cấp khả năng khôi phục về thời điểm trước đó. Các dịch vụ cơ sở dữ liệu được quản lý, chẳng hạn như Amazon Relational Database Service (RDS) và Amazon Aurora, cho phép bạn đặt các biện pháp kiểm soát cụ thể đối với tính toàn vẹn dữ liệu. Ví dụ, Aurora cho phép bạn đặt các mức cách ly giao dịch khác nhau trên cơ sở dữ liệu OLTP của bạn.

Nhằm tăng cường bảo vệ, cơ sở dữ liệu AWS hỗ trợ phục hồi sau thảm họa thông qua triển khai đa khu vực, sao chép dữ liệu trên các khu vực phân tán theo vị trí địa lý. Tích hợp với Amazon CloudWatch giúp xác định và giải quyết các vấn đề tiềm ẩn về tính toàn vẹn dữ liệu trước khi chúng tác động đến hoạt động.

Tích hợp dữ liệu

AWS Glue là dịch vụ tích hợp dữ liệu phi máy chủ, phục vụ cho việc chuẩn bị và kết hợp dữ liệu trong đám mây AWS. Tính năng Chất lượng dữ liệu AWS Glue giúp giảm nỗ lực xác thực dữ liệu thủ công từ vài ngày xuống còn hàng giờ. Dịch vụ sẽ tự động đề xuất các quy tắc chất lượng, tính toán số liệu thống kê, đồng thời giám sát và cảnh báo bạn khi phát hiện dữ liệu không chính xác hoặc không đầy đủ. Dịch vụ này có thể vận hành với Ngôn ngữ định nghĩa chất lượng dữ liệu (DQDL), một ngôn ngữ cụ thể theo lĩnh vực mà bạn sử dụng để định nghĩa các quy tắc toàn vẹn dữ liệu.

Trong quá trình thu thập dữ liệu từ các hệ thống OLTP để sử dụng trong phân tích, bạn có thể sử dụng các quy trình AWS Glue để đẩy dữ liệu từ cơ sở dữ liệu sang các dịch vụ phân tích.

Bạn có thể xuất thêm số liệu lên Amazon CloudWatch cho việc theo dõi và cảnh báo.

Triển khai tính toàn vẹn sao lưu dữ liệu

Trong các dự án doanh nghiệp lớn có thể có nhiều đội ngũ khác nhau triển khai việc sao lưu dữ liệu và truy cập các cửa hàng Amazon S3 từ các địa điểm khác nhau. Việc quản trị dữ liệu sẽ trở thành một thách thức đối với các hoạt động sao lưu dữ liệu phân tán như vậy. Lưu ý rằng cơ sở dữ liệu AWS đi kèm với các tính năng sao lưu tích hợp sẵn.

AWS Backup là một dịch vụ được quản lý toàn phần tập trung và tự động hóa hoạt động bảo vệ dữ liệu trên các dịch vụ AWS như Dịch vụ lưu trữ đơn giản (S3) của Amazon, Amazon Elastic Compute Cloud (EC2), Amazon FSx và các khối lượng công việc lai trên VMware. Bạn có thể triển khai tập trung các chính sách bảo vệ dữ liệu để quản trị, quản lý và cấu hình các hoạt động sao lưu trên các tài nguyên và tài khoản AWS.

AWS Backup được thiết kế để duy trì tính toàn vẹn dữ liệu trong suốt vòng đời dữ liệu, từ truyền tải và lưu trữ cho đến xử lý. Dịch vụ này áp dụng các biện pháp bảo mật nghiêm ngặt cho tất cả dữ liệu được lưu trữ, bất kể loại dữ liệu, đảm bảo mức độ bảo vệ cao trước hành động truy cập dữ liệu trái phép. Bạn nắm giữ toàn quyền kiểm soát việc phân loại dữ liệu, vị trí lưu trữ và chính sách bảo mật, cho phép bạn quản lý, lưu trữ và bảo vệ dữ liệu theo nhu cầu của bản thân.

AWS Backup hợp tác với các dịch vụ AWS khác để duy trì tính toàn vẹn dữ liệu bằng nhiều cơ chế. Các cơ chế này bao gồm:

  • Xác thực tổng kiểm liên tục để ngăn chặn lỗi.
  • Tổng kiểm nội bộ để xác minh tính toàn vẹn của dữ liệu trong quá trình chuyển và ở trạng thái lưu trữ.
  • Tự động khôi phục dự phòng trong trường hợp ổ đĩa bị lỗi.

Dữ liệu được lưu trữ dự phòng trên nhiều vị trí vật lý và kiểm tra cấp mạng cũng giúp phát hiện lỗi trong quá trình truyền dữ liệu.

AWS có thể giúp duy trì tính toàn vẹn dữ liệu như thế nào?

Tính toàn vẹn dữ liệu cũng cải thiện niềm tin vào phân tích, hỗ trợ tuân thủ và đảm bảo dữ liệu vẫn có giá trị trong suốt vòng đời dữ liệu. Tuy nhiên, đối với triển khai tại chỗ, việc đảm bảo tính toàn vẹn dữ liệu rất khó khăn và tốn kém, đồng thời có thể tốn đến hàng giờ do các công việc thủ công, phân tán và dư thừa.

Công nghệ đám mây giúp tập trung quy trình và thực hiện hầu hết các công việc nặng nhọc cho bạn. Một số tính năng kiểm tra tính toàn vẹn về mặt thực tế và logic đã được tích hợp theo mặc định. Cơ chế tự động hóa tự tạo ra các quy tắc phần mềm cần thiết để đạt được tính toàn vẹn dữ liệu. Các kỹ sư dữ liệu chỉ phải cấu hình cài đặt hoặc xem lại công việc do các cơ chế tự động thực hiện. Tính toàn vẹn dữ liệu cho phép các hệ thống OLTP duy trì độ chính xác ở mức hoàn hảo trong khi xử lý các giao dịch khối lượng lớn theo thời gian thực, điều này là rất quan trọng trong việc vận hành và thực hiện các hoạt động kinh doanh đáng tin cậy.

Bắt đầu bằng cách tạo tài khoản đám mây miễn phí ngay hôm nay.