Câu hỏi thường gặp về Amazon Redshift

Thông tin chung

Hàng chục nghìn khách hàng đang sử dụng Amazon Redshift mỗi ngày để chạy phân tích SQL trên đám mây, xử lý hàng exabyte dữ liệu để có được thông tin chuyên sâu về kinh doanh. Cho dù dữ liệu ngày càng tăng của bạn được lưu trữ trong kho lưu trữ dữ liệu hoạt động, hồ dữ liệu, dịch vụ dữ liệu truyền phát hay tập dữ liệu của bên thứ ba, Amazon Redshift đều giúp bạn truy cập, kết hợp và chia sẻ dữ liệu một cách bảo mật mà chỉ cần di chuyển hoặc sao chép ở mức tối thiểu. Amazon Redshift được tích hợp sâu với các dịch vụ máy học, phân tích và cơ sở dữ liệu AWS để sử dụng các phương pháp tiếp cận Zero-ETL hoặc giúp bạn truy cập dữ liệu tại chỗ nhằm phân tích gần theo thời gian thực, xây dựng các mô hình máy học trên SQL, đồng thời cho phép phân tích Apache Spark bằng cách sử dụng dữ liệu trong Redshift. Amazon Redshift phi máy chủ cho phép các kỹ sư, nhà phát triển, nhà khoa học dữ liệu và nhà phân tích của bạn bắt đầu dễ dàng và điều chỉnh quy mô phân tích nhanh chóng trong môi trường không cần quản trị. Với công cụ và kiến trúc Xử lý song song hàng loạt (MPP) tách biệt điện toán và lưu trữ để điều chỉnh quy mô hiệu quả, với những đổi mới về hiệu năng dựa trên máy học (ví dụ: Chế độ xem cụ thể hóa tự động), Amazon Redshift được xây dựng để điều chỉnh quy mô và mang lại tỷ lệ giá/hiệu năng tốt hơn tới gấp 5 lần so với các kho dữ liệu đám mây khác.

Hàng nghìn khách hàng chọn Amazon Redshift để đẩy nhanh thời gian có được thông tin chuyên sâu vì đây là một hệ thống phân tích mạnh mẽ, tích hợp tốt với các dịch vụ cơ sở dữ liệu và máy học, được sắp xếp hợp lý để sử dụng và có thể trở thành dịch vụ trung tâm đáp ứng mọi nhu cầu phân tích của khách hàng. Amazon Redshift phi máy chủ tự động cung cấp và điều chỉnh quy mô công suất kho dữ liệu để mang lại hiệu năng cao cho các khối lượng công việc yêu cầu lớn và khó dự đoán. Amazon Redshift mang lại tỷ lệ giá/hiệu năng hàng đầu cho các khối lượng công việc phân tích đa dạng, cho dù đó là tác vụ khai thác bảng thông tin, phát triển ứng dụng, chia sẻ dữ liệu, ETL (Trích xuất, Chuyển đổi và Tải) hay nhiều tác vụ khác. Với hàng chục nghìn khách hàng đang chạy phân tích trên hàng terabyte đến hàng petabyte dữ liệu, Amazon Redshift tối ưu hóa hiệu năng khối lượng công việc của khách hàng trong đời thực, dựa trên phép đo từ xa hiệu năng nhóm, đồng thời mang lại hiệu năng có thể điều chỉnh quy mô tỷ lệ tuyến tính với khối lượng công việc, trong khi vẫn giữ mức chi phí thấp. Các đổi mới về hiệu năng được cung cấp cho khách hàng mà không mất thêm phí. Với Amazon Redshift, bạn có thể nhận thông tin chuyên sâu từ việc chạy phân tích dự đoán và theo thời gian thực trên mọi dữ liệu của bạn trong các cơ sở dữ liệu hoạt động, hồ dữ liệu, kho dữ liệu, dữ liệu truyền phát và tập dữ liệu của bên thứ ba. Amazon Redshift hỗ trợ khả năng bảo mật đầu ngành với tích hợp quản lý và liên kết danh tính cho đăng nhập đơn (SSO), xác thực nhiều yếu tố, kiểm soát truy cập theo cấp độ cột, bảo mật theo cấp độ hàng, kiểm soát truy cập dựa trên vai trò, Đám mây riêng ảo của Amazon (Amazon VPC) và điều chỉnh kích thước cụm nhanh hơn.

Amazon Redshift được AWS quản lý hoàn toàn nên bạn không còn cần phải lo lắng về các tác vụ quản lý kho dữ liệu như cung cấp phần cứng, vá lỗi phần mềm, thiết lập, cấu hình, giám sát nút và ổ đĩa để khôi phục sau thảm họa hoặc sao lưu. AWS quản lý công việc cần để thay bạn thiết lập, vận hành và điều chỉnh quy mô kho dữ liệu, giúp bạn có thời gian tập trung vào xây dựng ứng dụng. Amazon Redshift phi máy chủ tự động cung cấp và điều chỉnh quy mô công suất kho dữ liệu để mang lại hiệu quả cao cho các khối lượng công việc yêu cầu lớn và khó dự đoán, và bạn chỉ phải trả tiền cho tài nguyên mà bạn sử dụng. Amazon Redshift cũng có khả năng điều chỉnh tự động và hiển thị các đề xuất để quản lý kho dữ liệu của bạn trong Redshift Advisor. Với Redshift Spectrum, Amazon Redshift quản lý toàn bộ cơ sở hạ tầng điện toán, cân bằng tải, lập kế hoạch, lên lịch và thực thi truy vấn của bạn trên dữ liệu được lưu trữ trong Amazon S3. Amazon Redshift cho phép phân tích trên tất cả dữ liệu của bạn với khả năng tích hợp sâu vào dịch vụ cơ sở dữ liệu bằng các tính năng như tích hợp Zero-ETL trên Amazon Aurora với Amazon Redshift và truy vấn liên kết để truy cập dữ liệu tại chỗ từ cơ sở dữ liệu hoạt động như Amazon RDS và hồ dữ liệu Amazon S3 của bạn. Redshift cho phép quá trình tải nhập dữ liệu được hợp lý hóa bằng quy trình dữ liệu tự động, không cần mã. Việc tải nhập dữ liệu truyền phát hoặc tệp Amazon S3 sẽ được diễn ra tự động. Redshift cũng được tích hợp với Trao đổi dữ liệu trên AWS cho phép người dùng tìm, đăng ký, cũng như truy vấn tập dữ liệu của bên thứ ba và kết hợp với dữ liệu của họ để có được thông tin chuyên sâu toàn diện. Với khả năng tích hợp gốc vào Amazon SageMaker, khách hàng có thể vẫn ở trong kho dữ liệu của mình và thực hiện tạo, đào tạo cũng như xây dựng các mô hình máy học trên SQL. Amazon Redshift đáp ứng mọi nhu cầu phân tích SQL của bạn với tỷ lệ giá/hiệu năng tốt hơn tới gấp 5 lần so với các kho dữ liệu đám mây khác.

Amazon Redshift là dịch vụ được quản lý toàn phần và cung cấp cả tùy chọn được cung cấp lẫn phi máy chủ, giúp bạn chạy và điều chỉnh quy mô phân tích hiệu quả hơn mà không cần quản lý kho dữ liệu của bạn. Bạn có thể thiết lập một điểm cuối Amazon Redshift phi máy chủ mới để tự động cung cấp kho dữ liệu trong vài giây hoặc bạn có thể chọn tùy chọn được cung cấp cho khối lượng công việc dự đoán được.

Bạn có thể bắt đầu truy vấn dữ liệu chỉ với vài bước trong Bảng điều khiển quản lý AWS. Bạn có thể tận dụng các tập dữ liệu mẫu tải sẵn, bao gồm các tập dữ liệu điểm quy chuẩn TPC-H, TPC-DS cùng những truy vấn mẫu khác để bắt đầu phân tích ngay lập tức. Để bắt đầu sử dụng Amazon Redshift phi máy chủ, chọn “Try Amazon Redshift Serverless” (Dùng thử Amazon Redshift phi máy chủ) và bắt đầu truy vấn dữ liệu. Bắt đầu tại đây.

Kết quả kiểm tra điểm quy chuẩn TPC-DS cho thấy Amazon Redshift mang lại hiệu năng giá tốt nhất khi dùng ngay, ngay cả với một tập dữ liệu tương đối nhỏ là 3 TB. Amazon Redshift mang đến tỷ lệ giá/hiệu năng tốt hơn tới gấp 5 lần so với các kho dữ liệu đám mây khác. Điều này tức là bạn có thể hưởng lợi từ hiệu năng giá hàng đầu của Amazon Redshift ngay từ đầu mà không cần hiệu chỉnh thủ công. Dựa trên phép đo từ xa nhóm hiệu năng, chúng tôi cũng biết rằng hầu hết khối lượng công việc là khối lượng công việc truy vấn ngắn (khối lượng công việc chạy trong chưa đầy 1 giây). Đối với những khối lượng công việc này, điểm quy chuẩn mới nhất chứng minh rằng Amazon Redshift mang lại tỷ lệ giá/hiệu năng tốt hơn tới gấp 7 lần đối với khối lượng công việc có tính đồng thời cao, độ trễ thấp so với các kho dữ liệu đám mây khác. Tìm hiểu thêm ở đây.

Có, các chuyên gia Amazon Redshift luôn sẵn sàng trả lời câu hỏi và hỗ trợ bạn. Hãy liên hệ với chúng tôi và chúng tôi sẽ có phản hồi sau một ngày làm việc để thảo luận về khả năng AWS có thể trợ giúp tổ chức của bạn như thế nào.

Bộ lưu trữ được Amazon Redshift quản lý có sẵn với các loại nút phi máy chủ và RA3, dịch vụ này cho phép bạn thay đổi quy mô và trả tiền cho các chức năng điện toán và lưu trữ riêng biệt, để bạn có thể điều chỉnh quy mô cụm theo đúng nhu cầu điện toán của mình. Dịch vụ này sử dụng bộ lưu trữ cục bộ, hiệu suất cao, dựa trên SSD làm bộ nhớ đệm bậc 1 và tận dụng các phần tối ưu hóa, như: nhiệt độ của khối dữ liệu, tuổi thọ của khối dữ liệu và dạng thức khối lượng công việc, để vừa mang đến hiệu suất cao vừa tự động điều chỉnh bộ lưu trữ sang Amazon S3 khi cần mà bạn không phải làm gì cả.

Nếu bạn đang sử dụng nút Amazon Redshift Lưu trữ mật độ cao hoặc điện toán mật độ cao, thì bạn có thể dùng tính năng Điều chỉnh kích thước linh hoạt nâng cấp các cụm hiện có lên phiên bản điện toán mới RA3. Amazon Redshift Serverless và các cụm dùng phiên bản RA3 tự động sử dụng bộ lưu trữ được Redshift quản lý để lưu trữ dữ liệu. Để sử dụng tính năng này, bạn không cần thực hiện hành động nào khác ngoài việc sử dụng Amazon Redshift phi máy chủ hoặc các phiên bản RA3.

Amazon Redshift Spectrum là một tính năng của Amazon Redshift cho phép bạn chạy các truy vấn đối với hồ dữ liệu của mình trên Amazon S3 nhưng không cần tải dữ liệu hoặc ETL. Khi bạn phát hành một truy vấn SQL, truy vấn đó chuyển tới điểm cuối Amazon Redshift để tạo và tối ưu hóa một kế hoạch truy vấn. Amazon Redshift xác định đâu là dữ liệu cục bộ và đâu là dữ liệu trên Amazon S3, tạo một kế hoạch để giảm thiểu lượng dữ liệu trên S3 phải đọc, đồng thời yêu cầu các công nhân Amazon Redshift Spectrum ngoài phạm vi của một nhóm tài nguyên chia sẻ đọc và xử lý dữ liệu từ Amazon S3.

Hãy cân nhắc chọn loại nút RA3 trong các trường hợp sau đây:

  • Bạn cần sự linh hoạt để thay đổi quy mô và trả phí điện toán riêng rẽ với phí lưu trữ.
  • Bạn truy vấn một phần trong tổng dữ liệu.
  • Số lượng dữ liệu của bạn tăng nhanh chóng hoặc dự kiến sẽ tăng nhanh.
  • Bạn muốn có sự linh hoạt để điều chỉnh quy mô cụm chỉ dựa trên nhu cầu hiệu suất của mình.

Khi quy mô dữ liệu của bạn tiếp tục tăng lên đến hàng petabyte, lượng dữ liệu bạn thu nạp vào kho dữ liệu Amazon Redshift cũng sẽ tăng theo. Bạn có thể đang tìm cách phân tích mọi dữ liệu của mình một cách tiết kiệm.

Với các phiên bản Amazon Redshift RA3 mới cùng bộ lưu trữ được quản lý, bạn có thể chọn số lượng nút dựa trên yêu cầu hiệu năng của mình và chỉ thanh toán cho dung lượng lưu trữ được quản lý mà bạn sử dụng. Điều này giúp bạn linh hoạt thay đổi kích thước cụm RA3 dựa trên lượng dữ liệu bạn xử lý hàng ngày mà không cần tăng chi phí lưu trữ. Được xây dựng trên Hệ thống AWS Nitro mới, các phiên bản RA3 với bộ lưu trữ được quản lý sử dụng ổ cứng SSD có hiệu suất cao để lưu trữ dữ liệu nóng và Amazon S3 để lưu trữ dữ liệu nguội, đem đến sự tiện dụng, lưu trữ tiết kiệm và hiệu suất truy vấn nhanh.

Amazon Redshift Spatial mang lại khả năng phân tích dựa trên vị trí để nắm thông tin chuyên sâu đa dạng về dữ liệu của bạn. Dịch vụ này tích hợp liền mạch dữ liệu kinh doanh và không gian để cung cấp nội dung phân tích phục vụ việc ra quyết định. Amazon Redshift ra mắt tính năng hỗ trợ xử lý dữ liệu không gian tự nhiên vào tháng 11/2019, với loại dữ liệu đa hình GEOMETRY cùng một số tính năng không gian SQL quan trọng. Hiện chúng tôi hỗ trợ loại dữ liệu GEOGRAPHY và số chức năng không gian SQL của chúng tôi đã lên con số 80. Chúng tôi hỗ trợ tất cả các loại dữ liệu và tiêu chuẩn không gian thông thường, bao gồm Shapefiles, GeoJSON, WKT, WKB, eWKT và eWKB. Để tìm hiểu thêm, hãy xem trang tài liệu hoặc trang hướng dẫn sử dụng Amazon Redshift Spatial.

Amazon Athena và Amazon Redshift phi máy chủ đáp ứng những nhu cầu và trường hợp sử dụng khác nhau, ngay cả khi cả hai dịch vụ này đều là dạng phi máy chủ và hỗ trợ người dùng SQL.

Với kiến trúc Xử lý song song hàng loạt (MPP) tách biệt lưu trữ và điện toán cùng khả năng tối ưu hóa tự động dựa trên máy học, thì một kho dữ liệu như Amazon Redshift, dù là phi máy chủ hay được cung cấp, đều là lựa chọn tuyệt vời cho những khách hàng cần tỷ lệ giá/hiệu năng tốt nhất ở mọi quy mô cho khối lượng công việc BI và phân tích phức tạp. Khách hàng có thể sử dụng Amazon Redshift làm thành phần trung tâm trong kiến trúc dữ liệu của họ với khả năng tích hợp sâu có sẵn để truy cập dữ liệu tại chỗ, hoặc tải nhập hay di chuyển dữ liệu dễ dàng vào kho nhằm phân tích đạt hiệu năng cao, thông qua ZeroETL và các phương pháp không cần mã. Khách hàng có thể truy cập dữ liệu được lưu trữ trong Amazon S3, cơ sở dữ liệu hoạt động như Aurora và Amazon RDS, kho dữ liệu của bên thứ ba thông qua tích hợp với Trao đổi dữ liệu trên AWS và kết hợp với dữ liệu được lưu trữ trong kho dữ liệu Amazon Redshift để phân tích. Khách hàng có thể dễ dàng bắt đầu lưu kho dữ liệu và tiến hành máy học trên tất cả dữ liệu này.

Amazon Athena đặc biệt phù hợp để phân tích tương tác và khám phá dữ liệu đối với dữ liệu trong hồ dữ liệu của bạn hoặc bất kỳ nguồn dữ liệu nào thông qua khung bộ kết nối có thể mở rộng (bao gồm hơn 30 bộ kết nối sẵn dùng cho các ứng dụng và tại chỗ hoặc các hệ thống phân tích đám mây khác) mà không phải lo lắng về việc tải nhập hay xử lý dữ liệu. Amazon Athena được xây dựng trên các công cụ và khung nguồn mở như Spark, Presto và Apache Iceberg, giúp khách hàng linh hoạt sử dụng Python hay SQL, cũng như làm việc trên các định dạng dữ liệu mở. Nếu khách hàng muốn thực hiện phân tích tương tác bằng cách sử dụng định dạng dữ liệu và khung nguồn mở, thì nên bắt đầu với Amazon Athena.

Serverless

Amazon Redshift phi máy chủ là một tùy chọn phi máy chủ của Amazon Redshift giúp việc chạy và điều chỉnh quy mô phân tích chỉ trong vài giây trở nên hiểu quả hơn mà không cần thiết lập và quản lý cơ sở hạ tầng kho dữ liệu. Với Redshift phi máy chủ, bất kỳ người dùng nào – bao gồm cả nhà phân tích dữ liệu, nhà phát triển, chuyên gia kinh doanh và nhà khoa học dữ liệu – đều có thể lấy thông tin chuyên sâu từ dữ liệu mà chỉ cần tải và truy vấn dữ liệu trong kho dữ liệu.

Chỉ với vài bước trong Bảng điều khiển quản lý AWS, bạn có thể chọn "configure Amazon Redshift Serverless" (cấu hình Amazon Redshift phi máy chủ) và bắt đầu truy vấn dữ liệu. Bạn có thể tận dụng tập dữ liệu mẫu tải sẵn như dữ liệu về thời tiết, điều tra dân số và tập dữ liệu điểm tiêu chuẩn cùng với truy vấn mẫu để bắt đầu phân tích ngay. Bạn có thể tạo cơ sở dữ liệu, sơ đồ, bảng và tải dữ liệu từ Amazon S3, Amazon Redshift Datashares hoặc khôi phục từ bản kết xuất cụm Redshift hiện có được cung cấp. Bạn cũng có thể trực tiếp truy vấn dữ liệu ở định dạng mở (chẳng hạn như Parquet hay ORC) trong hồ dữ liệu Amazon S3 hoặc truy vấn dữ liệu trong cơ sở dữ liệu hoạt động như Amazon Aurora, Amazon RDS PostgreSQL và MySQL. Xem Hướng dẫn bắt đầu.

Nếu bạn không có kinh nghiệm quản lý kho dữ liệu thì bạn cũng không cần lo lắng về việc thiết lập, cấu hình, quản lý cụm hoặc điều chỉnh kho dữ liệu. Bạn có thể tập trung vào việc rút ra thông tin chuyên sâu có ý nghĩa từ dữ liệu của bạn hoặc đạt kết quả kinh doanh cối lõi thông qua dữ liệu. Bạn chỉ phải trả tiền cho những gì mình sử dụng, giữ chi phí ở mức có thể quản lý. Bạn tiếp tục được hưởng mọi lợi ích từ hiệu suất hàng đầu, tính năng SQL phong phú, khả năng tích hợp liền mạch với hồ dữ liệu và kho dữ liệu hoạt động, cùng khả năng phân tích và chia sẻ dữ liệu tích hợp của Amazon Redshift. Nếu bạn cần kiểm soát chi tiết kho dữ liệu của mình, bạn có thể cung cấp các cụm Redshift.

Bạn có thể tiếp tục sử dụng tất cả chức năng phân tích phong phú của Amazon Redshift như các hoạt động kết hợp phức tạp, truy vấn trực tiếp đến dữ liệu trong hồ dữ liệu và cơ sở dữ liệu hoạt động Amazon S3, chế độ xem cụ thể hóa, quy trình được lưu trữ, hỗ trợ dữ liệu bán cấu trúc và ML, cũng như là hiệu năng cao trên quy mô lớn. Mọi dịch vụ liên quan tích hợp với Amazon Redshift (như Amazon Kinesis, AWS Lambda, Amazon QuickSight, Amazon SageMaker, Amazon EMR, AWS Lake Formation và AWS Glue) vẫn tiếp tục hoạt động với Amazon Redshift phi máy chủ.

Bạn có thể tiếp tục chạy mọi trường hợp sử dụng phân tích. Với quy trình công việc bắt đầu đơn giản, tự động điều chỉnh quy mô cùng khả năng trả phí theo mức sử dụng, trải nghiệm Amazon Redshift phi máy chủ hiện càng trở nên hiệu quả và tiết kiệm hơn khi chạy các môi trường kiểm thử và phát triển yêu cầu phải bắt đầu nhanh chóng, phân tích kinh doanh tùy biến, khối lượng công việc có nhu cầu điện toán đa dạng và khó dự đoán, cũng như khối lượng công việc ngắt quãng hoặc không đều đặn.

Tải nhập và tải dữ liệu

Bạn có thể tải dữ liệu vào Amazon Redshift từ nhiều nguồn dữ liệu khác nhau, như Amazon S3Amazon RDSAmazon DynamoDB, Amazon EMR, AWS Glue, Quy trình dữ liệu của AWS và/hoặc bất kỳ máy chủ nào có hỗ trợ SSH trên Amazon EC2 hoặc tại chỗ. Amazon Redshift cố gắng tải dữ liệu song song vào từng nút điện toán nhằm tăng tối đa tốc độ thu nạp dữ liệu của bạn vào cụm kho dữ liệu. Khách hàng có thể kết nối với Amazon Redshift bằng ODBC hoặc JDBC rồi phát hành lệnh 'chèn' SQL để chèn dữ liệu. Xin lưu ý quá trình này chậm hơn so với khi sử dụng S3 hoặc DynamoDB, vì các phương thức đó tải dữ liệu song song vào từng nút điện toán, còn lệnh chèn SQL chỉ tải thông qua một nút chính. Để biết thêm chi tiết về tải dữ liệu lên Amazon Redshift, vui lòng xem Hướng dẫn bắt đầu của chúng tôi.

Tính năng tự động sao chép của Redshift cung cấp khả năng tự động hóa các câu lệnh sao chép bằng cách theo dõi các thư mục Amazon S3 và tải nhập các tệp mới mà không cần khách hàng can thiệp. Nếu không có tính năng tự động sao chép, một câu lệnh sao chép sẽ ngay lập tức bắt đầu quá trình tải nhập tệp cho các tệp hiện có. Tính năng tự động sao chép mở rộng lệnh sao chép hiện có và cung cấp khả năng 1/ tự động hóa quy trình tải nhập tệp bằng cách theo dõi đường dẫn Amazon S3 được chỉ định cho các tệp mới, 2/ sử dụng lại cấu hình sao chép, giảm nhu cầu tạo và chạy các câu lệnh sao chép mới cho các tác vụ tải nhập lặp lại và 3/ theo dõi các tệp đã tải để tránh trùng lặp dữ liệu.

Để bắt đầu sử dụng, khách hàng cần có một thư mục Amazon S3 mà điểm cuối của cụm/phi máy chủ Redshift của họ có thể truy cập được thư mục này, bằng cách sử dụng các vai trò IAM được liên kết và tạo một bảng Redshift để sử dụng làm đích. Khi đường dẫn Amazon S3 và bảng Redshift đã sẵn sàng, khách hàng có thể tạo tác vụ sao chép bằng cách sử dụng lệnh sao chép. Sau khi tác vụ sao chép được tạo, Redshift bắt đầu ngầm theo dõi những đường dẫn Amazon S3 đã chỉ định và khởi tạo các câu lệnh sao chép do người dùng xác định để tự động sao chép các tệp mới vào bảng đích.

Các trường hợp sử dụng chính bao gồm: 1/ Khách hàng sử dụng Amazon EMR và AWS Glue để chạy các tác vụ Apache Spark truy cập và tải dữ liệu vào Amazon Redshift như một phần của quy trình tải nhập và chuyển đổi dữ liệu (hàng loạt và truyền phát) 2/ Khách hàng sử dụng Amazon SageMaker để thực hiện máy học bằng Apache Spark và phải truy cập dữ liệu được lưu trữ trong Amazon Redshift để chuyển đổi và thiết kế tính năng. 3/ Khách hàng Amazon Athena sử dụng Apache Spark để thực hiện phân tích tương tác trên dữ liệu trong Amazon Redshift.

Baikal cung cấp những lợi ích sau:

  • Dễ sử dụng để bắt đầu và chạy các ứng dụng Apache Spark trên dữ liệu trong Amazon Redshift mà không phải lo lắng về các bước thủ công liên quan đến việc thiết lập và duy trì các phiên bản chưa được chứng nhận của Spark
  • Thuận tiện khi sử dụng Apache Spark từ các dịch vụ AWS khác nhau như Amazon EMR, AWS Glue, Amazon Athena và Amazon SageMaker với Amazon Redshift cùng cấu hình tối thiểu
  • Cải thiện hiệu suất khi chạy các ứng dụng Apache Spark trên Amazon Redshift

Tích hợp Zero-ETL trên Amazon Aurora với Amazon Redshift cho phép khách hàng của Amazon Aurora và Amazon Redshift chạy phân tích gần theo thời gian thực và máy học trên hàng petabyte dữ liệu giao dịch bằng cách cung cấp giải pháp được quản lý toàn phần để đưa dữ liệu giao dịch từ Amazon Aurora vào Amazon Redshift trong vòng vài giây kể từ khi được ghi. Với tích hợp Zero-ETL trên Amazon Aurora với Amazon Redshift, khách hàng chỉ cần chọn các bảng Amazon Aurora chứa dữ liệu họ muốn phân tích với Amazon Redshift, sau đó tính năng này sẽ sao chép liền mạch lược đồ và dữ liệu vào Amazon Redshift. Tính năng này giúp khách hàng giảm nhu cầu xây dựng và quản lý quy trình dữ liệu phức tạp, thay vào đó, họ có thể tập trung vào việc cải thiện các ứng dụng của mình. Với tích hợp Zero-ETL trên Amazon Aurora với Amazon Redshift, khách hàng có thể sao chép dữ liệu từ nhiều cụm cơ sở dữ liệu Amazon Aurora vào cùng một phiên bản Amazon Redshift để có được thông tin chuyên sâu toàn diện về một số ứng dụng, đồng thời hợp nhất các tài sản phân tích cốt lõi của họ, giúp tiết kiệm đáng kể chi phí và tăng hiệu quả hoạt động. Với tích hợp Zero-ETL trên Amazon Aurora với Amazon Redshift, khách hàng cũng có thể truy cập các khả năng máy học và phân tích cốt lõi của Amazon Redshift, như chế độ xem cụ thể hóa, chia sẻ dữ liệu và truy cập liên kết vào nhiều kho lưu trữ dữ liệu và hồ dữ liệu. Điều này cho phép khách hàng kết hợp phân tích cốt lõi và gần theo thời gian thực để có được thông tin chuyên sâu nhạy cảm về thời gian một cách hiệu quả nhằm cung cấp thông tin cho các quyết định kinh doanh. Hơn nữa, khách hàng sử dụng Amazon Aurora để giao dịch và Amazon Redshift để phân tích, cho nên không có tài nguyên điện toán dùng chung, điều này giúp mang lại giải pháp hiệu quả và hoạt động ổn định.

Tính năng Tích hợp không ETL của Amazon Aurora nhờ Amazon Redshift cung cấp khả năng tích hợp liền mạch giữa hai dịch vụ để phân tích giao dịch.

Dữ liệu truyền phát khác với các bảng cơ sở dữ liệu truyền thống ở chỗ khi bạn truy vấn một luồng, bạn đang ghi lại quá trình phát triển của một mối quan hệ thay đổi theo thời gian. Mặt khác, các bảng sẽ ghi lại bản kết xuất nhanh tại một thời điểm của mối quan hệ thay đổi theo thời gian này. Khách hàng của Amazon Redshift đã quen với việc vận hành trên các bảng thông thường và thực hiện xử lý hạ nguồn (tức là chuyển đổi) dữ liệu bằng cách sử dụng mô hình hàng loạt truyền thống, ví dụ như “ELT”. Chúng tôi cung cấp phương pháp sử dụng Chế độ xem cụ thể hóa (MV) Redshift để khách hàng có thể dễ dàng cụ thể hóa chế độ xem tại một thời điểm của luồng, như được tích lũy cho đến thời điểm được truy vấn, với tốc độ nhanh nhất có thể để hỗ trợ quy trình công việc ELT.

Chia sẻ dữ liệu

Các trường hợp sử dụng chính bao gồm:

  • Một cụm ETL trung tâm chia sẻ dữ liệu với nhiều cụm BI/phân tích để cung cấp khả năng cô lập khối lượng công việc đọc và phí tùy chọn.
  • Nhà cung cấp dữ liệu chia sẻ dữ liệu với người tiêu dùng bên ngoài.
  • Chia sẻ các tập dữ liệu chung như khách hàng, sản phẩm trên nhiều nhóm kinh doanh khác nhau và hợp tác cho mục đích phân tích và khoa học dữ liệu rộng hơn.
  • Phân cấp kho dữ liệu để đơn giản hóa việc quản lý.
  • Chia sẻ dữ liệu giữa các môi trường phát triển, thử nghiệm và sản xuất.
  • Truy cập dữ liệu Redshift từ dịch vụ phân tích AWS khác.

Với truy vấn cơ sở dữ liệu chéo, bạn có thể truy vấn và kết nối dữ liệu liền mạch từ bất kỳ cơ sở dữ liệu Redshift nào mà bạn có quyền truy cập, bất kể bạn kết nối với cơ sở dữ liệu nào. Cơ sở dữ liệu này có thể bao gồm các cơ sở dữ liệu cục bộ trên cụm và cả các bộ dữ liệu dùng chung có sẵn trên các cụm từ xa. Truy vấn cơ sở dữ liệu chéo cung cấp cho bạn tính linh hoạt để sắp xếp dữ liệu dưới dạng cơ sở dữ liệu riêng biệt nhằm hỗ trợ cấu hình nhiều đối tượng thuê.

Trao đổi dữ liệu trên AWS giúp tăng độ hiệu quả cho các khách hàng AWS trao đổi và sử dụng dữ liệu bên thứ ba trong AWS một cách bảo mật. Nhà phân tích dữ liệu, nhà quản lý sản phẩm, nhà quản lý danh mục đầu tư, nhà khoa học dữ liệu, kỹ thuật viên thử nghiệm lâm sàng và nhà phát triển trong gần như mọi lĩnh vực cần truy cập vào nhiều dữ liệu hơn để đẩy nhanh phân tích, đào tạo mô hình ML và đưa ra các quyết định dựa trên dữ liệu. Tuy nhiên, họ không thể tìm dữ liệu từ nhiều nhà cung cấp ở một nơi duy nhất và cũng không có sự nhất quán về cách nhà cung cấp phân phối dữ liệu, khiến họ phải ôm đồm nhiều hình thức như phương tiện truyền thông vật lý được gửi đến, thông tin đăng nhập FTP và lệnh gọi API. Trái lại, nhiều tổ chức muốn cung cấp dữ liệu của họ cho mục đích nghiên cứu hoặc thương mại nhưng việc xây dựng và duy trì công nghệ phân phối, cấp quyền và tính phí cho dữ liệu lại quá khó và đắt đỏ; từ đó càng khiến nguồn cung dữ liệu quý giá trở nên khan hiếm.

Khả năng điều chỉnh quy mô và tính đồng thời

Amazon Redshift phi máy chủ tự động cung cấp dung lượng kho dữ liệu và điều chỉnh quy mô tài nguyên cơ sở một cách thông minh. Amazon Redshift phi máy chủ điều chỉnh dung lượng chỉ trong vài giây giúp mang lại hiệu năng cao ổn định và đơn giản hóa hoạt động vận hành cho cả những khối lượng công việc dễ biến động và yêu cầu khắt khe nhất. Với tính năng Điều chỉnh quy mô đồng thời, bạn có thể hỗ trợ số lượng người dùng đồng thời và truy vấn đồng thời không giới hạn với hiệu năng truy vấn luôn cực nhanh. Khi kích hoạt tính năng điều chỉnh quy mô đồng thời, Amazon Redshift tự động thêm dung lượng cụm khi cụm của bạn gặp phải tình trạng tăng hàng chờ truy vấn.

Đối với điều chỉnh quy mô thủ công, nếu muốn tăng hiệu năng truy vấn hoặc đáp ứng mức sử dụng CPU, bộ nhớ hoặc I/O tăng cao, bạn có thể tăng số nút trên cụm kho dữ liệu bằng cách sử dụng Điều chỉnh kích thước linh hoạt thông qua Bảng điều khiển quản lý AWS hoặc API ModifyCluster. Khi bạn điều chỉnh cụm kho dữ liệu, yêu cầu thay đổi của bạn sẽ được thực thi ngay lập tức. Các chỉ số về mức sử dụng điện toán, mức sử dụng dung lượng lưu trữ và lưu lượng đọc/ghi lên cụm kho dữ liệu Redshift được cung cấp miễn phí thông qua Bảng điều khiển quản lý AWS hoặc các API Amazon CloudWatch. Bạn cũng có thể thêm các chỉ số do người dùng xác định thông qua chức năng chỉ số tùy chỉnh Amazon CloudWatch.

Với Amazon Redshift Spectrum, bạn có thể chạy nhiều cụm Redshift truy cập đến dữ liệu giống nhau trên Amazon S3. Bạn có thể sử dụng nhiều cụm khác nhau cho nhiều trường hợp sử dụng khác nhau. Ví dụ: bạn có thể sử dụng một cụm cho báo cáo tiêu chuẩn và một cụm khác cho truy vấn khoa học dữ liệu. Nhóm tiếp thị của bạn có thể sử dụng các cụm riêng, khác với nhóm vận hành. Redshift Spectrum tự động phân phối hoạt động thực thi truy vấn cho một vài trình xử lý Redshift Spectrum trong một nhóm tài nguyên dùng chung để đọc và xử lý dữ liệu từ Amazon S3, rồi kéo kết quả trở về cụm Redshift của bạn để tiếp tục xử lý phần còn lại.

Điều này còn nhiều yếu tố phụ thuộc. Khi sử dụng tính năng Thay đổi quy mô đồng thời, bạn hoàn toàn có thể đọc và ghi trên cụm trong suốt quá trình thay đổi quy mô đồng thời. Với chức năng Thay đổi kích thước linh hoạt, cụm sẽ không sẵn dùng trong 4 đến 8 phút điều chỉnh. Với khả năng lưu trữ linh hoạt của Redshift RA3 trong dung lượng lưu trữ được quản lý, cụm sẽ hoàn toàn sẵn, dữ liệu sẽ tự động được di chuyển giữa dung lượng lưu trữ được quản lý và các nút điện toán.

Tính năng Điều chỉnh kích thước linh hoạt sẽ bổ sung hoặc loại bỏ các nút khỏi một cụm Redshift đơn trong vòng vài phút để quản lý thông lượng truy vấn của cụm đó. Ví dụ: khối lượng công việc ETL cho các giờ nhất định trong ngày hoặc báo cáo cuối tháng có thể cần thêm tài nguyên Amazon Redshift để hoàn thành đúng hạn. Điều chỉnh quy mô đồng thời bổ sung thêm tài nguyên cụm để tăng lượng truy vấn đồng thời tổng thể.

Không. Điều chỉnh quy mô đồng thời là nhóm tài nguyên Amazon Redshift có quy mô linh hoạt lớn và khách hàng không có quyền truy cập trực tiếp vào đó.

Bảo mật

Amazon Redshift hỗ trợ khả năng bảo mật đầu ngành với tích hợp quản lý và liên kết danh tính cho đăng nhập đơn (SSO), xác thực nhiều yếu tố, kiểm soát truy cập theo cấp độ cột, bảo mật theo cấp độ hàng, kiểm soát truy cập dựa trên vai trò và Đám mây riêng ảo của Amazon (Amazon VPC). Với Amazon Redshift, dữ liệu của bạn được mã hóa khi đang được truyền và đang được lưu trữ. Tất cả các tính năng bảo mật của Amazon Redshift đều được cung cấp sẵn mà không mất thêm phí nhằm đáp ứng các yêu cầu khắt khe nhất về bảo mật, quyền riêng tư và tuân thủ. Bạn hưởng lợi từ việc AWS hỗ trợ nhiều tiêu chuẩn bảo mật và chứng nhận tuân thủ hơn bất kỳ nhà cung cấp nào khác, bao gồm ISO 27001, SOC, HIPAA/HITECH và FedRAMP.

Amazon Redshift hỗ trợ khả năng kiểm soát quyền truy cập dựa trên vai trò. Kiểm soát quyền truy cập theo cấp độ hàng cho phép bạn chỉ định một hoặc nhiều vai trò cho một người dùng, cũng như chỉ định hệ thống và các quyền đối tượng theo vai trò. Bạn có thể áp dụng các vai trò trong hệ thống dùng ngay như người dùng gốc, dba, người vận hành và quản trị viên bảo mật, hoặc bạn có thể tạo các vai trò của riêng mình.

Các hàm do người dùng xác định (UDF) của AWS Lambda cho phép bạn sử dụng hàm AWS Lambda làm UDF trong Amazon Redshift và gọi hàm từ các truy vấn Redshift SQL. Chức năng này cho phép bạn ghi các phần mở rộng tùy chỉnh cho truy vấn SQL của mình để đạt được sự tích hợp chặt chẽ hơn với các dịch vụ khác hoặc các sản phẩm của bên thứ ba. Bạn có thể ghi UDF Lambda để kích hoạt token hóa bên ngoài, che chắn dữ liệu, nhận dạng hoặc khử nhận dạng dữ liệu bằng cách tích hợp với các nhà cung cấp như Protegrity và bảo vệ hoặc ngừng bảo vệ dữ liệu nhạy cảm dựa trên quyền và nhóm của người dùng, trong thời gian truy vấn.

Với sự hỗ trợ tính năng che chắn dữ liệu động, khách hàng có thể dễ dàng bảo vệ dữ liệu nhạy cảm của mình và kiểm soát quyền truy cập ở mức độ chi tiết bằng cách quản lý các chính sách Che chắn dữ liệu. Giả sử bạn có các ứng dụng gồm nhiều người dùng và đối tượng có dữ liệu nhạy cảm không thể hiển thị cho tất cả người dùng. Bạn có các yêu cầu để cung cấp mức bảo mật ở cấp độ chi tiết khác mà bạn muốn áp dụng cho các nhóm người dùng khác nhau. Tính năng Che chắn dữ liệu động của Redshift có khả năng đặt cấu hình để cho phép khách hàng xác định các giá trị dữ liệu được che chắn nhất quán, giữ nguyên định dạng và không thể đảo ngược. Khi tính năng này được cung cấp rộng rãi, bạn có thể bắt đầu sử dụng ngay lập tức. Quản trị viên bảo mật có thể tạo và áp dụng các chính sách chỉ với một vài lệnh.

Có. Những khách hàng muốn dùng công cụ cung cấp thông tin nhận dạng của doanh nghiệp, như Microsoft Azure Active Directory, Active Directory Federation Services, Okta, Ping Federate hay các công cụ cung cấp thông tin nhận dạng khác tuân thủ SAML, đều có thể đặt cấu hình để Amazon Redshift cung cấp khả năng đăng nhập đơn. Bạn có thể đăng nhập vào cụm Amazon Redshift bằng thông tin nhận dạng trên Microsoft Azure Active Directory (AD). Điều này cho phép bạn có được khả năng đăng nhập vào Redshift mà không cần sao chép thông tin nhận dạng Azure Active Directory trong Redshift.

Có. Bạn có thể sử dụng chức năng xác thực nhiều yếu tố (MFA) để tăng mức độ bảo mật khi xác thực cho cụm Amazon Redshift.

Độ khả dụng và độ bền cao

Amazon Redshift sẽ tự động phát hiện và thay thế nút gặp sự cố trong cụm kho dữ liệu của bạn. Trên các cụm Điện toán mật độ cao (DC) và Lưu trữ mật độ cao (DS2), dữ liệu được lưu trữ trên các cụm điện toán để đảm bảo độ bền dữ liệu cao. Khi một nút được thay thế, dữ liệu được làm mới từ bản sao phản chiếu trên một cụm khác. Các cụm RA3 và Redshift phi máy chủ không chịu tác động tương tự như vậy vì dữ liệu được lưu trữ trong Amazon S3 và ổ cứng cục bộ chỉ được dùng làm bộ nhớ đệm dữ liệu. Cụm kho dữ liệu sẽ không sẵn sàng cho truy vấn và cập nhật đến khi nút thay thế được cung cấp và thêm vào CSDL. Amazon Redshift làm cho nút thay thế của bạn sẵn sàng ngay lập tức và ưu tiên tải dữ liệu thường xuyên truy cập nhất của bạn từ Amazon S3 trước để cho phép bạn tiếp tục truy vấn dữ liệu nhanh nhất có thể. Các cụm một nút không hỗ trợ sao chép dữ liệu. Trong trường hợp sự cố ổ đĩa, bạn phải khôi phục cụm từ bản kết xuất nhanh trên S3. Chúng tôi khuyến cáo nên sử dụng tối thiểu hai nút cho môi trường sản xuất.

Nếu kho dữ liệu Amazon Redshift của bạn là triển khai Một vùng sẵn sàng và Vùng sẵn sàng của cụm không khả dụng, thì Amazon Redshift sẽ tự động di chuyển cụm của bạn sang Vùng sẵn sàng (AZ) AWS khác mà không có bất kỳ tình trạng mất dữ liệu hay thay đổi ứng dụng nào. Để kích hoạt tính năng này, bạn phải bật khả năng chuyển vị trí trong mục cài đặt cấu hình cụm của mình.

Không giống như triển khai một vùng sẵn sàng, giờ đây khách hàng có thể cải thiện khả năng sẵn sàng của Redshift bằng cách chạy kho dữ liệu của họ trong triển khai nhiều vùng sẵn sàng. Triển khai nhiều vùng sẵn sàng cho phép bạn chạy đồng thời kho dữ liệu của mình trong nhiều Vùng sẵn sàng (AZ) AWS và tiếp tục hoạt động trong các tình huống bất ngờ xảy ra lỗi. Không cần thay đổi ứng dụng để duy trì tính liên tục cho việc kinh doanh do triển khai Nhiều vùng sẵn sàng được quản lý dưới dạng một kho dữ liệu đơn với một điểm cuối. Triển khai Nhiều vùng sẵn sàng giúp giảm thời gian phục hồi bằng cách đảm bảo công suất tự động phục hồi và dành cho những khách hàng có các ứng dụng phân tích trọng yếu đối với doanh nghiệp yêu cầu mức độ sẵn sàng và khả năng phục hồi cao nhất khi AZ xảy ra lỗi. Điều này cũng cho phép khách hàng triển khai một giải pháp phù hợp hơn với các đề xuất của Trụ cột độ tin cậy của Khung AWS Well-Architected. Để tìm hiểu thêm về Nhiều vùng sẵn sàng của Amazon Redshift, tham khảo tại đây.

RPO là từ viết tắt của Điểm phục hồi mục tiêu và là một thuật ngữ để mô tả việc đảm bảo về tính chất mới gần đây của dữ liệu trong trường hợp xảy ra lỗi. RPO là lượng thời gian tối đa có thể chấp nhận được kể từ điểm phục hồi dữ liệu gần nhất. Điều này xác định thế nào được coi là mất dữ liệu có thể chấp nhận được giữa điểm phục hồi gần nhất và khi dịch vụ bị gián đoạn. Nhiều vùng sẵn sàng của Redshift hỗ trợ RPO = 0 nghĩa là dữ liệu được đảm bảo là đang ở thời điểm hiện tại và được cập nhật mới nhất trong trường hợp xảy ra lỗi. Các kiểm thử trước khi ra mắt của chúng tôi cho thấy RTO có triển khai nhiều vùng sẵn sàng của Amazon Redshift ít hơn 60 giây trở xuống, trong trường hợp khó xảy ra lỗi AZ.

Chuyển vị trí Redshift được bật theo mặc định trên tất cả các cụm RA3 mới và điểm cuối phi máy chủ, cho phép khởi động lại kho dữ liệu ở Vùng sẵn sàng khác trong trường hợp ngừng hoạt động trên quy mô lớn mà không mất dữ liệu hoặc mất thêm phí. Mặc dù tính năng Chuyển vị trí được sử dụng miễn phí, còn có những hạn chế như đây là cách tiếp cận trên cơ sở theo khả năng tối đa tùy thuộc vào tính sẵn sàng của tài nguyên trong Vùng sẵn sàng được phục hồi và Thời gian phục hồi mục tiêu (RTO) có thể bị ảnh hưởng bởi các vấn đề khác liên quan đến quá trình khởi động một cụm mới. Điều này có thể khiến thời gian phục hồi kéo dài từ 10 đến 60 phút. Nhiều vùng sẵn sàng của Redshift hỗ trợ các yêu cầu về tính sẵn sàng cao bằng cách cung cấp một RTO được đo bằng hàng chục giây và đảm bảo khả năng hoạt động liên tục vì không bị giới hạn về dung lượng hoặc các vấn đề tiềm ẩn khác khi tạo một cụm mới.

Truy vấn và phân tích

Có, Amazon Redshift sử dụng SQL theo tiêu chuẩn ngành và được truy cập bằng cách sử dụng trình điều khiển JDBC và ODBC tiêu chuẩn. Bạn có thể tải xuống trình điều khiển JDBC và ODBC tùy chỉnh theo Amazon Redshift từ tab Kết nối máy khách của Bảng điều khiển Redshift. Chúng tôi đã chứng thực các tích hợp với nhà cung cấp BI và ETL thông dụng, một số nhà cung cấp đang cho phép dùng thử miễn phí để giúp bạn bắt đầu tải và phân tích dữ liệu. Bạn cũng có thể truy cập Chợ điện tử AWS để triển khai và định cấu hình các giải pháp được thiết kế tương thích với Amazon Redshift trong vài phút.

Amazon Redshift Spectrum hỗ trợ tất cả các công cụ máy khách Amazon Redshift. Công cụ máy khách có thể tiếp tục kết nối với điểm cuối của cụm Amazon Redshift bằng kết nối ODBC hoặc JDBC. Không yêu cầu thay đổi gì.

Bạn sử dụng cú pháp truy vấn giống hệt và có các tính năng truy vấn tương tự để truy cập bảng trên Redshift Spectrum như các tính năng bạn có cho bảng trên bộ lưu trữ cục bộ của cụm Redshift. Bảng bên ngoài được tham chiếu bằng cách sử dụng tên schema xác định theo lệnh CREATE EXTERNAL SCHEMA, nơi chúng đã được đăng ký.

Amazon Redshift Spectrum hiện hỗ trợ nhiều định dạng dữ liệu nguồn mở, như: Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text và TSV.<br>Amazon Redshift Spectrum hiện hỗ trợ dạng nén Gzip và Snappy.

Giống như bảng cục bộ, bạn có thể sử dụng tên quy ước để chọn chính xác bảng mong muốn bằng cách sử dụng schema_name.table_name trong truy vấn của bạn.

Có. Lệnh CREATE EXTERNAL SCHEMA hỗ trợ Hive Metastores. Chúng tôi hiện không hỗ trợ DDL cho Hive Metastore.

Bạn có thể truy vấn bảng hệ thống SVV_EXTERNAL_TABLES để xem thông tin đó.

Có, tính năng Amazon Redshift ML giúp người dùng SQL dễ dàng tạo, đào tạo và triển khai các mô hình máy học (ML) bằng cách sử dụng các lệnh SQL quen thuộc. Amazon Redshift ML cho phép bạn tận dụng dữ liệu của mình trong Amazon Redshift với Amazon SageMaker, một dịch vụ ML được quản lý hoàn toàn. Amazon Redshift hỗ trợ cả quá trình học không giám sát (K-Means) và có giám sát (các thuật toán Autopilot, XGBoost, MLP). Bạn cũng có thể sử dụng dịch vụ AI ngôn ngữ AWS để dịch, biên tập và phân tích các trường văn bản trong truy vấn SQL bằng các hàm UDF Lambda dựng sẵn - xem bài đăng trên blog.

Amazon Redshift cung cấp API Dữ liệu mà bạn có thể sử dụng để dễ dàng truy cập dữ liệu từ Amazon Redshift bằng tất cả các loại ứng dụng theo sự kiện và ứng dụng dựa trên dịch vụ web phi máy chủ, nằm trong bộ chứa và truyền thống, hoạt động trên đám mây. API Dữ liệu đơn giản hóa việc truy cập vào Amazon Redshift vì bạn không cần đặt cấu hình trình điều khiển và quản lý kết nối cơ sở dữ liệu. Thay vào đó, bạn có thể chạy các lệnh SQL tới cụm Amazon Redshift đơn giản bằng cách gọi điểm cuối API bảo mật do API Dữ liệu cung cấp. API dữ liệu quản lý các kết nối cơ sở dữ liệu và dữ liệu đệm. API dữ liệu không đồng bộ, do đó bạn có thể truy xuất kết quả sau này. Kết quả truy vấn của bạn được lưu trữ trong 24 giờ.

API dữ liệu hỗ trợ thông tin chứng thực IAM và sử dụng khóa bí mật từ Trình quản lý thông tin bí mật của AWS. API dữ liệu liên kết thông tin chứng thực Quản lý danh tính và truy cập (IAM) trong AWS để bạn có thể sử dụng các nhà cung cấp danh tính như Okta hoặc Azure Active Directory hãy thông tin xác thực cơ sở dữ liệu được lưu trữ trong Trình quản lý thông tin bí mật mà không cần chuyển thông tin xác thực cơ sở dữ liệu trong lệnh gọi API.

Có, bạn có thể sử dụng API dữ liệu từ AWS CLI bằng tùy chọn dòng lệnh aws redshift-data.

Bạn có thể sử dụng API dữ liệu từ các dịch vụ khác như AWS Lambda, AWS Cloud9, AWS AppSync và Amazon EventBridge.

Không, chúng tôi không tính phí riêng cho việc sử dụng API dữ liệu.

Tích hợp không ETL

Bạn nên sử dụng tích hợp không ETL giữa Aurora với Amazon Redshift khi cần truy cập dữ liệu giao dịch gần theo thời gian thực. Tích hợp này cho phép bạn tận dụng ML của Amazon Redshift với các lệnh SQL đơn giản.

Tích hợp không ETL giữa Aurora và Amazon Redshift có sẵn trên Phiên bản Aurora tương thích với MySQL dành cho phiên bản Aurora MySQL 3.05 (tương thích với MySQL 8.0.32) trở lên ở các Khu vực Miền Đông Hoa Kỳ (Ohio), Miền Đông Hoa Kỳ (Bắc Virginia), Miền Tây Hoa Kỳ (Oregon), Châu Á Thái Bình Dương (Singapore), Châu Á Thái Bình Dương (Sydney), Châu Á Thái Bình Dương (Tokyo), Châu Âu (Frankfurt), Châu Âu (Ireland) và Châu Âu (Stockholm). Tích hợp không ETL giữa Aurora với Amazon Redshift trên Aurora Phiên bản tương thích với PostgreSQL dành cho Aurora PostgreSQL 15.4 ở Khu vực Miền Đông Hoa Kỳ (Ohio).

Tích hợp không ETL giữa Aurora với Amazon Redshift loại bỏ nhu cầu xây dựng và duy trì các quy trình dữ liệu phức tạp. Bạn có thể hợp nhất dữ liệu từ một hoặc nhiều cụm cơ sở dữ liệu Aurora vào một cụm cơ sở dữ liệu Amazon Redshift duy nhất và chạy phân tích và máy học gần theo thời gian thực bằng Amazon Redshift trên petabyte dữ liệu giao dịch từ Amazon Aurora.

Tích hợp không ETL giữa Aurora với Amazon Redshift  tương thích với Amazon Redshift phi máy chủ và Amazon Aurora phi máy chủ phiên bản 2. Khi sử dụng cả Aurora phi máy chủ phiên bản 2 và Amazon Redshift phi máy chủ, bạn có thể tạo phân tích gần theo thời gian thực trên dữ liệu giao dịch mà không cần phải quản lý bất kỳ cơ sở hạ tầng nào cho các quy trình dữ liệu.

Bạn có thể bắt đầu từ việc sử dụng bảng điều khiển Amazon RDS để tạo tích hợp không ETL bằng cách chỉ định nguồn Aurora và đích Amazon Redshift. Sau khi tích hợp đã được tạo, cơ sở dữ liệu Aurora sẽ được sao chép sang Amazon Redshift và bạn có thể bắt đầu truy vấn dữ liệu sau khi quá trình gieo hạt ban đầu hoàn tất. Để biết thêm thông tin, hãy đọc hướng dẫn bắt đầu tích hợp không ETL giữa Aurora với Amazon Redshift.

Tích hợp không ETL từ Aurora vào Amazon Redshift sẽ sao chép nguyên tử các giao dịch để đảm bảo tính nhất quán của dữ liệu giữa cơ sở dữ liệu Aurora nguồn và cụm Amazon Redshift đích.
Dưới đây là một số điểm chính về tính nguyên tử của các giao dịch sử dụng tích hợp này:

  • Chỉ các giao dịch đã cam kết trong Aurora mới được sao chép vào Amazon Redshift. Không áp dụng cho các giao dịch chưa cam kết hoặc đã khôi phục về.
  • Việc tích hợp sử dụng quy trình cam kết hai giai đoạn để áp dụng nguyên tử từng giao dịch cho Amazon Redshift. Tất cả các thay đổi dữ liệu trong giao dịch đều sẽ được áp dụng, trong trường hợp xảy ra lỗi thì sẽ không có thay đổi nào được áp dụng.
  • Tính nhất quán trong giao dịch được duy trì giữa nguồn và mục tiêu. Sau khi sao chép, dữ liệu cho một giao dịch nhất định sẽ nhất quán trong cả Aurora và Amazon Redshift.
  • Thay đổi lược đồ thông qua DDL hoặc DML cũng sẽ được áp dụng nguyên tử để duy trì tính toàn vẹn.
  • Ứng dụng nguyên tử của các giao dịch đảm bảo không có giao dịch một phần hoặc trạng thái dữ liệu không nhất quán nào có thể xảy ra giữa các cơ sở dữ liệu.
 

Tích hợp không ETL từ Aurora vào Amazon Redshift sẽ duy trì đầy đủ tính nhất quán trong giao dịch giữa cơ sở dữ liệu Aurora nguồn và cụm Amazon Redshift đích.

Dưới đây là một số điểm chính về cách xử lý các thay đổi lược đồ:

  • Các lệnh DDL như CREATE TABLE, ALTER TABLE, DROP TABLE, v.v sẽ được tự động sao chép từ Aurora sang Amazon Redshift.
  • Việc tích hợp thực hiện các bước kiểm tra và điều chỉnh cần thiết trong bảng Amazon Redshift đối với các thay đổi lược đồ được sao chép. Ví dụ: thêm một cột trong Aurora cũng sẽ thêm cột trong Amazon Redshift.
  • Quá trình sao chép và đồng bộ hóa lược đồ sẽ tự động diễn ra theo thời gian thực với độ trễ tối thiểu giữa cơ sở dữ liệu nguồn và đích.
  • Tính nhất quán trong lược đồ được duy trì ngay cả khi các thay đổi DML xảy ra song song với các thay đổi DDL.

Bạn có thể tạo các chế độ xem cụ thể hóa trong cơ sở dữ liệu Amazon Redshift cục bộ của mình để chuyển đổi dữ liệu được sao chép thông qua tích hợp không ETL. Kết nối với cơ sở dữ liệu cục bộ và sử dụng truy vấn cơ sở dữ liệu chéo để truy cập vào cơ sở dữ liệu đích. Bạn có thể sử dụng tên đối tượng đủ điều kiện có ký hiệu ba phần (destination-database-name.schema-name.table-name) hoặc tạo lược đồ bên ngoài tham chiếu cơ sở dữ liệu đích và cặp lược đồ và sử dụng ký hiệu hai phần (external-schema-name.table-name).

Việc xử lý thay đổi dữ liệu liên tục và không ETL được cung cấp mà không tính thêm phí. Bạn phải trả phí sử dụng các tài nguyên hiện có của Amazon RDS và Amazon Redshift để tạo và xử lý dữ liệu thay đổi được tạo ra trong quá trình tích hợp không ETL. Những tài nguyên này có thể bao gồm:

  • I/O và dung lượng bổ sung được sử dụng bằng cách kích hoạt binlog nâng cao
  • Chi phí xuất ảnh chụp nhanh cho lần xuất dữ liệu ban đầu để khởi tạo cơ sở dữ liệu Amazon Redshift của bạn
  • Dung lượng lưu trữ Amazon Redshift bổ sung để lưu trữ dữ liệu được sao chép
  • Chi phí truyền dữ liệu giữa các vùng sẵn sàng để di chuyển dữ liệu từ nguồn sang mục tiêu

Để biết thêm thông tin, hãy truy cập trang định giá của Aurora.

Sao lưu và phục hồi

Các cụm Amazon Redshift RA3 và Amazon Redshift phi máy chủ sử dụng Kho lưu trữ được quản lý của Redshift luôn cung cấp bản sao dữ liệu mới nhất. Các cụm DS2 và DC2 phản chiếu dữ liệu trên cụm để đảm bảo bản sao mới nhất được cung cấp trong trường hợp xảy ra lỗi. Các bản sao lưu được tự động tạo trên tất cả các loại cụm Redshift và được lưu giữ trong 24 giờ, và trên các điểm khôi phục phi máy chủ được cung cấp trong 24 giờ qua

Bạn cũng có thể tạo bản sao lưu của riêng mình để lưu giữ lâu dài. Những bản sao lưu này có thể được tạo vào bất kỳ lúc nào và Amazon Redshift tự động tạo bản sao lưu hoặc các điểm phục hồi Amazon Redshift phi máy chủ có thể được chuyển thành một bản sao lưu của người dùng để lưu giữ lâu hơn.

Amazon Redshift cũng có thể sao chép không đồng bộ các bản kết xuất nhanh của bạn hoặc các điểm khôi phục lên Amazon S3 ở Khu vực khác để phục hồi sau thảm họa.

Trên một cụm DS2 hoặc DC2, lưu trữ sao lưu miễn phí chỉ giới hạn theo tổng dung lượng lưu trữ trên các nút của cụm kho dữ liệu và chỉ áp dụng với cụm kho dữ liệu hiện hoạt.

Ví dụ: nếu bạn có tổng dung lượng lưu trữ kho dữ liệu bằng 8 TB, chúng tôi sẽ cung cấp tối đa 8 TB dung lượng lưu trữ sao lưu và không tính thêm phí. Nếu bạn muốn tăng thời gian lưu giữ bản sao lưu lên nhiều ngày, bạn có thể làm việc này bằng Bảng điều khiển quản lý AWS hoặc API Amazon Redshift. Để biết thêm thông tin về tự động kết xuất nhanh, vui lòng tham khảo Hướng dẫn quản lý Amazon Redshift.

Amazon Redshift chỉ sao lưu dữ liệu có sự thay đổi để hầu hết các ảnh chụp nhanh chỉ chiếm một phần nhỏ dung lượng lưu trữ sao lưu khả dụng của bạn. Khi bạn cần khôi phục bản sao lưu, bạn có thể truy cập tất cả các bản sao lưu tự động trong khoảng thời gian lưu giữ sao lưu của bạn. Sau khi bạn chọn bản sao lưu để khôi phục, chúng tôi sẽ cung cấp một cụm kho dữ liệu mới và khôi phục dữ liệu của bạn lên cụm đó.

Bạn có thể sử dụng Bảng điều khiển quản lý AWS hoặc API ModifyCluster để quản lý khoảng thời gian giữ lại bản sao lưu tự động của bạn bằng cách điều chỉnh thông số RetentionPeriod. Nếu muốn tắt tự động sao lưu, bạn có thể thiết lập thời gian giữ lại bằng 0 (không khuyến cáo).

Khi xóa cụm kho dữ liệu, bạn có khả năng chỉ định có tạo bản kết xuất nhanh cuối cùng sau khi xóa hay không. Thao tác này cho phép khôi phục cụm kho dữ liệu đã bị xóa trong tương lai. Toàn bộ các bản kết xuất nhanh thủ công tạo ra trước đó của cụm kho dữ liệu sẽ được giữ lại và tính phí theo mức phí tiêu chuẩn của Amazon S3, trừ phi bạn chọn xóa chúng.

Giám sát và bảo trì

Các chỉ số về mức sử dụng điện toán, mức sử dụng dung lượng lưu trữ và lưu lượng đọc/ghi lên cụm kho dữ liệu Amazon Redshift được cung cấp miễn phí thông qua Bảng điều khiển quản lý AWS hoặc các API Amazon CloudWatch. Bạn cũng có thể thêm các chỉ số khác do người dùng xác định thông qua chức năng chỉ số tùy chỉnh của Amazon CloudWatch. Bảng điều khiển quản lý AWS cung cấp một bảng thông tin giám sát giúp bạn giám sát tình trạng và hiệu năng ở tất cả các cụm của bạn. Amazon Redshift cũng cung cấp thông tin về hiệu năng truy vấn và cụm thông qua Bảng điều khiển quản lý AWS. Thông tin này cho phép bạn xem người dùng và truy vấn nào sử dụng nhiều tài nguyên hệ thống nhất để chẩn đoán các vấn đề về hiệu suất thông qua việc quan sát các kế hoạch truy vấn và số liệu thống kê thực hiện. Ngoài ra, bạn có thể xem mức sử dụng tài nguyên trên mỗi nút điện toán để bảo đảm bạn có dữ liệu và truy vấn được cân bằng phù hợp giữa tất cả các nút.

Amazon Redshift định kỳ thực hiện bảo trì để áp dụng các bản sửa lỗi, tăng cường và tính năng mới cho cụm của bạn. Bạn có thể thay đổi khung thời gian bảo trì theo lịch này bằng cách điều chỉnh cụm, qua phương thức lập trình hoặc sử dụng Bảng điều khiển Redshift. Trong khoảng thời gian bảo trì này, cụm Amazon Redshift của bạn không còn sẵn sàng để phục vụ các thao tác thông thường nữa. Để biết thêm thông tin về khung thời gian bảo trì và lịch theo Khu vực, xem Khung thời gian bảo trì trong Hướng dẫn quản lý Amazon Redshift.