Thông tin chung

Để tìm hiểu thông tin mới về Amazon Redshift, hãy truy cập trang Thông tin mới.
Để xem thêm thông tin chi tiết và hướng dẫn sử dụng, hãy truy cập Tài liệu.

Câu hỏi: Amazon Redshift là gì?

Amazon Redshift là kho lưu trữ dữ liệu đám mây được sử dụng phổ biến nhất. Công cụ này giúp bạn phân tích tất cả dữ liệu một cách nhanh chóng, đơn giản và hiệu quả về mặt chi phí bằng cách sử dụng SQL tiêu chuẩn và các công cụ Nghiệp vụ thông minh (BI) hiện tại của mình. Dịch vụ này cho phép bạn chạy các truy vấn phân tích phức tạp trên hàng terabyte đến petabyte dữ liệu có cấu trúc và bán cấu trúc, nhờ vào khả năng tối ưu hóa truy vấn tinh vi, khả năng lưu trữ dạng cột trên kho lưu trữ hiệu suất cao và khả năng thực thi truy vấn song song trên quy mô lớn. Hầu hết kết quả sẽ được trả về chỉ trong vài giây. Với Redshift, bạn có thể bắt đầu ở quy mô nhỏ với chỉ 0,25 USD/giờ mà không phải cam kết, rồi có thể tăng quy mô lên đến hàng petabyte dữ liệu với giá 1.000 USD/terabyte mỗi năm, mức giá này còn chưa đến một phần mười chi phí của các giải pháp tại chỗ truyền thống. Amazon Redshift còn có Amazon Redshift Spectrum, cho phép bạn chạy trực tiếp các truy vấn SQL trên hàng exabyte dữ liệu không có cấu trúc trong hồ dữ liệu Amazon S3. Dịch vụ này không yêu cầu tải hay chuyển đổi, hơn nữa, bạn có thể sử dụng nhiều định dạng dữ liệu mở, như: Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text, Hudi, Delta và TSV. Redshift Spectrum tự động thay đổi quy mô công suất điện toán truy vấn dựa trên dữ liệu được truy xuất, do đó, các truy vấn trên Amazon S3 có tốc độ chạy nhanh, bất kể dung lượng bộ dữ liệu.

Amazon Redshift đem đến cho bạn các tính năng truy vấn tốc độ cao trên dữ liệu được cấu trúc nhờ vào các ứng dụng khách dựa trên SQL quen thuộc và các công cụ nghiệp vụ thông minh (BI) sử dụng kết nối ODBC và JDBC tiêu chuẩn. Các truy vấn được phân phối và triển khai song song trên nhiều tài nguyên vật lý khác nhau. Bạn có thể dễ dàng tăng hoặc giảm quy mô kho dữ liệu Amazon Redshift chỉ bằng vài cú nhấp chuột trên Bảng điều khiển quản lý AWS hoặc bằng một lệnh gọi API. Amazon Redshift tự động vá lỗi và sao lưu kho dữ liệu của bạn, lưu trữ bản sao lưu trong khoảng thời gian lưu giữ do người dùng xác định. Amazon Redshift sử dụng tính năng sao chép và sao lưu liên tục để tăng cường độ sẵn sàng và cải thiện độ bền dữ liệu, đồng thời có thể tự động khôi phục sau sự cố thành phần và nút. Ngoài ra, Amazon Redshift còn hỗ trợ khả năng bảo mật đầu ngành với phần tích hợp AWS IAM, khả năng liên kết danh tính, khả năng kiểm soát quyền truy cập ở cấp cột, Amazon Virtual Private Cloud (Amazon VPC), SSL, khả năng mã hóa AES-256 và phần tích hợp sẵn AWS KMS để bảo vệ dữ liệu của bạn khi truyền tải và khi ở trạng thái lưu trữ. Bạn có thể sử dụng mọi tính năng bảo mật của Amazon Redshift mà không mất thêm một đồng chi phí nào.

Amazon Redshift được tích hợp AWS CloudTrail để bạn có thể kiểm tra tất cả các lệnh gọi API Redshift. Redshift cũng ghi nhật ký mọi thao tác SQL, bao gồm các lượt kết nối, truy vấn và các thay đổi trong kho dữ liệu của bạn. Bạn có thể truy cập các nhật ký này bằng cách sử dụng truy vấn SQL trên bảng hệ thống hoặc chọn lưu nhật ký vào một vị trí an toàn trong Amazon S3. Amazon Redshift tuân thủ các yêu cầu SOC1, SOC2, SOC3 và PCI DSS Cấp 1.

Tương tự như với tất cả Amazon Web Services, bạn không cần đầu tư ban đầu và chỉ phải trả tiền cho tài nguyên mình sử dụng. Amazon Redshift cho phép bạn trả phí theo nhu cầu sử dụng. Bạn thậm chí còn có thể dùng thử Amazon Redshift miễn phí.

Để biết thông tin về tính sẵn có của Amazon Redshift theo khu vực, hãy xem Bảng khu vực AWS.

Hỏi: Tại sao tôi nên sử dụng Amazon Redshift thay vì kho lưu trữ dữ liệu tại chỗ?

Việc quản trị kho lưu trữ dữ liệu tại chỗ tốn khá nhiều thời gian và tài nguyên, đặc biệt là đối với các bộ dữ liệu lớn. Ngoài ra, chi phí tài chính liên quan đến việc xây dựng, duy trì và phát triển kho dữ liệu tại chỗ, tự quản lý cũng rất cao. Khi dữ liệu của bạn tăng lên, bạn sẽ liên tục phải cân nhắc nên tải dữ liệu nào vào kho dữ liệu và lưu trữ dữ liệu nào ở bộ lưu trữ để có thể quản lý chi phí, duy trì độ phức tạp ETL ở mức thấp, cũng như bảo đảm hiệu suất cao. Amazon Redshift không chỉ giúp giảm đáng kể phí tổn và chi phí vận hành của kho dữ liệu, mà với Redshift Spectrum, dịch vụ này còn giúp bạn dễ dàng phân tích lượng dữ liệu lớn ở định dạng gốc mà không cần phải tải dữ liệu.

Câu hỏi: AQUA (Trình tăng tốc truy vấn nâng cao) cho Amazon Redshift là gì?

AQUA là một bộ nhớ đệm mới, được bố trí phân tán và được tăng tốc nhờ phần cứng, cho phép Redshift chạy nhanh hơn gấp 10 lần so với mọi kho lưu trữ dữ liệu khác trên đám mây dành cho doanh nghiệp. Cấu trúc lưu kho dữ liệu hiện có với dung lượng lưu trữ tập trung đòi hỏi di chuyển dữ liệu để tính toán các cụm xử lý. Khi kho dữ liệu ngày một lớn dần sau vài năm, băng thông mạng cần có để di chuyển toàn bộ số dữ liệu này sẽ gây ảnh hưởng lớn đến hiệu suất truy vấn.

AQUA áp dụng một phương pháp mới cho việc lưu kho dữ liệu trên đám mây. AQUA mang khả năng điện toán đến cho bộ lưu trữ bằng cách thực hiện tại chỗ phần lớn tác vụ xử lý dữ liệu, trong một bộ nhớ đệm đổi mới. Ngoài ra, công cụ này sử dụng các bộ xử lý do AWS thiết kế và kiến trúc có thể mở rộng để tăng tốc độ xử lý dữ liệu vượt xa mức mà CPU truyền thống hiện nay có thể làm được. Tìm hiểu thêm.

Câu hỏi: Loại nút nào hỗ trợ AQUA?

AQUA được hỗ trợ trên các loại nút RA3 .16XL và RA3 .4XL. Nếu hiện đang dùng loại nút DS2 hoặc DC2, trước tiên, bạn phải nâng cấp lên loại nút RA3 .16XL hoặc RA3 .4XL để tận dụng khả năng tăng tốc truy vấn của AQUA.

Câu hỏi: Tôi sẽ được tính phí như thế nào khi sử dụng AQUA?

AQUA nằm trong loại phiên bản Redshift RA3 mà không tốn thêm chi phí. Thông tin chi tiết về mức giá cho nút RA3 có ở đây.

Câu hỏi: Làm cách nào để bật/tắt AQUA cho kho dữ liệu Redshift của tôi?

Đối với cụm Redshift chạy trên nút RA3, bạn có thể bật/tắt AQUA ở cấp độ cụm bằng bảng điều khiển Redshift, CLI hoặc API. Bạn sẽ phải khởi động lại cụm để chế độ cài đặt mới có hiệu quả. Đối với cụm Redshift chạy trên nút DC, DS hoặc nút thế hệ cũ hơn, trước tiên, bạn phải nâng cấp lên nút RA3 rồi bật/tắt AQUA. Chế độ cài đặt mặc định cho AQUA là Automatic (Tự động) để Redshift quyết định xem AQUA đang bật hay tắt. Chế độ cài đặt này là thuộc tính cấp cụm, do đó, nếu được đặt, chế độ này sẽ áp dụng cho tất cả cơ sở dữ liệu, lược đồ và truy vấn trên cụm.

Câu hỏi: Loại truy vấn nào được AQUA tăng tốc?

AQUA tăng tốc truy vấn phân tích bằng cách chạy các tác vụ chuyên về dữ liệu như quét, lọc và tổng hợp gần hơn với lớp lưu trữ bằng phần cứng chuyên dụng. Bạn sẽ thấy cải thiện đáng chú ý nhất về hiệu suất đối với các truy vấn yêu cầu hoạt động quét lớn, đặc biệt là những truy vấn có vị từ LIKE và SIMILAR_TO. AQUA sẽ tăng tốc thêm nhiều loại truy vấn hơn theo thời gian.

Câu hỏi: AQUA giữ bảo mật cho dữ liệu của tôi như thế nào?

AQUA hỗ trợ xác thực, mã hóa, cách ly và tuân thủ để giữ an toàn cho dữ liệu của bạn, ở cả trạng thái lưu trữ và đang di chuyển. Hoạt động xác thực được xử lý bởi Redshift bằng dịch vụ xác thực AWS IAM. Đối với hoạt động mã hóa, AQUA sử dụng kênh mã hóa theo TLS cùng với khóa do khách hàng cung cấp để giữ an toàn cho dữ liệu đang di chuyển và ở trạng thái nghỉ trong bộ đệm.

Câu hỏi: Làm cách nào để biết truy vấn nào trên cụm Redshift được AQUA tăng tốc?

Bạn có thể truy vấn các bảng hệ thống để xem các truy vấn được AQUA tăng tốc.

Câu hỏi: Redshift Spectrum là gì?

Redshift Spectrum là một tính năng của Amazon Redshift, cho phép bạn chạy các truy vấn đối với hàng exabyte dữ liệu không có cấu trúc trên Amazon S3 mà không yêu cầu tải hoặc ETL. Khi bạn phát hành một truy vấn, truy vấn đó chuyển tới điểm cuối Amazon Redshift SQL để tạo và tối ưu hóa một kế hoạch truy vấn. Amazon Redshift xác định đâu là dữ liệu cục bộ và trên Amazon S3 có những gì, tạo một kế hoạch để giảm thiểu lượng dữ liệu trên Amazon S3 cần được đọc, yêu cầu các công nhân Redshift Spectrum ngoài phạm vi của một nhóm tài nguyên chia sẻ đọc và xử lý dữ liệu từ Amazon S3.

Redshift Spectrum mở rộng lên tới hàng nghìn phiên bản nếu cần, do đó, các truy vấn sẽ chạy rất nhanh bất kể dung lượng dữ liệu. Ngoài ra, bạn có thể sử dụng cùng một SQL cho dữ liệu Amazon S3 như cho các truy vấn Amazon Redshift và kết nối với cùng một điểm cuối Amazon Redshift bằng cùng những công cụ BI của bạn. Redshift Spectrum cho phép bạn tách biệt hai chức năng lưu trữ và điện toán, qua đó cho phép bạn thay đổi quy mô riêng từng phần. Bạn có thể thiết lập số lượng cụm Amazon Redshift bạn cần để truy vấn kho dữ liệu trên Amazon S3 của bạn, mang lại độ khả dụng cao và không giới hạn việc tồn tại đồng thời. Redshift Spectrum giúp bạn tự do lưu trữ dữ liệu của mình ở nơi bạn muốn, theo định dạng bạn muốn và sẵn có để xử lý khi bạn cần. Để biết thông tin về tính sẵn có của Redshift Spectrum theo khu vực, hãy truy cập trang giá của Amazon Redshift.

Câu hỏi: Điểm khác biệt giữa AQUA và Redshift Spectrum là gì?

Redshift Spectrum được thiết kế để cho phép truy vấn trên các định dạng mở được lưu trữ trong Amazon S3. Các định dạng mở có thể được truy vấn bằng nhiều công cụ, bao gồm Amazon EMR hỗ trợ Apache Spark hoặc Amazon Athena hỗ trợ trải nghiệm phi máy chủ. Redshift Spectrum không hỗ trợ các bản cập nhật giao dịch và không hỗ trợ định dạng gốc được tối ưu hóa cho Redshift được dùng để lưu trữ dữ liệu được thu nạp trong Redshift. Việc sử dụng Redshift Spectrum yêu cầu định nghĩa rõ ràng về bảng bên ngoài, trong khi AQUA vận hành trên bảng dành cho Native. Spectrum rất phù hợp cho việc chạy truy vấn không thường xuyên trên dữ liệu đám mây theo cách được tích hợp từ cụm Redshift của bạn.

AQUA đẩy mạnh các khả năng của Redshift để QUÉT và TỔNG HỢP lượng lớn dữ liệu là một phần của cơ sở dữ liệu Redshift. Ngay cả khi tận dụng AQUA, Redshift vẫn duy trì hỗ trợ cho giao dịch và AQUA sẽ luôn vận hành trên dữ liệu mới nhất.

Câu hỏi: Bộ lưu trữ được Amazon Redshift quản lý là gì?

Bộ lưu trữ được Amazon Redshift quản lý có sẵn với các loại nút RA3, dịch vụ này cho phép bạn thay đổi quy mô và trả tiền cho các chức năng điện toán và lưu trữ riêng biệt, để bạn có thể điều chỉnh quy mô cụm theo đúng nhu cầu điện toán của mình. Dịch vụ này sử dụng bộ lưu trữ cục bộ, hiệu suất cao, dựa trên SSD làm bộ nhớ đệm bậc 1 và tận dụng các phần tối ưu hóa, như: nhiệt độ của khối dữ liệu, tuổi thọ của khối dữ liệu và dạng thức khối lượng công việc, để vừa mang đến hiệu suất cao vừa tự động điều chỉnh bộ lưu trữ sang Amazon S3 khi cần mà bạn không phải làm gì cả.

Hỏi: Làm thế nào để sử dụng bộ lưu trữ được quản lý của Amazon Redshift?

Nếu bạn đang sử dụng nút Amazon Redshift DS hoặc DC, thì bạn có thể nâng cấp các cụm hiện có lên phiên bản điện toán mới RA3 để sử dụng bộ lưu trữ được quản lý. Bạn cũng có thể tạo cụm mới dựa trên phiên bản RA3 và bộ nhớ được quản lý sẽ tự động được sử dụng. Bạn không cần phải làm gì để sử dụng tính năng này.

Hỏi: Amazon Redshift tinh giản việc quản lý kho dữ liệu như thế nào?

Amazon Redshift quản lý các công việc cần thiết để thiết lập, vận hành và thay đổi quy mô kho dữ liệu. Ví dụ: cung cấp dung lượng cơ sở hạ tầng, tự động hóa các tác vụ quản trị liên tục như sao lưu, áp dụng bản vá và giám sát các nút, ổ đĩa để khôi phục sau sự cố. Redshift cũng có khả năng điều chỉnh tự động và hiển thị các đề xuất để quản lý kho dữ liệu của bạn trong Redshift Advisor. Đối với Redshift Spectrum, Amazon Redshift quản lý toàn bộ cơ sở hạ tầng điện toán, cân bằng tải, hoạch định, đặt lịch và thực thi truy vấn của bạn trên dữ liệu được lưu trữ trong Amazon S3.

Hỏi: Amazon Redshift có hiệu suất như thế nào so với hầu hết các cơ sở dữ liệu tại chỗ khác về mặt lưu kho dữ liệu và phân tích?

Amazon Redshift sử dụng nhiều điểm cải tiến để đạt hiệu suất cao hơn gấp 10 lần so với cơ sở dữ liệu truyền thống về mặt khối lượng công việc lưu kho dữ liệu và phân tích, bao gồm:

  • Lưu trữ dữ liệu dạng cột: Thay vì lưu trữ dữ liệu ở dạng hàng, Amazon Redshift tổ chức dữ liệu theo cột. Khác với các hệ thống tổ chức theo hàng vốn lý tưởng dùng để xử lý giao dịch, hệ thống tổ chức theo cột lý tưởng dùng cho kho dữ liệu và phân tích, trong đó các truy vấn thường gồm các kết tập được thực hiện trên các bộ dữ liệu lớn. Do chỉ có cột liên quan đến các truy vấn được xử lý và dữ liệu dạng cột được lưu trữ tuần tự trên phương tiện lưu trữ, hệ thống tổ chức theo cột yêu cầu ít thao tác I/O hơn nhiều, giúp cải thiện đáng kể hiệu suất truy vấn.
  • Nén nâng cao: Có thể nén kho dữ liệu dạng cột tốt hơn nhiều so với kho dữ liệu tổ chức theo dạng hàng vì dữ liệu giống nhau được lưu trữ tuần tự trên ổ đĩa. Amazon Redshift sử dụng nhiều kỹ thuật nén khác nhau và thường đạt được hiệu quả nén khá tốt so với kho dữ liệu quan hệ truyền thống. Khi tải dữ liệu lên một bảng trống, Amazon Redshift tự động lấy mẫu dữ liệu của bạn và chọn cơ chế nén phù hợp nhất.
  • Xử lý song song hàng loạt (MPP): Amazon Redshift tự động phân phối dữ liệu và khối lượng truy vấn giữa tất cả các nút. Amazon Redshift giúp dễ dàng thêm nút vào kho dữ liệu và cho phép bạn duy trì hiệu suất truy vấn tốc độ cao khi kho dữ liệu của bạn tăng lên.
  • Redshift Spectrum: Redshift Spectrum cho phép bạn chạy các truy vấn trên hàng exabyte dữ liệu trên Amazon S3. Không yêu cầu tải hoặc ETL. Kể cả khi bạn không lưu trữ bất kỳ dữ liệu nào trên Amazon Redshift, bạn vẫn có thể sử dụng Redshift Spectrum để truy vấn các bộ dữ liệu kích thước hàng exabyte trên Amazon S3. Khi bạn phát hành một truy vấn, truy vấn đó chuyển tới điểm cuối Amazon Redshift SQL để tạo một kế hoạch truy vấn. Amazon Redshift xác định dữ liệu nào là cục bộ, dữ liệu nào là trên Amazon S3 và hoạch định để giảm thiểu lượng dữ liệu trên Amazon S3 cần đọc, yêu cầu các trình xử lý Amazon Redshift Spectrum trong một nhóm tài nguyên dùng chung đọc và xử lý dữ liệu từ Amazon S3, rồi kéo dữ liệu về cụm Amazon Redshift của bạn để xử lý phần còn lại.
  • Chế độ xem cụ thể hóa: Các chế độ xem cụ thể hóa mang đến hiệu năng truy vấn nhanh hơn đáng kể cho các khối lượng công việc phân tích lặp lại nhiều lần và có thể dự đoán, như: bảng điều khiển, truy vấn từ các công cụ nghiệp vụ thông minh (BI) và tác vụ xử lý dữ liệu ELT (trích xuất, tải, chuyển đổi). Với chế độ xem cụ thể hóa, bạn có thể lưu trữ các kết quả truy vấn được tính toán sẵn và duy trì chúng rất hiệu quả bằng cách xử lý thêm những thay đổi mới nhất trong các bảng nguồn. Các truy vấn tiếp theo tham chiếu đến các chế độ xem cụ thể hóa sử dụng các kết quả được tính toán sẵn để chạy nhanh hơn nhiều, cũng như khả năng tự động làm mới và ghi lại truy vấn để đơn giản hóa và tự động hóa việc sử dụng chế độ xem cụ thể hóa. Chế độ xem cụ thể hóa có thể được tạo dựa trên một hoặc nhiều bảng nguồn bằng các bộ lọc, hình chiếu, điểm nối trong, khối tập hợp, tác vụ nhóm, hàm và các cấu trúc SQL khác.
  • Khả năng thay đổi quy mô: Công suất điện toán và lưu trữ của kho dữ liệu tại chỗ bị giới hạn vì những ràng buộc của phần cứng tại chỗ. Redshift trao cho bạn khả năng thay đổi quy mô lưu trữ và điện toán khi cần để đáp ứng các khối lượng công việc hay thay đổi.
  • Tối ưu hóa bảng tự động (ATO) là khả năng tự điều chỉnh giúp bạn đạt được lợi ích về hiệu suất của các khóa sắp xếp và phân phối mà không cần thao tác thủ công. ATO liên tục quan sát cách các truy vấn tương tác với các bảng và sử dụng công nghệ máy học để chọn các khóa sắp xếp và phân phối tốt nhất nhằm tối ưu hóa hiệu năng cho khối lượng công việc của cụm. Nếu Redshift xác định rằng việc áp dụng một khóa sẽ cải thiện hiệu năng cụm, các bảng sẽ tự động được thay đổi trong vòng vài giờ mà không cần sự can thiệp của quản trị viên. Nhờ hoạt động tối ưu hóa của tính năng ATO, hiệu năng cụm đã tăng 24% và 34% khi sử dụng điểm quy chuẩn TPC-DS lần lượt là 3 TB và 30 TB, so với cụm không có ATO. Các tính năng bổ sung như Xóa chân không tự động, Sắp xếp bảng tự động và Phân tích tự động loại bỏ nhu cầu bảo trì và điều chỉnh thủ công đối với các cụm Redshift để có được hiệu năng tốt nhất cho các cụm và khối lượng công việc sản xuất mới.
  • Amazon Redshift Advisor phát triển các đề xuất tùy chỉnh để tăng hiệu năng và tối ưu hóa chi phí bằng cách phân tích khối lượng công việc và chỉ số sử dụng cho cụm của bạn. Đăng nhập vào bảng điều khiển Amazon Redshift để xem các đề xuất của Advisor. Để biết thêm thông tin, hãy xem Làm việc với các đề xuất từ Amazon Redshift Advisor.

Câu hỏi: Làm thế nào để bắt đầu sử dụng Amazon Redshift?

Bạn có thể đăng ký và bắt đầu trong vài phút từ trang chi tiết về Amazon Redshift hoặc thông qua Bảng điều khiển quản lý AWS. Nếu chưa có tài khoản AWS, bạn sẽ được nhắc tạo một tài khoản. Hãy truy cập trang Bắt đầu để biết cách dùng thử Amazon Redshift miễn phí.

Hỏi: Làm thế nào để tạo và truy cập một cụm kho dữ liệu Amazon Redshift?

Bạn có thể dễ dàng tạo cụm kho dữ liệu Amazon Redshift bằng Bảng điều khiển quản lý AWS hoặc API Amazon Redshift. Bạn có thể bắt đầu với kho dữ liệu 160 GB, có một nút và tăng quy mô lên đến hàng petabyte hoặc hơn nữa bằng vài cú nhấp chuột trên Bảng điều khiển AWS hoặc bằng một lệnh gọi API.

Cấu hình một nút (phù hợp nhất với khối lượng công việc đánh giá hoặc phát triển/kiểm thử) cho phép bạn bắt đầu sử dụng Amazon Redshift một cách nhanh chóng, có hiệu quả về mặt chi phí và tăng quy mô lên cấu hình nhiều nút khi nhu cầu của bạn tăng thêm. Cụm kho dữ liệu Redshift có thể chứa 1 – 128 nút điện toán, tùy theo loại nút. Đối với loại nút thế hệ mới nhất, RA3, số lượng nút tối thiểu là hai. Để biết chi tiết, vui lòng xem tài liệu của chúng tôi.

Cấu hình nhiều nút đòi hỏi bạn phải có một nút chính để quản lý các kết nối máy khách và nhận truy vấn, hai nút điện toán để lưu trữ dữ liệu và thực hiện các truy vấn, phép tính. Nút chính có dung lượng tương đương với nút điện toán và được tự động cung cấp miễn phí cho bạn.

Bạn chỉ cần xác định Vùng sẵn sàng mong muốn (không bắt buộc), số lượng nút, loại nút, tên và mật khẩu chính, nhóm bảo mật, các mục cài đặt lưu giữ bản sao lưu và cài đặt hệ thống khác. Sau khi bạn đã chọn cấu hình mong muốn, Amazon Redshift sẽ cung cấp các tài nguyên cần thiết và thiết lập cụm kho dữ liệu của bạn.

Sau khi cụm kho dữ liệu của bạn đã sẵn sàng, bạn có thể truy xuất điểm cuối của cụm cùng với chuỗi kết nối JDBC và ODBC từ Bảng điều khiển quản lý AWS hoặc bằng API Redshift. Sau đó bạn có thể sử dụng chuỗi kết nối này với công cụ cơ sở dữ liệu yêu thích, ngôn ngữ lập trình hoặc công cụ Nghiệp vụ thông minh (BI). Bạn cần ủy quyền các truy vấn mạng cho cụm kho dữ liệu đang chạy của bạn. Để biết phần giải thích chi tiết, vui lòng tham khảo Hướng dẫn bắt đầu của chúng tôi.

Câu hỏi: Công suất lưu trữ tối đa trên mỗi nút điện toán bằng bao nhiêu? Khối lượng dữ liệu khuyến cáo trên mỗi nút điện toán bằng bao nhiêu để đạt hiệu năng tối ưu?

Bạn có thể tạo một cụm bằng cách sử dụng các loại nút RA3, DC hoặc DS. Các loại nút RA3 cho phép bạn thay đổi quy mô và chi trả cho điện toán và lưu trữ một cách độc lập. Bạn chọn số lượng phiên bản mình cần dựa trên yêu cầu về hiệu năng và chỉ trả tiền cho dung lượng lưu trữ được quản lý mà bạn sử dụng.

Các loại nút RA3 có ba kích thước: RA3.16XL, RA3.4XL và RA3.XLPLUS. Mỗi nút RA3.16XL có 48 vCPU, bộ nhớ 384 GiB và hỗ trợ IO 8 GB/giây. Cả hai cụm RA3.16XL và RA3.4XL đều chạy với tối thiểu hai nút và cụm nhỏ nhất có hai nút RA3.16XL hoặc RA3.4XL sẽ cung cấp bộ lưu trữ được quản lý 256 TB. Định mức bộ lưu trữ được quản lý cho cả RA3.16XL và RA3.4XL là 128 TB/nút. Cụm RA3.16XL có thể tăng tới 128 nút, cho phép xây dựng cụm có bộ lưu trữ được quản lý lên đến 16 petabyte. Nút RA3.4XL có 12 vCPU, bộ nhớ 96 GiB và hỗ trợ IO 2 GB/giây. Cụm RA3.4XL có thể mở rộng tới 64 nút, cho phép xây dựng cụm có dung lượng lưu trữ được quản lý lên đến 4 petabyte. Nút RA3.XLPLUS có 4vCPU, bộ nhớ 32 GiB và hỗ trợ IO 650 MB. Cụm RA3.XLPLUS có thể mở rộng tới 32 nút, cho phép xây dựng cụm có dung lượng lưu trữ được quản lý lên đến 5 petabyte. Lưu ý: Mọi dung lượng bộ lưu trữ được quản lý ở đây đều là dành cho dữ liệu nén. Redshift nén dữ liệu đến 3 – 4 lần, nên dữ liệu chưa nén sẽ lớn hơn gấp 3 – 4 lần mức được nêu ở đây.

Nút DC cũng có hai loại. Nút Lớn có bộ lưu trữ SSD 160 GB, hai lõi ảo Intel Xeon E5-2670v2 (Ivy Bridge) và RAM 15 GiB. Còn nút Lớn đặc biệt gấp 8 thì lớn hơn gấp 16 lần, với bộ lưu trữ SSD 2,56 TB, 32 lõi ảo Intel Xeon E5-2670v2 và RAM 244 GiB. Bạn có thể bắt đầu với một nút DC2.Large ở mức giá 0,25 USD/giờ và tăng quy mô tới 128 nút 8XL với bộ lưu trữ SSD 326 TB, 3.200 lõi ảo và RAM 24 TiB.

Nút DS có hai loại: Lớn đặc biệt và Lớn đặc biệt gấp 8. Nút Lớn đặc biệt (XL) có ba HDD với tổng dung lượng lưu trữ từ là hai TB, còn nút Lớn đặc biệt gấp 8 (8XL) có 24 HDD với tổng dung lượng lưu trữ từ 16 TB. DS2.8XLarge có 36 lõi ảo Intel Xeon E5-2676 v3 (Haswell) và RAM 244 GiB, còn DS2.XL có bốn lõi ảo Intel Xeon E5-2676 v3 (Haswell) và RAM 31 GiB.

Vui lòng xem trang giá của chúng tôi để biết thêm chi tiết.

Hỏi: Khi nào tôi nên sử dụng Amazon Redshift hay Amazon RDS?

Cả Amazon Redshift và Amazon RDS đều cho phép bạn chạy cơ sở dữ liệu quan hệ truyền thống trên đám mây trong khi loại bỏ được gánh nặng quản trị cơ sở dữ liệu. Khách hàng chủ yếu sử dụng cơ sở dữ liệu Amazon RDS cho khối lượng công việc xử lý giao tác trực tuyến (OLTP), còn Redshift được dùng chủ yếu cho báo cáo và phân tích. Khối lượng công việc OLTP đòi hỏi hải truy vấn nhanh chóng thông tin cụ thể và hỗ trợ các giao tác như chèn, cập nhật và xóa, nên Amazon RDS là lựa chọn xử lý phù hợp nhất. Amazon Redshift khai thác quy mô và tài nguyên của nhiều nút khác nhau, đồng thời sử dụng nhiều phần tối ưu hóa để cải thiện biên độ ở cơ sở dữ liệu truyền thống cho khối lượng công việc phân tích và báo cáo trên các bộ dữ liệu rất lớn. Amazon Redshift đem đến tùy chọn tăng quy mô tuyệt vời khi độ phức tạp của dữ liệu và truy vấn của bạn tăng thêm nếu bạn không muốn để quá trình xử lý báo cáo và phân tích ảnh hưởng đến hiệu suất của khối lượng công việc OLTP. Giờ đây, với tính năng Truy vấn liên hiệp mới, bạn có thể dễ dàng truy vấn dữ liệu giữa các dịch vụ cơ sở dữ liệu Amazon RDS hoặc Aurora với Amazon Redshift.

Hỏi: Khi nào tôi nên sử dụng Amazon Redshift hoặc Redshift Spectrum hay Amazon EMR?

Bạn nên dùng Amazon EMR nếu bạn sử dụng mã tùy chỉnh để xử lý và phân tích các bộ dữ liệu cực lớn bằng các khung xử lý dữ liệu lớn, như Apache Spark, Hadoop, Presto hay Hbase. Amazon EMR giúp bạn kiểm soát hoàn toàn cấu hình các cụm và phần mềm bạn cài đặt trên đó.

Những kho dữ liệu như Amazon Redshift được thiết kế để dùng cho nhiều loại phân tích khác nhau. Kho dữ liệu được thiết kế để kéo dữ liệu từ nhiều nguồn khác nhau như các hệ thống kho, tài chính và bán lẻ. Để đảm bảo báo cáo có độ chính xác ổn định trong toàn công ty, kho dữ liệu lưu trữ dữ liệu theo cấu trúc được tổ chức khoa học. Cấu trúc này tích hợp trực tiếp các quy tắc về độ nhất quán của dữ liệu vào các bảng của cơ sở dữ liệu. Amazon Redshift là dịch vụ tốt nhất khi bạn cần thực hiện các truy vấn phức tạp trên các bộ dữ liệu có cấu trúc và bán cấu trúc rất lớn và đạt được hiệu suất cao.

Mặc dù Redshift Spectrum cũng là lựa chọn tuyệt vời cho việc chạy truy vấn dữ liệu trên Amazon Redshift và S3, nhưng tính năng này không thực sự phù hợp với những loại trường hợp sử dụng mà doanh nghiệp thường yêu cầu ở các khung xử lý như Amazon EMR. Amazon EMR làm được rất nhiều việc khác ngoài việc chạy truy vấn SQL. Amazon EMR là dịch vụ có quản lý, cho phép bạn xử lý và phân tích các bộ dữ liệu cực kỳ lớn bằng cách sử dụng phiên bản framework xử lý dữ liệu lớn thông dụng mới nhất, chẳng hạn như Spark, Hadoop và Presto, trên các cụm có khả năng tùy chỉnh toàn phần. Với Amazon EMR, bạn có thể chạy rất nhiều tác vụ xử lý dữ liệu tăng quy mô cho các ứng dụng như máy học, phân tích đồ thị, chuyển đổi dữ liệu, truyền phát dữ liệu và gần như mọi thứ bạn có thể viết mã.

Bạn có thể sử dụng Redshift Spectrum với EMR. Redshift Spectrum áp dụng phương thức lưu trữ định nghĩa bảng tương tự như Amazon EMR. Redshift Spectrum có thể hỗ trợ Apache Hive Metastore giống với loại mà Amazon EMR dùng để xác định vị trí dữ liệu và các định nghĩa bảng. Nếu đang sử dụng Amazon EMR và đã có sẵn Hive Metastore, bạn chỉ cần cấu hình cụm Amazon Redshift để sử dụng tính năng này. Khi đó, bạn có thể bắt đầu truy vấn dữ liệu đó ngay lập tức cùng các tác vụ Amazon EMR. Vì thế, nếu bạn đang sử dụng EMR để xử lý kho dữ liệu lớn, thì bạn có thể sử dụng Redshift Spectrum để truy vấn dữ liệu đó cùng một lúc mà không phải can thiệp vào các tác vụ Amazon EMR.

Dịch vụ truy vấn, kho dữ liệu và khung xử lý dữ liệu phức tạp đều có vai trò riêng và được sử dụng vào những việc khác nhau. Bạn chỉ cần chọn đúng công cụ cho tác vụ.

Câu hỏi: Khi nào tôi nên sử dụng Amazon Athena hay Redshift Spectrum?

Amazon Athena là cách đơn giản nhất để trao cho mọi nhân viên khả năng chạy các truy vấn ngẫu nhiên trên dữ liệu trong Amazon S3. Athena là dạng phi máy chủ nên không cần cơ sở hạ tầng để thiết lập hay quản lý và bạn có thể bắt đầu phân tích dữ liệu ngay.

Nếu bạn có dữ liệu thường xuyên truy cập, cần được lưu trữ ở định dạng nhất quán, có cấu trúc khoa học, thì bạn nên sử dụng kho dữ liệu như Amazon Redshift. Dịch vụ này đem đến cho bạn sự linh hoạt để lưu trữ dữ liệu có cấu trúc, thường xuyên truy cập trên Amazon Redshift và sử dụng Redshift Spectrum để mở rộng truy vấn Amazon Redshift sang dữ liệu trong kho dữ liệu Amazon S3. Điều này giúp bạn có thể tự do lưu trữ dữ liệu ở nơi bạn muốn, theo định dạng bạn muốn và dữ liệu đó luôn có sẵn để bạn xử lý khi cần.

Hỏi: Tại sao tôi nên sử dụng Amazon Redshift thay vì chạy cụm kho dữ liệu MPP riêng trên Amazon EC2?

Amazon Redshift tự động xử lý nhiều tác vụ tiêu tốn thời gian, liên quan đến việc quản lý kho dữ liệu của bạn, bao gồm:
  • Thiết lập: Với Amazon Redshift, bạn chỉ cần tạo cụm kho dữ liệu, xác lập sơ đồ, rồi tiến hành tải và truy vấn dữ liệu. Bạn không cần phải quản lý việc cung cấp, cấu hình hay áp dụng bản vá.
  • Độ bền dữ liệu: Amazon Redshift nhân bản dữ liệu trong cụm kho dữ liệu của bạn và liên tục sao lưu dữ liệu của bạn vào Amazon S3 – dịch vụ được thiết kế có độ bền đến 99,999999999%. Amazon Redshift ánh xạ dữ liệu của từng ổ đĩa sang các nút khác nằm trên cụm của bạn. Nếu ổ đĩa gặp sự cố, truy vấn của bạn sẽ tiếp tục và có độ trễ tăng thêm chút trong khi Redshift tái dựng ổ đĩa của bạn từ bản sao. Trường hợp xảy ra (các) sự cố nút, Amazon Redshift tự động cung cấp (các) nút mới và tiến hành khôi phục dữ liệu từ các ổ đĩa khác nằm trên cụm hoặc từ Amazon S3. Amazon Redshift ưu tiên khôi phục dữ liệu thường xuyên truy vấn nhất để có thể nhanh chóng thực hiện các truy vấn thường xuyên được thực thi nhất của bạn.
  • Thay đổi quy mô: Bạn có thể thêm hoặc xóa nút khỏi cụm kho dữ liệu Amazon Redshift bằng một lệnh gọi API hoặc bằng vài cú nhấp chuột trên Bảng điều khiển quản lý AWS khi nhu cầu về công suất và hiệu suất của bạn thay đổi. Bạn cũng có thể đặt lịch cho các thao tác thay đổi quy mô và thay đổi kích thước bằng cách sử dụng tính năng trình lập lịch trong Redshift.
  • Tự động cập nhật và vá lỗi: Amazon Redshift tự động áp dụng bản nâng cấp và vá lỗi cho kho dữ liệu để bạn có thể tập trung vào ứng dụng thay vì công việc quản trị ứng dụng.
  • Tính năng truy vấn quy mô exabyte: Redshift Spectrum cho phép bạn chạy các truy vấn đối với hàng exabyte dữ liệu trên Amazon S3. Không yêu cầu tải hoặc ETL. Kể cả khi bạn không lưu trữ bất kỳ dữ liệu nào trên Amazon Redshift, bạn vẫn có thể sử dụng Redshift Spectrum để truy vấn các bộ dữ liệu kích thước hàng exabyte trên Amazon S3.

Tính phí

Câu hỏi: Tôi sẽ bị tính phí như thế nào khi sử dụng Amazon Redshift?

Bạn chỉ phải trả tiền cho những gì bạn sử dụng, không có mức phí tối thiểu hay phí thiết lập. Amazon Redshift hỗ trợ khả năng tạm dừng và tiếp tục vận hành cụm, cho phép khách hàng dễ dàng tạm ngưng việc thanh toán theo nhu cầu khi không sử dụng cụm. Chẳng hạn, cụm dùng cho phát triển có thể được tạm ngưng trả phí điện toán khi bạn không sử dụng nó. Khi cụm này được tạm ngưng, bạn chỉ mất phí cho bộ lưu trữ của cụm. Đối với các khối lượng công việc sản xuất có trạng thái ổn định, bạn có thể chuyển sang Phiên bản đặt trước để được chiết khấu đáng kể so với mức giá theo nhu cầu.

Ngay khi cụm kho dữ liệu đã sẵn dùng, cụm đó sẽ bắt đầu được tính phí. Việc tính phí sẽ tiếp tục cho đến khi cụm kho dữ liệu chấm dứt, tức là khi cụm bị xóa hoặc phiên bản gặp sự cố. Bạn được tính phí dựa trên:

  • Số giờ sử dụng nút điện toán: số giờ sử dụng nút điện toán là tổng số giờ bạn chạy trên các nút điện toán trong kỳ tính phí. Số giờ sử dụng nút được tính phí đối với mỗi giờ cụm kho dữ liệu của bạn chạy ở chế độ sẵn sàng để sử dụng. Nếu không muốn bị tính phí đối với cụm kho dữ liệu nữa, bạn phải dừng hoặc xóa cụm để tránh bị tính phí đối với số giờ sử dụng nút phát sinh. Số giờ sử dụng nút không tròn một giờ sẽ được tính tròn là một giờ. Bạn bị tính phí đối với 1 đơn vị mỗi nút mỗi giờ nên cụm kho dữ liệu 3 nút chạy ổn định trong cả một tháng sẽ phát sinh 2.160 giờ sử dụng phiên bản. Bạn sẽ không bị tính phí đối với số giờ sử dụng nút chính, chỉ nút điện toán mới làm phát sinh phí.
  • Bộ lưu trữ được quản lý: bạn trả tiền cho dữ liệu lưu trong bộ lưu trữ được quản lý theo mức giá GB tháng cố định cho khu vực của bạn. Bộ lưu trữ được quản lý chỉ có sẵn cho các loại nút RA3 và mức giá bạn sẽ trả chỉ thấp tương đương với bộ lưu trữ được Redshift quản lý, bất kể dung lượng dữ liệu là bao nhiêu. Mức sử dụng bộ lưu trữ được quản lý sẽ được tính theo giờ, dựa trên tổng lượng dữ liệu có trong bộ lưu trữ được quản lý. Bạn có thể theo dõi lượng dữ liệu trong cụm RA3 của mình thông qua Amazon CloudWatch hoặc Bảng điều khiển quản lý AWS. Bạn không phải trả phí truyền dữ liệu giữa các nút RA3 và bộ lưu trữ được quản lý. Phí cho bộ lưu trữ được quản lý không bao gồm phí lưu trữ dự phòng do các ảnh chụp nhanh tự động và thủ công. Khi cụm kết thúc, bạn tiếp tục bị tính phí cho việc giữ lại các bản sao lưu thủ công của mình.
  • Lưu trữ bản sao lưu: Lưu trữ bản sao lưu là việc lưu trữ các bản kết xuất nhanh được thực hiện cho kho dữ liệu của bạn. Việc tăng thời gian lưu giữ bản sao lưu hoặc tạo thêm bản kết xuất nhanh sẽ làm tăng dung lượng lưu trữ bản sao lưu trong kho dữ liệu của bạn. Redshift tính phí cho các bản kết xuất nhanh thủ công mà bạn thực hiện bằng bảng điều khiển, API hoặc CLI. Bản kết xuất nhanh tự động của Redshift, được tạo ra bằng tính năng lên lịch kết xuất nhanh của Redshift, sẽ không bị tính phí. Dữ liệu được lưu trữ trên các cụm RA3 là một phần của Lưu trữ được Redshift quản lý (RMS) và được tính phí theo mức giá RMS, nhưng các bản kết xuất nhanh thủ công được thực hiện cho các cụm RA3 được tính phí là lưu trữ sao lưu theo mức giá Amazon S3 tiêu chuẩn được nêu trõ trên trang này. Ví dụ: nếu cụm RA3 của bạn có 10 TB dữ liệu và 30 TB bản kết xuất nhanh thủ công, bạn sẽ được tính phí cho 10 TB RMS và 30 TB lưu trữ sao lưu. Với các cụm điện toán mật độ cao (DC) và lưu trữ mật độ cao (DS), dung lượng lưu trữ được bao gồm trên cụm và không được tính phí riêng, nhưng các bản sao lưu sẽ được lưu trữ bên ngoài trong S3. Dung lượng lưu trữ bản sao lưu vượt quá kích thước lưu trữ được cung cấp trên các cụm DC và DS sẽ được tính phí là lưu trữ bản sao lưu theo mức giá Amazon S3 tiêu chuẩn. Các bản kết xuất nhanh được tính phí cho đến khi hết hạn hoặc bị xóa, kể cả khi cụm bị tạm dừng hoặc bị xóa.
  • Truyền dữ liệu: Chúng tôi không tính phí truyền dữ liệu đến hoặc từ Amazon Redshift và Amazon S3 nằm trong cùng một Khu vực AWS. Đối với tất cả các thao tác truyền dữ liệu khác vào và ra khỏi Amazon Redshift, bạn sẽ được tính phí theo mức giá truyền dữ liệu tiêu chuẩn của AWS.
  • Dữ liệu được quét: với Redshift Spectrum, bạn bị tính phí cho lượng dữ liệu Amazon S3 được quét để thực thi truy vấn của bạn. Chúng tôi không tính phí đối với Redshift Spectrum khi bạn không chạy truy vấn. Nếu bạn lưu trữ dữ liệu ở định dạng cột, ví dụ như Parquet hay RC, thì phí của bạn sẽ giảm đi, vì Redshift Spectrum chỉ quét những cột cần dùng cho truy vấn thay vì xử lý toàn bộ các hàng. Tương tự, nếu bạn nén dữ liệu theo một trong các định dạng được hỗ trợ của Redshift Spectrum, thì chi phí của bạn cũng sẽ giảm đi. Bạn trả phí theo mức phí tiêu chuẩn của Amazon S3 đối với dung lượng lưu trữ dữ liệu và mức phí phiên bản của Amazon Redshift đối với cụm được sử dụng.
  • Thay đổi quy mô đồng thời: Với Thay đổi quy mô đồng thời, Redshift tự động bổ sung công suất tạm thời để cung cấp hiệu năng nhanh liên tục, ngay cả khi có hàng nghìn người dùng và truy vấn đồng thời. Không có tài nguyên cần quản lý, không có chi phí trả trước và bạn không bị tính phí đối với thời gian khởi động hay đóng các cụm tạm thời. Bạn có thể tích lũy một giờ tín dụng cụm thay đổi quy mô đồng thời cứ sau 24 giờ trong khi cụm chính của bạn đang chạy. Bạn sẽ được tính mức giá theo yêu cầu tính bằng giây cho cụm thay đổi quy mô đồng thời được sử dụng vượt quá số tín dụng miễn phí - chỉ khi cụm này phục vụ các truy vấn của bạn - với mức phí tối thiểu một phút, cụm thay đổi quy mô đồng thời sẽ được kích hoạt từng lần. Mức giá theo nhu cầu tính bằng giây sẽ dựa trên loại và số lượng nút trong cụm Amazon Redshift của bạn.

Trừ khi có ghi chú khác, các mức giá của chúng tôi chưa bao gồm các loại thuế hiện hành, bao gồm cả thuế GTGT và thuế doanh thu hiện hành. Đối với khách hàng có địa chỉ ghi hóa đơn ở Nhật Bản, việc sử dụng dịch vụ AWS sẽ tuân thủ Thuế tiêu thụ của Nhật Bản. Tìm hiểu thêm.

Để biết thông tin về giá Amazon Redshift, vui lòng truy cập trang định giá Amazon Redshift.

Tích hợp và tải dữ liệu

Hỏi: Làm thế nào để tải dữ liệu vào kho dữ liệu Amazon Redshift?

Bạn có thể tải dữ liệu vào Amazon Redshift từ nhiều nguồn dữ liệu khác nhau, như: Amazon S3, Amazon RDSAmazon DynamoDB, Amazon EMR, AWS Glue, AWS Data Pipeline và/hoặc bất kỳ máy chủ nào có hỗ trợ SSH trên Amazon EC2 hoặc tại chỗ. Amazon Redshift cố gắng tải dữ liệu song song vào từng nút điện toán nhằm tăng tối đa tốc độ thu nạp dữ liệu của bạn vào cụm kho dữ liệu. Khách hàng có thể kết nối với Amazon Redshift bằng ODBC hoặc JDBC rồi phát hành lệnh 'chèn' SQL để chèn dữ liệu. Xin lưu ý quá trình này chậm hơn so với khi sử dụng S3 hoặc DynamoDB, vì các phương thức đó tải dữ liệu song song vào từng nút điện toán, còn lệnh chèn SQL chỉ tải qua một nút chính. Để biết thêm chi tiết về tải dữ liệu lên Amazon Redshift, vui lòng xem Hướng dẫn bắt đầu của chúng tôi.

Hỏi: Làm thế nào để tải dữ liệu từ các nguồn dữ liệu Amazon RDS, Amazon EMR, Amazon DynamoDB và Amazon EC2 hiện có vào Amazon Redshift?

Bạn có thể sử dụng lệnh COPY để tải dữ liệu trực tiếp và song song lên Amazon Redshift từ Amazon EMR, Amazon DynamoDB hoặc bất kỳ máy chủ có hỗ trợ SSH nào. Redshift Spectrum cũng cho phép bạn tải dữ liệu từ Amazon S3 lên cụm bằng một lệnh INSERT INTO đơn giản. Việc này cho phép bạn tải dữ liệu từ nhiều định dạng khác nhau chẳng hạn như Parquet và RC lên cụm của bạn. Lưu ý rằng nếu áp dụng phương thức này, bạn sẽ phát sinh lũy kế phí Redshift Spectrum đối với dữ liệu được quét từ Amazon S3. 

Ngoài ra, nhiều công ty ETL đã chứng thực Amazon Redshift để sử dụng cùng với công cụ của họ, một số còn cung cấp bản dùng thử miễn phí để giúp bạn bắt đầu tải dữ liệu. AWS Data Pipeline đem đến giải pháp hiệu suất cao, đáng tin cậy và có dung sai cao để tải dữ liệu từ rất nhiều nguồn dữ liệu AWS, như Amazon RDS, vào Redshift. Bạn có thể sử dụng AWS Data Pipeline để chỉ định nguồn dữ liệu, phần chuyển đổi dữ liệu mong muốn, rồi thực thi một đoạn mã nhập được soạn sẵn để tải dữ liệu vào Amazon Redshift. Ngoài ra, AWS Glue là dịch vụ trích xuất, chuyển đổi và tải (ETL) được quản lý toàn phần, giúp dễ dàng chuẩn bị và tải dữ liệu cho phân tích. Bạn có thể tạo và chạy một tác vụ AWS Glue ETL bằng vài cú nhấp chuột trên Bảng điều khiển quản lý AWS.

Câu hỏi: Tôi có nhiều dữ liệu để tải lần đầu lên Amazon Redshift. Truyền qua Internet sẽ mất nhiều thời gian. Làm thế nào để tải dữ liệu này?

Bạn có thể sử dụng AWS Snowball để truyền dữ liệu vào Amazon S3 bằng các thiết bị lưu trữ di động. Ngoài ra, bạn có thể sử dụng AWS Direct Connect để thiết lập kết nối mạng riêng giữa mạng hoặc trung tâm dữ liệu của bạn và AWS. Bạn có thể chọn cổng kết nối 1 Gbit/giây hoặc 10 Gbit/giây để truyền dữ liệu.

Bảo mật

Hỏi: Amazon Redshift bảo mật dữ liệu của tôi như thế nào?

Amazon Redshift hỗ trợ khả năng bảo mật đầu ngành với phần tích hợp sẵn AWS IAM, khả năng liên kết danh tính cho đăng nhập một lần (SSO), khả năng xác thực nhiều yếu tố, khả năng kiểm soát quyền truy cập ở cấp cột, Amazon Virtual Private Cloud (Amazon VPC) và phần tích hợp sẵn AWS KMS để bảo vệ dữ liệu của bạn khi truyền tải và khi ở trạng thái lưu trữ. Amazon Redshift mã hóa và giữ an toàn cho dữ liệu của bạn trong quá trình truyền và khi ở trạng thái lưu trữ bằng các kỹ thuật mã hóa đạt chuẩn ngành. Để bảo mật dữ liệu trong quá trình truyền, Amazon Redshift hỗ trợ kết nối có hỗ trợ SSL giữa ứng dụng máy khách và cụm kho dữ liệu Redshift của bạn. Để bảo mật dữ liệu đang lưu trữ, Amazon Redshift mã hóa từng khối dữ liệu bằng cách sử dụng AES-256 được tăng tốc phần cứng khi dữ liệu được ghi lên ổ đĩa. Quá trình này diễn ra ở cấp độ thấp trên các hệ thống con I/O, hệ thống con này mã hóa toàn bộ những gì ghi lên ổ đĩa, bao gồm cả kết quả truy vấn tạm thời. Các khối dữ liệu được sao lưu nguyên trạng, tức là các bản sao lưu cũng được mã hóa. Theo mặc định, Amazon Redshift sẽ đảm nhận việc quản lý khóa, nhưng bạn có thể chọn quản lý khóa của mình thông qua AWS Key Management Service. Bạn có thể sử dụng miễn phí mọi tính năng bảo mật của Amazon Redshift. Redshift Spectrum hỗ trợ Mã hóa phía máy chủ (SSE) của Amazon S3 bằng khóa mặc định của tài khoản được AWS Key Management Service (KMS) quản lý và sử dụng.

Hỏi: Redshift có hỗ trợ các phương thức kiểm soát quyền truy cập chi tiết như bảo mật cấp cột không?

Có. Phương thức kiểm soát chi tiết ở cấp cột giúp bảo đảm người dùng chỉ nhìn thấy dữ liệu mà họ có quyền truy cập. Amazon Redshift hỗ trợ phương thức kiểm soát ở cấp cột đối với các bảng cục bộ, để bạn có thể kiểm soát quyền truy cập vào các cột cụ thể trong bảng hoặc dạng xem bằng cách cấp/thu hồi đặc quyền cấp cột cho một người dùng hoặc nhóm người dùng. Redshift được tích hợp với AWS Lake Formation, điều này bảo đảm các phương thức kiểm soát quyền truy cập cấp cột của Lake Formation cũng được thực hiện cho các truy vấn Redshift trên dữ liệu trong hồ dữ liệu.

Câu hỏi: Amazon Redshift có hỗ trợ che chắn dữ liệu hoặc token hóa dữ liệu không?

Các hàm do người dùng xác định (UDF) của Amazon Lambda cho phép bạn sử dụng hàm AWS Lambda làm UDF trong Amazon Redshift và gọi hàm từ các truy vấn Redshift SQL. Chức năng này cho phép bạn ghi các phần mở rộng tùy chỉnh cho truy vấn SQL của mình để đạt được sự tích hợp chặt chẽ hơn với các dịch vụ khác hoặc các sản phẩm của bên thứ ba. Bạn có thể ghi UDF Lambda để kích hoạt token hóa bên ngoài, che chắn dữ liệu, nhận dạng hoặc khử nhận dạng dữ liệu bằng cách tích hợp với các nhà cung cấp như Protegrity và bảo vệ hoặc ngừng bảo vệ dữ liệu nhạy cảm dựa trên quyền và nhóm của người dùng, trong thời gian truy vấn.

Câu hỏi: Redshift có hỗ trợ khả năng đăng nhập một lần không?

Có. Những khách hàng muốn dùng công cụ cung cấp thông tin nhận dạng của doanh nghiệp, như Microsoft Azure Active Directory, Active Directory Federation Services, Okta, Ping Federate hay các công cụ cung cấp thông tin nhận dạng khác tuân thủ SAML, đều có thể đặt cấu hình để Amazon Redshift cung cấp khả năng đăng nhập một lần.

Hỏi: Redshift hỗ trợ khả năng đăng nhập một lần như thế nào với Microsoft Azure Active Directory?

Bạn có thể đăng nhập vào cụm Amazon Redshift bằng thông tin nhận dạng trên Microsoft Azure Active Directory (AD). Điều này cho phép bạn có được khả năng đăng nhập vào Redshift mà không cần sao chép thông tin nhận dạng Azure Active Directory trong Redshift.

Hỏi: Amazon Redshift có hỗ trợ chức năng xác thực nhiều yếu tố (MFA) không?

Có. Bạn có thể sử dụng chức năng xác thực nhiều yếu tố (MFA) để tăng mức độ bảo mật khi xác thực cho cụm Amazon Redshift.

Hỏi: Tôi có thể sử dụng Amazon Redshift trong Amazon Virtual Private Cloud (Amazon VPC) không?

Có, bạn có thể sử dụng Amazon Redshift làm một phần trong cấu hình VPC. Với Amazon VPC, bạn có thể xác định một cấu trúc mạng ảo tương đồng nhất với mạng truyền thống mà bạn có thể vận hành ở trung tâm dữ liệu của mình. Việc này cho phép bạn hoàn toàn kiểm soát việc ai có quyền truy cập vào cụm kho dữ liệu Amazon Redshift của bạn. Bạn có thể sử dụng Redshift Spectrum với cụm Amazon Redshift thuộc một phần của VPC của bạn.

Câu hỏi: Tôi có thể truy cập trực tiếp nút điện toán Amazon Redshift của tôi không?

Không. Nút điện toán Amazon Redshift nằm trên không gian mạng riêng và chỉ có thể truy cập từ nút chính của cụm kho dữ liệu của bạn. Việc này tạo thêm một lớp bảo mật cho dữ liệu của bạn.

Độ khả dụng và độ bền cao

Hỏi: Nếu ổ đĩa ở một trong các nút của tôi gặp sự cố, thì độ bền dữ liệu và tính sẵn sàng của cụm kho dữ liệu của tôi sẽ thế nào?

Amazon Redshift sẽ tự động phát hiện và thay thế nút gặp sự cố trong cụm kho dữ liệu của bạn. Cụm kho dữ liệu sẽ không sẵn sàng cho truy vấn và cập nhật đến khi nút thay thế được cung cấp và thêm vào CSDL. Amazon Redshift làm cho nút thay thế của bạn sẵn sàng ngay lập tức và ưu tiên tải dữ liệu thường xuyên truy cập nhất của bạn từ S3 trước để cho phép bạn tiếp tục truy vấn dữ liệu nhanh nhất có thể. Các cụm một nút không hỗ trợ sao chép dữ liệu. Trong trường hợp sự cố ổ đĩa, bạn cần khôi phục cụm từ bản kết xuất nhanh trên S3. Chúng tôi khuyến cáo nên sử dụng tối thiểu hai nút cho môi trường sản xuất.

Câu hỏi: Điều gì xảy ra với khả năng sẵn sàng của cụm kho dữ liệu của tôi và độ bền dữ liệu nếu một nút gặp sự cố?

Amazon Redshift sẽ tự động phát hiện và thay thế nút gặp sự cố trong cụm kho dữ liệu của bạn. Cụm kho dữ liệu sẽ không sẵn sàng cho truy vấn và cập nhật đến khi nút thay thế được cung cấp và thêm vào CSDL. Amazon Redshift làm cho nút thay thế của bạn sẵn sàng ngay lập tức và ưu tiên tải dữ liệu thường xuyên truy cập nhất của bạn từ S3 trước để cho phép bạn tiếp tục truy vấn dữ liệu nhanh nhất có thể. Các cụm một nút không hỗ trợ sao chép dữ liệu. Trong trường hợp sự cố ổ đĩa, bạn cần khôi phục cụm từ bản kết xuất nhanh trên S3. Chúng tôi khuyến cáo nên sử dụng tối thiểu hai nút cho môi trường sản xuất.

Câu hỏi: Điều gì xảy ra với khả năng sẵn sàng của cụm kho dữ liệu của tôi và độ bền dữ liệu nếu Vùng sẵn sàng (AZ) của cụm kho dữ liệu của tôi bị mất điện?

Nếu Vùng sẵn sàng của cụm kho dữ liệu Amazon Redshift không khả dụng, Amazon Redshift sẽ tự động di chuyển cụm của bạn sang Vùng sẵn sàng (AZ) AWS khác mà không có bất kỳ sự mất dữ liệu hoặc thay đổi ứng dụng nào. Để kích hoạt tính năng này, bạn phải bật khả năng tái di chuyển trong mục cài đặt cấu hình cụm của mình.

Câu hỏi: Amazon Redshift có hỗ trợ Triển khai nhiều vùng sẵn sàng không?

Hiện tại, Amazon Redshift chỉ hỗ trợ triển khai Một vùng sẵn sàng. Bạn có thể chạy cụm kho dữ liệu trên nhiều Vùng sẵn sàng bằng cách tải dữ liệu lên hai cụm kho dữ liệu Amazon Redshift ở các Vùng sẵn sàng khác nhau từ cùng một nhóm tệp đầu vào của Amazon S3. Với Redshift Spectrum, bạn có thể kết hợp nhiều cụm giữa các Vùng sẵn sàng và truy cập dữ liệu trên Amazon S3 mà không phải tải dữ liệu đó lên cụm của bạn. Ngoài ra, bạn cũng có thể khôi phục cụm kho dữ liệu sang một Vùng sẵn sàng khác từ bản kết xuất nhanh của cụm kho dữ liệu của bạn.

Sao lưu và khôi phục

Hỏi: Amazon Redshift sao lưu dữ liệu của tôi như thế nào? Làm thế nào để khôi phục cụm từ bản sao lưu?

Amazon Redshift sao chép toàn bộ dữ liệu trong cụm kho dữ liệu của bạn khi dữ liệu được tải, đồng thời liên tục sao lưu dữ liệu của bạn vào Amazon S3. Amazon Redshift luôn cố gắng duy trì ít nhất ba bản sao dữ liệu của bạn (bản gốc và bản sao trên nút điện toán và bản sao lưu trên Amazon S3). Redshift cũng có thể sao chép không đồng bộ các ảnh chụp nhanh của bạn vào S3 ở một khu vực khác để khôi phục sau sự cố.

Mặc định, Amazon Redshift cho phép tự động sao lưu cụm kho dữ liệu của bạn với khoảng thời gian lưu giữ trong 1 ngày. Bạn có thể cấu hình khoảng thời gian này trong tối đa 35 ngày.

Lưu trữ sao lưu miễn phí chỉ giới hạn theo tổng dung lượng lưu trữ trên các nút của cụm kho dữ liệu và chỉ áp dụng với cụm kho dữ liệu hiện hoạt. Ví dụ: nếu bạn có tổng dung lượng lưu trữ kho dữ liệu bằng 8TB, chúng tôi sẽ cung cấp tối đa 8TB dung lượng lưu trữ sao lưu và không tính thêm phí. Nếu bạn muốn tăng thời gian lưu giữ bản sao lưu lên nhiều ngày, thì bạn có thể làm việc này bằng Bảng điều khiển quản lý AWS hoặc API Amazon Redshift. Để biết thêm thông tin về ảnh chụp nhanh tự động, vui lòng tham khảo Hướng dẫn quản lý Amazon Redshift. Amazon Redshift chỉ sao lưu dữ liệu có sự thay đổi để hầu hết các ảnh chụp nhanh chỉ chiếm một phần nhỏ dung lượng lưu trữ sao lưu khả dụng của bạn.

Khi bạn cần khôi phục bản sao lưu, bạn có thể truy cập tất cả các bản sao lưu tự động trong khoảng thời gian lưu giữ sao lưu của bạn. Sau khi bạn chọn bản sao lưu để khôi phục, chúng tôi sẽ cung cấp một cụm kho dữ liệu mới và khôi phục dữ liệu của bạn lên cụm đó.

Câu hỏi: Làm thế nào để quản lý việc lưu giữ bản sao lưu và bản kết xuất nhanh tự động của tôi?

Bạn có thể sử dụng Bảng điều khiển quản lý AWS hoặc API ModifyCluster để quản lý khoảng thời gian lưu giữ bản sao lưu tự động của bạn bằng cách điều chỉnh tham số RetentionPeriod. Nếu muốn tắt tự động sao lưu, bạn có thể thiết lập thời gian giữ lại bằng 0 (không khuyến cáo).

Câu hỏi: Điều gì xảy ra với bản sao lưu nếu tôi xóa cụm kho dữ liệu của mình?

Khi xóa cụm kho lưu trữ dữ liệu, bạn có thể chỉ định có tạo bản kết xuất nhanh cuối cùng sau khi xóa không. Thao tác này cho phép khôi phục cụm kho lưu trữ dữ liệu đã bị xóa trong tương lai. Toàn bộ các bản kết xuất nhanh thủ công tạo ra trước đó của cụm kho dữ liệu sẽ được giữ lại và tính phí theo mức phí tiêu chuẩn của Amazon S3, trừ khi bạn chọn xóa chúng.

Khả năng thay đổi quy mô

Câu hỏi: Làm thế nào để điều chỉnh kích thước và hiệu suất của cụm kho dữ liệu Amazon Redshift?

Nếu muốn tăng hiệu suất truy vấn hoặc đáp ứng mức sử dụng CPU, bộ nhớ hoặc I/O tăng cao, bạn có thể tăng số nút trên cụm kho dữ liệu bằng cách sử dụng Điều chỉnh kích thước linh hoạt thông qua Bảng điều khiển quản lý AWS hoặc API ModifyCluster. Khi bạn điều chỉnh cụm kho dữ liệu, yêu cầu thay đổi của bạn sẽ được thực thi ngay lập tức. Các chỉ số về mức sử dụng điện toán, mức sử dụng dung lượng lưu trữ và lưu lượng đọc/ghi lên cụm kho dữ liệu Amazon Redshift được cung cấp miễn phí thông qua Bảng điều khiển quản lý AWS hoặc các API Amazon CloudWatch. Bạn cũng có thể thêm các chỉ số khác do người dùng xác định thông qua tính năng chỉ số tùy chỉnh Amazon CloudWatch.

Với tính năng Thay đổi quy mô đồng thời, bạn có thể hỗ trợ số lượng người dùng đồng thời và truy vấn đồng thời gần như không giới hạn với hiệu năng truy vấn luôn cực nhanh. Khi kích hoạt thay đổi quy mô đồng thời, Amazon Redshift tự động thêm dung lượng cụm bổ sung khi bạn cần để xử lý việc gia tăng số lượng truy vấn đọc đồng thời.

Với Redshift Spectrum, bạn có thể chạy nhiều cụm Amazon Redshift truy cập đến dữ liệu giống nhau trên Amazon S3. Bạn có thể sử dụng nhiều cụm khác nhau cho nhiều trường hợp sử dụng khác nhau. Ví dụ: bạn có thể sử dụng một cụm cho báo cáo tiêu chuẩn và một cụm khác cho truy vấn khoa học dữ liệu. Nhóm tiếp thị của bạn có thể sử dụng các cụm riêng, khác với nhóm vận hành. Redshift Spectrum tự động phân phối hoạt động thực thi truy vấn cho một vài trình xử lý Redshift Spectrum trong một nhóm tài nguyên dùng chung để đọc và xử lý dữ liệu từ Amazon S3, rồi kéo kết quả trở về cụm Amazon Redshift của bạn để tiếp tục xử lý phần còn lại.

Hỏi: Trong khi thay đổi quy mô, cụm kho dữ liệu của tôi có sẵn dùng không?

Điều này còn nhiều yếu tố phụ thuộc. Khi sử dụng tính năng Thay đổi quy mô đồng thời, bạn hoàn toàn có thể đọc và ghi trên cụm trong suốt quá trình thay đổi quy mô đồng thời. Với chức năng Thay đổi kích thước linh hoạt, cụm sẽ không sẵn dùng trong 4 đến 8 phút điều chỉnh. Với khả năng lưu trữ linh hoạt của Redshift RA3 trong dung lượng lưu trữ được quản lý, cụm sẽ hoàn toàn sẵn, dữ liệu sẽ tự động được di chuyển giữa dung lượng lưu trữ được quản lý và các nút điện toán.

Câu hỏi: Tính năng chia sẻ dữ liệu Amazon Redshift là gì?

Tính năng chia sẻ dữ liệu Amazon Redshift cho phép chia sẻ dữ liệu trực tiếp trên Redshift một cách an toàn và dễ dàng. Tính năng chia sẻ dữ liệu cải thiện tính linh hoạt của các tổ chức bằng cách cấp cho họ quyền truy cập tức thì, chi tiết và có hiệu năng cao vào dữ liệu bên trong bất kỳ cụm Redshift nào mà không cần sao chép hoặc di chuyển cụm, đồng thời cung cấp quyền truy cập trực tiếp vào dữ liệu để người dùng có thể xem những thông tin mới nhất và nhất quán khi thông tin được cập nhật trong cụm. Với tính năng chia sẻ dữ liệu, bạn có thể nhanh chóng áp dụng khối lượng công việc phân tích mới và cung cấp cho chúng các tài nguyên điện toán riêng biệt để đáp ứng SLA hiệu năng cụ thể cho khối lượng công việc của bạn, đồng thời cho phép truy cập vào các bộ dữ liệu chung. Ngoài việc chia sẻ dữ liệu trong các tổ chức, tính năng chia sẻ dữ liệu cũng hỗ trợ hoạt động cộng tác an toàn và được quản lý giữa các tổ chức và với các bên ở ngoài. Các trường hợp sử dụng phổ biến của tính năng chia sẻ dữ liệu bao gồm thiết lập cụm ETL trung tâm để chia sẻ dữ liệu với nhiều cụm BI nhằm cung cấp sự cô lập và bồi hoàn khối lượng công việc đọc, cung cấp dữ liệu dưới dạng dịch vụ và chia sẻ dữ liệu với người dùng thông thường bên ngoài, nhiều nhóm kinh doanh trong một tổ chức chia sẻ và cộng tác cùng dữ liệu để có được thông tin chi tiết khác biệt và chia sẻ dữ liệu giữa các môi trường phát triển, thử nghiệm và sản xuất. Để tìm hiểu thêm và bắt đầu, hãy truy cập tài liệu Redshift.  

Câu hỏi: Truy vấn cơ sở dữ liệu chéo trong Redshift là gì?

Với truy vấn cơ sở dữ liệu chéo, bạn có thể truy vấn và kết nối dữ liệu liền mạch từ bất kỳ cơ sở dữ liệu Redshift nào mà bạn có quyền truy cập, bất kể bạn kết nối với cơ sở dữ liệu nào. Cơ sở dữ liệu này có thể bao gồm các cơ sở dữ liệu cục bộ trên cụm và cả các bộ dữ liệu dùng chung có sẵn trên các cụm từ xa. Truy vấn cơ sở dữ liệu chéo cung cấp cho bạn tính linh hoạt để sắp xếp dữ liệu dưới dạng cơ sở dữ liệu riêng biệt nhằm hỗ trợ cấu hình nhiều đối tượng thuê.

Câu hỏi: Khi nào khách hàng nên sử dụng thay đổi quy mô đồng thời và khi nào nên sử dụng chia sẻ dữ liệu?

Chia sẻ dữ liệu và thay đổi quy mô đồng thời là các tính năng bổ trợ nhau. Với tính năng thay đổi quy mô đồng thời, Redshift cho phép bạn tự động mở rộng quy mô một hoặc nhiều khối lượng công việc trong một cụm duy nhất để xử lý mức tăng đột biến trong truy vấn và số lượng hoạt động đồng thời cao. Redshift tăng công suất một cách linh hoạt và tự động trong vài giây để xử lý các đột biến trong hoạt động của người dùng và giảm công suất khi hoạt động giảm xuống. Các ứng dụng tiếp tục tương tác với Redshift bằng một điểm cuối ứng dụng duy nhất. Tính năng chia sẻ dữ liệu cho phép bạn mở rộng quy mô khối lượng công việc đa dạng với việc triển khai nhiều cụm, nhiều tài khoản. Tính năng này cho phép cô lập khối lượng công việc và khả năng tính phí, cộng tác nhóm chéo trong môi trường phi tập trung và khả năng cung cấp dữ liệu dưới dạng dịch vụ cho các bên liên quan thuộc nội bộ và ở bên ngoài. Bạn có thể kích hoạt tính năng thay đổi quy mô đồng thời trên cả cụm nhà sản xuất chia sẻ dữ liệu và cụm người dùng thông thường.

Tính đồng thời

Câu hỏi: Làm thế nào để quản lý các tài nguyên nhằm đảm bảo rằng cụm Redshift của tôi có thể cung cấp hiệu năng cao liên tục trong các khoảng thời gian có độ đồng thời cao?

Kho dữ liệu thông thường có sự khác biệt rất lớn về mức sử dụng truy vấn đồng thời trong suốt một ngày. Việc chỉ bổ sung tài nguyên trong khoảng thời gian cần thiết thay vì cung cấp theo nhu cầu cao nhất sẽ giúp tiết kiệm chi phí hơn. Amazon Redshift sẽ thay bạn tự động xử lý việc này.

Thay đổi quy mô đồng thời là tính năng trong Amazon Redshift, cung cấp hiệu năng truy vấn nhanh liên tục, ngay cả khi có hàng nghìn truy vấn đồng thời. Với tính năng này, khi cần, Amazon Redshift sẽ tự động bổ sung dung lượng tạm thời để xử lý số lượng yêu cầu lớn. Amazon Redshift sẽ tự động định tuyến truy vấn đến các cụm thay đổi quy mô. Những cụm này được cung cấp trong vài giây và bắt đầu xử lý truy vấn ngay lập tức.

Tính năng này được cung cấp miễn phí cho hầu hết khách hàng. Mỗi cụm Amazon Redshift nhận được tối đa một giờ tín dụng thay đổi quy mô miễn phí mỗi ngày. Lượng tín dụng này sẽ cho phép bạn dự đoán chi phí theo từng tháng, ngay cả các khoảng thời gian lượng yêu cầu phân tích không ổn định.

Câu hỏi: Điều chỉnh kích thước linh hoạt là gì và tính năng này khác với Thay đổi quy mô đồng thời như thế nào?

Tính năng Điều chỉnh kích thước linh hoạt sẽ bổ sung hoặc loại bỏ các nút khỏi một cụm Redshift đơn trong vòng vài phút để quản lý thông lượng truy vấn của cụm đó. Ví dụ: khối lượng công việc ETL cho các giờ nhất định trong ngày hoặc báo cáo cuối tháng có thể cần thêm tài nguyên Redshift để hoàn thành đúng hạn. Thay đổi quy mô đồng thời bổ sung thêm tài nguyên cụm để tăng lượng truy vấn đồng thời tổng thể.

Câu hỏi: Tôi có thể truy cập trực tiếp các cụm Thay đổi quy mô đồng thời không?

Không. Thay đổi quy mô đồng thời là nhóm tài nguyên Redshift có thể thay đổi quy mô lớn và khách hàng không có quyền truy cập trực tiếp vào đó.

Truy vấn và phân tích

Câu hỏi: Amazon Redshift và Redshift Spectrum có tương thích với gói phần mềm nghiệp vụ thông minh và công cụ ETL ưa thích của tôi không?

Có, Amazon Redshift sử dụng SQL theo tiêu chuẩn ngành và được truy cập bằng cách sử dụng trình điều khiển JDBC và ODBC tiêu chuẩn. Bạn có thể tải xuống trình điều khiển JDBC và ODBC tùy chỉnh theo Amazon Redshift từ tab Kết nối máy khách của Bảng điều khiển Redshift. Chúng tôi đã chứng thực các tích hợp với nhà cung cấp BI và ETL thông dụng, một số trong số đó đang cho phép dùng thử miễn phí để giúp bạn bắt đầu tải và phân tích dữ liệu. Bạn cũng có thể truy cập AWS Marketplace để triển khai và cấu hình các giải pháp được thiết kế tương thích với Amazon Redshift trong vài phút.

Redshift Spectrum hỗ trợ tất cả các công cụ máy khách Amazon Redshift. Công cụ máy khách có thể tiếp tục kết nối với điểm cuối của cụm Amazon Redshift bằng kết nối ODBC hoặc JDBC. Không yêu cầu thay đổi gì.

Bạn sử dụng cú pháp truy vấn giống hệt và có các tính năng truy vấn tương tự để truy cập bảng trên Redshift Spectrum như các tính năng bạn có cho bảng trên bộ lưu trữ cục bộ của cụm Redshift. Bảng bên ngoài được tham chiếu bằng cách sử dụng tên schema xác định theo lệnh CREATE EXTERNAL SCHEMA, nơi chúng đã được đăng ký.

Hỏi: Redshift Spectrum hỗ trợ những định dạng dữ liệu và định dạng nén nào?

Redshift Spectrum hiện hỗ trợ nhiều định dạng dữ liệu nguồn mở, như: Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text và TSV.

Redshift Spectrum hiện hỗ trợ dạng nén Gzip và Snappy.

Câu hỏi: Điều gì xảy ra nếu một bảng trên bộ lưu trữ cục bộ của tôi có tên giống với bảng bên ngoài?

Giống như bảng cục bộ, bạn có thể sử dụng tên quy ước để để chọn chính xác bảng mong muốn bằng cách sử dụng schema_name.table_name trong truy vấn của bạn.

Câu hỏi: Tôi sử dụng Hive Metastore để lưu trữ siêu dữ liệu về kho dữ liệu S3. Tôi có thể sử dụng Redshift Spectrum không?

Có. Lệnh CREATE EXTERNAL SCHEMA hỗ trợ Hive Metastores. Chúng tôi hiện không hỗ trợ DDL cho Hive Metastore.

Câu hỏi: Làm thế nào để lấy danh sách toàn bộ các bảng cơ sở dữ liệu bên ngoài được tạo ra trên cụm của tôi?

Bạn có thể truy vấn bảng hệ thống SVV_EXTERNAL_TABLES để xem thông tin đó.

Câu hỏi: Redshift có hỗ trợ khả năng sử dụng Máy học với SQL không?

Có, tính năng Amazon Redshift ML giúp người dùng SQL dễ dàng tạo, đào tạo và triển khai các mô hình máy học (ML) bằng cách sử dụng các lệnh SQL quen thuộc. Amazon Redshift ML cho phép khách hàng tận dụng dữ liệu của họ trong Amazon Redshift với Amazon SageMaker, một dịch vụ máy học được quản lý toàn phần.

Câu hỏi: Amazon Redshift có cung cấp API để truy vấn dữ liệu không?

Amazon Redshift cung cấp API Dữ liệu cho phép bạn dễ dàng truy cập dữ liệu từ Amazon Redshift bằng tất cả các loại ứng dụng theo sự kiện và ứng dụng dựa trên dịch vụ web phi máy chủ, nằm trong bộ chứa và truyền thống, hoạt động trên đám mây. API Dữ liệu đơn giản hóa việc truy cập vào Amazon Redshift vì bạn không cần đặt cấu hình trình điều khiển và quản lý kết nối cơ sở dữ liệu. Thay vào đó, bạn có thể chạy các lệnh SQL tới cụm Amazon Redshift đơn giản bằng cách gọi điểm cuối API bảo mật do API Dữ liệu cung cấp. API dữ liệu quản lý các kết nối cơ sở dữ liệu và dữ liệu đệm. API dữ liệu không đồng bộ, do đó bạn có thể truy xuất kết quả sau này. Kết quả truy vấn của bạn được lưu trữ trong 24 giờ.

Câu hỏi: Tôi có thể sử dụng những loại thông tin xác thực nào với API dữ liệu của Amazon Redshift?

API dữ liệu hỗ trợ thông tin xác thực IAM và sử dụng khóa bí mật từ AWS Secrets Manager. API dữ liệu liên kết thông tin xác thực AWS Identity and Access Management (IAM) để bạn có thể sử dụng các nhà cung cấp danh tính như Okta hoặc Azure Active Directory hãy thông tin xác thực cơ sở dữ liệu được lưu trữ trong Secrets Manager mà không cần chuyển thông tin xác thực cơ sở dữ liệu trong lệnh gọi API.

Câu hỏi: Tôi có thể sử dụng API dữ liệu Amazon Redshift từ AWS CLI không?

Có, bạn có thể sử dụng API dữ liệu từ AWS CLI bằng tùy chọn dòng lệnh aws redshift-data.

Câu hỏi: API dữ liệu của Redshift có được tích hợp với các dịch vụ AWS khác không?

Bạn có thể sử dụng API dữ liệu từ các dịch vụ khác như AWS Lambda, AWS Cloud9, AWS AppSync và Amazon EventBridge.

Câu hỏi: Tôi có phải trả phí riêng cho việc sử dụng API dữ liệu của Amazon Redshift không?

Không, chúng tôi không tính phí riêng cho việc sử dụng API dữ liệu.

Giám sát

Câu hỏi: Làm thế nào để giám sát hiệu suất của cụm kho dữ liệu Amazon Redshift?

Các chỉ số về mức sử dụng điện toán, mức sử dụng dung lượng lưu trữ và lưu lượng đọc/ghi lên cụm kho dữ liệu Amazon Redshift được cung cấp miễn phí thông qua Bảng điều khiển quản lý AWS hoặc các API Amazon CloudWatch. Bạn cũng có thể thêm các chỉ số khác do người dùng xác định thông qua tính năng chỉ số tùy chỉnh của Amazon CloudWatch. Bảng điều khiển quản lý AWS cung cấp một bảng thông tin giám sát giúp bạn giám sát tình trạng và hiệu năng ở tất cả các cụm của bạn. Amazon Redshift cũng cung cấp thông tin về hiệu suất truy vấn và cụm thông qua Bảng điều khiển quản lý AWS. Thông tin này cho phép bạn xem người dùng và truy vấn nào sử dụng nhiều tài nguyên hệ thống nhất để chẩn đoán các vấn đề về hiệu suất thông qua việc quan sát các kế hoạch truy vấn và số liệu thống kê thực hiện. Ngoài ra, bạn có thể xem mức sử dụng tài nguyên trên mỗi nút điện toán để bảo đảm bạn có dữ liệu và truy vấn được cân bằng phù hợp giữa tất cả các nút.

Bảo trì

Câu hỏi: Thế nào là một khoảng thời gian bảo trì? Câu hỏi: Cụm kho dữ liệu của tôi có sẵn sàng trong quá trình bảo trì phần mềm không?

Amazon Redshift định kỳ thực hiện bảo trì để áp dụng các bản sửa lỗi, tăng cường và tính năng mới cho cụm của bạn. Bạn có thể thay đổi khoảng thời gian bảo trì định kỳ này bằng cách điều chỉnh cụm, tự động theo lập trình hoặc sử dụng Bảng điều khiển Redshift. Trong khoảng thời gian bảo trì này, cụm Amazon Redshift của bạn không còn sẵn sàng để phục vụ các thao tác thông thường nữa. Để biết thêm thông tin về khoảng thời gian bảo trì và lịch theo khu vực, xem Khoảng thời gian bảo trì trong Hướng dẫn quản lý Amazon Redshift.

Tìm hiểu thêm về giá của Amazon Redshift

Truy cập trang giá
Bạn đã sẵn sàng xây dựng chưa?
Bắt đầu với Amazon Redshift
Bạn có thêm thắc mắc?
Liên hệ với chúng tôi