Thông tin chung

Để tìm hiểu thông tin mới về Amazon Redshift, hãy truy cập trang Thông tin mới.
Để xem thêm thông tin chi tiết và hướng dẫn sử dụng, hãy truy cập Tài liệu.

Hỏi: Amazon Redshift là gì?

Amazon Redshift là kho lưu trữ dữ liệu đám mây nhanh, được quản lý toàn phần, giúp bạn phân tích tất cả dữ liệu một cách đơn giản và có hiệu quả về mặt chi phí bằng SQL tiêu chuẩn và các công cụ Nghiệp vụ thông minh (BI) hiện có của mình. Dịch vụ này cho phép bạn chạy các truy vấn phân tích phức tạp trên hàng terabyte đến petabyte dữ liệu có cấu trúc, nhờ vào khả năng tối ưu hóa truy vấn tinh vi, khả năng lưu trữ dạng cột trên kho lưu trữ hiệu suất cao và khả năng thực thi truy vấn song song trên quy mô lớn. Hầu hết kết quả sẽ được trả về chỉ trong vài giây. Với Redshift, bạn có thể bắt đầu ở quy mô nhỏ với chỉ 0,25 USD/giờ mà không phải cam kết, rồi có thể tăng quy mô lên đến hàng petabyte dữ liệu với giá 1.000 USD/terabyte mỗi năm, mức giá này còn chưa đến một phần mười chi phí của các giải pháp tại chỗ truyền thống. Amazon Redshift còn có Amazon Redshift Spectrum, cho phép bạn chạy trực tiếp các truy vấn SQL trên hàng exabyte dữ liệu chưa cấu trúc trong kho dữ liệu Amazon S3. Dịch vụ này không yêu cầu tải hay chuyển đổi, hơn nữa, bạn có thể sử dụng nhiều định dạng dữ liệu mở, như: Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text và TSV. Redshift Spectrum tự động thay đổi quy mô công suất điện toán truy vấn dựa trên dữ liệu được truy xuất, do đó, các truy vấn trên Amazon S3 có tốc độ chạy nhanh, bất kể dung lượng bộ dữ liệu.

Amazon Redshift đem đến cho bạn các tính năng truy vấn tốc độ cao trên dữ liệu được cấu trúc nhờ vào các ứng dụng khách dựa trên SQL quen thuộc và các công cụ nghiệp vụ thông minh (BI) sử dụng kết nối ODBC và JDBC tiêu chuẩn. Các truy vấn được phân phối và triển khai song song trên nhiều tài nguyên vật lý khác nhau. Bạn có thể dễ dàng tăng hoặc giảm quy mô kho dữ liệu Amazon Redshift chỉ bằng vài cú nhấp chuột trên Bảng điều khiển quản lý AWS hoặc bằng một lệnh gọi API. Amazon Redshift tự động vá lỗi và sao lưu kho dữ liệu của bạn, lưu trữ bản sao lưu trong khoảng thời gian lưu giữ do người dùng xác định. Amazon Redshift sử dụng tính năng sao chép và sao lưu liên tục để tăng cường độ sẵn sàng và cải thiện độ bền dữ liệu, đồng thời có thể tự động khôi phục sau sự cố thành phần và nút. Ngoài ra, Amazon Redshift còn hỗ trợ khả năng bảo mật đầu ngành với phần tích hợp AWS IAM, khả năng liên kết danh tính, khả năng kiểm soát quyền truy cập ở cấp cột, Amazon Virtual Private Cloud (Amazon VPC), SSL, khả năng mã hóa AES-256 và phần tích hợp sẵn AWS KMS để bảo vệ dữ liệu của bạn khi truyền tải và khi ở trạng thái lưu trữ. Bạn có thể sử dụng mọi tính năng bảo mật của Amazon Redshift mà không mất thêm một đồng chi phí nào.

Amazon Redshift được tích hợp AWS CloudTrail để bạn có thể kiểm tra tất cả các lệnh gọi API Redshift. Redshift cũng ghi nhật ký mọi thao tác SQL, bao gồm các lượt kết nối, truy vấn và các thay đổi trong kho dữ liệu của bạn. Bạn có thể truy cập các nhật ký này bằng cách sử dụng truy vấn SQL trên bảng hệ thống hoặc chọn lưu nhật ký vào một vị trí an toàn trong Amazon S3. Amazon Redshift tuân thủ các yêu cầu SOC1, SOC2, SOC3 và PCI DSS Cấp 1.

Tương tự như với tất cả Amazon Web Services, bạn không cần đầu tư ban đầu và chỉ phải trả tiền cho tài nguyên mình sử dụng. Amazon Redshift cho phép bạn trả phí theo nhu cầu sử dụng. Bạn thậm chí còn có thể dùng thử Amazon Redshift miễn phí.

Để biết thông tin về tính sẵn có của Amazon Redshift theo khu vực, hãy xem Bảng khu vực AWS.

Hỏi: Tại sao tôi nên sử dụng Amazon Redshift thay vì kho lưu trữ dữ liệu tại chỗ?

Việc quản trị kho lưu trữ dữ liệu tại chỗ tốn khá nhiều thời gian và tài nguyên, đặc biệt là đối với các bộ dữ liệu lớn. Ngoài ra, chi phí tài chính liên quan đến việc xây dựng, duy trì và phát triển kho dữ liệu tại chỗ, tự quản lý cũng rất cao. Khi dữ liệu của bạn tăng lên, bạn sẽ liên tục phải cân nhắc nên tải dữ liệu nào vào kho dữ liệu và lưu trữ dữ liệu nào ở bộ lưu trữ để có thể quản lý chi phí, duy trì độ phức tạp ETL ở mức thấp, cũng như bảo đảm hiệu suất cao. Amazon Redshift không chỉ giúp giảm đáng kể phí tổn và chi phí vận hành của kho dữ liệu, mà với Redshift Spectrum, dịch vụ này còn giúp bạn dễ dàng phân tích lượng dữ liệu lớn ở định dạng gốc mà không cần phải tải dữ liệu.

Hỏi: AQUA (Trình tăng tốc truy vấn nâng cao) cho Amazon Redshift là gì?

AQUA là một bộ nhớ đệm mới, được bố trí phân tán và được tăng tốc nhờ phần cứng, nó cho phép Redshift chạy nhanh hơn gấp 10 lần so với bất kỳ kho dữ liệu đám mây nào khác. Cấu trúc lưu kho dữ liệu hiện có với bộ lưu trữ tập trung đòi hỏi dữ liệu phải được di chuyển để tính toán các cụm xử lý. Khi kho dữ liệu ngày một lớn dần sau vài năm, băng thông mạng cần có để di chuyển toàn bộ số dữ liệu này sẽ gây ảnh hưởng lớn đến hiệu suất truy vấn.

AQUA áp dụng một phương pháp mới cho việc lưu kho dữ liệu trên đám mây. AQUA mang khả năng điện toán đến cho bộ lưu trữ bằng cách thực hiện tại chỗ phần lớn tác vụ xử lý dữ liệu, trong một bộ nhớ đệm đổi mới. Ngoài ra, công cụ này sử dụng các bộ xử lý do AWS thiết kế và cấu trúc có thể thay đổi quy mô để tăng tốc độ xử lý dữ liệu vượt xa mức mà CPU truyền thống hiện nay có thể làm được. Hãy tìm hiểu thêm và đăng ký để được xét duyệt nhận bản xem trước.

Câu hỏi: Redshift Spectrum là gì?

Redshift Spectrum là một tính năng của Amazon Redshift, cho phép bạn chạy các truy vấn đối với hàng exabyte dữ liệu không có cấu trúc trên Amazon S3 mà không yêu cầu tải hoặc ETL. Khi bạn phát hành một truy vấn, truy vấn đó chuyển tới điểm cuối Amazon Redshift SQL để tạo và tối ưu hóa một kế hoạch truy vấn. Amazon Redshift xác định đâu là dữ liệu cục bộ và trên Amazon S3 có những gì, tạo một kế hoạch để giảm thiểu lượng dữ liệu trên Amazon S3 cần được đọc, yêu cầu các công nhân Redshift Spectrum (một đối tượng JavaScript) ngoài phạm vi của một nhóm tài nguyên chia sẻ đọc và xử lý dữ liệu từ Amazon S3.

Redshift Spectrum mở rộng lên tới hàng nghìn phiên bản nếu cần, do đó, các truy vấn sẽ chạy rất nhanh bất kể dung lượng dữ liệu. Ngoài ra, bạn có thể sử dụng cùng một SQL cho dữ liệu Amazon S3 như cho các truy vấn Amazon Redshift và kết nối với cùng một điểm cuối Amazon Redshift bằng cùng những công cụ BI của bạn. Redshift Spectrum cho phép bạn tách biệt hai chức năng lưu trữ và điện toán, qua đó cho phép bạn thay đổi quy mô riêng từng phần. Bạn có thể thiết lập số lượng cụm Amazon Redshift bạn cần để truy vấn kho dữ liệu trên Amazon S3 của bạn, mang lại độ khả dụng cao và không giới hạn việc tồn tại đồng thời. Redshift Spectrum giúp bạn tự do lưu trữ dữ liệu của mình ở nơi bạn muốn, theo định dạng bạn muốn và sẵn có để xử lý khi bạn cần. Để biết thông tin về tính sẵn có của Redshift Spectrum theo khu vực, hãy truy cập trang giá của Amazon Redshift.

Hỏi: Bộ lưu trữ được Amazon Redshift quản lý là gì?

Bộ lưu trữ được Amazon Redshift quản lý có sẵn với các loại nút RA3, dịch vụ này cho phép bạn thay đổi quy mô và trả tiền cho các chức năng điện toán và lưu trữ riêng biệt, để bạn có thể điều chỉnh quy mô cụm theo đúng nhu cầu điện toán của mình. Dịch vụ này sử dụng bộ lưu trữ cục bộ, hiệu suất cao, dựa trên SSD làm bộ nhớ đệm bậc 1 và tận dụng các phần tối ưu hóa, như: nhiệt độ của khối dữ liệu, tuổi thọ của khối dữ liệu và dạng thức khối lượng công việc, để vừa mang đến hiệu suất cao vừa tự động điều chỉnh bộ lưu trữ sang Amazon S3 khi cần mà bạn không phải làm gì cả.

Hỏi: Làm thế nào để sử dụng bộ lưu trữ được quản lý của Amazon Redshift?

Nếu bạn đang sử dụng nút Amazon Redshift DS hoặc DC, thì bạn có thể nâng cấp các cụm hiện có lên phiên bản điện toán mới RA3 để sử dụng bộ lưu trữ được quản lý. Bạn cũng có thể tạo cụm mới dựa trên phiên bản RA3 và bộ nhớ được quản lý sẽ tự động được sử dụng. Bạn không cần phải làm gì để sử dụng tính năng này.

Hỏi: Amazon Redshift tinh giản việc quản lý kho dữ liệu như thế nào?

Amazon Redshift quản lý các công việc cần thiết để thiết lập, vận hành và thay đổi quy mô kho dữ liệu. Ví dụ: cung cấp dung lượng cơ sở hạ tầng, tự động hóa các tác vụ quản trị như sao lưu, áp dụng bản vá và giám sát các nút, ổ đĩa để khôi phục sau sự cố. Đối với Redshift Spectrum, Amazon Redshift quản lý toàn bộ cơ sở hạ tầng điện toán, cân bằng tải, hoạch định, đặt lịch và thực thi truy vấn của bạn trên dữ liệu được lưu trữ trong Amazon S3.

Hỏi: Amazon Redshift có hiệu suất như thế nào so với hầu hết các cơ sở dữ liệu tại chỗ khác về mặt lưu kho dữ liệu và phân tích?

Amazon Redshift sử dụng nhiều điểm cải tiến để đạt hiệu suất cao hơn gấp 10 lần so với cơ sở dữ liệu truyền thống về mặt khối lượng công việc lưu kho dữ liệu và phân tích, bao gồm:

  • Lưu trữ dữ liệu dạng cột: Thay vì lưu trữ dữ liệu ở dạng hàng, Amazon Redshift tổ chức dữ liệu theo cột. Khác với các hệ thống tổ chức theo hàng vốn lý tưởng dùng để xử lý giao dịch, hệ thống tổ chức theo cột lý tưởng dùng cho kho dữ liệu và phân tích, trong đó các truy vấn thường gồm các kết tập được thực hiện trên các bộ dữ liệu lớn. Do chỉ có cột liên quan đến các truy vấn được xử lý và dữ liệu dạng cột được lưu trữ tuần tự trên phương tiện lưu trữ, hệ thống tổ chức theo cột yêu cầu ít thao tác I/O hơn nhiều, giúp cải thiện đáng kể hiệu suất truy vấn.
  • Nén nâng cao: Có thể nén kho dữ liệu dạng cột tốt hơn nhiều so với kho dữ liệu tổ chức theo dạng hàng vì dữ liệu giống nhau được lưu trữ tuần tự trên ổ đĩa. Amazon Redshift sử dụng nhiều kỹ thuật nén khác nhau và thường đạt được hiệu quả nén khá tốt so với kho dữ liệu quan hệ truyền thống. Khi tải dữ liệu lên một bảng trống, Amazon Redshift tự động lấy mẫu dữ liệu của bạn và chọn cơ chế nén phù hợp nhất.
  • Xử lý song song hàng loạt (MPP): Amazon Redshift tự động phân phối dữ liệu và khối lượng truy vấn giữa tất cả các nút. Amazon Redshift giúp dễ dàng thêm nút vào kho dữ liệu và cho phép bạn duy trì hiệu suất truy vấn tốc độ cao khi kho dữ liệu của bạn tăng lên.
  • Redshift Spectrum: Redshift Spectrum cho phép bạn chạy các truy vấn trên hàng exabyte dữ liệu trên Amazon S3. Không yêu cầu tải hoặc ETL. Kể cả khi bạn không lưu trữ bất kỳ dữ liệu nào trên Amazon Redshift, bạn vẫn có thể sử dụng Redshift Spectrum để truy vấn các bộ dữ liệu kích thước hàng exabyte trên Amazon S3. Khi bạn phát hành một truy vấn, truy vấn đó chuyển tới điểm cuối Amazon Redshift SQL để tạo một kế hoạch truy vấn. Amazon Redshift xác định dữ liệu nào là cục bộ, dữ liệu nào là trên Amazon S3 và hoạch định để giảm thiểu lượng dữ liệu trên Amazon S3 cần đọc, yêu cầu các trình xử lý Amazon Redshift Spectrum trong một nhóm tài nguyên dùng chung đọc và xử lý dữ liệu từ Amazon S3, rồi kéo dữ liệu về cụm Amazon Redshift của bạn để xử lý phần còn lại.
  • Chế độ xem cụ thể hóa: Các chế độ xem cụ thể hóa mang đến hiệu suất truy vấn nhanh hơn đáng kể cho các khối lượng công việc phân tích lặp lại nhiều lần và có thể dự đoán, như: bảng điều khiển, truy vấn từ các công cụ nghiệp vụ thông minh (BI) và tác vụ xử lý dữ liệu ELT (trích xuất, tải, chuyển đổi). Với chế độ xem cụ thể hóa, bạn có thể lưu trữ các kết quả truy vấn được tính toán sẵn và duy trì chúng rất hiệu quả bằng cách xử lý thêm những thay đổi mới nhất trong các bảng nguồn. Các truy vấn tiếp sau tham chiếu chế độ xem cụ thể hóa sẽ sử dụng những kết quả được tính toán sẵn này để chạy nhanh hơn nhiều. Chế độ xem cụ thể hóa có thể được tạo dựa trên một hoặc nhiều bảng nguồn bằng các bộ lọc, hình chiếu, điểm nối trong, khối tập hợp, tác vụ nhóm, hàm và các cấu trúc SQL khác.
  • Khả năng thay đổi quy mô: Công suất điện toán và lưu trữ của kho dữ liệu tại chỗ bị giới hạn vì những ràng buộc của phần cứng tại chỗ. Redshift trao cho bạn khả năng thay đổi quy mô lưu trữ và điện toán khi cần để đáp ứng các khối lượng công việc hay thay đổi.

Hỏi: Làm thế nào để bắt đầu sử dụng Amazon Redshift?

Bạn có thể đăng ký và bắt đầu trong vài phút từ trang chi tiết về Amazon Redshift hoặc thông qua Bảng điều khiển quản lý AWS. Nếu chưa có tài khoản AWS, bạn sẽ được nhắc tạo một tài khoản. Hãy truy cập trang Bắt đầu để biết cách dùng thử Amazon Redshift miễn phí.

Hỏi: Làm thế nào để tạo và truy cập một cụm kho dữ liệu Amazon Redshift?

Bạn có thể dễ dàng tạo cụm kho dữ liệu Amazon Redshift bằng Bảng điều khiển quản lý AWS hoặc API Amazon Redshift. Bạn có thể bắt đầu với kho dữ liệu 160 GB, có một nút và tăng quy mô lên đến hàng petabyte hoặc hơn nữa bằng vài cú nhấp chuột trên Bảng điều khiển AWS hoặc bằng một lệnh gọi API.

Cấu hình một nút (phù hợp nhất với khối lượng công việc đánh giá hoặc phát triển/kiểm thử) cho phép bạn bắt đầu sử dụng Amazon Redshift một cách nhanh chóng, có hiệu quả về mặt chi phí và tăng quy mô lên cấu hình nhiều nút khi nhu cầu của bạn tăng thêm. Cụm kho dữ liệu Redshift có thể chứa 1 – 128 nút điện toán, tùy theo loại nút. Để biết chi tiết, vui lòng xem tài liệu của chúng tôi.

Cấu hình nhiều nút đòi hỏi bạn phải có một nút chính để quản lý các kết nối máy khách và nhận truy vấn, hai nút điện toán để lưu trữ dữ liệu và thực hiện các truy vấn, phép tính. Nút chính có dung lượng tương đương với nút điện toán và được tự động cung cấp miễn phí cho bạn.

Bạn chỉ cần xác định Vùng sẵn sàng mong muốn (không bắt buộc), số lượng nút, loại nút, tên và mật khẩu chính, nhóm bảo mật, các mục cài đặt lưu giữ bản sao lưu và cài đặt hệ thống khác. Sau khi bạn đã chọn cấu hình mong muốn, Amazon Redshift sẽ cung cấp các tài nguyên cần thiết và thiết lập cụm kho dữ liệu của bạn.

Sau khi cụm kho dữ liệu của bạn đã sẵn sàng, bạn có thể truy xuất điểm cuối của cụm cùng với chuỗi kết nối JDBC và ODBC từ Bảng điều khiển quản lý AWS hoặc bằng API Redshift. Sau đó bạn có thể sử dụng chuỗi kết nối này với công cụ cơ sở dữ liệu yêu thích, ngôn ngữ lập trình hoặc công cụ Nghiệp vụ thông minh (BI). Bạn cần ủy quyền các truy vấn mạng cho cụm kho dữ liệu đang chạy của bạn. Để biết phần giải thích chi tiết, vui lòng tham khảo Hướng dẫn bắt đầu của chúng tôi.

Câu hỏi: Công suất lưu trữ tối đa trên mỗi nút điện toán bằng bao nhiêu? Khối lượng dữ liệu khuyến cáo trên mỗi nút điện toán bằng bao nhiêu để đạt hiệu năng tối ưu?

Bạn có thể tạo một cụm bằng cách sử dụng các loại nút RA3, DC hoặc DS. Các loại nút RA3 cho phép bạn thay đổi quy mô và chi trả cho điện toán và lưu trữ một cách độc lập. Bạn chọn số lượng phiên bản mình cần dựa trên yêu cầu về hiệu suất và chỉ trả tiền cho bộ lưu trữ được quản lý mà bạn sử dụng.

Có hai loại nút RA3: RA3.16XL và RA3.4XL. Mỗi nút RA3.16XL có 48 vCPU, bộ nhớ 384 GiB và hỗ trợ IO 8 GB/giây. Cả hai cụm RA3.16XL và RA3.4XL đều chạy với tối thiểu hai nút và cụm nhỏ nhất có hai nút RA3.16XL hoặc RA3.4XL sẽ cung cấp bộ lưu trữ được quản lý 128 TB. Định mức bộ lưu trữ được quản lý cho cả RA3.16XL và RA3.4XL là 64 TB/nút. Cụm RA3.16XL có thể tăng tới 128 nút, cho phép xây dựng cụm có bộ lưu trữ được quản lý lên đến 8 petabyte. Nút RA3.4XL có 12 vCPU, bộ nhớ 96 GiB và hỗ trợ IO 2 GB/giây. Cụm RA3.4XL có thể tăng tới 64 nút, cho phép xây dựng cụm có bộ lưu trữ được quản lý lên đến 4 petabyte. Lưu ý: Mọi dung lượng bộ lưu trữ được quản lý ở đây đều là dành cho dữ liệu nén. Redshift nén dữ liệu đến 3 – 4 lần, nên dữ liệu chưa nén sẽ lớn hơn gấp 3 – 4 lần mức được nêu ở đây.

Nút DC cũng có hai loại. Nút Lớn có bộ lưu trữ SSD 160 GB, hai lõi ảo Intel Xeon E5-2670v2 (Ivy Bridge) và RAM 15 GiB. Còn nút Lớn đặc biệt gấp 8 thì lớn hơn gấp 16 lần, với bộ lưu trữ SSD 2,56 TB, 32 lõi ảo Intel Xeon E5-2670v2 và RAM 244 GiB. Bạn có thể bắt đầu với một nút DC2.Large ở mức giá 0,25 USD/giờ và tăng quy mô tới 128 nút 8XL với bộ lưu trữ SSD 326 TB, 3.200 lõi ảo và RAM 24 TiB.

Nút DS có hai loại: Lớn đặc biệt và Lớn đặc biệt gấp 8. Nút Lớn đặc biệt (XL) có ba HDD với tổng dung lượng lưu trữ từ là hai TB, còn nút Lớn đặc biệt gấp 8 (8XL) có 24 HDD với tổng dung lượng lưu trữ từ 16 TB. DS2.8XLarge có 36 lõi ảo Intel Xeon E5-2676 v3 (Haswell) và RAM 244 GiB, còn DS2.XL có bốn lõi ảo Intel Xeon E5-2676 v3 (Haswell) và RAM 31 GiB.

Vui lòng xem trang giá của chúng tôi để biết thêm chi tiết.

Hỏi: Khi nào tôi nên sử dụng Amazon Redshift hay Amazon RDS?

Cả Amazon Redshift và Amazon RDS đều cho phép bạn chạy cơ sở dữ liệu quan hệ truyền thống trên đám mây trong khi loại bỏ được gánh nặng quản trị cơ sở dữ liệu. Khách hàng chủ yếu sử dụng cơ sở dữ liệu Amazon RDS cho khối lượng công việc xử lý giao tác trực tuyến (OLTP), còn Redshift được dùng chủ yếu cho báo cáo và phân tích. Khối lượng công việc OLTP đòi hỏi hải truy vấn nhanh chóng thông tin cụ thể và hỗ trợ các giao tác như chèn, cập nhật và xóa, nên Amazon RDS là lựa chọn xử lý phù hợp nhất. Amazon Redshift khai thác quy mô và tài nguyên của nhiều nút khác nhau, đồng thời sử dụng nhiều phần tối ưu hóa để cải thiện biên độ ở cơ sở dữ liệu truyền thống cho khối lượng công việc phân tích và báo cáo trên các bộ dữ liệu rất lớn. Amazon Redshift đem đến tùy chọn tăng quy mô tuyệt vời khi độ phức tạp của dữ liệu và truy vấn của bạn tăng thêm nếu bạn không muốn để quá trình xử lý báo cáo và phân tích ảnh hưởng đến hiệu suất của khối lượng công việc OLTP. Giờ đây, với tính năng Truy vấn liên hiệp mới, bạn có thể dễ dàng truy vấn dữ liệu giữa các dịch vụ cơ sở dữ liệu Amazon RDS hoặc Aurora với Amazon Redshift.

Hỏi: Khi nào tôi nên sử dụng Amazon Redshift hoặc Redshift Spectrum hay Amazon EMR?

Bạn nên dùng Amazon EMR nếu bạn sử dụng mã tùy chỉnh để xử lý và phân tích các bộ dữ liệu cực lớn bằng các khung xử lý dữ liệu lớn, như Apache Spark, Hadoop, Presto hay Hbase. Amazon EMR giúp bạn kiểm soát hoàn toàn cấu hình các cụm và phần mềm bạn cài đặt trên đó.

Những kho dữ liệu như Amazon Redshift được thiết kế để dùng cho nhiều loại phân tích khác nhau. Kho dữ liệu được thiết kế để kéo dữ liệu từ nhiều nguồn khác nhau như các hệ thống kho, tài chính và bán lẻ. Để đảm bảo báo cáo có độ chính xác ổn định trong toàn công ty, kho dữ liệu lưu trữ dữ liệu theo cấu trúc được tổ chức khoa học. Cấu trúc này tích hợp trực tiếp các quy tắc về độ nhất quán của dữ liệu vào các bảng của cơ sở dữ liệu. Amazon Redshift là dịch vụ tốt nhất khi bạn cần thực hiện các truy vấn phức tạp trên các bộ dữ liệu có cấu trúc và bán cấu trúc rất lớn và đạt được hiệu suất cao.

Mặc dù Redshift Spectrum cũng là lựa chọn tuyệt vời cho việc chạy truy vấn dữ liệu trên Amazon Redshift và S3, nhưng tính năng này không thực sự phù hợp với những loại trường hợp sử dụng mà doanh nghiệp thường yêu cầu ở các khung xử lý như Amazon EMR. Amazon EMR làm được rất nhiều việc khác ngoài việc chạy truy vấn SQL. Amazon EMR là dịch vụ có quản lý, cho phép bạn xử lý và phân tích các bộ dữ liệu cực kỳ lớn bằng cách sử dụng phiên bản framework xử lý dữ liệu lớn thông dụng mới nhất, chẳng hạn như Spark, Hadoop và Presto, trên các cụm có khả năng tùy chỉnh toàn phần. Với Amazon EMR, bạn có thể chạy rất nhiều tác vụ xử lý dữ liệu tăng quy mô cho các ứng dụng như máy học, phân tích đồ thị, chuyển đổi dữ liệu, truyền phát dữ liệu và gần như mọi thứ bạn có thể viết mã.

Bạn có thể sử dụng Redshift Spectrum với EMR. Redshift Spectrum áp dụng phương thức lưu trữ định nghĩa bảng tương tự như Amazon EMR. Redshift Spectrum có thể hỗ trợ Apache Hive Metastore giống với loại mà Amazon EMR dùng để xác định vị trí dữ liệu và các định nghĩa bảng. Nếu đang sử dụng Amazon EMR và đã có sẵn Hive Metastore, bạn chỉ cần cấu hình cụm Amazon Redshift để sử dụng tính năng này. Khi đó, bạn có thể bắt đầu truy vấn dữ liệu đó ngay lập tức cùng các tác vụ Amazon EMR. Vì thế, nếu bạn đang sử dụng EMR để xử lý kho dữ liệu lớn, thì bạn có thể sử dụng Redshift Spectrum để truy vấn dữ liệu đó cùng một lúc mà không phải can thiệp vào các tác vụ Amazon EMR.

Dịch vụ truy vấn, kho dữ liệu và khung xử lý dữ liệu phức tạp đều có vai trò riêng và được sử dụng vào những việc khác nhau. Bạn chỉ cần chọn đúng công cụ cho tác vụ.

Câu hỏi: Khi nào tôi nên sử dụng Amazon Athena hay Redshift Spectrum?

Amazon Athena là cách đơn giản nhất để trao cho mọi nhân viên khả năng chạy các truy vấn ngẫu nhiên trên dữ liệu trong Amazon S3. Athena là dạng phi máy chủ nên không cần cơ sở hạ tầng để thiết lập hay quản lý và bạn có thể bắt đầu phân tích dữ liệu ngay.

Nếu bạn có dữ liệu thường xuyên truy cập, cần được lưu trữ ở định dạng nhất quán, có cấu trúc khoa học, thì bạn nên sử dụng kho dữ liệu như Amazon Redshift. Dịch vụ này đem đến cho bạn sự linh hoạt để lưu trữ dữ liệu có cấu trúc, thường xuyên truy cập trên Amazon Redshift và sử dụng Redshift Spectrum để mở rộng truy vấn Amazon Redshift sang dữ liệu trong kho dữ liệu Amazon S3. Điều này giúp bạn có thể tự do lưu trữ dữ liệu ở nơi bạn muốn, theo định dạng bạn muốn và dữ liệu đó luôn có sẵn để bạn xử lý khi cần.

Hỏi: Tại sao tôi nên sử dụng Amazon Redshift thay vì chạy cụm kho dữ liệu MPP riêng trên Amazon EC2?

Amazon Redshift tự động xử lý nhiều tác vụ tiêu tốn thời gian, liên quan đến việc quản lý kho dữ liệu của bạn, bao gồm:
  • Thiết lập: Với Amazon Redshift, bạn chỉ cần tạo cụm kho dữ liệu, xác lập sơ đồ, rồi tiến hành tải và truy vấn dữ liệu. Bạn không cần phải quản lý việc cung cấp, cấu hình hay áp dụng bản vá.
  • Độ bền dữ liệu: Amazon Redshift nhân bản dữ liệu trong cụm kho dữ liệu của bạn và liên tục sao lưu dữ liệu của bạn vào Amazon S3 – dịch vụ được thiết kế có độ bền đến 99,999999999%. Amazon Redshift ánh xạ dữ liệu của từng ổ đĩa sang các nút khác nằm trên cụm của bạn. Nếu ổ đĩa gặp sự cố, truy vấn của bạn sẽ tiếp tục và có độ trễ tăng thêm chút trong khi Redshift tái dựng ổ đĩa của bạn từ bản sao. Trường hợp xảy ra (các) sự cố nút, Amazon Redshift tự động cung cấp (các) nút mới và tiến hành khôi phục dữ liệu từ các ổ đĩa khác nằm trên cụm hoặc từ Amazon S3. Amazon Redshift ưu tiên khôi phục dữ liệu thường xuyên truy vấn nhất để có thể nhanh chóng thực hiện các truy vấn thường xuyên được thực thi nhất của bạn.
  • Thay đổi quy mô: Bạn có thể thêm hoặc xóa nút khỏi cụm kho dữ liệu Amazon Redshift bằng một lệnh gọi API hoặc bằng vài cú nhấp chuột trên Bảng điều khiển quản lý AWS khi nhu cầu về công suất và hiệu suất của bạn thay đổi. Bạn cũng có thể đặt lịch cho các thao tác thay đổi quy mô và thay đổi kích thước bằng cách sử dụng tính năng trình lập lịch trong Redshift.
  • Tự động cập nhật và vá lỗi: Amazon Redshift tự động áp dụng bản nâng cấp và vá lỗi cho kho dữ liệu để bạn có thể tập trung vào ứng dụng thay vì công việc quản trị ứng dụng.
  • Tính năng truy vấn quy mô exabyte: Redshift Spectrum cho phép bạn chạy các truy vấn đối với hàng exabyte dữ liệu trên Amazon S3. Không yêu cầu tải hoặc ETL. Kể cả khi bạn không lưu trữ bất kỳ dữ liệu nào trên Amazon Redshift, bạn vẫn có thể sử dụng Redshift Spectrum để truy vấn các bộ dữ liệu kích thước hàng exabyte trên Amazon S3.

Tính phí

Câu hỏi: Tôi sẽ bị tính phí như thế nào khi sử dụng Amazon Redshift?

Bạn chỉ phải trả tiền cho những gì bạn sử dụng, không có mức phí tối thiểu hay phí thiết lập. Amazon Redshift hỗ trợ khả năng tạm dừng và tiếp tục vận hành cụm, cho phép khách hàng dễ dàng tạm ngưng việc thanh toán theo nhu cầu khi không sử dụng cụm. Chẳng hạn, cụm dùng cho phát triển có thể được tạm ngưng trả phí điện toán khi bạn không sử dụng nó. Khi cụm này được tạm ngưng, bạn chỉ mất phí cho bộ lưu trữ của cụm. Đối với các khối lượng công việc sản xuất có trạng thái ổn định, bạn có thể chuyển sang Phiên bản đặt trước để được chiết khấu đáng kể so với mức giá theo nhu cầu.

Ngay khi cụm kho dữ liệu đã sẵn dùng, cụm đó sẽ bắt đầu được tính phí. Việc tính phí sẽ tiếp tục cho đến khi cụm kho dữ liệu chấm dứt, tức là khi cụm bị xóa hoặc phiên bản gặp sự cố. Bạn được tính phí dựa trên:

  • Số giờ sử dụng nút điện toán: số giờ sử dụng nút điện toán là tổng số giờ bạn chạy trên các nút điện toán trong kỳ tính phí. Số giờ sử dụng nút được tính phí đối với mỗi giờ cụm kho dữ liệu của bạn chạy ở chế độ sẵn sàng để sử dụng. Nếu không muốn bị tính phí đối với cụm kho dữ liệu nữa, bạn phải dừng hoặc xóa cụm để tránh bị tính phí đối với số giờ sử dụng nút phát sinh. Số giờ sử dụng nút không tròn một giờ sẽ được tính tròn là một giờ. Bạn bị tính phí đối với 1 đơn vị mỗi nút mỗi giờ nên cụm kho dữ liệu 3 nút chạy ổn định trong cả một tháng sẽ phát sinh 2.160 giờ sử dụng phiên bản. Bạn sẽ không bị tính phí đối với số giờ sử dụng nút chính, chỉ nút điện toán mới làm phát sinh phí.
  • Bộ lưu trữ được quản lý: bạn trả tiền cho dữ liệu lưu trong bộ lưu trữ được quản lý theo mức giá GB tháng cố định cho khu vực của bạn. Bộ lưu trữ được quản lý chỉ có sẵn cho các loại nút RA3 và mức giá bạn sẽ trả chỉ thấp tương đương với bộ lưu trữ được Redshift quản lý, bất kể dung lượng dữ liệu là bao nhiêu. Mức sử dụng bộ lưu trữ được quản lý sẽ được tính theo giờ, dựa trên tổng lượng dữ liệu có trong bộ lưu trữ được quản lý. Bạn có thể theo dõi lượng dữ liệu trong cụm RA3 của mình thông qua Amazon CloudWatch hoặc Bảng điều khiển quản lý AWS. Bạn không phải trả phí truyền dữ liệu giữa các nút RA3 và bộ lưu trữ được quản lý. Phí cho bộ lưu trữ được quản lý không bao gồm phí lưu trữ dự phòng do các ảnh chụp nhanh tự động và thủ công. Khi cụm kết thúc, bạn sẽ tiếp tục bị tính phí lưu giữ các bản sao lưu thủ công.
  • Bộ lưu trữ bản sao lưu: bộ lưu trữ bản sao lưu là bộ lưu trữ liên quan đến các ảnh chụp nhanh tự động và thủ công cho kho dữ liệu của bạn. Việc tăng thời gian lưu giữ bản sao lưu hoặc tạo thêm ảnh chụp nhanh sẽ làm tăng dung lượng lưu trữ bản sao lưu trong kho dữ liệu của bạn. Bạn sẽ không phải trả thêm phí cho dung lượng lưu trữ bản sao lưu lên đến 100% tổng dung lượng lưu trữ được cung cấp cho một cụm kho dữ liệu hiện hoạt. Chẳng hạn, nếu bạn có một cụm kho dữ liệu XL một nút hiện hoạt với 2 TB dung lượng lưu trữ phiên bản cục bộ, thì chúng tôi sẽ cung cấp tối đa 2 TB dung lượng lưu trữ bản sao lưu miễn phí mỗi tháng. Phần dung lượng lưu trữ bản sao lưu vượt quá dung lượng lưu trữ được cung cấp và các bản sao lưu được lưu sau khi cụm của bạn chấm dứt sẽ được tính phí theo mức giá tiêu chuẩn của Amazon S3.
  • Truyền dữ liệu: Chúng tôi không tính phí truyền dữ liệu đến hoặc từ Amazon Redshift và Amazon S3 nằm trong cùng một Khu vực AWS. Đối với tất cả các thao tác truyền dữ liệu khác vào và ra khỏi Amazon Redshift, bạn sẽ được tính phí theo mức giá truyền dữ liệu tiêu chuẩn của AWS.
  • Dữ liệu được quét: với Redshift Spectrum, bạn bị tính phí cho lượng dữ liệu Amazon S3 được quét để thực thi truy vấn của bạn. Chúng tôi không tính phí đối với Redshift Spectrum khi bạn không chạy truy vấn. Nếu bạn lưu trữ dữ liệu ở định dạng cột, ví dụ như Parquet hay RC, thì phí của bạn sẽ giảm đi, vì Redshift Spectrum chỉ quét những cột cần dùng cho truy vấn thay vì xử lý toàn bộ các hàng. Tương tự, nếu bạn nén dữ liệu theo một trong các định dạng được hỗ trợ của Redshift Spectrum, thì chi phí của bạn cũng sẽ giảm đi. Bạn trả phí theo mức phí tiêu chuẩn của Amazon S3 đối với dung lượng lưu trữ và mức phí phiên bản của Amazon Redshift đối với cụm được sử dụng.

Trừ khi có ghi chú khác, các mức giá của chúng tôi chưa bao gồm các loại thuế hiện hành, bao gồm cả thuế GTGT và thuế doanh thu hiện hành. Đối với khách hàng có địa chỉ ghi hóa đơn ở Nhật Bản, việc sử dụng dịch vụ AWS sẽ tuân thủ Thuế tiêu thụ của Nhật Bản. Tìm hiểu thêm.

Để biết thông tin về giá Amazon Redshift, vui lòng truy cập trang định giá Amazon Redshift.

Tích hợp và tải dữ liệu

Hỏi: Làm thế nào để tải dữ liệu vào kho dữ liệu Amazon Redshift?

Bạn có thể tải dữ liệu vào Amazon Redshift từ nhiều nguồn dữ liệu khác nhau, như: Amazon S3, Amazon RDSAmazon DynamoDB, Amazon EMR, AWS Glue, AWS Data Pipeline và/hoặc bất kỳ máy chủ nào có hỗ trợ SSH trên Amazon EC2 hoặc tại chỗ. Amazon Redshift cố gắng tải dữ liệu song song vào từng nút điện toán nhằm tăng tối đa tốc độ thu nạp dữ liệu của bạn vào cụm kho dữ liệu. Khách hàng có thể kết nối với Amazon Redshift bằng ODBC hoặc JDBC rồi phát hành lệnh 'chèn' SQL để chèn dữ liệu. Xin lưu ý quá trình này chậm hơn so với khi sử dụng S3 hoặc DynamoDB, vì các phương thức đó tải dữ liệu song song vào từng nút điện toán, còn lệnh chèn SQL chỉ tải qua một nút chính. Để biết thêm chi tiết về tải dữ liệu lên Amazon Redshift, vui lòng xem Hướng dẫn bắt đầu của chúng tôi.

Hỏi: Làm thế nào để tải dữ liệu từ các nguồn dữ liệu Amazon RDS, Amazon EMR, Amazon DynamoDB và Amazon EC2 hiện có vào Amazon Redshift?

Bạn có thể sử dụng lệnh COPY để tải dữ liệu trực tiếp và song song lên Amazon Redshift từ Amazon EMR, Amazon DynamoDB hoặc bất kỳ máy chủ có hỗ trợ SSH nào. Redshift Spectrum cũng cho phép bạn tải dữ liệu từ Amazon S3 lên cụm bằng một lệnh INSERT INTO đơn giản. Việc này cho phép bạn tải dữ liệu từ nhiều định dạng khác nhau chẳng hạn như Parquet và RC lên cụm của bạn. Lưu ý rằng nếu áp dụng phương thức này, bạn sẽ phát sinh lũy kế phí Redshift Spectrum đối với dữ liệu được quét từ Amazon S3. 

Ngoài ra, nhiều công ty ETL đã chứng thực Amazon Redshift để sử dụng cùng với công cụ của họ, một số còn cung cấp bản dùng thử miễn phí để giúp bạn bắt đầu tải dữ liệu. AWS Data Pipeline đem đến giải pháp hiệu suất cao, đáng tin cậy và có dung sai cao để tải dữ liệu từ rất nhiều nguồn dữ liệu AWS, như Amazon RDS, vào Redshift. Bạn có thể sử dụng AWS Data Pipeline để chỉ định nguồn dữ liệu, phần chuyển đổi dữ liệu mong muốn, rồi thực thi một đoạn mã nhập được soạn sẵn để tải dữ liệu vào Amazon Redshift. Ngoài ra, AWS Glue là dịch vụ trích xuất, chuyển đổi và tải (ETL) được quản lý toàn phần, giúp dễ dàng chuẩn bị và tải dữ liệu cho phân tích. Bạn có thể tạo và chạy một tác vụ AWS Glue ETL bằng vài cú nhấp chuột trên Bảng điều khiển quản lý AWS.

Câu hỏi: Tôi có nhiều dữ liệu để tải lần đầu lên Amazon Redshift. Truyền qua Internet sẽ mất nhiều thời gian. Làm thế nào để tải dữ liệu này?

Bạn có thể sử dụng AWS Import/Export để truyền dữ liệu vào Amazon S3 bằng các thiết bị lưu trữ di động. Ngoài ra, bạn có thể sử dụng AWS Direct Connect để thiết lập kết nối mạng riêng giữa mạng hoặc trung tâm dữ liệu của bạn và AWS. Bạn có thể chọn cổng kết nối 1 Gbit/giây hoặc 10 Gbit/giây để truyền dữ liệu.

Bảo mật

Hỏi: Amazon Redshift bảo mật dữ liệu của tôi như thế nào?

Amazon Redshift hỗ trợ khả năng bảo mật đầu ngành với phần tích hợp sẵn AWS IAM, khả năng liên kết danh tính cho đăng nhập một lần (SSO), khả năng xác thực nhiều yếu tố, khả năng kiểm soát quyền truy cập ở cấp cột, Amazon Virtual Private Cloud (Amazon VPC) và phần tích hợp sẵn AWS KMS để bảo vệ dữ liệu của bạn khi truyền tải và khi ở trạng thái lưu trữ. Amazon Redshift mã hóa và giữ an toàn cho dữ liệu của bạn trong quá trình truyền và khi ở trạng thái lưu trữ bằng các kỹ thuật mã hóa đạt chuẩn ngành. Để bảo mật dữ liệu trong quá trình truyền, Amazon Redshift hỗ trợ kết nối có hỗ trợ SSL giữa ứng dụng máy khách và cụm kho dữ liệu Redshift của bạn. Để bảo mật dữ liệu đang lưu trữ, Amazon Redshift mã hóa từng khối dữ liệu bằng cách sử dụng AES-256 được tăng tốc phần cứng khi dữ liệu được ghi lên ổ đĩa. Quá trình này diễn ra ở cấp độ thấp trên các hệ thống con I/O, hệ thống con này mã hóa toàn bộ những gì ghi lên ổ đĩa, bao gồm cả kết quả truy vấn tạm thời. Các khối dữ liệu cũng được sao lưu, tức là các bản sao lưu cũng được mã hóa. Theo mặc định, Amazon Redshift sẽ đảm nhận phần quản lý khóa, nhưng bạn có thể chọn quản lý khóa thông qua AWS Key Management Service. Bạn có thể sử dụng miễn phí mọi tính năng bảo mật của Amazon Redshift. Redshift Spectrum hỗ trợ Mã hóa phía máy chủ (SSE) của Amazon S3 bằng khóa mặc định của tài khoản được AWS Key Management Service (KMS) quản lý và sử dụng.

Hỏi: Redshift có hỗ trợ các phương thức kiểm soát quyền truy cập chi tiết như bảo mật cấp cột không?

Có. Phương thức kiểm soát chi tiết ở cấp cột giúp bảo đảm người dùng chỉ nhìn thấy dữ liệu mà họ có quyền truy cập. Amazon Redshift hỗ trợ phương thức kiểm soát ở cấp cột đối với các bảng cục bộ, để bạn có thể kiểm soát quyền truy cập vào các cột cụ thể trong bảng hoặc dạng xem bằng cách cấp/thu hồi đặc quyền cấp cột cho một người dùng hoặc nhóm người dùng. Redshift được tích hợp với AWS Lake Formation, điều này bảo đảm các phương thức kiểm soát quyền truy cập cấp cột của Lake Formation cũng được thực hiện cho các truy vấn Redshift trên dữ liệu trong kho dữ liệu.

Hỏi: Redshift có hỗ trợ khả năng đăng nhập một lần không?

Có. Những khách hàng muốn dùng công cụ cung cấp thông tin nhận dạng của doanh nghiệp, như Microsoft Azure Active Directory, Active Directory Federation Services, Okta, Ping Federate hay các công cụ cung cấp thông tin nhận dạng khác tuân thủ SAML, đều có thể đặt cấu hình để Amazon Redshift cung cấp khả năng đăng nhập một lần.

Hỏi: Redshift hỗ trợ khả năng đăng nhập một lần như thế nào với Microsoft Azure Active Directory?

Bạn có thể đăng nhập vào cụm Amazon Redshift bằng thông tin nhận dạng trên Microsoft Azure Active Directory (AD). Điều này cho phép bạn có được khả năng đăng nhập vào Redshift mà không cần sao chép thông tin nhận dạng Azure Active Directory trong Redshift.

Hỏi: Amazon Redshift có hỗ trợ chức năng xác thực nhiều yếu tố (MFA) không?

Có. Bạn có thể sử dụng chức năng xác thực nhiều yếu tố (MFA) để tăng mức độ bảo mật khi xác thực cho cụm Amazon Redshift.

Hỏi: Tôi có thể sử dụng Amazon Redshift trong Amazon Virtual Private Cloud (Amazon VPC) không?

Có, bạn có thể sử dụng Amazon Redshift làm một phần trong cấu hình VPC. Với Amazon VPC, bạn có thể xác định một cấu trúc mạng ảo tương đồng nhất với mạng truyền thống mà bạn có thể vận hành ở trung tâm dữ liệu của mình. Việc này cho phép bạn hoàn toàn kiểm soát việc ai có quyền truy cập vào cụm kho dữ liệu Amazon Redshift của bạn. Bạn có thể sử dụng Redshift Spectrum với cụm Amazon Redshift thuộc một phần của VPC của bạn.

Câu hỏi: Tôi có thể truy cập trực tiếp nút điện toán Amazon Redshift của tôi không?

Không. Nút điện toán Amazon Redshift nằm trên không gian mạng riêng và chỉ có thể truy cập từ nút chính của cụm kho dữ liệu của bạn. Việc này tạo thêm một lớp bảo mật cho dữ liệu của bạn.

Độ khả dụng và độ bền cao

Hỏi: Nếu ổ đĩa ở một trong các nút của tôi gặp sự cố, thì độ bền dữ liệu và tính sẵn sàng của cụm kho dữ liệu của tôi sẽ thế nào?

Amazon Redshift sẽ tự động phát hiện và thay thế nút gặp sự cố trong cụm kho dữ liệu của bạn. Cụm kho dữ liệu sẽ không sẵn sàng cho truy vấn và cập nhật đến khi nút thay thế được cung cấp và thêm vào CSDL. Amazon Redshift làm cho nút thay thế của bạn sẵn sàng ngay lập tức và ưu tiên tải dữ liệu thường xuyên truy cập nhất của bạn từ S3 trước để cho phép bạn tiếp tục truy vấn dữ liệu nhanh nhất có thể. Các cụm một nút không hỗ trợ sao chép dữ liệu. Trong trường hợp sự cố ổ đĩa, bạn cần khôi phục cụm từ bản kết xuất nhanh trên S3. Chúng tôi khuyến cáo nên sử dụng tối thiểu hai nút cho môi trường sản xuất.

Câu hỏi: Điều gì xảy ra với khả năng sẵn sàng của cụm kho dữ liệu của tôi và độ bền dữ liệu nếu một nút gặp sự cố?

Amazon Redshift sẽ tự động phát hiện và thay thế nút gặp sự cố trong cụm kho dữ liệu của bạn. Cụm kho dữ liệu sẽ không sẵn sàng cho truy vấn và cập nhật đến khi nút thay thế được cung cấp và thêm vào CSDL. Amazon Redshift làm cho nút thay thế của bạn sẵn sàng ngay lập tức và ưu tiên tải dữ liệu thường xuyên truy cập nhất của bạn từ S3 trước để cho phép bạn tiếp tục truy vấn dữ liệu nhanh nhất có thể. Các cụm một nút không hỗ trợ sao chép dữ liệu. Trong trường hợp sự cố ổ đĩa, bạn cần khôi phục cụm từ bản kết xuất nhanh trên S3. Chúng tôi khuyến cáo nên sử dụng tối thiểu hai nút cho môi trường sản xuất.

Câu hỏi: Điều gì xảy ra với khả năng sẵn sàng của cụm kho dữ liệu của tôi và độ bền dữ liệu nếu Vùng sẵn sàng (AZ) của cụm kho dữ liệu của tôi bị mất điện?

Nếu Vùng sẵn sàng của cụm kho dữ liệu Amazon Redshift của bạn không còn sẵn sàng nữa, bạn không thể sử dụng cụm cho đến khi khôi phục được nguồn điện và kết nối mạng đến Vùng sẵn sàng. Dữ liệu trên cụm kho dữ liệu của bạn được bảo vệ để bạn có thể tiến hành sử dụng kho dữ liệu Amazon Redshift ngay sau khi Vùng sẵn sàng đó sẵn sàng trở lại. Ngoài ra, bạn cũng có thể chọn khôi phục bất kỳ bản kết xuất nhanh hiện tại nào sang một Vùng sẵn sàng mới trong cùng một Khu vực. Amazon Redshift sẽ ưu tiên khôi phục dữ liệu thường xuyên truy cập nhất của bạn trước để bạn có thể tiếp tục truy vấn nhanh nhất có thể.

Câu hỏi: Amazon Redshift có hỗ trợ Triển khai Multi-AZ không?

Hiện tại, Amazon Redshift chỉ hỗ trợ triển khai Một vùng sẵn sàng. Bạn có thể chạy cụm kho dữ liệu trên nhiều Vùng sẵn sàng bằng cách tải dữ liệu lên hai cụm kho dữ liệu Amazon Redshift ở các Vùng sẵn sàng khác nhau từ cùng một nhóm tệp đầu vào của Amazon S3. Với Redshift Spectrum, bạn có thể kết hợp nhiều cụm giữa các Vùng sẵn sàng và truy cập dữ liệu trên Amazon S3 mà không phải tải dữ liệu đó lên cụm của bạn. Ngoài ra, bạn cũng có thể khôi phục cụm kho dữ liệu sang một Vùng sẵn sàng khác từ bản kết xuất nhanh của cụm kho dữ liệu của bạn.

Sao lưu và khôi phục

Hỏi: Amazon Redshift sao lưu dữ liệu của tôi như thế nào? Làm thế nào để khôi phục cụm từ bản sao lưu?

Amazon Redshift sao chép toàn bộ dữ liệu trong cụm kho dữ liệu của bạn khi dữ liệu được tải, đồng thời liên tục sao lưu dữ liệu của bạn vào Amazon S3. Amazon Redshift luôn cố gắng duy trì ít nhất ba bản sao dữ liệu của bạn (bản gốc và bản sao trên nút điện toán và bản sao lưu trên Amazon S3). Redshift cũng có thể sao chép không đồng bộ các ảnh chụp nhanh của bạn vào S3 ở một khu vực khác để khôi phục sau sự cố.

Mặc định, Amazon Redshift cho phép tự động sao lưu cụm kho dữ liệu của bạn với khoảng thời gian lưu giữ trong 1 ngày. Bạn có thể cấu hình khoảng thời gian này trong tối đa 35 ngày.

Lưu trữ sao lưu miễn phí chỉ giới hạn theo tổng dung lượng lưu trữ trên các nút của cụm kho dữ liệu và chỉ áp dụng với cụm kho dữ liệu hiện hoạt. Ví dụ: nếu bạn có tổng dung lượng lưu trữ kho dữ liệu bằng 8TB, chúng tôi sẽ cung cấp tối đa 8TB dung lượng lưu trữ sao lưu và không tính thêm phí. Nếu bạn muốn tăng thời gian lưu giữ bản sao lưu lên nhiều ngày, thì bạn có thể làm việc này bằng Bảng điều khiển quản lý AWS hoặc API Amazon Redshift. Để biết thêm thông tin về ảnh chụp nhanh tự động, vui lòng tham khảo Hướng dẫn quản lý Amazon Redshift. Amazon Redshift chỉ sao lưu dữ liệu có sự thay đổi để hầu hết các ảnh chụp nhanh chỉ chiếm một phần nhỏ dung lượng lưu trữ sao lưu khả dụng của bạn.

Khi bạn cần khôi phục bản sao lưu, bạn có thể truy cập tất cả các bản sao lưu tự động trong khoảng thời gian lưu giữ sao lưu của bạn. Sau khi bạn chọn bản sao lưu để khôi phục, chúng tôi sẽ cung cấp một cụm kho dữ liệu mới và khôi phục dữ liệu của bạn lên cụm đó.

Câu hỏi: Làm thế nào để quản lý việc lưu giữ bản sao lưu và bản kết xuất nhanh tự động của tôi?

Bạn có thể sử dụng Bảng điều khiển quản lý AWS hoặc API ModifyCluster để quản lý khoảng thời gian lưu giữ bản sao lưu tự động của bạn bằng cách điều chỉnh tham số RetentionPeriod. Nếu muốn tắt tự động sao lưu, bạn có thể thiết lập thời gian giữ lại bằng 0 (không khuyến cáo).

Câu hỏi: Điều gì xảy ra với bản sao lưu nếu tôi xóa cụm kho dữ liệu của mình?

Khi xóa cụm kho lưu trữ dữ liệu, bạn có thể chỉ định có tạo bản kết xuất nhanh cuối cùng sau khi xóa không. Thao tác này cho phép khôi phục cụm kho lưu trữ dữ liệu đã bị xóa trong tương lai. Toàn bộ các bản kết xuất nhanh thủ công tạo ra trước đó của cụm kho dữ liệu sẽ được giữ lại và tính phí theo mức phí tiêu chuẩn của Amazon S3, trừ khi bạn chọn xóa chúng.

Khả năng thay đổi quy mô

Câu hỏi: Làm thế nào để điều chỉnh kích thước và hiệu suất của cụm kho dữ liệu Amazon Redshift?

Nếu muốn tăng hiệu suất truy vấn hoặc đáp ứng mức sử dụng CPU, bộ nhớ hoặc I/O tăng cao, bạn có thể tăng số nút trên cụm kho dữ liệu bằng cách sử dụng Điều chỉnh kích thước linh hoạt thông qua Bảng điều khiển quản lý AWS hoặc API ModifyCluster. Khi bạn điều chỉnh cụm kho dữ liệu, yêu cầu thay đổi của bạn sẽ được thực thi ngay lập tức. Các chỉ số về mức sử dụng điện toán, mức sử dụng dung lượng lưu trữ và lưu lượng đọc/ghi lên cụm kho dữ liệu Amazon Redshift được cung cấp miễn phí thông qua Bảng điều khiển quản lý AWS hoặc các API Amazon CloudWatch. Bạn cũng có thể thêm các chỉ số khác do người dùng xác định thông qua tính năng chỉ số tùy chỉnh Amazon Cloudwatch.

Với tính năng Thay đổi quy mô đồng thời, bạn có thể hỗ trợ số lượng người dùng đồng thời và truy vấn đồng thời gần như không giới hạn với hiệu năng truy vấn luôn cực nhanh. Khi kích hoạt thay đổi quy mô đồng thời, Amazon Redshift tự động thêm dung lượng cụm bổ sung khi bạn cần để xử lý việc gia tăng số lượng truy vấn đọc đồng thời.

Với Redshift Spectrum, bạn có thể chạy nhiều cụm Amazon Redshift truy cập đến dữ liệu giống nhau trên Amazon S3. Bạn có thể sử dụng nhiều cụm khác nhau cho nhiều trường hợp sử dụng khác nhau. Ví dụ: bạn có thể sử dụng một cụm cho báo cáo tiêu chuẩn và một cụm khác cho truy vấn khoa học dữ liệu. Nhóm tiếp thị của bạn có thể sử dụng các cụm riêng, khác với nhóm vận hành. Redshift Spectrum tự động phân phối hoạt động thực thi truy vấn cho một vài trình xử lý Redshift Spectrum trong một nhóm tài nguyên dùng chung để đọc và xử lý dữ liệu từ Amazon S3, rồi kéo kết quả trở về cụm Amazon Redshift của bạn để tiếp tục xử lý phần còn lại.

Hỏi: Trong khi thay đổi quy mô, cụm kho dữ liệu của tôi có sẵn dùng không?

Điều này còn nhiều yếu tố phụ thuộc. Khi sử dụng tính năng Thay đổi quy mô đồng thời, bạn hoàn toàn có thể đọc và ghi trên cụm trong suốt quá trình thay đổi quy mô đồng thời. Với chức năng Thay đổi kích thước linh hoạt, cụm sẽ không sẵn dùng trong 4 đến 8 phút điều chỉnh. Với khả năng lưu trữ linh hoạt của Redshift RA3 trong bộ lưu trữ được quản lý, cụm sẽ hoàn toàn sẵn dùng, dữ liệu sẽ tự động được di chuyển giữa bộ lưu trữ được quản lý và các nút điện toán.

Tính đồng thời

Câu hỏi: Làm thế nào để quản lý các tài nguyên nhằm đảm bảo rằng cụm Redshift của tôi có thể cung cấp hiệu năng cao liên tục trong các khoảng thời gian có độ đồng thời cao?

Kho dữ liệu thông thường có sự khác biệt rất lớn về mức sử dụng truy vấn đồng thời trong suốt một ngày. Việc chỉ bổ sung tài nguyên trong khoảng thời gian cần thiết thay vì cung cấp theo nhu cầu cao nhất sẽ giúp tiết kiệm chi phí hơn. Amazon Redshift sẽ thay bạn tự động xử lý việc này.

Thay đổi quy mô đồng thời là tính năng trong Amazon Redshift, cung cấp hiệu năng truy vấn nhanh liên tục, ngay cả khi có hàng nghìn truy vấn đồng thời. Với tính năng này, khi cần, Amazon Redshift sẽ tự động bổ sung dung lượng tạm thời để xử lý số lượng yêu cầu lớn. Amazon Redshift sẽ tự động định tuyến truy vấn đến các cụm thay đổi quy mô. Những cụm này được cung cấp trong vài giây và bắt đầu xử lý truy vấn ngay lập tức.

Tính năng này được cung cấp miễn phí cho hầu hết khách hàng. Mỗi cụm Amazon Redshift nhận được tối đa một giờ tín dụng thay đổi quy mô miễn phí mỗi ngày. Lượng tín dụng này sẽ cho phép bạn dự đoán chi phí theo từng tháng, ngay cả các khoảng thời gian lượng yêu cầu phân tích không ổn định.

Câu hỏi: Điều chỉnh kích thước linh hoạt là gì và tính năng này khác với Thay đổi quy mô đồng thời như thế nào?

Tính năng Điều chỉnh kích thước linh hoạt sẽ bổ sung hoặc loại bỏ các nút khỏi một cụm Redshift đơn trong vòng vài phút để quản lý thông lượng truy vấn của cụm đó. Ví dụ: khối lượng công việc ETL cho các giờ nhất định trong ngày hoặc báo cáo cuối tháng có thể cần thêm tài nguyên Redshift để hoàn thành đúng hạn. Thay đổi quy mô đồng thời bổ sung thêm tài nguyên cụm để tăng lượng truy vấn đồng thời tổng thể.

Câu hỏi: Tôi có thể truy cập trực tiếp các cụm Thay đổi quy mô đồng thời không?

Không. Thay đổi quy mô đồng thời là nhóm tài nguyên Redshift có thể thay đổi quy mô lớn và khách hàng không có quyền truy cập trực tiếp vào đó.

Truy vấn và phân tích

Câu hỏi: Amazon Redshift và Redshift Spectrum có tương thích với gói phần mềm nghiệp vụ thông minh ưa thích và công cụ ETL của tôi không?

Amazon Redshift sử dụng SQL tiêu chuẩn công nghiệp và được truy cập bằng cách sử dụng trình điều khiển JDBC và ODBC tiêu chuẩn. Bạn có thể tải xuống trình điều khiển JDBC và ODBC tùy chỉnh theo Amazon Redshift từ tab Kết nối máy khách của Bảng điều khiển Redshift. Chúng tôi đã chứng thực các tích hợp với nhà cung cấp BI và ETL thông dụng, một số nhà cung cấp đang cho phép dùng thử miễn phí để giúp bạn bắt đầu tải và phân tích dữ liệu. Bạn cũng có thể truy cập AWS Marketplace để triển khai và cấu hình các giải pháp được thiết kế tương thích với Amazon Redshift trong vài phút.

Redshift Spectrum hỗ trợ tất cả các công cụ máy khách Amazon Redshift. Công cụ máy khách có thể tiếp tục kết nối với điểm cuối của cụm Amazon Redshift bằng kết nối ODBC hoặc JDBC. Không yêu cầu thay đổi gì.

Bạn sử dụng cú pháp truy vấn giống hệt và có các tính năng truy vấn tương tự để truy cập bảng trên Redshift Spectrum như các tính năng bạn có cho bảng trên bộ lưu trữ cục bộ của cụm Redshift. Bảng bên ngoài được tham chiếu bằng cách sử dụng tên schema xác định theo lệnh CREATE EXTERNAL SCHEMA, nơi chúng đã được đăng ký.

Hỏi: Redshift Spectrum hỗ trợ những định dạng dữ liệu và định dạng nén nào?

Redshift Spectrum hiện hỗ trợ nhiều định dạng dữ liệu nguồn mở, như: Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text và TSV.

Redshift Spectrum hiện hỗ trợ dạng nén Gzip và Snappy.

Câu hỏi: Điều gì xảy ra nếu một bảng trên bộ lưu trữ cục bộ của tôi có tên giống với bảng bên ngoài?

Giống như bảng cục bộ, bạn có thể sử dụng tên quy ước để để chọn chính xác bảng mong muốn bằng cách sử dụng schema_name.table_name trong truy vấn của bạn.

Câu hỏi: Tôi sử dụng Hive Metastore để lưu trữ siêu dữ liệu về kho dữ liệu S3. Tôi có thể sử dụng Redshift Spectrum không?

Có. Lệnh CREATE EXTERNAL SCHEMA hỗ trợ Hive Metastores. Chúng tôi hiện không hỗ trợ DDL cho Hive Metastore.

Câu hỏi: Làm thế nào để lấy danh sách toàn bộ các bảng cơ sở dữ liệu bên ngoài được tạo ra trên cụm của tôi?

Bạn có thể truy vấn bảng hệ thống SVV_EXTERNAL_TABLES để lấy thông tin đó.

Giám sát

Câu hỏi: Làm thế nào để giám sát hiệu suất của cụm kho dữ liệu Amazon Redshift?

Các chỉ số về mức sử dụng điện toán, mức sử dụng dung lượng lưu trữ và lưu lượng đọc/ghi lên cụm kho dữ liệu Amazon Redshift được cung cấp miễn phí thông qua Bảng điều khiển quản lý AWS hoặc các API Amazon CloudWatch. Bạn cũng có thể thêm các chỉ số khác do người dùng xác định thông qua tính năng chỉ số tùy chỉnh Amazon Cloudwatch. Bảng điều khiển quản lý AWS cung cấp một bảng thông tin giám sát giúp bạn giám sát tình trạng và hiệu năng ở tất cả các cụm của bạn. Amazon Redshift cũng cung cấp thông tin về hiệu suất truy vấn và cụm thông qua Bảng điều khiển quản lý AWS. Thông tin này cho phép bạn xem người dùng và truy vấn nào sử dụng nhiều tài nguyên hệ thống nhất để chẩn đoán các vấn đề về hiệu suất thông qua việc quan sát các kế hoạch truy vấn và số liệu thống kê thực hiện. Ngoài ra, bạn có thể xem mức sử dụng tài nguyên trên mỗi nút điện toán để bảo đảm bạn có dữ liệu và truy vấn được cân bằng phù hợp giữa tất cả các nút.

Bảo trì

Câu hỏi: Thế nào là một khoảng thời gian bảo trì? Câu hỏi: Cụm kho dữ liệu của tôi có sẵn sàng trong quá trình bảo trì phần mềm không?

Amazon Redshift định kỳ thực hiện bảo trì để áp dụng các bản sửa lỗi, tăng cường và tính năng mới cho cụm của bạn. Bạn có thể thay đổi khoảng thời gian bảo trì định kỳ này bằng cách điều chỉnh cụm, tự động theo lập trình hoặc sử dụng Bảng điều khiển Redshift. Trong khoảng thời gian bảo trì này, cụm Amazon Redshift của bạn không còn sẵn sàng để phục vụ các thao tác thông thường nữa. Để biết thêm thông tin về khoảng thời gian bảo trì và lịch theo khu vực, xem Khoảng thời gian bảo trì trong Hướng dẫn quản lý Amazon Redshift.

Tìm hiểu thêm về giá của Amazon Redshift

Truy cập trang giá
Bạn đã sẵn sàng xây dựng chưa?
Bắt đầu với Amazon Redshift
Bạn có thêm thắc mắc?
Hãy liên hệ với chúng tôi