Thông tin chung

Câu hỏi: Amazon Redshift là gì?

Amazon Redshift là kho dữ liệu nhanh, được quản lý đầy đủ giúp bạn phân tích hàng petabyte dữ liệu một cách đơn giản và hiệu quả về mặt chi phí bằng cách sử dụng SQL tiêu chuẩn và các công cụ Nghiệp vụ thông minh (BI) hiện tại của mình. Dịch vụ này cho phép bạn chạy các truy vấn phân tích phức tạp trên hàng petabyte dữ liệu có cấu trúc, bằng cách sử dụng khả năng tối ưu hóa truy vấn tinh vi, lưu kho lưu trữ dạng cột trên các ổ đĩa cục bộ hiệu năng cao và thực thi truy vấn song song quy mô lớn. Hầu hết kết quả sẽ được trả về chỉ trong vài giây. Với Redshift, bạn có thể bắt đầu ở quy mô nhỏ với chỉ 0,25 USD mỗi giờ và không phải cam kết cũng như được hỗ trợ tăng quy mô lên đến hàng petabyte dữ liệu với giá 1.000 USD mỗi terabyte mỗi năm, bằng chưa đến một phần mười mức chi phí của các giải pháp truyền thống. Amazon Redshift còn có Amazon Redshift Spectrum, cho phép bạn chạy trực tiếp các truy vấn SQL trên hàng exabyte dữ liệu không có cấu trúc trên Amazon S3. Dịch vụ này không yêu cầu tải hay chuyển đổi, hơn nữa, bạn có thể sử dụng nhiều định dạng dữ liệu mở, trong đó có Avro, CSV, Grok, Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, SequenceFile, TextFile và TSV. Redshift Spectrum tự động thay đổi quy mô dung lượng điện toán truy vấn dựa trên dữ liệu đang được truy xuất, do đó, các truy vấn trên Amazon S3 có tốc độ chạy nhanh, bất kể kích cỡ bộ dữ liệu.

Kho dữ liệu truyền thống yêu cầu khá nhiều thời gian và tài nguyên để quản trị, đặc biệt đối với các bộ dữ liệu lớn. Ngoài ra, chi phí tài chính liên quan đến xây dựng, duy trì và phát triển kho dữ liệu tự quản lý, tại chỗ rất lớn. Khi dữ liệu của bạn tăng lên, bạn phải liên tục đánh đổi việc sẽ đưa dữ liệu nào lên kho dữ liệu và lưu trữ dữ liệu nào trên bộ lưu trữ để có thể quản lý chi phí, duy trì độ phức tạp ETL ở mức thấp cũng như đem lại hiệu suất cao. Amazon Redshift không chỉ giúp giảm đáng kể phí tổn và chi phí vận hành của kho dữ liệu mà với Redshift Spectrum, còn giúp dễ dàng phân tích khối lượng lớn dữ liệu ở định dạng gốc trong đó không yêu cầu bạn phải tải dữ liệu.

Amazon Redshift đem đến cho bạn các tính năng truy vấn tốc độ cao so với dữ liệu có cấu trúc bằng cách sử dụng máy khách dựa trên SQL tương tự và công cụ nghiệp vụ thông minh (BI) bằng những kết nối ODBC và JDBC tiêu chuẩn. Các truy vấn được phân phối và triển khai song song trên nhiều tài nguyên vật lý khác nhau. Bạn có thể dễ dàng tăng hoặc giảm quy mô kho dữ liệu Amazon Redshift chỉ bằng vài cú nhấp chuột trên Bảng điều khiển quản lý hoặc bằng một lệnh gọi API. Amazon Redshift tự động vá lỗi và sao lưu kho dữ liệu của bạn, lưu trữ bản sao lưu trong khoảng thời gian lưu giữ do người dùng xác định. Amazon Redshift sử dụng tính năng sao chép và bản sao lưu liên tục để tăng cường độ sẵn sàng cũng như cải thiện độ bền dữ liệu, đồng thời có thể tự động khôi phục sau sự cố thành phần và nút. Ngoài ra, Amazon Redshift còn hỗ trợ mã hóa Amazon Virtual Private Cloud (Amazon VPC), SSL, AES-256 và các Mô-đun bảo mật phần cứng (HSM) để bảo vệ dữ liệu đang trong quá trình truyền và lưu trữ của bạn.

Cũng như tất cả các Amazon Web Services, bạn không cần phải đầu tư ban đầu và chỉ phải trả tiền cho tài nguyên bạn sử dụng. Amazon Redshift cho phép bạn trả phí theo nhu cầu sử dụng. Bạn thậm chí có thể dùng thử Amazon Redshift miễn phí.

Để biết thêm thông tin về độ sẵn sàng theo khu vực của Amazon Redshift, xem Bảng khu vực AWS.

Câu hỏi: Redshift Spectrum là gì?

Redshift Spectrum là một tính năng của Amazon Redshift cho phép bạn chạy các truy vấn đối với hàng exabyte dữ liệu không có cấu trúc trên Amazon S3 mà không yêu cầu tải hoặc ETL. Khi bạn phát hành một truy vấn, truy vấn đó chuyển tới điểm cuối Amazon Redshift SQL để tạo và tối ưu hóa một kế hoạch truy vấn. Amazon Redshift xác định đâu là dữ liệu cục bộ và trên Amazon S3 có những gì, tạo một kế hoạch để giảm thiểu lượng dữ liệu trên Amazon S3 cần được đọc, yêu cầu các công nhân Redshift Spectrum (một đối tượng JavaScript) ngoài phạm vi của một nhóm tài nguyên chia sẻ đọc và xử lý dữ liệu từ Amazon S3.

Redshift Spectrum mở rộng lên tới hàng nghìn phiên bản nếu cần, do đó các truy vấn chạy rất nhanh bất kể kích thước dữ liệu. Đồng thời, bạn có thể sử dụng cùng một SQL cho dữ liệu Amazon S3 như khi bạn dùng cho các truy vấn Amazon Redshift hôm nay và kết nối với cùng một điểm cuối Amazon Redshift bằng cùng các công cụ BI. Redshift Spectrum cho phép bạn tách dung lượng lưu trữ rồi tính toán, qua đó cho phép bạn mở rộng từng dung lượng lưu trữ một cách độc lập. Bạn có thể thiết lập số lượng cụm Amazon Redshift bạn cần để truy vấn kho dữ liệu trên Amazon S3 của bạn, mang lại độ khả dụng cao và không giới hạn việc tồn tại đồng thời. Redshift Spectrum giúp bạn tự do lưu trữ dữ liệu của bạn ở nơi bạn muốn, theo định dạng bạn muốn và sẵn có để xử lý khi bạn cần.

Để biết thông tin về độ sẵn sàng theo khu vực của Redshift Spectrum, vui lòng truy cập trang giá của Amazon Redshift.

Câu hỏi: Amazon Redshift thay mặt tôi quản lý những gì?

Amazon Redshift quản lý công việc cần thiết để thiết lập, vận hành và thay đổi quy mô kho dữ liệu, từ cung cấp công suất cơ sở hạ tầng cho đến tự động hóa các tác vụ quản trị đang diễn ra chẳng hạn như sao lưu và vá lỗi. Amazon Redshift tự động giám sát nút và ổ đĩa của bạn để giúp bạn khôi phục sau sự cố. Đối với Redshift Spectrum, Amazon Redshift quản lý toàn bộ cơ sở hạ tầng điện toán, cân bằng tải, hoạch định, đặt lịch và thực thi truy vấn của bạn đối với dữ liệu được lưu trữ trên Amazon S3.

Câu hỏi: Hiệu suất của Amazon Redshift so với hầu hết các cơ sở dữ liệu truyền thống khác về khía cạnh kho dữ liệu và phân tích như thế nào?

Amazon Redshift sử dụng nhiều cải tiến để đạt hiệu suất cao hơn gấp mười lần so với cơ sở dữ liệu truyền thống cho khối lượng công việc kho dữ liệu và phân tích:

  • Lưu trữ dữ liệu dạng cột: Thay vì lưu trữ dữ liệu ở dạng hàng, Amazon Redshift tổ chức dữ liệu ở dạng cột. Khác với các hệ thống tổ chức theo hàng vốn lý tưởng dùng để xử lý giao dịch, hệ thống tổ chức theo cột lý tưởng dùng cho kho dữ liệu và phân tích, trong đó các truy vấn thường gồm các kết tập được thực hiện trên các bộ dữ liệu lớn. Do chỉ có cột liên quan đến các truy vấn được xử lý và dữ liệu dạng cột được lưu trữ tuần tự trên phương tiện lưu trữ, hệ thống tổ chức theo cột yêu cầu ít thao tác I/O hơn nhiều, giúp cải thiện đáng kể hiệu suất truy vấn.
  • Nén nâng cao: Có thể nén kho dữ liệu dạng cột tốt hơn nhiều so với kho dữ liệu tổ chức theo dạng hàng vì dữ liệu giống nhau được lưu trữ tuần tự trên ổ đĩa. Amazon Redshift sử dụng nhiều kỹ thuật nén khác nhau và thường đạt được hiệu quả nén khá tốt so với kho dữ liệu quan hệ truyền thống. Ngoài ra, Amazon Redshift không yêu cầu chỉ mục hoặc chế độ xem cụ thể hóa nên sử dụng ít dung lượng lưu trữ hơn so với các hệ thống cơ sở dữ liệu quan hệ truyền thống. Khi tải dữ liệu lên một bảng trống, Amazon Redshift tự động lấy mẫu dữ liệu của bạn và chọn cơ chế nén phù hợp nhất.
  • Xử lý song song hàng loạt (MPP): Amazon Redshift tự động phân phối dữ liệu và khối lượng truy vấn giữa tất cả các nút. Amazon Redshift giúp dễ dàng thêm nút vào kho dữ liệu và cho phép bạn duy trì hiệu suất truy vấn tốc độ cao khi kho dữ liệu của bạn tăng lên.
  • Redshift Spectrum: Redshift Spectrum cho phép bạn chạy các truy vấn trên hàng exabyte dữ liệu trên Amazon S3. Không yêu cầu tải hoặc ETL. Kể cả khi bạn không lưu trữ bất kỳ dữ liệu nào trên Amazon Redshift, bạn vẫn có thể sử dụng Redshift Spectrum để truy vấn các bộ dữ liệu kích thước hàng exabyte trên Amazon S3. Khi bạn phát hành một truy vấn, truy vấn đó chuyển tới điểm cuối Amazon Redshift SQL để tạo một kế hoạch truy vấn. Amazon Redshift xác định đâu là dữ liệu cục bộ và trên Amazon S3 có những gì, tạo một kế hoạch để giảm thiểu khối lượng dữ liệu trên Amazon S3 cần được đọc, yêu cầu trình xử lý Amazon Redshift Spectrum ngoài phạm vi của một nhóm tài nguyên chia sẻ đọc và xử lý dữ liệu từ Amazon S3 rồi kéo dữ liệu về lại cụm Amazon Redshift của bạn cho bất kỳ tác vụ xử lý nào còn lại.

Câu hỏi: Làm thế nào để bắt đầu với Amazon Redshift?

Bạn có thể đăng ký và bắt đầu trong vài phút từ trang chi tiết về Amazon Redshift hoặc thông qua Bảng điều khiển quản lý AWS. Nếu chưa có tài khoản AWS, bạn sẽ được nhắc tạo một tài khoản.

Để sử dụng Redshift Spectrum, trước tiên bạn cần lưu trữ dữ liệu trên Amazon S3. Sau đó bạn có thể định nghĩa siêu dữ liệu về dữ liệu đó trên cụm Amazon Redshift hoặc đăng ký siêu dữ liệu mà bạn có thể có trên Hive Metastore với cụm của bạn. Bạn có thể phát hành lệnh CREATE EXTERNAL SCHEMA SQL trên cụm Amazon Redshift để xác định hoặc đăng ký một cơ sở dữ liệu trên danh mục của bạn dưới dạng một schema bên ngoài trên Amazon Redshift. Sau đó bạn có thể phát hành các truy vấn đối với Amazon S3 bằng cách sử dụng cùng một SQL bạn sử dụng cho bảng cục bộ và bất kỳ công cụ BI nào có khả năng hỗ trợ Amazon Redshift ngày nay. Định nghĩa cơ sở dữ liệu bên ngoài do bạn tạo ra bằng Amazon Redshift SQL được đăng ký trên cùng một danh mục dữ liệu mà Amazon Athena sử dụng. Bạn cũng có thể chọn quản lý định nghĩa cơ sở dữ liệu bên ngoài từ Danh mục Amazon Athena.

Truy cập trang Bắt đầu của chúng tôi để biết cách dùng thử Amazon Redshift miễn phí.

Câu hỏi: Làm thế nào để tạo và truy cập một cụm kho dữ liệu Amazon Redshift?

Bạn có thể dễ dàng tạo một cụm kho dữ liệu Amazon Redshift bằng Bảng điều khiển quản lý AWS hoặc API Amazon Redshift. Bạn có thể bắt đầu với kho dữ liệu 160GB nút đơn và tăng quy mô lên petabyte hoặc lớn hơn bằng vài cú nhấp chuột trên Bảng điều khiển AWS hoặc lệnh gọi API.

Cấu hình nút đơn cho phép bạn bắt đầu với Amazon Redshift một cách nhanh chóng và có mức chi phí hợp lý, đồng thời tăng quy mô lên cấu hình nhiều nút khi nhu cầu tăng thêm. Cụm kho dữ liệu Redshift có thể chứa từ 1-128 nút điện toán, tùy thuộc vào loại nút sử dụng. Để biết chi tiết, vui lòng xem tài liệu của chúng tôi.

Cấu hình nhiều nút yêu cầu phải có một nút chính để quản lý kết nối máy khách và nhận truy vấn và hai nút điện toán để lưu trữ dữ liệu cũng như thực hiện các truy vấn và phép điện toán. Nút chính được tự động cung cấp cho bạn và bạn không phải trả phí.

Chỉ cần xác định Vùng sẵn sàng (tùy chọn) mong muốn, số lượng nút, loại nút, tên và mật khẩu chính, nhóm bảo mật, thiết lập lưu giữ bản sao lưu mong muốn và các thiết lập hệ thống khác. Sau khi bạn đã chọn cấu hình mong muốn, Amazon Redshift sẽ cung cấp các tài nguyên cần thiết và thiết lập cụm kho dữ liệu của bạn.

Sau khi cụm kho dữ liệu của bạn đã sẵn sàng, bạn có thể truy xuất điểm cuối của nó và chuỗi kết nối JDBC và ODBC từ Bảng điều khiển quản lý AWS hoặc bằng cách sử dụng API Redshift. Sau đó bạn có thể sử dụng chuỗi kết nối này với công cụ cơ sở dữ liệu yêu thích, ngôn ngữ lập trình hoặc công cụ Nghiệp vụ thông minh (BI). Bạn cần ủy quyền các truy vấn mạng cho cụm kho dữ liệu đang chạy của bạn. Để biết phần giải thích chi tiết, vui lòng tham khảo Hướng dẫn bắt đầu của chúng tôi.

Câu hỏi: Nút chính làm những gì? Nút điện toán làm những gì?

Nút chính nhận truy vấn từ ứng dụng khách, phân tích cú pháp truy vấn và xây dựng kế hoạch thực thi, đây chính là tuần tự các bước để xử lý những truy vấn này. Sau đó nút chính điều phối quá trình thực thi song song các kế hoạch này với các nút điện toán, tập hợp kết quả trung gian từ các nút này và cuối cùng trả lại kết quả cho ứng dụng khách.

Nút điện toán thực thi các bước xác định trong kế hoạch thực thi và truyền dữ liệu giữa chính các nút này để phục vụ các truy vấn. Kết quả trung gian được gửi trở lại nút chính để tập hợp trước khi được gửi trở lại ứng dụng khách.

Câu hỏi: Công suất lưu trữ tối đa trên mỗi nút điện toán bằng bao nhiêu? Khối lượng dữ liệu khuyến cáo trên mỗi nút điện toán bằng bao nhiêu để đạt hiệu suất tối ưu?

Bạn có thể tạo một cụm bằng cách sử dụng loại nút Lưu trữ mật độ cao (DS) hoặc loại nút Điện toán mật độ cao (DC). Loại nút Lưu trữ mật độ cao cho phép bạn tạo các kho dữ liệu rất lớn bằng cách sử dụng ổ đĩa cứng (HDD) với điểm giá rất thấp. Loại nút Điện toán mật độ cao cho phép bạn tạo các kho dữ liệu có hiệu năng rất cao bằng cách sử dụng các CPU tốc độ cao, số lượng lớn RAM và ổ đĩa thể rắn (SDD).

Loại nút Lưu trữ mật độ cao (DS) được cung cấp có hai kích thước, Extra Large và Eight Extra Large. Extra Large (XL) có 3 HDD với tổng dung lượng lưu trữ đĩa từ 2TB, còn Eight Extra Large (8XL) có 24 HDD với tổng dung lượng lưu trữ đĩa từ 16TB. DS2.8XLarge có 36 nhân xử lý ảo Intel Xeon E5-2676 v3 (Haswell) và 244GiB RAM, còn DS2.XL có 4 nhân xử lý ảo Intel Xeon E5-2676 v3 (Haswell) và 31GiB RAM. Vui lòng xem trang giá của chúng tôi để biết thêm chi tiết. Bạn có thể bắt đầu với một nút Extra Large, kho dữ liệu 2TB ở mức phí 0,85 USD mỗi giờ và tăng quy mô lên một petabyte hoặc lớn hơn. Bạn có thể trả phí theo giờ hoặc sử dụng giá phiên bản dự trữ để hạ mức giá xuống dưới 1.000 USD mỗi TB mỗi năm.

Loại nút Điện toán mật độ cao (DC) cũng được cung cấp có hai kích thước. Rộng có 160GB dung lượng lưu trữ SSD, 2 nhân xử lý ảo Intel Xeon E5-2670v2 (Ivy Bridge) và 15GiB RAM. Eight Extra Large lớn hơn gấp mười sáu lần với 2,56TB dung lượng lưu trữ SSD, 32 nhân xử lý ảo Intel Xeon E5-2670v2 và 244GiB RAM. Bạn có thể bắt đầu với một nút DC2.Large ở mức giá 0,25 USD mỗi giờ và tăng quy mô lên 128 nút 8XL với 326TB dung lượng lưu trữ SSD, 3.200 nhân xử lý ảo và 24TiB RAM.

Kiến trúc MPP của Amazon Redshift đồng nghĩa với việc bạn có thể tăng hiệu suất bằng cách tăng số lượng nút trên cụm kho dữ liệu của bạn. Khối lượng dữ liệu tối ưu trên mỗi nút điện toán phụ thuộc vào đặc điểm ứng dụng và nhu cầu hiệu suất truy vấn của bạn. Cụm kho dữ liệu Amazon Redshift có thể chứa từ 1-128 nút điện toán, tùy thuộc vào loại nút sử dụng. Để biết chi tiết, vui lòng xem tài liệu của chúng tôi.

Câu hỏi: Khi nào tôi nên sử dụng Amazon Redshift hay Amazon RDS?

Cả Amazon Redshift và Amazon RDS đều cho phép bạn chạy cơ sở dữ liệu quan hệ truyền thống trên đám mây trong khi loại bỏ được gánh nặng quản trị cơ sở dữ liệu. Khách hàng sử dụng cơ sở dữ liệu Amazon RDS cho cả xử lý giao dịch trực tuyến (OLTP) và cho báo cáo cũng như phân tích. Amazon Redshift khai thác quy mô và tài nguyên của nhiều nút khác nhau, đồng thời sử dụng nhiều tối ưu hóa để cải thiện thứ tự độ lớn so với cơ sở dữ liệu truyền thống cho khối lượng công việc phân tích và báo cáo so với các bộ dữ liệu rất lớn. Amazon Redshift đem đến tùy chọn tăng quy mô tuyệt vời khi độ phức tạp của dữ liệu và truy vấn của bạn tăng thêm hoặc khi bạn muốn tránh không để quá trình xử lý báo cáo và phân tích can thiệp đến hiệu suất của khối lượng công việc OLTP.

Câu hỏi: Khi nào tôi nên sử dụng Amazon Redshift hay Redshift Spectrum hay Amazon EMR?

Bạn nên sử dụng Amazon EMR khi bạn sử dụng mã tùy chỉnh để xử lý và phân tích các bộ dữ liệu cực kỳ lớn bằng các framework xử lý dữ liệu lớn như Apache Spark, Hadoop, Presto hay Hbase. Amazon EMR giúp bạn kiểm soát hoàn toàn cấu hình cụm và phần mềm bạn cài trên các cụm đó.

Những kho dữ liệu như Amazon Redshift được thiết kế để dùng cho nhiều loại phân tích khác nhau. Kho dữ liệu được thiết kế để kéo dữ liệu từ nhiều nguồn khác nhau như các hệ thống kho, tài chính và bán lẻ. Để đảm bảo báo cáo có độ chính xác ổn định trong toàn công ty, kho dữ liệu lưu trữ dữ liệu theo cấu trúc được tổ chức khoa học. Cấu trúc này tích hợp các quy tắc đồng bộ dữ liệu trực tiếp lên các bảng của cơ sở dữ liệu. Amazon Redshift là dịch vụ tốt nhất để sử dụng khi bạn cần thực hiện các truy vấn phức tạp đối với các bộ dữ liệu có cấu trúc rất lớn và đạt được hiệu năng siêu nhanh.

Mặc dù Redshift Spectrum là dịch vụ tuyệt vời để chạy các truy vấn dữ liệu trên Amazon Redshift và S3, nó thực sự không phù hợp dùng cho những loại trường hợp sử dụng mà doanh nghiệp thường yêu cầu framework xử lý phải có chẳng hạn như Amazon EMR. Amazon EMR làm được rất nhiều việc khác ngoài việc chạy truy vấn SQL. Amazon EMR là dịch vụ có quản lý, cho phép bạn xử lý và phân tích các bộ dữ liệu cực kỳ lớn bằng cách sử dụng phiên bản framework xử lý dữ liệu lớn thông dụng mới nhất, chẳng hạn như Spark, Hadoop và Presto, trên các cụm có khả năng tùy chỉnh toàn phần. Với Amazon EMR, bạn có thể chạy nhiều tác vụ xử lý dữ liệu tăng quy mô cho các ứng dụng như machine learning, phân tích đồ thị, chuyển đổi dữ liệu, luồng dữ liệu và gần như bất kể thứ gì bạn có thể viết mã.

Bạn có thể sử dụng Redshift Spectrum cùng với EMR. Redshift Spectrum áp dụng phương thức giống với Amazon EMR để các lưu trữ định nghĩa bảng. Redshift Spectrum có thể hỗ trợ Apache Hive Metastore giống với loại mà Amazon EMR dùng để xác định vị trí dữ liệu và các định nghĩa bảng. Nếu đang sử dụng Amazon EMR và đã có sẵn Hive Metastore, bạn chỉ cần cấu hình cụm Amazon Redshift để sử dụng tính năng này. Khi đó bạn có thể bắt đầu truy vấn dữ liệu đó ngay lập tức cùng các tác vụ Amazon EMR của bạn. Do đó, nếu đang sử dụng EMR để xử lý kho dữ liệu lớn, bạn có thể sử dụng Redshift Spectrum để truy vấn dữ liệu đó ngay lập tức và đồng thời mà không phải can thiệp đến các tác vụ Amazon EMR của bạn.

Dịch vụ truy vấn, kho dữ liệu và framework xử lý dữ liệu phức tạp đều có vai trò riêng và được sử dụng vào những việc khác nhau. Bạn chỉ cần chọn đúng công cụ cho tác vụ.

 

Câu hỏi: Khi nào tôi nên sử dụng Amazon Athena hay Redshift Spectrum?

Amazon Athena là cách đơn giản nhất để cho phép bất kỳ nhân viên nào có khả năng chạy các truy vấn ngẫu nhiên đối với dữ liệu trên Amazon S3. Athena không cần sử dụng máy chủ do đó không cần cơ sở hạ tầng để thiết lập hay quản lý và bạn có thể bắt đầu phân tích dữ liệu ngay.

Nếu bạn có dữ liệu thường xuyên truy cập cần được lưu trữ ở định dạng ổn định, có cấu trúc được tổ chức khoa học, bạn cần sử dụng kho dữ liệu như Amazon Redshift chẳng hạn. Việc này đem đến cho bạn sự linh hoạt để lưu trữ dữ liệu có cấu trúc, thường xuyên truy cập trên Amazon Redshift, đồng thời sử dụng Redshift Spectrum để mở rộng truy vấn Amazon Redshift của mình sang toàn bộ dữ liệu trên kho dữ liệu Amazon S3. Việc này giúp bạn tự do lưu trữ dữ liệu ở nơi bạn muốn, theo định dạng bạn muốn và sẵn có để xử lý khi bạn cần.

Câu hỏi: Tại sao tôi nên sử dụng Amazon Redshift thay vì chạy cụm kho dữ liệu MPP của chính tôi trên Amazon EC2?

Amazon Redshift tự động xử lý nhiều tác vụ tiêu tốn nhiều thời gian có liên quan đến quản lý kho dữ liệu của bạn, bao gồm:

  • Thiết lập: Với Amazon Redshift, bạn chỉ cần tạo cụm kho dữ liệu, xác lập schema rồi tiến hành tải và truy vấn dữ liệu. Cung cấp, cấu hình và vá lỗi, tất cả đều được quản lý thay bạn.
  • Độ bền dữ liệu: Amazon Redshift nhân bản dữ liệu trên cụm kho dữ liệu của bạn và liên tục sao lưu dữ liệu lên Amazon S3, dịch vụ được thiết kế có độ bền bằng mười một chữ số chín (99,999999999%). Amazon Redshift ánh xạ dữ liệu của từng ổ đĩa sang các nút khác nằm trên cụm của bạn. Nếu ổ đĩa gặp sự cố, truy vấn của bạn sẽ tiếp tục và có độ trễ tăng thêm chút trong khi Redshift tái dựng ổ đĩa của bạn từ bản sao. Trường hợp xảy ra (các) sự cố nút, Amazon Redshift tự động cung cấp (các) nút mới và tiến hành khôi phục dữ liệu từ các ổ đĩa khác nằm trên cụm hoặc từ Amazon S3. Amazon Redshift ưu tiên khôi phục dữ liệu thường xuyên truy vấn nhất để có thể nhanh chóng thực hiện các truy vấn thường xuyên được thực thi nhất của bạn.
  • Thay đổi quy mô: Bạn có thể thêm hoặc xóa nút khỏi cụm kho dữ liệu Amazon Redshift bằng một lệnh gọi API hoặc bằng vài cú nhấp chuột trên Bảng điều khiển quản lý AWS khi nhu cầu về công suất và hiệu suất của bạn thay đổi.
  • Tự động cập nhật và vá lỗi: Amazon Redshift tự động áp dụng bản nâng cấp và vá lỗi cho kho dữ liệu để bạn có thể tập trung vào ứng dụng thay vì công việc quản trị ứng dụng.
  • Tính năng truy vấn quy mô exabyte: Redshift Spectrum cho phép bạn chạy các truy vấn đối với hàng exabyte dữ liệu trên Amazon S3. Không yêu cầu tải hoặc ETL. Kể cả khi bạn không lưu trữ bất kỳ dữ liệu nào trên Amazon Redshift, bạn vẫn có thể sử dụng Redshift Spectrum để truy vấn các bộ dữ liệu kích thước hàng exabyte trên Amazon S3.

Tính phí

Câu hỏi: Tôi sẽ bị tính phí như thế nào khi sử dụng Amazon Redshift?

Bạn chỉ phải trả tiền cho những gì bạn sử dụng và không áp dụng mức phí tối thiểu hay phí thiết lập. Cụm kho dữ liệu bắt đầu bị tính phí ngay khi sẵn sàng để sử dụng. Tiếp tục tính phí đến khi cụm kho dữ liệu kết thúc, việc này xảy ra sau khi xóa hoặc trong trường hợp phiên bản gặp sự cố. Bạn được tính tiền dựa trên:

  • Số giờ sử dụng nút điện toán: Số giờ sử dụng nút điện toán là tổng số giờ bạn chạy trên các nút điện toán trong kỳ tính phí. Số giờ sử dụng nút được tính phí đối với mỗi giờ cụm kho dữ liệu của bạn chạy ở chế độ sẵn sàng để sử dụng. Nếu không muốn bị tính phí đối với cụm kho dữ liệu nữa, bạn phải dừng hoặc xóa cụm để tránh bị tính phí đối với số giờ sử dụng nút phát sinh. Số giờ sử dụng nút không tròn một giờ sẽ được tính tròn là một giờ. Bạn bị tính phí đối với 1 đơn vị mỗi nút mỗi giờ nên cụm kho dữ liệu 3 nút chạy ổn định trong cả một tháng sẽ phát sinh 2.160 giờ sử dụng phiên bản. Bạn sẽ không bị tính phí đối với số giờ sử dụng nút chính; chỉ nút điện toán mới phát sinh phí.
  • Dung lượng lưu trữ bản sao lưu: Dung lượng lưu trữ bản sao lưu là dung lượng gắn liền với bản kết xuất nhanh tự động hóa và thủ công cho kho dữ liệu của bạn. Tăng thời gian giữ lại bản sao lưu hoặc thực hiện bản kết xuất nhanh sẽ tăng dung lượng lưu trữ sao lưu mà kho dữ liệu của bạn sử dụng. Bạn sẽ không phải trả thêm phụ phí cho dung lượng lưu trữ bản sao lưu đến 100% tổng dung lượng dự trữ cho cụm kho dữ liệu hiện hoạt. Ví dụ: nếu bạn có một cụm kho dữ liệu XL Một nút hiện hoạt với 2TB dung lượng lưu trữ phiên bản cục bộ, chúng tôi sẽ cung cấp tối đa 2TB-tháng dung lượng lưu trữ sao lưu mà không tính thêm phí. Dung lượng lưu trữ bản sao lưu vượt kích cỡ dung lượng lưu trữ được cung cấp và các bản sao lưu được lưu trữ sau khi cụm của bạn dừng hoạt động sẽ bị tính theo mức giá tiêu chuẩn của Amazon S3.
  • Truyền dữ liệu: Chúng tôi không tính phí truyền dữ liệu đến hoặc từ Amazon Redshift và Amazon S3 nằm trong cùng một Khu vực AWS. Đối với toàn bộ tác vụ truyền dữ liệu khác vào và ra khỏi Amazon Redshift, bạn sẽ được tính phí theo mức giá truyền dữ liệu tiêu chuẩn của AWS.
  • Quét dữ liệu: Với Redshift Spectrum, bạn bị tính phí đối với lượng dữ liệu Amazon S3 được quét để thực thi truy vấn của bạn. Chúng tôi không tính phí đối với Redshift Spectrum khi bạn không chạy truy vấn. Nếu bạn lưu trữ dữ liệu theo định dạng cột, ví dụ như Parquet hay ORC, phí bạn phải trả sẽ giảm do Redshift Spectrum chỉ quét những cột cần dùng cho truy vấn thay vì xử lý toàn bộ các hàng. Tương tự, nếu bạn nén dữ liệu bằng một trong các định dạng được hỗ trợ của Redshift Spectrum, phí bạn phải trả sẽ giảm. Bạn trả phí theo mức phí tiêu chuẩn của Amazon S3 đối với dung lượng lưu trữ và mức phí phiên bản của Amazon Redshift đối với cụm được sử dụng.

Trừ khi có ghi chú khác, các mức giá của chúng tôi chưa bao gồm các loại thuế hiện hành, bao gồm cả thuế GTGT và thuế doanh thu hiện hành. Đối với khách hàng có địa chỉ ghi hóa đơn ở Nhật Bản, việc sử dụng dịch vụ AWS sẽ tuân thủ Thuế tiêu thụ của Nhật Bản. Tìm hiểu thêm.

Để biết thông tin về giá của Amazon Redshift, vui lòng truy cập trang giá của Amazon Redshift.

Tích hợp và tải dữ liệu

Câu hỏi: Làm thế nào để tải dữ liệu lên kho dữ liệu Amazon Redshift của tôi?

Bạn có thể tải dữ liệu lên Amazon Redshift từ nhiều nguồn dữ liệu khác nhau như Amazon S3, Amazon DynamoDB, Amazon EMR, AWS Glue, AWS Data Pipeline và/hoặc bất kỳ máy chủ có hỗ trợ SSH trên Amazon EC2 hoặc tại chỗ. Amazon Redshift nỗ lực tải dữ liệu song song với mỗi nút điện toán nhằm tối đa hóa tốc độ tích hợp dữ liệu của bạn lên cụm kho dữ liệu. Để biết thêm chi tiết về tải dữ liệu lên Amazon Redshift, vui lòng xem Hướng dẫn bắt đầu của chúng tôi.

Có, khách hàng có thể kết nối với Amazon Redshift bằng ODBC hoặc JDBC rồi phát hành lệnh 'chèn' SQL để chèn dữ liệu. Xin lưu ý quá trình này chậm hơn so với khi sử dụng S3 hoặc DynamoDB vì các phương pháp này tải dữ liệu song song với từng nút điện toán trong khi lệnh chèn SQL tải qua một nút chính.

Câu hỏi: Làm thế nào để tải dữ liệu từ các nguồn dữ liệu Amazon RDS, Amazon EMR, Amazon DynamoDB và Amazon EC2 hiện tại lên Amazon Redshift?

Bạn có thể sử dụng lệnh COPY để tải dữ liệu trực tiếp và song song lên Amazon Redshift từ Amazon EMR, Amazon DynamoDB hoặc bất kỳ máy chủ có hỗ trợ SSH nào. Redshift Spectrum cũng cho phép bạn tải dữ liệu từ Amazon S3 lên cụm bằng một lệnh INSERT INTO đơn giản. Việc này cho phép bạn tải dữ liệu từ nhiều định dạng khác nhau chẳng hạn như Parquet và RC lên cụm của bạn. Lưu ý rằng nếu áp dụng phương thức này, bạn sẽ phát sinh lũy kế phí Redshift Spectrum đối với dữ liệu được quét từ Amazon S3.

Ngoài ra, nhiều công ty ETL đã chứng thực Amazon Redshift để sử dụng kết hợp với công cụ của họ và một số công ty đang cho phép dùng thử miễn phí để giúp bạn bắt đầu tải dữ liệu. AWS Data Pipeline đem đến giải pháp hiệu suất cao, tin cậy và có khả năng chịu lỗi để tải dữ liệu từ nhiều nguồn dữ liệu AWS khác nhau. Bạn có thể sử dụng AWS Data Pipeline để xác định nguồn dữ liệu, chuyển đổi dữ liệu mong muốn rồi thực thi một đoạn mã nhập được soạn sẵn để tải dữ liệu của bạn lên Amazon Redshift. Đồng thời, AWS Glue là dịch vụ trích xuất, chuyển đổi và tải (ETL) được quản lý toàn phần, giúp dễ dàng chuẩn bị và tải dữ liệu cho phân tích. Bạn có thể tạo và chạy một tác vụ AWS Glue ETL bằng vài cú nhấp chuột trên Bảng điều khiển quản lý AWS.

Câu hỏi: Tôi có nhiều dữ liệu để tải lần đầu lên Amazon Redshift. Truyền qua Internet sẽ mất nhiều thời gian. Làm thế nào để tải dữ liệu này?

Bạn có thể sử dụng AWS Import/Export để truyền dữ liệu lên Amazon S3 bằng các thiết bị lưu trữ di động. Ngoài ra, bạn có thể sử dụng AWS Direct Connect để thiết lập kết nối mạng riêng giữa mạng hoặc trung tâm dữ liệu của bạn và AWS. Bạn có thể chọn cổng kết nối 1Gbit/giây hoặc 10Gbit/giây để truyền dữ liệu.

Bảo mật

Câu hỏi: Amazon Redshift bảo mật dữ liệu của tôi như thế nào?

Amazon Redshift mã hóa và lưu giữ dữ liệu đang trong quá trình truyền và lưu trữ của bạn bằng cách sử dụng kỹ thuật mã hóa tiêu chuẩn công nghiệp. Để bảo mật dữ liệu trong quá trình truyền, Amazon Redshift hỗ trợ kết nối có hỗ trợ SSL giữa ứng dụng máy khách và cụm kho dữ liệu Redshift của bạn. Để bảo mật dữ liệu đang lưu trữ, Amazon Redshift mã hóa từng khối dữ liệu bằng cách sử dụng AES-256 được tăng tốc phần cứng khi dữ liệu được ghi lên ổ đĩa. Quá trình này diễn ra ở cấp độ thấp trên các hệ thống con I/O, hệ thống con này mã hóa toàn bộ những gì ghi lên ổ đĩa, bao gồm cả kết quả truy vấn tạm thời. Các khối dữ liệu cũng được sao lưu, tức là các bản sao lưu cũng được mã hóa. Mặc định, Amazon Redshift sẽ đảm nhận phần quản lý khóa, tuy nhiên, bạn có thể chọn quản lý khóa của mình bằng cách sử dụng mô-đun bảo mật phần cứng (HSM) riêng của bạn hoặc thông qua AWS Key Management Service.

Redshift Spectrum hỗ trợ Mã hóa phía máy chủ (SSE) của Amazon S3 bằng cách sử dụng khóa mặc định của tài khoản được quản lý và được AWS Key Management Service (KMS) sử dụng.

Câu hỏi: Tôi có thể sử dụng Amazon Redshift trên Amazon Virtual Private Cloud (Amazon VPC) không?

Có, bạn có thể sử dụng Amazon Redshift làm một phần trong cấu hình VPC. Với Amazon VPC, bạn có thể xác định một cấu trúc mạng ảo giống nhất với mạng truyền thống mà bạn có thể vận hành tại trung tâm dữ liệu. Việc này cho phép bạn kiểm soát hoàn toàn việc ai là người có quyền truy cập cụm kho dữ liệu Amazon Redshift của bạn.

Bạn có thể sử dụng Redshift Spectrum với cụm Amazon Redshift thuộc một phần của VPC của bạn. Lưu ý rằng Redshift Spectrum hiện không hỗ trợ Định tuyến VPC tăng cường.

Câu hỏi: Tôi có thể truy cập trực tiếp nút điện toán Amazon Redshift của tôi không?

Không. Nút điện toán Amazon Redshift nằm trên không gian mạng riêng và chỉ có thể truy cập từ nút chính của cụm kho dữ liệu của bạn. Việc này tạo thêm một lớp bảo mật cho dữ liệu của bạn.

Độ khả dụng và độ bền cao

Câu hỏi: Điều gì xảy ra với khả năng sẵn sàng của cụm kho dữ liệu của tôi và độ bền dữ liệu nếu ổ đĩa trên một trong các nút của tôi gặp sự cố?

Cụm kho dữ liệu Amazon Redshift sẽ vẫn sẵn sàng để sử dụng trong trường hợp sự cố ổ đĩa, tuy nhiên bạn có thể thấy hiệu năng của một số truy vấn bị giảm nhẹ. Trong trường hợp sự cố ổ đĩa, Amazon Redshift sẽ công khai sử dụng bản sao dữ liệu của ổ đĩa đó. Bản sao này được lưu trữ trên các ổ đĩa khác trên nút đó. Ngoài ra, Amazon Redshift sẽ nỗ lực di chuyển dữ liệu của bạn sang một ổ đĩa đang hoạt động tốt hoặc, nếu không được, sẽ thay thế nút của bạn. Các cụm một nút không hỗ trợ sao chép dữ liệu. Trong trường hợp sự cố ổ đĩa, bạn cần khôi phục cụm từ bản kết xuất nhanh trên S3. Chúng tôi khuyến cáo nên sử dụng tối thiểu hai nút cho môi trường sản xuất.

Câu hỏi: Điều gì xảy ra với khả năng sẵn sàng của cụm kho dữ liệu của tôi và độ bền dữ liệu nếu một nút gặp sự cố?

Amazon Redshift sẽ tự động phát hiện và thay thế nút bị sự cố trên cụm kho dữ liệu của bạn. Cụm kho dữ liệu sẽ không sẵn sàng cho truy vấn và cập nhật đến khi nút thay thế được cung cấp và thêm vào CSDL. Amazon Redshift làm cho nút thay thế của bạn sẵn sàng ngay lập tức và ưu tiên tải dữ liệu thường xuyên truy cập nhất của bạn từ S3 trước để cho phép bạn tiếp tục truy vấn dữ liệu nhanh nhất có thể. Các cụm một nút không hỗ trợ sao chép dữ liệu. Trong trường hợp sự cố ổ đĩa, bạn cần khôi phục cụm từ bản kết xuất nhanh trên S3. Chúng tôi khuyến cáo nên sử dụng tối thiểu hai nút cho môi trường sản xuất.

Câu hỏi: Điều gì xảy ra với khả năng sẵn sàng của cụm kho dữ liệu của tôi và độ bền dữ liệu nếu Vùng sẵn sàng (AZ) của cụm kho dữ liệu của tôi bị mất điện?

Nếu Vùng sẵn sàng của cụm kho dữ liệu Amazon Redshift của bạn không còn sẵn sàng nữa, bạn không thể sử dụng cụm cho đến khi khôi phục được nguồn điện và kết nối mạng đến Vùng sẵn sàng. Dữ liệu trên cụm kho dữ liệu của bạn được bảo vệ để bạn có thể tiến hành sử dụng kho dữ liệu Amazon Redshift ngay sau khi Vùng sẵn sàng đó sẵn sàng trở lại. Ngoài ra, bạn cũng có thể chọn khôi phục bất kỳ bản kết xuất nhanh hiện tại nào sang một Vùng sẵn sàng mới trong cùng một Khu vực. Amazon Redshift sẽ ưu tiên khôi phục dữ liệu thường xuyên truy cập nhất của bạn trước để bạn có thể tiếp tục truy vấn nhanh nhất có thể.

Câu hỏi: Amazon Redshift có hỗ trợ Triển khai Nhiều vùng sẵn sàng không?

Hiện tại, Amazon Redshift chỉ hỗ trợ triển khai Một vùng sẵn sàng. Bạn có thể chạy cụm kho dữ liệu trên nhiều Vùng sẵn sàng bằng cách tải dữ liệu lên hai cụm kho dữ liệu Amazon Redshift ở các Vùng sẵn sàng khác nhau từ cùng một nhóm tệp đầu vào của Amazon S3. Với Redshift Spectrum, bạn có thể kết hợp nhiều cụm giữa các Vùng sẵn sàng và truy cập dữ liệu trên Amazon S3 mà không phải tải dữ liệu đó lên cụm của bạn. Ngoài ra, bạn cũng có thể khôi phục cụm kho dữ liệu sang một Vùng sẵn sàng khác từ bản kết xuất nhanh của cụm kho dữ liệu của bạn.

Sao lưu và phục hồi

Câu hỏi: Amazon Redshift sao lưu dữ liệu của tôi như thế nào? Làm thế nào để khôi phục cụm từ bản sao lưu?

Amazon Redshift sao chép toàn bộ dữ liệu trên cụm kho dữ liệu của bạn khi dữ liệu được tải lên, đồng thời liên tục sao lưu dữ liệu của bạn lên S3. Amazon Redshift luôn nỗ lực duy trì tối thiểu ba bản sao dữ liệu của bạn (bản gốc và bản sao trên nút điện toán và bản sao lưu trên Amazon S3). Redshift cũng có thể sao chép không đồng bộ các bản kết xuất nhanh của bạn lên S3 ở một khu vực khác để khắc phục sự cố.

Mặc định, Amazon Redshift cho phép tự động sao lưu cụm kho dữ liệu của bạn với khoảng thời gian lưu giữ trong 1 ngày. Bạn có thể cấu hình khoảng thời gian này trong tối đa 35 ngày.

Lưu trữ sao lưu miễn phí chỉ giới hạn theo tổng dung lượng lưu trữ trên các nút của cụm kho dữ liệu và chỉ áp dụng với cụm kho dữ liệu hiện hoạt. Ví dụ: nếu bạn có tổng dung lượng lưu trữ kho dữ liệu bằng 8TB, chúng tôi sẽ cung cấp tối đa 8TB dung lượng lưu trữ sao lưu và không tính thêm phí. Nếu bạn muốn tăng thời gian lưu giữ sao lưu lên nhiều hơn một ngày, bạn có thể làm việc này bằng cách sử dụng Bảng điều khiển quản lý AWS hoặc API Amazon Redshift. Để biết thêm thông tin về tự động kết xuất nhanh, vui lòng tham khảo Hướng dẫn quản lý Amazon Redshift. Amazon Redshift chỉ sao lưu dữ liệu có sự thay đổi do đó phần lớn các bản kết xuất nhanh chỉ sử dụng một phần nhỏ dung lượng lưu trữ sao lưu của bạn.

Khi bạn cần khôi phục bản sao lưu, bạn có thể truy cập tất cả các bản sao lưu tự động trong khoảng thời gian lưu giữ sao lưu của bạn. Sau khi bạn chọn bản sao lưu để khôi phục, chúng tôi sẽ cung cấp một cụm kho dữ liệu mới và khôi phục dữ liệu của bạn lên cụm đó.

Câu hỏi: Làm thế nào để quản lý việc lưu giữ bản sao lưu và bản kết xuất nhanh tự động của tôi?

Bạn có thể sử dụng Bảng điều khiển quản lý AWS hoặc API ModifyCluster để quản lý khoảng thời gian lưu giữ bản sao lưu tự động của bạn bằng cách điều chỉnh tham số RetentionPeriod. Nếu muốn tắt tự động sao lưu, bạn có thể làm vậy bằng cách thiết lập thời gian giữ lại bằng 0 (không khuyến cáo).

Câu hỏi: Điều gì xảy ra với bản sao lưu nếu tôi xóa cụm kho dữ liệu của mình?

Khi bạn xóa cụm kho dữ liệu, bạn có thể xác định có nên tạo bản kết xuất nhanh cuối cùng sau khi xóa không, việc này cho phép khôi phục cụm kho dữ liệu đã xóa trong tương lai. Toàn bộ các bản kết xuất nhanh thủ công tạo ra trước đó của cụm kho dữ liệu sẽ được giữ lại và tính phí theo mức phí tiêu chuẩn của Amazon S3, trừ khi bạn chọn xóa chúng.

Khả năng thay đổi quy mô

Câu hỏi: Làm thế nào để điều chỉnh kích thước và hiệu suất của cụm kho dữ liệu Amazon Redshift?

Nếu muốn tăng hiệu suất truy vấn hoặc đáp ứng mức sử dụng CPU, bộ nhớ hoặc I/O tăng cao, bạn có thể tăng số nút trên cụm kho dữ liệu thông qua Bảng điều khiển quản lý AWS hoặc APOI ModifyCluster. Khi bạn điều chỉnh cụm kho dữ liệu, yêu cầu thay đổi của bạn sẽ được thực thi ngay lập tức. Các chỉ số về mức sử dụng điện toán, mức sử dụng dung lượng lưu trữ và lưu lượng đọc/ghi lên cụm kho dữ liệu Amazon Redshift được cung cấp miễn phí thông qua Bảng điều khiển quản lý AWS hoặc API Amazon CloudWatch. Bạn cũng có thể thêm các chỉ số khác do người dùng xác định thông qua tính năng chỉ số tùy chỉnh Amazon Cloudwatch.

Với Redshift Spectrum, bạn có thể chạy nhiều cụm Amazon Redshift truy cập đến dữ liệu giống nhau trên Amazon S3. Bạn có thể sử dụng nhiều cụm khác nhau cho nhiều trường hợp sử dụng khác nhau. Ví dụ: bạn có thể sử dụng một cụm cho báo cáo tiêu chuẩn và một cụm khác cho truy vấn khoa học dữ liệu. Nhóm tiếp thị của bạn có thể sử dụng các cụm của riêng họ, khác với nhóm vận hành của bạn. Tùy thuộc vào loại và số lượng nút có trên cụm cục bộ của bạn và số lượng tệp cần xử lý cho truy vấn của bạn, Redshift Spectrum tự động phân phối quá trình thực thi truy vấn cho một vài trình xử lý Redshift Spectrum theo tài nguyên dùng chung để đọc và xử lý dữ liệu từ Amazon S3, đồng thời kéo kết quả trở về cụm Amazon Redshift của bạn để tiếp tục xử lý phần còn lại.

Câu hỏi: Cụm kho dữ liệu của tôi có còn sẵn sàng trong quá trình điều chỉnh quy mô không?

Cụm kho dữ liệu hiện tại vẫn sẵn sàng cho các thao tác đọc trong khi một cụm kho dữ liệu mới sẽ được tạo ra trong quá trình thực hiện thao tác điều chỉnh quy mô. Khi cụm kho dữ liệu mới đã sẵn sàng, cụm kho dữ liệu hiện tại sẽ tạm thời không còn sẵn sàng nữa trong khi bản ghi tên quy ước của cụm kho dữ liệu hiện tại được đảo ngược để trỏ đến cụm kho dữ liệu mới. Thời gian gián đoạn này thường chỉ kéo dài một vài phút và sẽ xảy ra trong khoảng thời gian bảo trì cho cụm kho dữ liệu của bạn, trừ khi bạn xác định cần áp dụng việc điều chỉnh ngay lập tức. Amazon Redshift di chuyển dữ liệu song song từ nút điện toán trên cụm kho dữ liệu hiện tại sang nút điện toán trên cụm mới của bạn. Việc này cho phép hoàn tất thao tác của bạn nhanh nhất có thể.

Tính đồng thời

Câu hỏi: Làm thế nào để quản lý các tài nguyên nhằm đảm bảo rằng cụm Redshift của tôi có thể cung cấp hiệu năng cao liên tục trong các khoảng thời gian có độ đồng thời cao?

Kho dữ liệu thông thường có sự khác biệt rất lớn về mức sử dụng truy vấn đồng thời trong suốt một ngày. Việc chỉ bổ sung tài nguyên trong khoảng thời gian cần thiết thay vì cung cấp theo nhu cầu cao nhất sẽ giúp tiết kiệm chi phí hơn. Amazon Redshift sẽ thay bạn tự động xử lý việc này. 

Thay đổi quy mô đồng thời là tính năng trong Amazon Redshift, cung cấp hiệu năng truy vấn nhanh liên tục, ngay cả khi có hàng nghìn truy vấn đồng thời. Với tính năng này, khi cần, Amazon Redshift sẽ tự động bổ sung dung lượng tạm thời để xử lý số lượng yêu cầu lớn. Amazon Redshift sẽ tự động định tuyến truy vấn đến các cụm thay đổi quy mô. Những cụm này được cung cấp trong vài giây và bắt đầu xử lý truy vấn ngay lập tức.

Tính năng này được cung cấp miễn phí cho hầu hết khách hàng. Mỗi cụm Amazon Redshift nhận được tối đa một giờ tín dụng thay đổi quy mô miễn phí mỗi ngày. Lượng tín dụng này sẽ cho phép bạn dự đoán chi phí theo từng tháng, ngay cả các khoảng thời gian lượng yêu cầu phân tích không ổn định.

Câu hỏi: Điều chỉnh kích thước linh hoạt là gì và tính năng này khác với Thay đổi quy mô đồng thời như thế nào?

Tính năng Điều chỉnh kích thước linh hoạt sẽ bổ sung hoặc loại bỏ các nút khỏi một cụm Redshift đơn trong vòng vài phút để quản lý thông lượng truy vấn của cụm đó. Ví dụ: khối lượng công việc ETL cho các giờ nhất định trong ngày hoặc báo cáo cuối tháng có thể cần thêm tài nguyên Redshift để hoàn thành đúng hạn. Thay đổi quy mô đồng thời bổ sung thêm tài nguyên cụm để tăng lượng truy vấn đồng thời tổng thể.

Câu hỏi: Tôi có thể truy cập trực tiếp các cụm Thay đổi quy mô đồng thời không?

Không. Thay đổi quy mô đồng thời là nhóm tài nguyên Redshift có thể thay đổi quy mô số lượng lớn mà khách hàng không được quyền truy cập trực tiếp.

Truy vấn và Phân tích

Câu hỏi: Amazon Redshift và Redshift Spectrum có tương thích với gói phần mềm nghiệp vụ thông minh ưa thích và công cụ ETL của tôi không?

Amazon Redshift sử dụng SQL tiêu chuẩn công nghiệp và được truy cập bằng cách sử dụng trình điều khiển JDBC và ODBC tiêu chuẩn. Bạn có thể tải xuống trình điều khiển JDBC và ODBC tùy chỉnh theo Amazon Redshift từ tab Kết nối máy khách của Bảng điều khiển Redshift. Chúng tôi đã chứng thực các tích hợp với nhà cung cấp BI và ETL thông dụng, một số nhà cung cấp đang cho phép dùng thử miễn phí để giúp bạn bắt đầu tải và phân tích dữ liệu. Bạn cũng có thể truy cập AWS Marketplace để triển khai và cấu hình các giải pháp được thiết kế tương thích với Amazon Redshift trong vài phút.

Redshift Spectrum hỗ trợ tất cả các công cụ máy khách Amazon Redshift. Công cụ máy khách có thể tiếp tục kết nối với điểm cuối của cụm Amazon Redshift bằng kết nối ODBC hoặc JDBC. Không yêu cầu thay đổi gì.

Bạn sử dụng cú pháp truy vấn giống hệt và có các tính năng truy vấn tương tự để truy cập bảng trên Redshift Spectrum như các tính năng bạn có cho bảng trên bộ lưu trữ cục bộ của cụm Redshift. Bảng bên ngoài được tham chiếu bằng cách sử dụng tên schema xác định theo lệnh CREATE EXTERNAL SCHEMA, nơi chúng đã được đăng ký.

Câu hỏi: Redshift Spectrum hỗ trợ những định dạng dữ liệu và định dạng nén nào?

Redshift Spectrum hiện hỗ trợ nhiều định dạng dữ liệu nguồn mở như Avro, CSV, Grok, Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, SequenceFile, TextFile và TSV.

Redshift Spectrum hiện hỗ trợ nén Gzip và Snappy.

Câu hỏi: Điều gì xảy ra nếu một bảng trên bộ lưu trữ cục bộ của tôi có tên giống với bảng bên ngoài?

Giống như bảng cục bộ, bạn có thể sử dụng tên quy ước để để chọn chính xác bảng mong muốn bằng cách sử dụng schema_name.table_name trong truy vấn của bạn.

Câu hỏi: Tôi sử dụng Hive Metastore để lưu trữ siêu dữ liệu về kho dữ liệu S3. Tôi có thể sử dụng Redshift Spectrum không?

Có. Lệnh CREATE EXTERNAL SCHEMA hỗ trợ Hive Metastores. Chúng tôi hiện không hỗ trợ DDL cho Hive Metastore.

Câu hỏi: Làm thế nào để lấy danh sách toàn bộ các bảng cơ sở dữ liệu bên ngoài được tạo ra trên cụm của tôi?

Bạn có thể truy vấn bảng hệ thống SVV_EXTERNAL_TABLES để lấy thông tin đó.

Theo dõi

Câu hỏi: Làm thế nào để giám sát hiệu suất của cụm kho dữ liệu Amazon Redshift?

Các chỉ số về mức sử dụng điện toán, mức sử dụng dung lượng lưu trữ và lưu lượng đọc/ghi lên cụm kho dữ liệu Amazon Redshift được cung cấp miễn phí thông qua Bảng điều khiển quản lý AWS hoặc API Amazon CloudWatch. Bạn cũng có thể thêm các chỉ số khác do người dùng xác định thông qua tính năng chỉ số tùy chỉnh Amazon Cloudwatch. Ngoài chỉ số CloudWatch, Amazon Redshift cũng cung cấp thông tin về hiệu suất truy vấn và cụm thông qua Bảng điều khiển quản lý AWS. Thông tin này cho phép bạn xem người dùng và truy vấn nào sử dụng nhiều tài nguyên hệ thống nhất và chẩn đoán các vấn đề về hiệu suất. Ngoài ra, bạn có thể xem mức sử dụng tài nguyên trên mỗi nút điện toán nhằm đảm bảo bạn có dữ liệu và truy vấn được cân bằng phù hợp giữa các nút.

Câu hỏi: Tôi nhận thấy rằng một số truy vấn truy cập dữ liệu trên cụm đang chạy chậm hơn truy vấn Redshift Spectrum của tôi. Tại sao lại có chuyện đó?

Truy vấn Amazon Redshift được chạy bằng tài nguyên cụm đối với ổ đĩa cục bộ của bạn. Truy vấn Redshift Spectrum chạy bằng tài nguyên mở rộng quy mô theo mỗi truy vấn đối với dữ liệu trên S3. Đối với phần lớn các truy vấn, ổ đĩa cục bộ có tốc độ nhanh hơn nhưng đối với truy vấn có thể quét nhiều dữ liệu và xử lý điện toán tối thiểu, chúng tôi có thể áp dụng nhiều trình xử lý Redshift Spectrum và hoàn tất chúng một cách nhanh chóng.

Bảo trì

Câu hỏi: Thế nào là một khoảng thời gian bảo trì? Câu hỏi: Cụm kho dữ liệu của tôi có sẵn sàng trong quá trình bảo trì phần mềm không?

Amazon Redshift định kỳ thực hiện bảo trì để áp dụng các bản sửa lỗi, tăng cường và tính năng mới cho cụm của bạn. Bạn có thể thay đổi khoảng thời gian bảo trì định kỳ này bằng cách điều chỉnh cụm, tự động theo lập trình hoặc sử dụng Bảng điều khiển Redshift. Trong khoảng thời gian bảo trì này, cụm Amazon Redshift của bạn không còn sẵn sàng để phục vụ các thao tác thông thường nữa. Để biết thêm thông tin về khoảng thời gian bảo trì và lịch theo khu vực, xem Khoảng thời gian bảo trì trong Hướng dẫn quản lý Amazon Redshift.

Tìm hiểu thêm về giá Amazon Redshift

Truy cập trang giá
Bạn đã sẵn sàng xây dựng chưa?
Bắt đầu với Amazon Redshift
Bạn có thêm thắc mắc?
Hãy liên hệ chúng tôi