Thông tin chung

Để tìm hiểu thông tin mới về Amazon Redshift, hãy truy cập trang Thông tin mới.
Để xem thêm thông tin chi tiết và hướng dẫn sử dụng, hãy truy cập Tài liệu.

Câu hỏi: Amazon Redshift là gì?

Amazon Redshift là kho dữ liệu đám mây có thể mở rộng, được quản lý hoàn toàn và tăng tốc độ nhận thông tin chuyên sâu bằng tính năng phân tích nhanh chóng, dễ dàng, bảo mật và trên quy mô lớn. Hàng nghìn khách hàng dựa vào Amazon Redshift để phân tích từ hàng terabyte đến hàng petabyte dữ liệu và chạy các truy vấn phân tích phức tạp. Bạn có thể nhận thông tin chuyên sâu theo thời gian thực và nội dung phân tích mang tính dự đoán về mọi dữ liệu của bạn trong các cơ sở dữ liệu hoạt động, hồ dữ liệu, kho dữ liệu và tập dữ liệu của bên thứ ba. Amazon Redshift cung cấp tất cả các tính năng này với mức hiệu năng giá tốt hơn đến 3 lần so với các kho dữ liệu trên đám mây dùng ngay khác, giúp bạn luôn ước tính được chi phí phải bỏ ra.

Amazon Redshift Serverless giúp bạn dễ dàng chạy phân tích ở quy mô petabyte chỉ trong vài giây để nhanh chóng nhận thông tin chuyên sâu mà không cần phải cấu hình và quản lý cụm kho dữ liệu của bạn. Amazon Redshift Serverless tự động cung cấp và thay đổi quy mô công suất kho dữ liệu để mang lại hiệu quả cao cho các khối lượng công việc yêu cầu lớn và khó dự đoán, và bạn chỉ phải trả tiền cho tài nguyên mà bạn sử dụng.

Câu hỏi: Đâu là những lý do quan trọng nhất để khách hàng chọn Amazon Redshift?

Hàng nghìn khách hàng chọn Amazon Redshift để tăng tốc thời gian nhận thông tin chuyên sâu vì sản phẩm này dễ sử dụng, mang lại hiệu quả trên mọi quy mô và cho phép bạn phân tích mọi dữ liệu. Amazon Redshift là dịch vụ được quản lý hoàn toàn và cung cấp cả lựa chọn được cung cấp lẫn phi máy chủ, giúp bạn dễ dàng thực hiện và mở rộng quy mô phân tích mà không cần quản lý kho dữ liệu. Bạn có thể chọn lựa chọn được cung cấp cho khối lượng công việc dễ dự đoán hoặc chọn Amazon Redshift Serverless để tự động cung cấp và thay đổi hiệu suất kho dữ liệu, từ đó mang lại hiệu quả cao cho khối lượng công việc lớn và khó dự đoán. Sản phẩm này mang lại hiệu suất ở mọi quy mô với mức hiệu năng giá tốt hơn đến 3 lần so với các kho dữ liệu trên đám mây dùng ngay khác, giúp bạn luôn ước tính được chi phí phải bỏ ra. Với Amazon Redshift, bạn có thể nhận thông tin chuyên sâu theo thời gian thực và nội dung phân tích mang tính dự đoán về mọi dữ liệu của bạn trong các cơ sở dữ liệu hoạt động, hồ dữ liệu, kho dữ liệu và hàng nghìn tập dữ liệu của bên thứ ba. Amazon Redshift bảo vệ an toàn cho dữ liệu của bạn khi lưu trữ và truyền phát, đồng thời đáp ứng các yêu cầu tuân thủ nội bộ và bên ngoài. Sản phẩm này hỗ trợ tính năng bảo mật đầu ngành để bảo vệ dữ liệu của bạn trong khi lưu trữ, truyền phát và tuân thủ các yêu cầu của SOC1, SOC2, SOC3 và PCI DSS Cấp độ 1. Bạn có thể sử dụng mọi tính năng bảo mật và tuân thủ của Redshift mà không mất thêm một đồng chi phí nào.

Câu hỏi: Amazon Redshift tinh giản việc quản lý kho dữ liệu như thế nào?

Amazon Redshift được AWS quản lý hoàn toàn nên bạn không còn cần phải lo lắng về các tác vụ quản lý kho dữ liệu như cung cấp phần cứng, vá lỗi phần mềm, thiết lập, cấu hình, giám sát nút và ổ đĩa để khôi phục sau thảm họa hoặc sao lưu. AWS quản lý công việc cần để thay bạn thiết lập, vận hành và thay đổi quy mô kho dữ liệu, giúp bạn có thời gian tập trung vào xây dựng ứng dụng. Amazon Redshift cũng có khả năng điều chỉnh tự động và hiển thị các đề xuất để quản lý kho dữ liệu của bạn trong Redshift Advisor. Đối với Redshift Spectrum, Amazon Redshift quản lý toàn bộ cơ sở hạ tầng điện toán, cân bằng tải, hoạch định, đặt lịch và thực thi truy vấn của bạn trên dữ liệu được lưu trữ trong Amazon S3. Lựa chọn phi máy chủ tự động cung cấp và thay đổi quy mô công suất kho dữ liệu để mang lại hiệu quả cao cho các khối lượng công việc yêu cầu lớn và khó dự đoán, và bạn chỉ phải trả tiền cho tài nguyên mà bạn sử dụng.

Câu hỏi: Amazon Redshift có hiệu quả ra sao so với các kho dữ liệu khác?

Kết quả kiểm tra điểm quy chuẩn TPC-DS cho thấy Amazon Redshift mang lại hiệu năng giá tốt nhất khi dùng ngay, ngay cả với một tập dữ liệu tương đối nhỏ là 3 TB. Amazon Redshift mang đến hiệu năng giá tốt hơn đến 3 lần so với các kho dữ liệu đám mây khác. Điều này tức là bạn có thể hưởng lợi từ hiệu năng giá hàng đầu của Amazon Redshift ngay từ đầu mà không cần hiệu chỉnh thủ công. Đạt hiệu năng giá cao hơn đến 3 lần so với các kho dữ liệu đám mây khác nhờ Amazon Redshift | AWS Big Data Blog.

Amazon Redshift áp dụng nhiều đổi mới đa dạng để đạt hiệu suất tốt hơn đến 10 lần so với cơ sở dữ liệu truyền thống cho các khối lượng công việc lưu kho dữ liệu và phân tích, bao gồm lưu trữ dữ liệu nén chia cột được tối ưu hóa hiệu quả cho tác vụ đọc, với các cụm điện toán xử lý song song hàng loạt (MPP) mở rộng quy mô tuyến tính lên hàng trăm nút. Thay vì lưu trữ dữ liệu ở dạng hàng, Amazon Redshift tổ chức dữ liệu theo cột. Khi tải dữ liệu lên một bảng trống, Amazon Redshift tự động lấy mẫu dữ liệu của bạn và chọn cơ chế nén phù hợp nhất.

Redshift Spectrum cho phép bạn chạy các truy vấn trên hàng exabyte dữ liệu trên Amazon S3. Bạn sẽ không cần phải tải hay trích xuất, chuyển đổi và tải (ETL). Kể cả khi bạn không lưu trữ bất kỳ dữ liệu nào trên Amazon Redshift, bạn vẫn có thể sử dụng Redshift Spectrum để truy vấn các bộ dữ liệu kích thước hàng exabyte trên Amazon S3. Các chế độ xem cụ thể hóa mang đến hiệu năng truy vấn nhanh hơn đáng kể cho các khối lượng công việc phân tích lặp lại nhiều lần và có thể dự đoán, như: bảng điều khiển, truy vấn từ các công cụ nghiệp vụ thông minh (BI) và tác vụ xử lý dữ liệu ETL. Với chế độ xem cụ thể hóa, bạn có thể lưu trữ các kết quả truy vấn được tính toán sẵn và duy trì chúng rất hiệu quả bằng cách xử lý thêm những thay đổi mới nhất trong các bảng nguồn. Các truy vấn tiếp theo tham chiếu đến các chế độ xem cụ thể hóa sử dụng các kết quả được tính toán sẵn để chạy nhanh hơn nhiều, cũng như khả năng tự động làm mới và ghi lại truy vấn để đơn giản hóa và tự động hóa việc sử dụng chế độ xem cụ thể hóa. Amazon Redshift cũng tự động tạo ra các chế độ xem cụ thể hóa, mang đến những lợi ích giống với chế độ xem cụ thể hóa do người dùng tạo ra.

Công suất điện toán và lưu trữ của kho dữ liệu tại chỗ bị giới hạn vì những ràng buộc của phần cứng tại chỗ. Amazon Redshift trao cho bạn khả năng thay đổi quy mô lưu trữ và điện toán một cách độc lập khi cần để đáp ứng các khối lượng công việc hay thay đổi. Với Bộ lưu trữ được Redshift quản lý (RMS), giờ bạn đã có khả năng mở rộng quy mô lưu trữ lên hàng petabyte bằng tính năng lưu trữ Amazon S3.

Tối ưu hóa bảng tự động (ATO) là khả năng tự điều chỉnh giúp bạn đạt được lợi ích về hiệu suất của việc tạo ra các khóa sắp xếp và phân phối tối ưu mà không cần thao tác thủ công. ATO quan sát cách các truy vấn tương tác với các bảng và sử dụng công nghệ máy học (ML) để chọn các khóa sắp xếp và phân phối tốt nhất nhằm tối ưu hóa hiệu năng cho khối lượng công việc của cụm. Nhờ hoạt động tối ưu hóa ATO, hiệu năng cụm đã tăng 24% và 34% khi sử dụng điểm quy chuẩn TPC-DS lần lượt là 3 TB và 30 TB, so với cụm không có ATO. Các tính năng bổ sung như Xóa chân không tự động, Sắp xếp bảng tự động và Phân tích tự động loại bỏ nhu cầu bảo trì và điều chỉnh thủ công đối với các cụm Redshift để có được hiệu năng tốt nhất cho các cụm và khối lượng công việc sản xuất mới.

Tính năng quản lý khối lượng công việc cho phép bạn định tuyến truy vấn đến một tập hàng đợi xác định sẵn để quản lý tính đồng thời và việc sử dụng tài nguyên của cụm. Hiện nay, Amazon Redshift có cả loại cấu hình tự động và thủ công. Với các cấu hình WLM thủ công, bạn có trách nhiệm xác định sẵn dung lượng bộ nhớ cần phân bổ cho từng hàng đợi và số truy vấn tối đa, mỗi truy vấn sẽ nhận được một phần của dung lượng bộ nhớ đó và mỗi phần bộ nhớ này có thể chạy trong từng hàng đợi. Các cấu hình WLM thủ công không điều chỉnh theo những thay đổi trong khối lượng công việc của bạn và đòi hỏi bạn phải hiểu rõ về mức sử dụng tài nguyên cho các truy vấn của mình để cấu hình chính xác. Amazon Redshift Auto WLM không yêu cầu bạn phải xác định mức sử dụng bộ nhớ hay tính đồng thời cho hàng đợi. Thay vào đó, loại cấu hình này điều chỉnh linh hoạt tính đồng thời để tối ưu hóa thông lượng. Nếu không, bạn có thể xác định ưu tiên truy vấn để phân bổ tài nguyên cho truy vấn ưu tiên dựa trên ưu tiên kinh doanh của mình. Auto WLM cũng cung cấp các công cụ mạnh mẽ để bạn quản lý khối lượng công việc của mình. Với ưu tiên truy vấn, bạn có thể xác định ưu tiên cho khối lượng công việc để chúng được ưu tiên xử lý trong Amazon Redshift, bao gồm phân bổ tài nguyên nhiều hơn trong thời gian cao điểm để đảm bảo hiệu suất truy vấn nhất quán, còn các quy tắc giám sát truy vấn mang đến cách thức để quản lý các tình huống bất ngờ như phát hiện và ngăn không cho những truy vấn tốn nhiều thời gian hoặc tốn kém tiêu hao tài nguyên hệ thống. Sau đây là những khía cạnh chính của Auto WLM được cải thiện hiệu suất tính đồng thời thích ứng: phân bổ bộ nhớ hợp lý, loại bỏ tình trạng chia nhỏ cố định bộ nhớ giữa các hàng và cải thiện thông lượng.

Amazon Redshift Advisor phát triển các đề xuất tùy chỉnh để tăng hiệu năng và tối ưu hóa chi phí bằng cách phân tích khối lượng công việc và chỉ số sử dụng cho cụm của bạn. Đăng nhập vào bảng điều khiển Amazon Redshift để xem các đề xuất của Advisor. Để biết thêm thông tin, hãy xem Làm việc với các đề xuất từ Amazon Redshift Advisor.

Câu hỏi: Làm thế nào để bắt đầu sử dụng Amazon Redshift?

Bạn có thể bắt đầu truy vấn dữ liệu chỉ bằng vài cú nhấp chuột trong Bảng điều khiển quản lý AWS. Bạn có thể tận dụng các tập dữ liệu mẫu tải sẵn, bao gồm các tập dữ liệu điểm tiêu chuẩn TPC-H, TPC-DS cùng những truy vấn mẫu khác để bắt đầu phân tích ngay lập tức. Bạn có thể tạo cơ sở dữ liệu, sơ đồ, bảng và tải dữ liệu từ Amazon S3, Amazon Redshift Datashares hoặc khôi phục từ bản kết xuất cụm Amazon Redshift hiện có được cung cấp. Bạn cũng có thể trực tiếp truy vấn dữ liệu ở định dạng mở, chẳng hạn như Parquet hay ORC trong hồ dữ liệu Amazon S3 hoặc truy vấn dữ liệu trong cơ sở dữ liệu hoạt động như Amazon Aurora, Amazon RDS PostgreSQL và MySQL.

Để bắt đầu sử dụng Amazon Redshift Serverless, chọn “Try Amazon Redshift Serverless” (Dùng thử Amazon Redshift Serverless) và bắt đầu truy vấn dữ liệu. Amazon Redshift Serverless tự động thay đổi quy mô để đáp ứng mọi trường hợp gia tăng khối lượng công việc.

Câu hỏi: Tôi có thể nhận trợ giúp để tìm hiểu thêm và biết cách tích hợp với Amazon Redshift không?

Trả lời: Có, các chuyên gia Amazon Redshift luôn sẵn sàng trả lời câu hỏi và hỗ trợ bạn. Hãy liên hệ với chúng tôi và chúng tôi sẽ có phản hồi sau một ngày làm việc để thảo luận về vai trò của AWS đối với tổ chức của bạn.

Câu hỏi: Bộ lưu trữ được Amazon Redshift quản lý là gì?

Bộ lưu trữ được Amazon Redshift quản lý có sẵn với các loại nút phi máy chủ và RA3, dịch vụ này cho phép bạn thay đổi quy mô và trả tiền cho các chức năng điện toán và lưu trữ riêng biệt, để bạn có thể điều chỉnh quy mô cụm theo đúng nhu cầu điện toán của mình. Dịch vụ này sử dụng bộ lưu trữ cục bộ, hiệu suất cao, dựa trên SSD làm bộ nhớ đệm bậc 1 và tận dụng các phần tối ưu hóa, như: nhiệt độ của khối dữ liệu, tuổi thọ của khối dữ liệu và dạng thức khối lượng công việc, để vừa mang đến hiệu suất cao vừa tự động điều chỉnh bộ lưu trữ sang Amazon S3 khi cần mà bạn không phải làm gì cả.

Hỏi: Làm thế nào để sử dụng bộ lưu trữ được quản lý của Amazon Redshift?

Nếu bạn đang sử dụng nút Amazon Redshift Lưu trữ mật độ cao hoặc điện toán mật độ cao, thì bạn có thể dùng tính năng Điều chỉnh kích thước linh hoạt nâng cấp các cụm hiện có lên phiên bản điện toán mới RA3. Amazon Redshift Serverless và các cụm dùng phiên bản RA3 tự động sử dụng bộ lưu trữ được Redshift quản lý để lưu trữ dữ liệu. Để sử dụng tính năng này, bạn không cần thực hiện hành động nào khác ngoài việc sử dụng Amazon Redshift Serverless hoặc các phiên bản RA3.

Câu hỏi: Amazon Redshift Spectrum là gì?

Amazon Redshift Spectrum là một tính năng của Amazon Redshift cho phép bạn chạy các truy vấn đối với hồ dữ liệu của mình trên Amazon S3 nhưng không cần tải dữ liệu hoặc ETL. Khi bạn phát hành một truy vấn SQL, truy vấn đó chuyển tới điểm cuối Amazon Redshift để tạo và tối ưu hóa một kế hoạch truy vấn. Amazon Redshift xác định đâu là dữ liệu cục bộ và trên Amazon S3 có những gì, tạo một kế hoạch để giảm thiểu lượng dữ liệu trên S3 cần được đọc, đồng thời yêu cầu các công nhân Amazon Redshift Spectrum ngoài phạm vi của một nhóm tài nguyên chia sẻ đọc và xử lý dữ liệu từ S3.

Câu hỏi: Khi nào tôi nên cân nhắc sử dụng các phiên bản RA3?

Hãy cân nhắc chọn loại nút RA3 trong các trường hợp sau đây:

  • Bạn cần sự linh hoạt để thay đổi quy mô và trả phí điện toán riêng rẽ với phí lưu trữ.
  • Bạn truy vấn một phần trong tổng dữ liệu.
  • Số lượng dữ liệu của bạn tăng nhanh chóng hoặc dự kiến sẽ tăng nhanh.
  • Bạn muốn có sự linh hoạt để điều chỉnh quy mô cụm chỉ dựa trên nhu cầu hiệu suất của mình.

Khi quy mô dữ liệu của bạn tiếp tục tăng lên đến hàng petabyte, lượng dữ liệu bạn thu nạp vào kho dữ liệu Amazon Redshift cũng sẽ tăng theo. Bạn có thể đang tìm cách phân tích mọi dữ liệu của mình một cách tiết kiệm.

Với các phiên bản Amazon Redshift RA3 mới cùng bộ lưu trữ được quản lý, bạn có thể chọn số lượng nút dựa trên yêu cầu hiệu năng của mình và chỉ thanh toán cho dung lượng lưu trữ được quản lý mà bạn sử dụng. Điều này giúp bạn linh hoạt thay đổi kích thước cụm RA3 dựa trên lượng dữ liệu bạn xử lý hàng ngày mà không cần tăng chi phí lưu trữ. Được xây dựng trên Hệ thống AWS Nitro mới, các phiên bản RA3 với bộ lưu trữ được quản lý sử dụng ổ cứng SSD có hiệu suất cao để lưu trữ dữ liệu nóng và Amazon S3 để lưu trữ dữ liệu nguội, đem đến sự tiện dụng, lưu trữ tiết kiệm và hiệu suất truy vấn nhanh.

Câu hỏi: Khi nào tôi nên sử dụng Amazon Redshift hay Amazon RDS?

Cả Amazon Redshift và Amazon Relational Database Service (RDS) đều cho phép bạn chạy cơ sở dữ liệu quan hệ truyền thống trên đám mây trong khi loại bỏ được gánh nặng quản trị cơ sở dữ liệu. Khách hàng chủ yếu sử dụng cơ sở dữ liệu Amazon RDS cho các khối lượng công việc xử lý giao tác trực tuyến (OLTP), còn Amazon Redshift được dùng chủ yếu cho báo cáo và phân tích. Khối lượng công việc OLTP đòi hỏi hải truy vấn nhanh chóng thông tin cụ thể, còn Amazon RDS là lựa chọn phù hợp nhất để hỗ trợ các giao tác như chèn, cập nhật và xóa. Amazon Redshift khai thác quy mô và tài nguyên của nhiều nút khác nhau, đồng thời sử dụng nhiều phần tối ưu hóa để cải thiện biên độ ở cơ sở dữ liệu truyền thống cho khối lượng công việc phân tích và báo cáo trên các tập dữ liệu rất lớn. Amazon Redshift đem đến tùy chọn tăng quy mô tuyệt vời khi độ phức tạp của dữ liệu và truy vấn của bạn tăng thêm nếu bạn không muốn để quá trình xử lý báo cáo và phân tích ảnh hưởng đến hiệu suất của khối lượng công việc OLTP. Giờ đây, với tính năng Truy vấn liên hiệp mới, bạn có thể dễ dàng truy vấn dữ liệu giữa các dịch vụ cơ sở dữ liệu Amazon RDS hoặc Aurora với Amazon Redshift.

Hỏi: Khi nào tôi nên sử dụng Amazon Redshift hoặc Redshift Spectrum hay Amazon EMR?

Bạn nên dùng Amazon EMR nếu bạn sử dụng mã tùy chỉnh để xử lý và phân tích các bộ dữ liệu cực lớn bằng các khung xử lý dữ liệu lớn, như Apache Spark, Hadoop, Presto hay Hbase. Amazon EMR giúp bạn kiểm soát hoàn toàn cấu hình các cụm và phần mềm bạn cài đặt trên đó.

Những kho dữ liệu như Amazon Redshift được thiết kế để dùng cho nhiều loại phân tích khác nhau. Kho dữ liệu được thiết kế để kéo dữ liệu từ nhiều nguồn khác nhau như các hệ thống kho, tài chính và bán lẻ. Để đảm bảo báo cáo có độ chính xác ổn định trong toàn công ty, kho dữ liệu lưu trữ dữ liệu theo cấu trúc được tổ chức khoa học. Cấu trúc này tích hợp trực tiếp các quy tắc về độ nhất quán của dữ liệu vào các bảng của cơ sở dữ liệu. Amazon Redshift là dịch vụ tốt nhất khi bạn cần thực hiện các truy vấn phức tạp trên các bộ dữ liệu có cấu trúc và bán cấu trúc rất lớn và đạt được hiệu suất cao.

Mặc dù Redshift Spectrum cũng là lựa chọn tuyệt vời cho việc chạy truy vấn dữ liệu trên Amazon Redshift và S3, nhưng tính năng này không thực sự phù hợp với những loại trường hợp sử dụng mà doanh nghiệp thường yêu cầu ở các khung xử lý như Amazon EMR. Amazon EMR làm được rất nhiều việc khác ngoài việc chạy truy vấn SQL. Amazon EMR là dịch vụ có quản lý, cho phép bạn xử lý và phân tích các bộ dữ liệu cực kỳ lớn bằng cách sử dụng phiên bản framework xử lý dữ liệu lớn thông dụng mới nhất, chẳng hạn như Spark, Hadoop và Presto, trên các cụm có khả năng tùy chỉnh toàn phần. Với Amazon EMR, bạn có thể chạy rất nhiều tác vụ xử lý dữ liệu tăng quy mô cho các ứng dụng như máy học, phân tích đồ thị, chuyển đổi dữ liệu, truyền phát dữ liệu và gần như mọi thứ bạn có thể viết mã.

Bạn có thể sử dụng Redshift Spectrum với EMR. Redshift Spectrum áp dụng phương thức lưu trữ định nghĩa bảng tương tự như Amazon EMR. Redshift Spectrum có thể hỗ trợ Apache Hive Metastore giống với loại mà Amazon EMR dùng để xác định vị trí dữ liệu và các định nghĩa bảng. Nếu đang sử dụng Amazon EMR và đã có sẵn Hive Metastore, bạn chỉ cần cấu hình cụm Amazon Redshift để sử dụng tính năng này. Khi đó, bạn có thể bắt đầu truy vấn dữ liệu đó ngay lập tức cùng các tác vụ Amazon EMR. Vì thế, nếu bạn đang sử dụng EMR để xử lý kho dữ liệu lớn, thì bạn có thể sử dụng Redshift Spectrum để truy vấn dữ liệu đó cùng một lúc mà không phải can thiệp vào các tác vụ Amazon EMR.

Dịch vụ truy vấn, kho dữ liệu và khung xử lý dữ liệu phức tạp đều có vai trò riêng và được sử dụng vào những việc khác nhau. Bạn chỉ cần chọn đúng công cụ cho tác vụ.

Câu hỏi: Khi nào tôi nên sử dụng Amazon Athena hay Amazon Redshift Spectrum?

Amazon Athena là một dịch vụ truy vấn tương tác giúp bạn dễ dàng phân tích dữ liệu trong Amazon S3 bằng cách sử dụng SQL tiêu chuẩn. Athena rất dễ sử dụng. Chỉ cần trỏ vào dữ liệu của bạn trong S3, xác định sơ đồ và bắt đầu truy vấn bằng cách sử dụng SQL tiêu chuẩn.

Redshift Spectrum là một tính năng của Amazon Redshift. Nếu bạn cần phân tích dữ liệu được truy cập thường xuyên với Cam kết chất lượng dịch vụ (SLA) nghiêm ngặt về hiệu suất cao nhất, bạn nên sử dụng Amazon Redshift. Bạn có thể sử dụng Redshift Spectrum để mở rộng truy vấn Amazon Redshift của mình đến những dữ liệu ít được truy cập hơn trong hồ dữ liệu Amazon S3 của bạn. Điều này giúp bạn có thể tự do lưu trữ dữ liệu ở nơi bạn muốn, theo định dạng bạn muốn và dữ liệu đó luôn có sẵn để bạn xử lý khi cần.

Hỏi: Tại sao tôi nên sử dụng Amazon Redshift thay vì chạy cụm kho dữ liệu MPP riêng trên Amazon EC2?

Amazon Redshift tự động xử lý nhiều tác vụ tiêu tốn thời gian, liên quan đến việc quản lý kho dữ liệu của bạn, bao gồm:
  • Thiết lập: Với Amazon Redshift, bạn chỉ cần tạo cụm kho dữ liệu, xác lập sơ đồ, rồi tiến hành tải và truy vấn dữ liệu. Bạn không cần phải quản lý việc cung cấp, cấu hình hay áp dụng bản vá.
  • Độ bền dữ liệu: Amazon Redshift nhân bản dữ liệu trong cụm kho dữ liệu của bạn và liên tục sao lưu dữ liệu của bạn vào Amazon S3 – dịch vụ được thiết kế có độ bền đến 99,999999999%. Amazon Redshift ánh xạ dữ liệu của từng ổ đĩa sang các nút khác nằm trên cụm của bạn. Nếu ổ đĩa gặp sự cố, truy vấn của bạn sẽ tiếp tục và có độ trễ tăng thêm chút trong khi Redshift tái dựng ổ đĩa của bạn từ bản sao. Trường hợp xảy ra (các) sự cố nút, Amazon Redshift tự động cung cấp (các) nút mới và tiến hành khôi phục dữ liệu từ các ổ đĩa khác nằm trên cụm hoặc từ Amazon S3. Amazon Redshift ưu tiên khôi phục dữ liệu thường xuyên truy vấn nhất để có thể nhanh chóng thực hiện các truy vấn thường xuyên được thực thi nhất của bạn.
  • Thay đổi quy mô: Bạn có thể thêm hoặc xóa nút khỏi cụm kho dữ liệu Amazon Redshift bằng một lệnh gọi API hoặc bằng vài cú nhấp chuột trên Bảng điều khiển quản lý AWS khi nhu cầu về công suất và hiệu suất của bạn thay đổi. Bạn cũng có thể đặt lịch cho các thao tác thay đổi quy mô và thay đổi kích thước bằng cách sử dụng tính năng trình lập lịch trong Amazon Redshift.
  • Tự động cập nhật và vá lỗi: Amazon Redshift tự động áp dụng bản nâng cấp và vá lỗi cho kho dữ liệu để bạn có thể tập trung vào ứng dụng thay vì công việc quản trị ứng dụng.
  • Tính năng truy vấn quy mô exabyte: Amazon Redshift Spectrum cho phép bạn chạy các truy vấn đối với hàng exabyte dữ liệu trên Amazon S3. Không yêu cầu tải hoặc ETL. Kể cả khi bạn không lưu trữ bất kỳ dữ liệu nào trên Amazon Redshift, bạn vẫn có thể sử dụng Redshift Spectrum để truy vấn các bộ dữ liệu kích thước hàng exabyte trên Amazon S3.

Hỏi: Làm thế nào để tạo và truy cập một cụm kho dữ liệu Amazon Redshift?

Bạn có thể dễ dàng tạo cụm kho dữ liệu Amazon Redshift bằng Bảng điều khiển quản lý AWS hoặc API Amazon Redshift. Bạn có thể bắt đầu với kho dữ liệu 160 GB, có một nút và tăng quy mô lên đến hàng petabyte hoặc hơn nữa bằng vài cú nhấp chuột trên Bảng điều khiển AWS hoặc bằng một lệnh gọi API.

Cấu hình một nút (phù hợp nhất với khối lượng công việc đánh giá hoặc phát triển/kiểm thử) cho phép bạn bắt đầu sử dụng Amazon Redshift một cách nhanh chóng, tiết kiệm và tăng quy mô lên cấu hình nhiều nút khi nhu cầu của bạn tăng thêm. Cụm kho dữ liệu Redshift có thể chứa 1 – 128 nút điện toán, tùy theo loại nút. Đối với loại nút thế hệ mới nhất, RA3, số lượng nút tối thiểu là hai. Để biết chi tiết, xem mục tài liệu.

Cấu hình nhiều nút đòi hỏi bạn phải có một nút chính để quản lý các kết nối máy khách và nhận truy vấn, hai nút điện toán để lưu trữ dữ liệu và thực hiện các truy vấn, phép tính. Nút chính có dung lượng tương đương với nút điện toán và được tự động cung cấp miễn phí cho bạn.

Bạn chỉ cần xác định Vùng sẵn sàng mong muốn (không bắt buộc), số lượng nút, loại nút, tên và mật khẩu chính, nhóm bảo mật, các mục cài đặt lưu giữ bản sao lưu và cài đặt hệ thống khác. Sau khi bạn đã chọn cấu hình mong muốn, Amazon Redshift sẽ cung cấp các tài nguyên cần thiết và thiết lập cụm kho dữ liệu của bạn.

Sau khi cụm kho dữ liệu của bạn đã sẵn sàng, bạn có thể truy xuất điểm cuối của cụm cùng với chuỗi kết nối JDBC và ODBC từ Bảng điều khiển quản lý AWS hoặc bằng API Redshift. Sau đó bạn có thể sử dụng chuỗi kết nối này với công cụ cơ sở dữ liệu yêu thích, ngôn ngữ lập trình hoặc công cụ Nghiệp vụ thông minh (BI). Bạn cần ủy quyền các truy vấn mạng cho cụm kho dữ liệu đang chạy của bạn. Để biết phần giải thích chi tiết, vui lòng tham khảo Hướng dẫn bắt đầu của chúng tôi.

Câu hỏi: Tại sao tôi nên sử dụng Amazon Redshift Spatial?

Amazon Redshift Spatial mang lại khả năng phân tích dựa trên vị trí để nắm thông tin chuyên sâu đa dạng về dữ liệu của bạn. Dịch vụ này tích hợp liền mạch dữ liệu kinh doanh và không gian để cung cấp nội dung phân tích phục vụ việc ra quyết định. Amazon Redshift ra mắt tính năng hỗ trợ xử lý dữ liệu không gian tự nhiên vào tháng 11/2019, với loại dữ liệu đa hình GEOMETRY cùng một số tính năng không gian SQL quan trọng. Hiện chúng tôi hỗ trợ loại dữ liệu GEOGRAPHY và số chức năng không gian SQL của chúng tôi đã lên con số 80. Chúng tôi hỗ trợ tất cả các loại dữ liệu và tiêu chuẩn không gian thông thường, bao gồm Shapefiles, GeoJSON, WKT, WKB, eWKT và eWKB. Để tìm hiểu thêm, hãy xem trang tài liệu hoặc trang hướng dẫn sử dụng Amazon Redshift Spatial.

Câu hỏi: Tăng cường hiệu suất truy vấn nguội là gì và Amazon Redshift có thể làm gì để tăng cường hiệu suất truy vấn nguội?

Amazon Redshift có thể xử lý truy vấn nhanh hơn đến 2 lần khi cần biên dịch các truy vấn này. Sự cải thiện này mang lại hiệu suất truy vấn cao hơn khi bạn tạo cụm Redshift mới, tích hợp khối lượng công việc mới vào cụm hiện có hoặc sau khi cụm hiện có được cập nhật phần mềm. Những sự cải thiện hiệu suất truy vấn này cũng sẽ miễn phí và bạn không cần thực hiện hành động nào để áp dụng chúng cho cụm của mình.

Với khả năng tăng cường hiệu suất truy vấn nguội, biên dịch truy vấn được tăng quy mô lên thành dịch vụ biên dịch phi máy chủ vượt quá tài nguyên điện toán của nút chính trong cụm của bạn. Amazon Redshift hỗ trợ bộ nhớ đệm không giới hạn để lưu trữ đối tượng biên dịch nhằm tăng tỷ lệ khớp bộ nhớ đệm từ 99,60% lên 99,95%, khi các truy vấn tối quan trọng của bạn được gửi đến Amazon Redshift.

Khi truy vấn được gửi đến Amazon Redshift, công cụ thực thi truy vấn sẽ biên dịch truy trấn thành mã máy và phân phối đến các nút cụm. Những mã được biên dịch sẽ chạy nhanh hơn vì nó loại bỏ chi phí sử dụng bộ diễn giải phát sinh. Đối với những cụm mới không có bộ nhớ đệm mã hoặc sau khi một cụm hiện hành được nâng cấp cùng với bản phát hành mới nhất, bộ nhớ đệm mã sẽ được xóa sạch và truy vấn phải trải qua quá trình biên dịch. Kết quả là, độ trễ của một truy vấn có thể không ổn định và có thể không đáp ứng được yêu cầu của một số khối lượng công việc. Với bản cập nhật này, bộ nhớ đệm không giới hạn giảm thiểu nhu cầu biên dịch mã và khi cần biên dịch, một vùng biên dịch có thể mở rộng sẽ biên dịch song song để đẩy nhanh tiến độ khối lượng công việc. Mức độ tăng tốc phụ thuộc vào độ phức tạp và tính đồng thời của khối lượng công việc. Để tìm hiểu thêm về biên dịch mã, hãy xem phần Xử lý truy vấn trong hướng dẫn dành cho Nhà phát triển cơ sở dữ liệu.

Phi máy chủ

Câu hỏi: Amazon Redshift Serverless (xem trước) là gì?

Amazon Redshift Serverless (xem trước) một lựa chọn phi máy chủ Amazon Redshift giúp việc chạy và thay đổi quy mô phân tích chỉ trong vài giây trở nên dễ dàng mà không cần thiết lập và quản lý cơ sở hạ tầng kho dữ liệu. Với Redshift Serverless, bất kỳ người dùng nào—bao gồm nhà phân tích dữ liệu, nhà phát triển, chuyên gia kinh doanh và nhà khoa học dữ liệu—đều có thể lấy thông tin chuyên sâu từ dữ liệu chỉ bằng cách tải và truy vấn dữ liệu trong kho dữ liệu.

Câu hỏi: Làm thế nào để bắt đầu sử dụng Amazon Redshift Serverless (xem trước)?

Chỉ với vài cú nhấp trong Bảng điều khiển quản lý AWS, bạn có thể chọn "configure Amazon Redshift Serverless" (cấu hình Amazon Redshift Serverless) và bắt đầu truy vấn dữ liệu. Bạn có thể tận dụng tập dữ liệu mẫu tải sẵn như dữ liệu về thời tiết, điều tra dân số và tập dữ liệu điểm tiêu chuẩn cùng với truy vấn mẫu để bắt đầu phân tích ngay. Bạn có thể tạo cơ sở dữ liệu, sơ đồ, bảng và tải dữ liệu từ Amazon S3, Amazon Redshift Datashares hoặc khôi phục từ bản kết xuất cụm Redshift hiện có được cung cấp. Bạn cũng có thể trực tiếp truy vấn dữ liệu ở định dạng mở (chẳng hạn như Parquet hay ORC) trong hồ dữ liệu Amazon S3 hoặc truy vấn dữ liệu trong cơ sở dữ liệu hoạt động như Amazon Aurora, Amazon RDS PostgreSQL và MySQL.

Câu hỏi: Amazon Redshift Serverless (preview) cung cấp những tính năng gì?

Amazon Redshift Serverless mang lại cho bạn rất nhiều lợi ích, bao gồm:

  • Khả năng nhận thông tin chuyên sâu nhanh chóng mà không cần cung cấp và quản lý cụm.
  • Tự động thay đổi quy mô một cách thông minh dựa trên nhu cầu khối lượng công việc mà không cần phải cung cấp tài nguyên vượt mức.
  • Dịch vụ được cung cấp liên tục để thay đổi quy mô và cập nhật phiên bản.
  • Tính năng truy vấn nhanh chóng, dùng được ngay cho cả dữ liệu nạp trong kho dữ liệu, định dạng mở trong hồ dữ liệu Amazon S3 và dữ liệu trong cơ sở dữ liệu hoạt động mà không cần điều chỉnh cơ sở dữ liệu.
  • Khả năng phân tích SQL phong phú, độ bền cùng các đảm bảo giao tác của Amazon Redshift.
  • Tiết kiệm nhờ khả năng chỉ trả phí cho dung lượng đã sử dụng và giảm bớt độ phức tạp của kho dữ liệu.

Câu hỏi: Việc sử dụng Amazon Redshift Serverless (xem trước) có những lợi ích gì? 

Nếu bạn không có kinh nghiệm quản lý kho dữ liệu thì bạn cũng không cần lo lắng về việc thiết lập, cấu hình, quản lý cụm hoặc điều chỉnh kho dữ liệu. Bạn có thể tập trung vào việc rút ra thông tin chuyên sâu có ý nghĩa từ dữ liệu của bạn hoặc đạt kết quả kinh doanh cối lõi thông qua dữ liệu. Bạn chỉ phải trả tiền cho những gì mình sử dụng, giữ chi phí ở mức có thể quản lý. Bạn tiếp tục được hưởng mọi lợi ích từ hiệu suất hàng đầu, tính năng SQL phong phú, khả năng tích hợp liền mạch với hồ dữ liệu và kho dữ liệu hoạt động, cùng khả năng phân tích và chia sẻ dữ liệu tích hợp của Amazon Redshift. Nếu bạn cần kiểm soát chi tiết kho dữ liệu của mình, bạn có thể cung cấp các cụm Redshift.

Câu hỏi: Amazon Redshift Serverless (xem trước) phối hợp với các dịch vụ AWS khác như thế nào?

Bạn có thể tiếp tục sử dụng tất cả tính năng phân tích phong phú của Amazon Redshift như các hoạt động kết hợp phức tạp, truy vấn trực tiếp đến dữ liệu trong hồ dữ liệu và cơ sở dữ liệu hoạt động Amazon S3, chế độ xem cụ thể hóa, quy trình được lưu trữ, hỗ trợ dữ liệu bán cấu trúc và ML, cũng như là hiệu suất cao trên quy mô lớn. Mọi dịch vụ liên quan tích hợp với Amazon Redshift (như Amazon Kinesis, AWS Lambda, Amazon QuickSight, Amazon SageMaker, Amazon EMR, AWS Lake Formation và AWS Glue) vẫn tiếp tục hoạt động với Amazon Redshift Serverless.

Câu hỏi: Tôi có thể xử lý trường hợp sử dụng nào với Amazon Redshift Serverless (bản xem trước)?

Bạn có thể tiếp tục chạy mọi trường hợp sử dụng phân tích. Với quy trình công việc bắt đầu đơn giản, tự động thay đổi quy mô cùng khả năng trả phí theo mức sử dụng, trải nghiệm Amazon Redshift Serverless hiện càng trở nên dễ dàng và tiết kiệm hơn khi chạy các môi trường thử nghiệm và phát triển cần bắt đầu nhanh chóng, phân tích kinh doanh tạm thời, khối lượng công việc có nhu cầu điện toán đa dạng và khó dự đoán, và khối lượng công việc ngắt quãng hoặc không đều đặn.

Câu hỏi: Amazon Athena có gì khác so với Amazon Redshift Serverless?

Amazon Athena và Amazon Redshift đáp ứng những nhu cầu và trường hợp sử dụng khác nhau, ngay cả khi cả hai dịch vụ này đều phi máy chủ. Một kho dữ liệu như Amazon Redshift là lựa chọn lý tưởng nhất nếu bạn cần hiệu năng giá tốt nhất cho các khối lượng công việc BI và phân tích phức tạp đòi hỏi hiệu suất cao ở mọi quy mô. Amazon Redshift cũng cung cấp tính năng truy vấn dữ liệu lưu trữ trong Amazon S3 và kết hợp với dữ liệu lưu trong kho dữ liệu. Để so sánh, Athena phù hợp hơn với hoạt động phân tích tương tác trên bất kỳ kho dữ liệu nào mà không cần lo lắng về việc hấp thụ và định dạng dữ liệu. Tính năng phân tích của Athena tách biệt với khả năng lưu trữ, mang đến cho bạn sự linh hoạt khi sử dụng cùng với các công cụ và dịch vụ khác như Spark, Flink và Kafka để làm phong phú thêm cho khả năng phân tích và xử lý dữ liệu trên cùng dữ liệu được Athena phân tích.

Chia sẻ dữ liệu

Câu hỏi: Tính năng chia sẻ dữ liệu Amazon Redshift là gì?

Với tính năng chia sẻ dữ liệu của Amazon Redshift, bạn có thể chia sẻ dữ liệu trực tiếp trong Amazon Redshift để chia sẻ dữ liệu cho các tác vụ đọc một cách dễ dàng và bảo mật với những cụm Redshift khác trong và giữa các tài khoản AWS, cũng như với các dịch vụ phân tích AWS sử dụng hồ dữ liệu. Nhờ khả năng chia sẻ dữ liệu, bạn có thể truy vấn ngay dữ liệu trực tiếp từ mọi cụm Redshift, miễn là cụm đó có quyền truy cập mà không gặp phải sự phức tạp hay chậm trễ liên quan đến bản sao dữ liệu và di chuyển dữ liệu. Amazon Redshift cho phép bạn chia sẻ và truy vấn dữ liệu trực tiếp giữa các tổ chức, tài khoản và thậm chí là Khu vực.

Câu hỏi: Trường hợp sử dụng nào cần chia sẻ dữ liệu?

Các trường hợp sử dụng chính bao gồm:

  • Một cụm ETL trung tâm chia sẻ dữ liệu với nhiều cụm BI/phân tích để cung cấp khả năng cô lập khối lượng công việc đọc và phí tùy chọn.
  • Nhà cung cấp dữ liệu chia sẻ dữ liệu với người tiêu dùng bên ngoài.
  • Chia sẻ các tập dữ liệu chung như khách hàng, sản phẩm trên nhiều nhóm kinh doanh khác nhau và hợp tác cho mục đích phân tích và khoa học dữ liệu rộng hơn.
  • Phân cấp kho dữ liệu để đơn giản hóa việc quản lý.
  • Chia sẻ dữ liệu giữa các môi trường phát triển, thử nghiệm và sản xuất.
  • Truy cập dữ liệu Redshift từ dịch vụ phân tích AWS khác.

Câu hỏi: Truy vấn cơ sở dữ liệu chéo trong Amazon Redshift là gì?

Với truy vấn cơ sở dữ liệu chéo, bạn có thể truy vấn và kết nối dữ liệu liền mạch từ bất kỳ cơ sở dữ liệu Redshift nào mà bạn có quyền truy cập, bất kể bạn kết nối với cơ sở dữ liệu nào. Cơ sở dữ liệu này có thể bao gồm các cơ sở dữ liệu cục bộ trên cụm và cả các bộ dữ liệu dùng chung có sẵn trên các cụm từ xa. Truy vấn cơ sở dữ liệu chéo cung cấp cho bạn tính linh hoạt để sắp xếp dữ liệu dưới dạng cơ sở dữ liệu riêng biệt nhằm hỗ trợ cấu hình nhiều đối tượng thuê.

Câu hỏi: AWS Data Exchange cho Amazon Redshift là gì?

AWS Data Exchange cho Amazon Redshift cho phép bạn tìm và đăng ký dữ liệu bên thứ ba trong AWS Data Exchange mà bạn có thể truy vấn trong kho dữ liệu Redshift chỉ trong vài phút. Bạn cũng có thể dễ dàng cấp phép dữ liệu của mình trong Amazon Redshift thông qua AWS Data Exchange. Quyền truy cập tự động được trao khi một khách hàng đăng ký dữ liệu của bạn và tự động bị thu hồi khi gói đăng ký kết thúc, hóa đơn được tự động tạo và các khoản thanh toán được tự động thu và bồi hoàn thông qua AWS. Nhờ tính năng này, bạn có thể nhanh chóng truy vấn, phân tích và xây dựng ứng dụng bằng dữ liệu của bên thứ ba.

Câu hỏi: Đối tượng nào chủ yếu sử dụng AWS Data Exchange?

AWS Data Exchange tạo điều kiện cho các khách hàng AWS trao đổi và sử dụng dữ liệu bên thứ ba trong AWS một cách bảo mật. Nhà phân tích dữ liệu, nhà quản lý sản phẩm, nhà quản lý danh mục đầu tư, nhà khoa học dữ liệu, kỹ thuật viên thử nghiệm lâm sàng và nhà phát triển trong gần như mọi lĩnh vực cần truy cập vào nhiều dữ liệu hơn để đẩy nhanh phân tích, đào tạo mô hình ML và đưa ra các quyết định dựa trên dữ liệu. Tuy nhiên, họ không thể tìm dữ liệu từ nhiều nhà cung cấp ở một nơi duy nhất và cũng không có sự nhất quán về cách nhà cung cấp phân phối dữ liệu, khiến họ phải ôm đồm nhiều hình thức như phương tiện truyền thông vật lý được gửi đến, thông tin đăng nhập FTP và lệnh gọi API. Trái lại, nhiều tổ chức muốn cung cấp dữ liệu của họ cho mục đích nghiên cứu hoặc thương mại nhưng việc xây dựng và duy trì công nghệ phân phối, cấp quyền và tính phí cho dữ liệu lại quá khó và đắt đỏ; từ đó càng khiến nguồn cung dữ liệu quý giá trở nên khan hiếm.

Câu hỏi: AWS Data Exchange có mặt ở Khu vực AWS nào?

AWS Data Exchange có một danh mục sản phẩm duy nhất được các nhà cung cấp phân phối trên toàn cầu. Dù bạn sử dụng Khu vực nào thì bạn vẫn sẽ thấy danh mục này. Tài nguyên cơ bản của sản phẩm (tập dữ liệu, bản sửa đổi và tài sản) là các tài nguyên khu vực do bạn quản lý theo chương trình hoặc thông qua bảng điều khiển AWS Data Exchange tại Khu vực AWS cụ thể. Xem Bảng tính khả dụng theo khu vực của AWS để biết danh sách các Khu vực AWS hiện có AWS Data Exchange.

Câu hỏi: Đâu là điểm khác biệt giữa AWS Data Exchange và Cơ sở dữ liệu mở trên AWS?

Có 5 điểm khác biệt chính giữa AWS Data Exchange và Cơ sở dữ liệu mở trên AWS:

  • Thứ nhất, AWS Data Exchange hỗ trợ cả sản phẩm dữ liệu thương mại và miễn phí, cùng mọi mức phí thương mại hiện hành áp dụng cho hóa đơn AWS của bạn. Cơ sở dữ liệu mở trên AWS cho phép bạn truy cập vào danh sách tập dữ liệu miễn phí, mở và có chọn lọc. 
  • Thứ hai, AWS Data Exchange yêu cầu bạn đồng ý rõ ràng với Thỏa thuận đăng ký dữ liệu trình bày các điều khoản mà nhà cũng cấp dữ liệu đặt ra khi phát hành sản phẩm của họ. Dữ liệu trong Cơ sở dữ liệu mở trên AWS không có điều khoản sử dụng. 
  • Thứ ba, bạn phải sử dụng API AWS Data Exchange để sao chép dữ liệu từ AWS Data Exchange đến vị trí Amazon S3 mong muốn. Các tập dữ liệu trong Cơ sở dữ liệu mở trên AWS được truy cập qua API S3. 
  • Thứ tư, AWS Data Exchange mang lại cho nhà cung cấp dữ liệu quyền truy cập các báo cáo hàng ngày, hàng tuần và hàng tháng mô tả chi tiết hoạt động đăng ký. Với Cơ sở dữ liệu mở trên AWS, nhà cung cấp dữ liệu phải phân tích nhật ký của chính họ để theo dõi mức sử dụng dữ liệu. 
  • Cuối cùng, để trở thành nhà cung cấp dịch vụ trên AWS Data Exchange, khách hàng đủ điều kiện phải đăng ký làm nhà cung cấp dữ liệu trên AWS Marketplace để có thể niêm yết cả sản phẩm miễn phí lẫn thương mại. Tuy nhiên, bất kỳ khách hàng nào đều có thể thêm dữ liệu miễn phí vào Cơ sở dữ liệu mở trên AWS thông qua GitHub và có thể đăng ký Chương trình tập dữ liệu công cộng AWS để tài trợ chi phí lưu trữ và băng thông cho một số tập dữ liệu mở.

Câu hỏi: Amazon Redshift Query Editor V2 là gì?

Amazon Redshift Query Editor v2 là một ứng dụng khách SQL dựa trên web mà bạn có thể dùng để biên soạn và chạy truy vấn trên kho dữ liệu Redshift của mình. Bạn có thể hiển thị kết quả truy vấn bằng sơ đồ và cộng tác với các thành viên trong đội ngũ bằng cách chia sẻ truy vấn. Query Editor v2 cung cấp nhiều tính năng như duyệt tìm và khám phá nhiều cơ sở dữ liệu, bảng biểu bên ngoài, chế độ xem, quy trình được lưu trữ và hàm do người dùng xác định. Ứng dụng này cung cấp các thuật sĩ để tạo sơ đồ, bảng biểu và hàm do người dùng xác định. Bạn cũng có thể tải dữ liệu trong Amazon Redshift từ Amazon S3 bằng một thuật sĩ hình ảnh. Ứng dụng này đơn giản hóa hoạt động quản lý và cộng tác trên truy vấn đã lưu. Bạn cũng có thể thu được thông tin chuyên sâu nhanh hơn bằng cách hiển thị kết quả chỉ với một cú nhấp. Với bản phát hành xem trước mới nhất, các nhà phân tích dữ liệu có thể chia sẻ truy vấn và cộng tác thông qua một giao diện chung gọi là Query Doc, cho phép họ nhúng truy vấn mã/SQL, chú thích, kết quả và hình ảnh.

Câu hỏi: Vì sao tôi nên sử dụng Query Editor V2?

Nếu bạn là nhà phân tích dữ liệu, nhà khoa học dữ liệu hoặc kỹ sư dữ liệu, hiện bạn có thể dùng Query Editor V2 để duyệt tìm, tạo sơ đồ và bảng biểu, tải dữ liệu, cũng như biên soạn truy vấn SQL, quy trình được lưu trữ và UDF thông qua giao diện dựa trên web. Bạn cũng có thể tiến hành phân tích hình ảnh dữ liệu tại chỗ mà không cần phải rời khỏi công cụ. Bạn cũng có thể lên lịch chạy truy vấn kéo dài hoặc truy vấn cho mục đích báo cáo đơn giản như báo cáo hàng ngày.

Câu hỏi: Query Editor v2 gồm có những tính năng gì?

Query Editor v2 cho phép bạn:

  • Tạo sơ đồ, bảng biểu trực quan và tải dữ liệu từ Amazon S3.
  • Biên soạn truy vấn và nhận thông tin chuyên sâu nhanh hơn với trình biên tập trực quan để biên soạn truy vấn SQL.
  • Tiến hành phân tích kết quả và tải kết quả dưới định dạng JSON/CSV xuống máy tính.
  • Tự động quản lý các phiên bản truy vấn khác nhau.
  • Cộng tác với người dùng khác để chia sẻ truy vấn, nội dung phân tích và kết quả.
  • Chạy truy vấn trong nền ngay cả khi trình duyệt đã đóng.

Khả năng mở rộng quy mô và tính đồng thời

Câu hỏi: Làm thế nào để điều chỉnh kích thước và hiệu suất của cụm kho dữ liệu Amazon Redshift?

Nếu muốn tăng hiệu suất truy vấn hoặc đáp ứng mức sử dụng CPU, bộ nhớ hoặc I/O tăng cao, bạn có thể tăng số nút trên cụm kho dữ liệu bằng cách sử dụng Điều chỉnh kích thước linh hoạt thông qua Bảng điều khiển quản lý AWS hoặc API ModifyCluster. Khi bạn điều chỉnh cụm kho dữ liệu, yêu cầu thay đổi của bạn sẽ được thực thi ngay lập tức. Các chỉ số về mức sử dụng điện toán, mức sử dụng dung lượng lưu trữ và lưu lượng đọc/ghi lên cụm kho dữ liệu Redshift được cung cấp miễn phí thông qua Bảng điều khiển quản lý AWS hoặc các API Amazon CloudWatch. Bạn cũng có thể thêm các chỉ số do người dùng xác định thông qua tính năng chỉ số tùy chỉnh Amazon CloudWatch.

Với tính năng Thay đổi quy mô đồng thời, bạn có thể hỗ trợ số lượng người dùng đồng thời và truy vấn đồng thời gần như không giới hạn với hiệu năng truy vấn luôn cực nhanh. Khi kích hoạt thay đổi quy mô tính đồng thời, Amazon Redshift tự động thêm dung lượng cụm khi cụm của bạn gặp phải tình trạng tăng hàng chờ truy vấn.

Với Amazon Redshift Spectrum, bạn có thể chạy nhiều cụm Redshift truy cập đến dữ liệu giống nhau trên Amazon S3. Bạn có thể sử dụng nhiều cụm khác nhau cho nhiều trường hợp sử dụng khác nhau. Ví dụ: bạn có thể sử dụng một cụm cho báo cáo tiêu chuẩn và một cụm khác cho truy vấn khoa học dữ liệu. Nhóm tiếp thị của bạn có thể sử dụng các cụm riêng, khác với nhóm vận hành. Redshift Spectrum tự động phân phối hoạt động thực thi truy vấn cho một vài trình xử lý Redshift Spectrum trong một nhóm tài nguyên dùng chung để đọc và xử lý dữ liệu từ Amazon S3, rồi kéo kết quả trở về cụm Redshift của bạn để tiếp tục xử lý phần còn lại.

Hỏi: Trong khi thay đổi quy mô, cụm kho dữ liệu của tôi có sẵn dùng không?

Điều này còn nhiều yếu tố phụ thuộc. Khi sử dụng tính năng Thay đổi quy mô đồng thời, bạn hoàn toàn có thể đọc và ghi trên cụm trong suốt quá trình thay đổi quy mô đồng thời. Với chức năng Thay đổi kích thước linh hoạt, cụm sẽ không sẵn dùng trong 4 đến 8 phút điều chỉnh. Với khả năng lưu trữ linh hoạt của Redshift RA3 trong dung lượng lưu trữ được quản lý, cụm sẽ hoàn toàn sẵn, dữ liệu sẽ tự động được di chuyển giữa dung lượng lưu trữ được quản lý và các nút điện toán.

Câu hỏi: Khi nào tôi nên sử dụng thay đổi quy mô tính đồng thời và khi nào nên sử dụng chia sẻ dữ liệu?

Chia sẻ dữ liệu và thay đổi quy mô đồng thời là các tính năng bổ trợ nhau. Với tính năng thay đổi quy mô đồng thời, Amazon Redshift cho phép bạn tự động mở rộng quy mô một hoặc nhiều khối lượng công việc trong một cụm duy nhất để xử lý mức tăng đột biến trong truy vấn và số lượng hoạt động đồng thời cao. Amazon Redshift tăng công suất một cách linh hoạt và tự động trong vài giây để xử lý các đột biến trong hoạt động của người dùng và giảm công suất khi hoạt động giảm xuống. Các ứng dụng tiếp tục tương tác với Amazon Redshift bằng một điểm cuối ứng dụng duy nhất. Tính năng chia sẻ dữ liệu cho phép bạn mở rộng quy mô khối lượng công việc đa dạng với việc triển khai nhiều cụm, nhiều tài khoản. Tính năng này cho phép cô lập khối lượng công việc và khả năng tính phí, cộng tác nhóm chéo trong môi trường phi tập trung và khả năng cung cấp dữ liệu dưới dạng dịch vụ cho các bên liên quan thuộc nội bộ và ở bên ngoài. Bạn có thể kích hoạt tính năng thay đổi quy mô đồng thời trên cả cụm nhà sản xuất chia sẻ dữ liệu và cụm người dùng thông thường.

Câu hỏi: Làm thế nào để quản lý các tài nguyên nhằm bảo đảm rằng cụm Amazon Redshift của tôi có thể cung cấp hiệu năng cao liên tục trong các khoảng thời gian có độ đồng thời cao?

Kho dữ liệu thông thường có sự khác biệt rất lớn về mức sử dụng truy vấn đồng thời trong suốt một ngày. Việc chỉ bổ sung tài nguyên trong khoảng thời gian cần thiết thay vì cung cấp theo nhu cầu cao nhất sẽ giúp tiết kiệm chi phí hơn. Amazon Redshift sẽ thay bạn tự động xử lý việc này.

Thay đổi quy mô đồng thời là tính năng trong Amazon Redshift, cung cấp hiệu năng truy vấn nhanh liên tục, ngay cả khi có hàng nghìn truy vấn đồng thời. Với tính năng này, khi cần, Amazon Redshift sẽ tự động bổ sung dung lượng tạm thời để xử lý số lượng yêu cầu lớn. Amazon Redshift sẽ tự động định tuyến truy vấn đến các cụm thay đổi quy mô. Những cụm này được cung cấp trong vài giây và bắt đầu xử lý truy vấn ngay lập tức.

Tính năng này được cung cấp miễn phí cho hầu hết khách hàng. Mỗi cụm Amazon Redshift nhận được tối đa một giờ tín dụng thay đổi quy mô miễn phí mỗi ngày. Lượng tín dụng này sẽ cho phép bạn dự đoán chi phí theo từng tháng, ngay cả các khoảng thời gian lượng yêu cầu phân tích không ổn định.

Câu hỏi: Điều chỉnh kích thước linh hoạt là gì và tính năng này khác với Thay đổi quy mô đồng thời như thế nào?

Tính năng Điều chỉnh kích thước linh hoạt sẽ bổ sung hoặc loại bỏ các nút khỏi một cụm Redshift đơn trong vòng vài phút để quản lý thông lượng truy vấn của cụm đó. Ví dụ: khối lượng công việc ETL cho các giờ nhất định trong ngày hoặc báo cáo cuối tháng có thể cần thêm tài nguyên Amazon Redshift để hoàn thành đúng hạn. Thay đổi quy mô đồng thời bổ sung thêm tài nguyên cụm để tăng lượng truy vấn đồng thời tổng thể.

Câu hỏi: Tôi có thể truy cập trực tiếp các cụm Thay đổi quy mô đồng thời không?

Không. Thay đổi quy mô đồng thời là nhóm tài nguyên Amazon Redshift có thể thay đổi quy mô lớn và khách hàng không có quyền truy cập trực tiếp vào đó.

Tích hợp và tải dữ liệu

Hỏi: Làm thế nào để tải dữ liệu vào kho dữ liệu Amazon Redshift?

Bạn có thể tải dữ liệu vào Amazon Redshift từ nhiều nguồn dữ liệu khác nhau, như: Amazon S3, Amazon RDSAmazon DynamoDB, Amazon EMR, AWS Glue, AWS Data Pipeline và/hoặc bất kỳ máy chủ nào có hỗ trợ SSH trên Amazon EC2 hoặc tại chỗ. Amazon Redshift cố gắng tải dữ liệu song song vào từng nút điện toán nhằm tăng tối đa tốc độ thu nạp dữ liệu của bạn vào cụm kho dữ liệu. Khách hàng có thể kết nối với Amazon Redshift bằng ODBC hoặc JDBC rồi phát hành lệnh 'chèn' SQL để chèn dữ liệu. Xin lưu ý quá trình này chậm hơn so với khi sử dụng S3 hoặc DynamoDB, vì các phương thức đó tải dữ liệu song song vào từng nút điện toán, còn lệnh chèn SQL chỉ tải qua một nút chính. Để biết thêm chi tiết về tải dữ liệu lên Amazon Redshift, vui lòng xem Hướng dẫn bắt đầu của chúng tôi.

Hỏi: Làm thế nào để tải dữ liệu từ các nguồn dữ liệu Amazon RDS, Amazon EMR, Amazon DynamoDB và Amazon EC2 hiện có vào Amazon Redshift?

Bạn có thể sử dụng lệnh COPY để tải dữ liệu trực tiếp và song song lên Amazon Redshift từ Amazon EMR, Amazon DynamoDB hoặc bất kỳ máy chủ có hỗ trợ SSH nào. Amazon Redshift Spectrum cũng cho phép bạn tải dữ liệu từ Amazon S3 lên cụm bằng một lệnh INSERT INTO đơn giản. Với tính năng này, bạn có thể tải dữ liệu từ nhiều định dạng khác nhau như Parquet và ORC lên cụm của bạn. Lưu ý rằng nếu áp dụng phương thức này, bạn sẽ phát sinh lũy kế phí Redshift Spectrum đối với dữ liệu được quét từ Amazon S3. 

AWS Data Pipeline đem đến giải pháp hiệu suất cao, đáng tin cậy và có dung sai cao để tải dữ liệu từ rất nhiều nguồn dữ liệu AWS, như Amazon RDS, vào Redshift. Bạn có thể sử dụng AWS Data Pipeline để chỉ định nguồn dữ liệu và phần chuyển đổi dữ liệu mong muốn, rồi chạy một đoạn mã nhập được soạn sẵn để tải dữ liệu vào Amazon Redshift. Ngoài ra, AWS Glue là dịch vụ trích xuất, chuyển đổi và tải (ETL) được quản lý toàn phần, giúp dễ dàng chuẩn bị và tải dữ liệu cho phân tích. Bạn có thể tạo và chạy một tác vụ AWS Glue ETL bằng vài cú nhấp chuột trên Bảng điều khiển quản lý AWS. Ngoài ra, nhiều công ty ETL đã chứng thực Amazon Redshift để sử dụng cùng với công cụ của họ, một số còn cung cấp bản dùng thử miễn phí để giúp bạn bắt đầu tải dữ liệu. Một số tính năng này cũng đã triển khai tích hợp sâu rộng hơn với bảng điều khiển Redshift để dễ dàng khám phá và giám sát luồng dữ liệu đi vào Amazon Redshift từ nhiều nguồn bên thứ ba đa dạng.

Câu hỏi: Tôi có nhiều dữ liệu để tải lần đầu lên Amazon Redshift. Truyền qua Internet sẽ mất nhiều thời gian. Làm thế nào để tải dữ liệu này?

Bạn có thể sử dụng AWS Snowball để truyền dữ liệu vào Amazon S3 bằng các thiết bị lưu trữ di động. Ngoài ra, bạn có thể sử dụng AWS Direct Connect để thiết lập kết nối mạng riêng giữa mạng hoặc trung tâm dữ liệu của bạn và AWS. Bạn có thể chọn cổng kết nối 1 Gbit/giây hoặc 10 Gbit/giây để truyền dữ liệu.

Bảo mật

Hỏi: Amazon Redshift bảo mật dữ liệu của tôi như thế nào?

Amazon Redshift hỗ trợ khả năng bảo mật đầu ngành với phần tích hợp sẵn AWS IAM, khả năng liên kết danh tính cho đăng nhập một lần (SSO), khả năng xác thực nhiều yếu tố, khả năng kiểm soát quyền truy cập ở cấp cột, bảo mật cấp hàng, Đám mây riêng ảo của Amazon (Amazon VPC) và phần tích hợp sẵn AWS KMS để bảo vệ dữ liệu đang được truyền và đang ở trạng thái lưu trữ của bạn. Amazon Redshift mã hóa và giữ an toàn cho dữ liệu của bạn trong quá trình truyền và khi ở trạng thái lưu trữ bằng các kỹ thuật mã hóa đạt chuẩn ngành. Để bảo mật dữ liệu trong quá trình truyền, Amazon Redshift hỗ trợ kết nối có hỗ trợ SSL giữa ứng dụng máy khách và cụm kho dữ liệu Redshift của bạn. Để bảo mật dữ liệu đang lưu trữ, Amazon Redshift mã hóa từng khối dữ liệu bằng cách sử dụng AES-256 được tăng tốc phần cứng khi dữ liệu được ghi lên ổ đĩa. Quá trình này diễn ra ở cấp độ thấp trên các hệ thống con I/O, hệ thống con này mã hóa toàn bộ những gì ghi lên ổ đĩa, bao gồm cả kết quả truy vấn tạm thời. Các khối dữ liệu được sao lưu nguyên trạng, tức là các bản sao lưu cũng được mã hóa. Theo mặc định, Amazon Redshift sẽ đảm nhận việc quản lý khóa, nhưng bạn có thể chọn quản lý khóa của mình thông qua AWS Key Management Service. Bạn có thể sử dụng miễn phí mọi tính năng bảo mật của Amazon Redshift. Redshift Spectrum hỗ trợ Mã hóa phía máy chủ (SSE) của Amazon S3 bằng khóa mặc định của tài khoản được AWS Key Management Service (KMS) quản lý và sử dụng.

Hỏi: Redshift có hỗ trợ các phương thức kiểm soát quyền truy cập chi tiết như bảo mật cấp cột không?

Amazon Redshift hỗ trợ khả năng kiểm soát quyền truy cập dựa trên vai trò. Kiểm soát quyền truy cập cấp hàng cho phép bạn chỉ định một hoặc nhiều vai trò cho một người dùng, cũng như chỉ định hệ thống và đặc quyền đối tượng theo vai trò. Bạn có thể áp dụng các vai trò trong hệ thống dùng ngay như người dùng gốc, dba, người vận hành và quản trị viên bảo mật, hoặc bạn có thể tạo các vai trò của riêng mình.

Câu hỏi: Amazon Redshift có hỗ trợ che chắn dữ liệu hoặc token hóa dữ liệu không?

Các hàm do người dùng xác định (UDF) của AWS Lambda cho phép bạn sử dụng hàm AWS Lambda làm UDF trong Amazon Redshift và gọi hàm từ các truy vấn Redshift SQL. Chức năng này cho phép bạn ghi các phần mở rộng tùy chỉnh cho truy vấn SQL của mình để đạt được sự tích hợp chặt chẽ hơn với các dịch vụ khác hoặc các sản phẩm của bên thứ ba. Bạn có thể ghi UDF Lambda để kích hoạt token hóa bên ngoài, che chắn dữ liệu, nhận dạng hoặc khử nhận dạng dữ liệu bằng cách tích hợp với các nhà cung cấp như Protegrity và bảo vệ hoặc ngừng bảo vệ dữ liệu nhạy cảm dựa trên quyền và nhóm của người dùng, trong thời gian truy vấn.

Câu hỏi:Amazon Redshift có hỗ trợ khả năng đăng nhập một lần không?

Có. Những khách hàng muốn dùng công cụ cung cấp thông tin nhận dạng của doanh nghiệp, như Microsoft Azure Active Directory, Active Directory Federation Services, Okta, Ping Federate hay các công cụ cung cấp thông tin nhận dạng khác tuân thủ SAML, đều có thể đặt cấu hình để Amazon Redshift cung cấp khả năng đăng nhập một lần.

Câu hỏi: Amazon Redshift hỗ trợ khả năng đăng nhập một lần như thế nào với Microsoft Azure Active Directory?

Bạn có thể đăng nhập vào cụm Amazon Redshift bằng thông tin nhận dạng trên Microsoft Azure Active Directory (AD). Điều này cho phép bạn có được khả năng đăng nhập vào Redshift mà không cần sao chép thông tin nhận dạng Azure Active Directory trong Redshift.

Hỏi: Amazon Redshift có hỗ trợ chức năng xác thực nhiều yếu tố (MFA) không?

Có. Bạn có thể sử dụng chức năng xác thực nhiều yếu tố (MFA) để tăng mức độ bảo mật khi xác thực cho cụm Amazon Redshift.

Hỏi: Tôi có thể sử dụng Amazon Redshift trong Amazon Virtual Private Cloud (Amazon VPC) không?

Có. Bạn có thể sử dụng Amazon Redshift làm một phần trong cấu hình VPC. Với Amazon VPC, bạn có thể xác định một cấu trúc mạng ảo tương đồng nhất với mạng truyền thống mà bạn có thể vận hành ở trung tâm dữ liệu của mình. Việc này cho phép bạn hoàn toàn kiểm soát việc ai có quyền truy cập vào cụm kho dữ liệu Redshift của bạn. Bạn có thể sử dụng Redshift Spectrum với cụm Redshift thuộc một phần trong Amazon VPC của bạn.

Amazon Redshift hỗ trợ điểm cuối VPC được quản lý (cung cấp bởi AWS PrivateLink) để kết nối đến cụm Redshift của bạn trong VPC. Với điểm cuối được Amazon Redshift quản lý, bạn có thể truy cập một cách riêng tư vào kho dữ liệu Redshift trong VPC từ ứng dụng khách của bạn trong một VPC khác thuộc cùng hoặc khác tài khoản AWS, đồng thời chạy tại chỗ mà không cần sử dụng địa chỉ IP công cộng hoặc đòi hỏi lưu lượng quét Internet.

Câu hỏi: Tôi có thể truy cập trực tiếp nút điện toán Amazon Redshift của tôi không?

Không. Nút điện toán Amazon Redshift nằm trên không gian mạng riêng và chỉ có thể truy cập từ nút chính của cụm kho dữ liệu của bạn. Việc này tạo thêm một lớp bảo mật cho dữ liệu của bạn.

Câu hỏi: Redshift có hỗ trợ quyền kiểm soát truy cập dựa trên vai trò trong cơ sở dữ liệu không? (Công bố trước)

Amazon Redshift sẽ sớm hỗ trợ khả năng kiểm soát quyền truy cập dựa trên vai trò.

Độ khả dụng và độ bền cao

Hỏi: Nếu ổ đĩa ở một trong các nút của tôi gặp sự cố, thì độ bền dữ liệu và tính sẵn sàng của cụm kho dữ liệu của tôi sẽ thế nào?

Trong các trường hợp này, Amazon Redshift sẽ phát hiện lỗi trong ổ đĩa hoặc nút và tự động thay thế nút cụm. Trên các cụm Điện toán mật độ cao (DC) và Lưu trữ mật độ cao (DS2), dữ liệu được lưu trữ trên các cụm điện toán để đảm bảo độ bền dữ liệu cao. Khi một nút được thay thế, dữ liệu được làm mới từ bản sao phản chiếu trên một cụm khác.

Các cụm RA3 và Redshift phi máy chủ không chịu tác động tương tự như vậy vì dữ liệu được lưu trữ trong Amazon S3 và ổ cứng cục bộ chỉ được dùng làm bộ nhớ đệm dữ liệu. Trong trường hợp thay thế nút, dữ liệu được truy xuất từ Amazon S3. Amazon S3 đảm bảo độ bền dữ liệu đạt 99,9999%. Trong trường hợp nhiều nút hoặc nguyên một cụm bị lỗi, một bản sao mới nhất của dữ liệu sẽ có trong S3 và có thể khôi phục cụm trong cùng hoặc khác AZ mà không bị mất bất kỳ dữ liệu nào.

Cụm kho dữ liệu sẽ không sẵn sàng cho truy vấn và cập nhật đến khi nút thay thế được cung cấp và thêm vào cơ sở dữ liệu. Amazon Redshift giúp bạn thay thế nút ngay lập tức và tải dữ liệu mà bạn truy cập thường xuyên nhất từ Amazon S3 lên RA3 và phi máy chủ, và từ bản phản chiếu lên DS2 và Amazon Điện toán mật độ cạo (DC2). Các cụm DC2 và DS2 một nút không hỗ trợ sao chép dữ liệu. Trong trường hợp sự cố ổ đĩa, bạn cần khôi phục cụm từ bản kết xuất nhanh trên S3. Các cụm RA3.XLPLUS một nút có thể được tái tạo mà không bị mất dữ liệu bằng dữ liệu lưu trữ trong S3 với sự hỗ trợ của AWS Support. Chúng tôi khuyến cáo nên sử dụng tối thiểu hai nút cho môi trường sản xuất để tăng tối đa độ khả dụng.

Câu hỏi: Điều gì xảy ra với khả năng sẵn sàng của cụm kho dữ liệu của tôi và độ bền dữ liệu nếu một nút gặp sự cố?

Amazon Redshift sẽ tự động phát hiện và thay thế nút gặp sự cố trong cụm kho dữ liệu của bạn. Cụm kho dữ liệu sẽ không sẵn sàng cho truy vấn và cập nhật đến khi nút thay thế được cung cấp và thêm vào CSDL. Amazon Redshift làm cho nút thay thế của bạn sẵn sàng ngay lập tức và ưu tiên tải dữ liệu thường xuyên truy cập nhất của bạn từ S3 trước để cho phép bạn tiếp tục truy vấn dữ liệu nhanh nhất có thể. Các cụm một nút không hỗ trợ sao chép dữ liệu. Trong trường hợp sự cố ổ đĩa, bạn cần khôi phục cụm từ bản kết xuất nhanh trên S3. Chúng tôi khuyến cáo nên sử dụng tối thiểu hai nút cho môi trường sản xuất.

Câu hỏi: Điều gì xảy ra với khả năng sẵn sàng của cụm kho dữ liệu của tôi và độ bền dữ liệu nếu Vùng sẵn sàng (AZ) của cụm kho dữ liệu của tôi bị mất điện?

Nếu Vùng sẵn sàng của cụm kho dữ liệu Amazon Redshift không khả dụng, Amazon Redshift sẽ tự động di chuyển cụm của bạn sang Vùng sẵn sàng (AZ) AWS khác mà không có bất kỳ sự mất dữ liệu hoặc thay đổi ứng dụng nào. Để kích hoạt tính năng này, bạn phải bật khả năng tái di chuyển trong mục cài đặt cấu hình cụm của mình.

Câu hỏi: Amazon Redshift có hỗ trợ Triển khai nhiều vùng sẵn sàng không?

Hiện tại, Amazon Redshift chỉ hỗ trợ triển khai Một khu vực. Để thiết lập cấu hình khôi phục sau thảm họa (DR), bạn có thể kích hoạt bản sao kết xuất nhanh liên Khu vực trên cụm của mình. Việc này sẽ sao chép mọi bản kết xuất nhanh từ cụm của bạn đến một Khu vực AWS khác. Trong trường hợp có sự kiện DR, bản kết xuất nhanh trong Khu vực bản sao có thể được khôi phục để tạo cụm mới. Amazon Redshift cũng hỗ trợ khả năng chia sẻ dữ liệu liên Khu vực, theo đó một cụm người tiêu dùng có thể truy cập dữ liệu trực tiếp trong một cụm nhà sản xuất tại một khu vực khác. Tính năng này chỉ được hỗ trợ trên Amazon Redshift Serverless và RA3.

Truy vấn và phân tích

Câu hỏi: Amazon Redshift và Redshift Spectrum có tương thích với gói phần mềm nghiệp vụ thông minh và công cụ ETL ưa thích của tôi không?

Có, Amazon Redshift sử dụng SQL theo tiêu chuẩn ngành và được truy cập bằng cách sử dụng trình điều khiển JDBC và ODBC tiêu chuẩn. Bạn có thể tải xuống trình điều khiển JDBC và ODBC tùy chỉnh theo Amazon Redshift từ tab Kết nối máy khách của Bảng điều khiển Redshift. Chúng tôi đã chứng thực các tích hợp với nhà cung cấp BI và ETL thông dụng, một số trong số đó đang cho phép dùng thử miễn phí để giúp bạn bắt đầu tải và phân tích dữ liệu. Bạn cũng có thể truy cập AWS Marketplace để triển khai và định cấu hình các giải pháp được thiết kế tương thích với Amazon Redshift trong vài phút.

Amazon Redshift Spectrum hỗ trợ tất cả các công cụ máy khách Amazon Redshift. Công cụ máy khách có thể tiếp tục kết nối với điểm cuối của cụm Amazon Redshift bằng kết nối ODBC hoặc JDBC. Không yêu cầu thay đổi gì.

Bạn sử dụng cú pháp truy vấn giống hệt và có các tính năng truy vấn tương tự để truy cập bảng trên Redshift Spectrum như các tính năng bạn có cho bảng trên bộ lưu trữ cục bộ của cụm Redshift. Bảng bên ngoài được tham chiếu bằng cách sử dụng tên schema xác định theo lệnh CREATE EXTERNAL SCHEMA, nơi chúng đã được đăng ký.

Câu hỏi: Amazon Redshift Spectrum hỗ trợ những định dạng dữ liệu và định dạng nén nào?

Amazon Redshift Spectrum hiện hỗ trợ nhiều định dạng dữ liệu nguồn mở, như: Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text và TSV.

Amazon Redshift Spectrum hiện hỗ trợ dạng nén Gzip và Snappy.

Câu hỏi: Điều gì xảy ra nếu một bảng trên bộ lưu trữ cục bộ của tôi có tên giống với bảng bên ngoài?

Giống như bảng cục bộ, bạn có thể sử dụng tên quy ước để chọn chính xác bảng mong muốn bằng cách sử dụng schema_name.table_name trong truy vấn của bạn.

Câu hỏi: Tôi sử dụng Hive Metastore để lưu trữ siêu dữ liệu về kho dữ liệu S3. Tôi có thể sử dụng Redshift Spectrum không?

Có. Lệnh CREATE EXTERNAL SCHEMA hỗ trợ Hive Metastores. Chúng tôi hiện không hỗ trợ DDL cho Hive Metastore.

Câu hỏi: Làm thế nào để lấy danh sách toàn bộ các bảng cơ sở dữ liệu bên ngoài được tạo ra trên cụm của tôi?

Bạn có thể truy vấn bảng hệ thống SVV_EXTERNAL_TABLES để xem thông tin đó.

Câu hỏi: Redshift có hỗ trợ khả năng sử dụng Máy học với SQL không?

Có, tính năng Amazon Redshift ML giúp người dùng SQL dễ dàng tạo, đào tạo và triển khai các mô hình máy học (ML) bằng cách sử dụng các lệnh SQL quen thuộc. Amazon Redshift ML cho phép bạn tận dụng dữ liệu của mình trong Amazon Redshift với Amazon SageMaker, một dịch vụ ML được quản lý hoàn toàn. Amazon Redshift hỗ trợ cả quá trình học không giám sát (K-Means) và có giám sát (các thuật toán Autopilot, XGBoost, MLP). Bạn cũng có thể sử dụng dịch vụ AI ngôn ngữ AWS để dịch, biên tập và phân tích các trường văn bản trong truy vấn SQL bằng các hàm UDF Lambda dựng sẵn - xem bài đăng trên blog.

Câu hỏi: Amazon Redshift có cung cấp API để truy vấn dữ liệu không?

Amazon Redshift cung cấp API Dữ liệu mà bạn có thể sử dụng để dễ dàng truy cập dữ liệu từ Amazon Redshift bằng tất cả các loại ứng dụng theo sự kiện và ứng dụng dựa trên dịch vụ web phi máy chủ, nằm trong bộ chứa và truyền thống, hoạt động trên đám mây. API Dữ liệu đơn giản hóa việc truy cập vào Amazon Redshift vì bạn không cần đặt cấu hình trình điều khiển và quản lý kết nối cơ sở dữ liệu. Thay vào đó, bạn có thể chạy các lệnh SQL tới cụm Amazon Redshift đơn giản bằng cách gọi điểm cuối API bảo mật do API Dữ liệu cung cấp. API dữ liệu quản lý các kết nối cơ sở dữ liệu và dữ liệu đệm. API dữ liệu không đồng bộ, do đó bạn có thể truy xuất kết quả sau này. Kết quả truy vấn của bạn được lưu trữ trong 24 giờ.

Câu hỏi: Tôi có thể sử dụng những loại thông tin xác thực nào với API dữ liệu của Amazon Redshift?

API dữ liệu hỗ trợ thông tin xác thực IAM và sử dụng khóa bí mật từ AWS Secrets Manager. API dữ liệu liên kết thông tin xác thực AWS Identity and Access Management (IAM) để bạn có thể sử dụng các nhà cung cấp danh tính như Okta hoặc Azure Active Directory hãy thông tin xác thực cơ sở dữ liệu được lưu trữ trong Secrets Manager mà không cần chuyển thông tin xác thực cơ sở dữ liệu trong lệnh gọi API.

Câu hỏi: Tôi có thể sử dụng API dữ liệu Amazon Redshift từ AWS CLI không?

Có, bạn có thể sử dụng API dữ liệu từ AWS CLI bằng tùy chọn dòng lệnh aws redshift-data.

Câu hỏi: API dữ liệu của Redshift có được tích hợp với các dịch vụ AWS khác không?

Bạn có thể sử dụng API dữ liệu từ các dịch vụ khác như AWS Lambda, AWS Cloud9, AWS AppSync và Amazon EventBridge.

Câu hỏi: Tôi có phải trả phí riêng cho việc sử dụng API dữ liệu của Amazon Redshift không?

Không, chúng tôi không tính phí riêng cho việc sử dụng API dữ liệu.

Sao lưu và phục hồi

Hỏi: Amazon Redshift sao lưu dữ liệu của tôi như thế nào? Làm thế nào để khôi phục cụm từ bản sao lưu?

Các cụm Amazon Redshift RA3 và Amazon Redshift Serverless sử dụng Ổ lưu trữ được Redshift quản lý luôn cung cấp bản sao dữ liệu mới nhất. Các cụm DS2 và DC2 phản chiếu dữ liệu trên cụm để đảm bảo bản sao mới nhất được cung cấp trong trường hợp xảy ra lỗi. Các bản sao lưu được tự động tạo trên tất cả các loại cụm Redshift và được lưu giữ trong 24 giờ, và trên các điểm khôi phục phi máy chủ được cung cấp trong 24 giờ qua.

Bạn cũng có thể tạo bản sao lưu của riêng mình để lưu giữ lâu dài. Những bản sao lưu này có thể được tạo vào bất kỳ lúc nào và Amazon Redshift tự động tạo bản sao lưu hoặc các điểm khôi phục Amazon Redshift Serverless có thể được chuyển thành một bản sao lưu của người dùng để lưu giữ lâu hơn.

Amazon Redshift cũng có thể sao chép không đồng bộ các bản kết xuất nhanh của bạn hoặc các điểm khôi phục lên Amazon S3 ở Khu vực khác để khắc phục sự cố.

Trên một cụm DS2 hoặc DC2, lưu trữ sao lưu miễn phí chỉ giới hạn theo tổng dung lượng lưu trữ trên các nút của cụm kho dữ liệu và chỉ áp dụng với cụm kho dữ liệu hiện hoạt.

Ví dụ: nếu bạn có tổng dung lượng lưu trữ kho dữ liệu bằng 8 TB, chúng tôi sẽ cung cấp tối đa 8 TB dung lượng lưu trữ sao lưu và không tính thêm phí. Nếu bạn muốn tăng thời gian lưu giữ bản sao lưu lên nhiều ngày, thì bạn có thể làm việc này bằng Bảng điều khiển quản lý AWS hoặc API Amazon Redshift. Để biết thêm thông tin về ảnh chụp nhanh tự động, vui lòng tham khảo Hướng dẫn quản lý Amazon Redshift.

Amazon Redshift chỉ sao lưu dữ liệu có sự thay đổi để hầu hết các ảnh chụp nhanh chỉ chiếm một phần nhỏ dung lượng lưu trữ sao lưu khả dụng của bạn. Khi bạn cần khôi phục bản sao lưu, bạn có thể truy cập tất cả các bản sao lưu tự động trong khoảng thời gian lưu giữ sao lưu của bạn. Sau khi bạn chọn bản sao lưu để khôi phục, chúng tôi sẽ cung cấp một cụm kho dữ liệu mới và khôi phục dữ liệu của bạn lên cụm đó.

Câu hỏi: Làm thế nào để quản lý việc lưu giữ bản sao lưu và bản kết xuất nhanh tự động của tôi?

Bạn có thể sử dụng Bảng điều khiển quản lý AWS hoặc API ModifyCluster để quản lý khoảng thời gian lưu giữ bản sao lưu tự động của bạn bằng cách điều chỉnh tham số RetentionPeriod. Nếu muốn tắt tự động sao lưu, bạn có thể thiết lập thời gian giữ lại bằng 0 (không khuyến cáo).

Câu hỏi: Điều gì xảy ra với bản sao lưu nếu tôi xóa cụm kho dữ liệu của mình?

Khi xóa cụm kho lưu trữ dữ liệu, bạn có thể chỉ định có tạo bản kết xuất nhanh cuối cùng sau khi xóa không. Thao tác này cho phép khôi phục cụm kho lưu trữ dữ liệu đã bị xóa trong tương lai. Toàn bộ các bản kết xuất nhanh thủ công tạo ra trước đó của cụm kho dữ liệu sẽ được giữ lại và tính phí theo mức phí tiêu chuẩn của Amazon S3, trừ khi bạn chọn xóa chúng.

Giám sát và bảo trì

Câu hỏi: Làm thế nào để giám sát hiệu suất của cụm kho dữ liệu Amazon Redshift?

Các chỉ số về mức sử dụng điện toán, mức sử dụng dung lượng lưu trữ và lưu lượng đọc/ghi lên cụm kho dữ liệu Amazon Redshift được cung cấp miễn phí thông qua Bảng điều khiển quản lý AWS hoặc các API Amazon CloudWatch. Bạn cũng có thể thêm các chỉ số khác do người dùng xác định thông qua tính năng chỉ số tùy chỉnh của Amazon CloudWatch. Bảng điều khiển quản lý AWS cung cấp một bảng thông tin giám sát giúp bạn giám sát tình trạng và hiệu năng ở tất cả các cụm của bạn. Amazon Redshift cũng cung cấp thông tin về hiệu suất truy vấn và cụm thông qua Bảng điều khiển quản lý AWS. Thông tin này cho phép bạn xem người dùng và truy vấn nào sử dụng nhiều tài nguyên hệ thống nhất để chẩn đoán các vấn đề về hiệu suất thông qua việc quan sát các kế hoạch truy vấn và số liệu thống kê thực hiện. Ngoài ra, bạn có thể xem mức sử dụng tài nguyên trên mỗi nút điện toán để bảo đảm bạn có dữ liệu và truy vấn được cân bằng phù hợp giữa tất cả các nút.

Câu hỏi: Thế nào là một khoảng thời gian bảo trì? Câu hỏi: Cụm kho dữ liệu của tôi có sẵn sàng trong quá trình bảo trì phần mềm không?

Amazon Redshift định kỳ thực hiện bảo trì để áp dụng các bản sửa lỗi, tăng cường và tính năng mới cho cụm của bạn. Bạn có thể thay đổi khoảng thời gian bảo trì định kỳ này bằng cách điều chỉnh cụm, tự động theo lập trình hoặc sử dụng Bảng điều khiển Redshift. Trong khoảng thời gian bảo trì này, cụm Amazon Redshift của bạn không còn sẵn sàng để phục vụ các thao tác thông thường nữa. Để biết thêm thông tin về khoảng thời gian bảo trì và lịch theo khu vực, xem Khoảng thời gian bảo trì trong Hướng dẫn quản lý Amazon Redshift.

Tìm hiểu thêm về giá của Amazon Redshift

Truy cập trang giá
Bạn đã sẵn sàng xây dựng chưa?
Bắt đầu sử dụng Amazon Redshift
Bạn có thêm thắc mắc?
Liên hệ với chúng tôi