Bắt đầu với dự án

7 bước  |  60 phút

Câu hỏi: Kho dữ liệu là gì?

Phân tích là công việc phổ biến rộng khắp. Chúng ta đều sử dụng báo cáo và bảng thông tin để quản lý công việc, báo cáo tiến độ cho các bên liên quan và thực hiện phân tích tùy biến để hỗ trợ ra quyết định. Về căn bản, những báo cáo, bảng thông tin và công cụ BI này do các kho dữ liệu cung cấp. Các kho này lưu trữ dữ liệu hiệu quả để giảm thiểu I/O và nhanh chóng cung cấp kết quả truy vấn cho hàng trăm đến hàng nghìn người dùng cùng lúc. Không giống cơ sở dữ liệu giao dịch, kho dữ liệu sử dụng bộ lưu trữ và kiến trúc chuyên dụng để đạt hiệu năng tải dữ liệu và truy vấn nhanh. Kho dữ liệu cũng cần có quy mô cực kỳ linh hoạt để bạn có thể thêm nguồn dữ liệu bất kỳ lúc nào, từ đó làm phong phú các nội dung phân tích và thông tin chi tiết. Cuối cùng, kho dữ liệu cần tích hợp liền mạch với máy khách SQL và các công cụ nghiệp vụ thông minh bên thứ 3, cũng như hỗ trợ SQL tiêu chuẩn để khách hàng có thể sử dụng các kỹ năng sẵn có.

Câu hỏi: Vì sao tôi nên chạy kho dữ liệu trên AWS?

Amazon Redshift là giải pháp kho dữ liệu của chúng tôi, có tốc độ truy cập nhanh, dễ sử dụng và được quản lý toàn phần. Giải pháp này tự động hóa các tác vụ quản trị và cung cấp cơ sở hạ tầng như sao lưu, sao chép và vá lỗi. Giải pháp này tích hợp liền mạch với các công cụ ETL và BI bên thứ 3, vì vậy, bạn có thể nhận được báo cáo đầu tiên chỉ trong vài phút. Ngoài ra, Amazon Redshift không giới hạn lượng dữ liệu mà bạn có thể tải và phân tích. Khi lượng dữ liệu tăng lên, bạn không cần phải lo lắng về các bản nâng cấp hệ thống tốn kém hay hiệu năng chậm. Amazon Redshift hoạt động nhanh chóng ở mọi quy mô vì sử dụng định dạng lưu trữ theo cột và nhiều kỹ thuật tối ưu hóa. Amazon RedShift cũng hiệu quả về chi phí và bạn chỉ phải trả tiền cho những gì mình sử dụng. Tóm lại, bạn có thể có số lượng người dùng không giới hạn thực hiện phân tích không giới hạn trên toàn bộ dữ liệu của bạn chỉ với giá 1000 USD mỗi terabyte mỗi năm. 

Câu hỏi: Amazon Redshift là gì?

Amazon Redshift là kho dữ liệu có quy mô petabyte, có tốc độ truy cập nhanh và được quản lý toàn phần, giúp cho việc phân tích toàn bộ dữ liệu của bạn bằng các công cụ nghiệp vụ thông minh hiện có trở nên đơn giản và hiệu quả về chi phí. Bạn có thể bắt đầu ở quy mô nhỏ với chỉ 0.25 USD mỗi giờ và không phải cam kết, cũng như được hỗ trợ tăng quy mô lên đến hàng petabyte với giá 1.000 USD mỗi terabyte mỗi năm, chưa đến một phần mười mức chi phí của các giải pháp truyền thống. Phần lớn khách hàng sẽ thấy kích thước dữ liệu giảm 3 lần sau khi nén, giảm chi phí xuống còn 333 USD mỗi terabyte chưa nén mỗi năm.

Câu hỏi: Hiệu năng của Amazon Redshift so với hầu hết các cơ sở dữ liệu truyền thống khác về khía cạnh kho dữ liệu và phân tích như thế nào?

Amazon Redshift sử dụng nhiều cải tiến để đạt hiệu năng cao hơn gấp 10 lần so với cơ sở dữ liệu truyền thống cho khối lượng công việc kho dữ liệu và phân tích:

  • Xử lý song song hàng loạt: Amazon Redshift cung cấp hiệu năng truy vấn nhanh trên các bộ dữ liệu có kích thước từ gigabyte đến exabyte. Redshift sử dụng định dạng lưu trữ theo cột, phương thức nén dữ liệu và bản đồ vùng để giảm lượng I/O cần để thực hiện truy vấn. Amazon Redshift sở hữu kiến trúc kho dữ liệu xử lý song song quy mô lớn (MPP), xử lý song song và phân phối các phép toán SQL để tận dụng toàn bộ tài nguyên sẵn có. Phần cứng nền tảng được thiết kế để xử lý dữ liệu với hiệu năng cao, bằng cách sử dụng các bộ lưu trữ gắn cục bộ để tăng tối đa thông lượng giữa các CPU và ổ đĩa, bên cạnh mạng lưới băng thông cao để tăng tối đa thông lượng giữa các nút.
  • Machine learning: Amazon Redshift sử dụng machine learning để cung cấp thông lượng cao, bất kể khối lượng công việc hay mức sử dụng đồng thời. Redshift tận dụng các thuật toán phức tạp để dự đoán thời gian chạy truy vấn đến và chỉ định truy vấn cho hàng đợi tối ưu để xử lý nhanh nhất. Ví dụ: các truy vấn như bảng thông tin và báo cáo có yêu cầu về tính đồng thời cao sẽ được định tuyến đến một hàng đợi nhanh để xử lý ngay lập tức. Khi tính đồng thời tăng lên, Amazon Redshift sẽ dự đoán thời điểm có thể bắt đầu xếp hàng đợi và tự động triển khai các tài nguyên tạm thời bằng tính năng Thay đổi quy mô đồng thời, nhằm đảm bảo hiệu năng luôn cao, bất kể sự biến động nhu cầu đối với cụm.
  • Lưu kết quả vào bộ nhớ đệm: Amazon Redshift sử dụng tính năng lưu kết quả vào bộ nhớ đệm để cung cấp thời gian phản hồi chưa đầy một giây cho các truy vấn lặp lại. Bảng thông tin, trực quan hóa và các công cụ nghiệp vụ thông minh thực hiện các truy vấn lặp lại có thể tăng hiệu suất đáng kể. Khi một truy vấn thực thi, Redshift tìm kiếm trong bộ nhớ đệm để xem liệu có kết quả được lưu trong bộ nhớ đệm từ lần chạy trước hay không. Nếu tìm thấy kết quả được lưu trong bộ nhớ đệm và dữ liệu chưa thay đổi, kết quả được lưu trong bộ nhớ đệm sẽ được trả về ngay lập tức thay vì chạy lại truy vấn. 

Câu hỏi: Làm cách nào để tôi truy cập cụm kho dữ liệu đang chạy của mình?

Sau khi cụm kho dữ liệu của bạn đã sẵn sàng, bạn có thể truy xuất điểm cuối của cụm cùng với chuỗi kết nối JDBC và ODBC từ Bảng điều khiển quản lý AWS hoặc bằng cách sử dụng API Redshift. Sau đó, bạn có thể sử dụng chuỗi kết nối này với công cụ cơ sở dữ liệu, ngôn ngữ lập trình hoặc công cụ Nghiệp vụ thông minh (BI) yêu thích. Bạn cần ủy quyền các yêu cầu mạng cho cụm kho dữ liệu đang chạy của bạn. Để biết phần giải thích chi tiết, vui lòng tham khảo Hướng dẫn bắt đầu của chúng tôi.

Câu hỏi: Amazon Redshift có tương thích với các công cụ ETL và gói phần mềm nghiệp vụ thông minh ưa thích của tôi không?

Amazon Redshift sử dụng SQL theo tiêu chuẩn ngành và được truy cập bằng cách sử dụng trình điều khiển JDBC và ODBC tiêu chuẩn. Bạn có thể tải xuống trình điều khiển JDBC và ODBC tùy chỉnh theo Amazon Redshift từ tab Kết nối máy khách trong Bảng điều khiển của chúng tôi. Chúng tôi đã chứng thực các tích hợp với nhà cung cấp BI và ETL thông dụng, một số nhà cung cấp đang cho phép dùng thử miễn phí để giúp bạn bắt đầu tải và phân tích dữ liệu. Bạn cũng có thể truy cập AWS Marketplace để triển khai và định cấu hình các giải pháp được thiết kế tương thích với Amazon Redshift trong vài phút.

Câu hỏi: Làm thế nào để bắt đầu sử dụng Amazon Redshift?

Bạn có thể dùng thử Amazon Redshift miễn phí. Nếu chưa từng tạo cụm Amazon Redshift, bạn sẽ đủ điều kiện dùng thử miễn phí nút DC1.Large của chúng tôi trong 2 tháng. Bạn sẽ nhận được 750 giờ sử dụng miễn phí mỗi tháng, đủ số giờ để chạy liên tục một nút DC1.Large với 160 GB dung lượng lưu trữ SSD nén. Bạn cũng có thể tạo cụm có nhiều nút để thử nghiệm các bộ dữ liệu lớn hơn, các bộ này sẽ tiêu thụ số giờ miễn phí của bạn nhanh hơn. Khi hết 2 tháng dùng thử miễn phí hoặc mức sử dụng của bạn vượt quá 750 giờ mỗi tháng, bạn có thể tắt cụm để tránh phát sinh phí hoặc tiếp tục chạy cụm với mức Phí theo nhu cầu tiêu chuẩn của chúng tôi.

Bắt đầu với dự án