Chuyển đến nội dung chính

Điện toán cụm là gì?

Điện toán cụm là quá trình sử dụng nhiều nút tính toán, được gọi là cụm, để tăng sức mạnh xử lý để giải quyết các vấn đề phức tạp. Các trường hợp sử dụng phức tạp như nghiên cứu thuốc, phân tích protein và đào tạo mô hình AI yêu cầu xử lý song song hàng triệu điểm dữ liệu cho các nhiệm vụ phân loại và dự đoán phức tạp. Công nghệ điện toán cụm điều phối nhiều nút tính toán, mỗi nút có CPU, GPU và bộ nhớ trong riêng, để làm việc cùng nhau trên cùng một tác vụ xử lý dữ liệu. Các ứng dụng trên cơ sở hạ tầng điện toán cụm chạy như thể trên một máy duy nhất và không hề bị ảnh hưởng bởi sự phức tạp của hệ thống.

Công nghệ điện toán cụm phát triển như thế nào?

Các cụm máy tính được phát minh vào những năm 1960 để cung cấp sức mạnh xử lý song song, bộ nhớ và lưu trữ trên nhiều máy tính. Các cụm ban đầu bao gồm máy tính cá nhân, máy trạm và máy chủ. Mỗi máy tính được kết nối với một mạng cục bộ (LAN), cho phép người dùng truy cập tài nguyên như thể sử dụng một máy tính duy nhất.

Trong những năm qua, các công nghệ cho phép điện toán cụm đã phát triển, do đó, các trường hợp sử dụng trở nên đa dạng hơn, chẳng hạn như tính toán hiệu suất cao (HPC). Điện toán hiệu suất cao sử dụng nhiều bộ xử lý được kết nối, có thể là hàng trăm nghìn, để cung cấp sức mạnh điện toán song song khổng lồ. Các tổ chức sử dụng HPC để hỗ trợ khối lượng công việc trong các ứng dụng sử dụng nhiều tài nguyên như phân tích dữ liệu, nghiên cứu khoa học, máy học và xử lý trực quan.

Điện toán cụm trong đám mây

Theo cách truyền thống, việc thiết lập cụm máy tính yêu cầu cài đặt và cấu hình thủ công máy tính, hệ điều hành, khả năng mạng và cơ chế phân phối tài nguyên. Ngoài ra, việc thiết lập tại chỗ gây căng thẳng tài chính cho các tổ chức do quá trình mở rộng cụm đòi hỏi phải đầu tư vào nhiều phần cứng máy chủ hơn.

Ngày nay, nhiều nhà cung cấp đám mây cung cấp các cụm điện toán hiệu suất cao được quản lý (HPC) mà trên đó các tổ chức có thể dễ dàng triển khai các luồng công việc của họ. Thay vì thiết lập hàng nghìn máy tính được kết nối tại chỗ, bạn có thể truy cập sức mạnh xử lý đám mây không giới hạn với AWS HPC.

AWS HPC cho phép các đội ngũ phần mềm đổi mới và mở rộng luồng công việc bằng nhiều dịch vụ điện toán cụm có sẵn. Ví dụ: Hypersonix sử dụng điện toán hiệu năng cao để chạy các mô phỏng động lực học chất lỏng tốc độ cao liên quan đến hàng triệu ô trong đám mây AWS.

Các trường hợp sử dụng của điện toán cụm là gì?

Dưới đây, chúng tôi chia sẻ các ứng dụng điển hình của công nghệ điện toán cụm.

Phân tích dữ liệu lớn

Điện toán cụm có thể tăng tốc phân tích dữ liệu bằng cách phân phối các tác vụ phân tích cho nhiều máy tính song song. Ví dụ: bạn có thể chạy các phép tính toán phức tạp như Monte Carlo, gen hoặc phân tích tâm lý với các cụm điện toán đám mây được kiến trúc để hỗ trợ khối lượng công việc HPC.

Trí tuệ nhân tạo và máy học

Các ứng dụng trí tuệ nhân tạo và máy học (AI/ML) tiêu thụ sức mạnh xử lý khổng lồ khi đào tạo và xử lý dữ liệu. Với cơ sở hạ tầng điện toán cụm được xây dựng theo mục đích, các nhà khoa học dữ liệu có thể đẩy nhanh thời gian đạt kết quả. Ví dụ: bạn có thể chạy khối lượng công việc AI/ML của mình trên các cụm AI đám mây được cung cấp bởi AWS Trainium, một chip tính toán được thiết kế để tăng tốc nghiên cứu AI. 

Phối cảnh 3D

Điện toán cụm cho phép kết xuất cụm, một quá trình mà trong đó nhiều máy tính được kết nối với nhau sẽ đồng bộ hóa hình ảnh hoặc video trên các màn hình khác nhau. Bạn cũng có thể sử dụng kết xuất cụm để hỗ trợ những kỹ thuật có sự hỗ trợ của máy tính, thực tế ảo và các ứng dụng khác đòi hỏi sức mạnh xử lý đồ họa mạnh mẽ.

Mô phỏng

Các tổ chức sử dụng các cụm máy tính để mô phỏng các kết quả khả thi từ dữ liệu để định hướng các quyết định kinh doanh.  Nhiều máy tính, khi được liên kết với nhau, cho phép một quy trình làm việc tương tác, nơi các chuyên gia con người có thể trích xuất, xem xét và tinh chỉnh kết quả từ các mô hình cơ bản. Ví dụ: bạn có thể chạy phân tích rủi ro tài chính bằng cách cung cấp nguồn lực cho luồng công việc máy học cơ bản bằng các tài nguyên từ các máy tính được kết nối. 

Điện toán cụm hoạt động như thế nào?

Điện toán cụm kết nối hai hoặc nhiều máy tính qua một mạng để làm việc gắn kết như một hệ thống duy nhất. Thông thường, thiết lập cụm bao gồm các nút tính toán, nút điều phối, bộ cân bằng tải và cơ chế nhịp tim. Khi nút điều phối nhận được một yêu cầu, nó sẽ chuyển nhiệm vụ cho các nút tính toán. Theo cách mà kỹ sư cấu hình cụm, mỗi nút có thể xử lý tác vụ riêng lẻ hoặc đồng thời. Chúng tôi giải thích từng thành phần dưới đây.

 

Các nút tính toán

Nút tính toán là các máy chủ (hoặc các phiên bản trên đám mây) thực hiện các tác vụ phân tán. Thông thường, chúng có cùng một CPU, GPU, bộ nhớ, lưu trữ, hệ điều hành và các thông số kỹ thuật tính toán khác. Chúng tôi gọi đây là một thiết lập đồng nhất. Một thiết lập không đồng nhất đôi khi có thể được sử dụng, trong đó một số nút cụm có các thông số kỹ thuật tính toán khác nhau.

Nút điều phối

Nút điều phối là một máy tính được chỉ định để điều phối cách các nút tính toán khác làm việc cùng nhau. Nút điều phối nhận yêu cầu đầu vào và phân phối tác vụ đến các nút khác dưới quyền nó. Nếu nút điều phối gặp sự cố, một nút khác sẽ thay thế thông qua quy trình bầu chọn, thường là bằng sự đồng thuận của các nút còn lại.

Bộ cân bằng tải

Bộ cân bằng tải là một thiết bị mạng phân phối lưu lượng đến các nút tính toán thích hợp. Nó theo dõi các hoạt động mạng, mức sử dụng tài nguyên và trao đổi dữ liệu giữa các nút trong cụm. Trong điện toán cụm, bộ cân bằng tải ngăn các nút tính toán bị quá tải bởi sự tăng đột biến của các yêu cầu. Đôi khi, nút điều phối cũng đóng vai trò bộ cân bằng tải thông qua phần mềm cân bằng tải chuyên dụng.

Cơ chế nhịp tim

Cơ chế nhịp tim giám sát tất cả các nút tính toán trong cụm để đảm bảo chúng vẫn hoạt động. Khi một nút không phản hồi, cơ chế này sẽ cảnh báo nút điều phối để phân phối lại tác vụ cho các nút còn hoạt động. 

Có các loại điện toán cụm nào?

Các tổ chức có thể thiết lập cụm tính toán để hỗ trợ các mục tiêu khác nhau về kinh doanh, hiệu năng và vận hành.

Cụm cân bằng tải

Cụm cân bằng tải giúp duy trì vận hành ổn định bằng cách tự động điều phối quản lý tài nguyên. Khi cụm nhận được một yêu cầu, nó sẽ phân phối tác vụ đồng đều cho tất cả các nút khả dụng. Điều này ngăn một nút đơn lẻ bị quá tải. Ví dụ: các doanh nghiệp lưu trữ các trang web thương mại điện tử trên các cụm cân bằng tải để phục vụ cho việc lưu lượng truy cập tăng đột biến theo mùa. Vì tất cả các nút cùng xử lý yêu cầu, người dùng sẽ có trải nghiệm hiệu năng nhất quán bất chấp lưu lượng truy cập cao.

Cụm khả dụng cao

Cụm khả dụng cao (HA) đảm bảo dịch vụ luôn sẵn sàng bằng cách duy trì các nút dự phòng. Khi một nút bị lỗi, bộ cân bằng tải sẽ phân phối lại lưu lượng cho các nút dự phòng, đảm bảo dịch vụ luôn liên tục. Một bộ cân bằng tải dự phòng thường được bao gồm trong thiết lập để ngăn chặn một điểm hỏng hóc đơn lẻ. Bằng cách này, toàn bộ cụm có thể phục hồi kịp thời nếu các thành phần của nó bị lỗi.

Bạn có thể cấu hình cụm khả dụng cao theo hai cách.

Cấu hình hoạt động-kép

Tất cả các nút đều hoạt động, cho dù chúng có được giao nhiệm vụ hay không. Tuy nhiên, nếu một nút gặp sự cố, bộ cân bằng tải sẽ phân phối lại tác vụ cho các nút còn khỏe mạnh.

Cấu hình hoạt động-dự phòng.

Một số nút sẽ ở trạng thái chờ trong quá trình vận hành bình thường. Chúng chỉ được kích hoạt khi một nút gặp sự cố.

Cụm hiệu năng cao

Cụm hiệu năng cao kết hợp nhiều máy tính hoặc siêu máy tính để giải quyết các tác vụ tính toán phức tạp với tốc độ xử lý cao. Thay vì xử lý tuần tự, các cụm hiệu năng cao xử lý dữ liệu song song, điều này mang lại lợi ích cho các ứng dụng sử dụng nhiều tài nguyên như khai thác dữ liệu. Ngoài ra, các nút tính toán có thể trao đổi dữ liệu trong khi cùng hướng tới một mục tiêu chung. 

Vai trò của điện toán cụm trong AI là gì?

Khối lượng công việc AI yêu cầu tài nguyên điện toán và dung lượng lưu trữ khổng lồ cũng như kết nối mạng có độ trễ thấp. Trước đây, các tổ chức đã triển khai khối lượng công việc AI trên các trung tâm dữ liệu tại chỗ. Tuy nhiên, khi các ứng dụng AI trở nên phức tạp hơn, chúng đòi hỏi công suất tính toán mạnh và nhiều không gian lưu trữ hơn. Khi được tái sử dụng cho khối lượng công việc AI, điện toán cụm tạo ra một mạng lưới siêu máy tính khổng lồ mà khối lượng công việc AI có thể chạy trên đó. Thay vì CPU, các siêu máy tính được cung cấp bởi GPU và TPU để đáp ứng nhu cầu tính toán cao. Kiến trúc cụm như vậy, còn được gọi là siêu cụm AI, cho phép các tổ chức xây dựng, triển khai và điều chỉnh quy mô học sâu, hệ thống tự trị, phân tích dữ liệu lớn và các ứng dụng AI khác.

AWS có thể hỗ trợ các nhu cầu về điện toán cụm của bạn như thế nào?

AWS Parallel Computing Service (AWS PCS) là một dịch vụ được quản lý sử dụng Slurm để chạy và mở rộng khối lượng công việc điện toán hiệu suất cao (HPC) trên AWS. Bạn có thể sử dụng AWS PCS để:

  • Đơn giản hóa hoạt động vận hành cụm của bạn bằng cách sử dụng khả năng quản lý và quan sát được tích hợp sẵn.
  • Xây dựng các cụm điện toán được tích hợp khả năng điện toán, lưu trữ, kết nối mạng và trực quan hóa của AWS.
  • Chạy mô phỏng hoặc xây dựng các mô hình khoa học và kỹ thuật.

Trình chuyển cấu trúc linh hoạt (EFA) là một giao diện mạng cho các nút tính toán chạy trên các phiên bản Amazon EC2. Giao diện được xây dựng tùy chỉnh của EFA giúp tăng tốc độ giao tiếp giữa các phiên bản trong cụm, điều cực kỳ quan trọng để mở rộng quy mô các ứng dụng điện toán cụm.

AWS ParallelCluster là một công cụ quản lý cụm mã nguồn mở giúp dễ dàng triển khai và quản lý các cụm Amazon EC2. Banj có thể sử dụng giao diện đồ họa người dùng (GUI) hoặc tệp văn bản đơn giản để lập mô hình và cung cấp các tài nguyên cần thiết cho các ứng dụng HPC của bạn một cách tự động và bảo mật.

Bắt đầu sử dụng điện toán cụm trên AWS bằng cách tạo tài khoản miễn phí ngay hôm nay.