Quản lý hàng chục đến hàng tỷ đối tượng trên quy mô lớn

S3 Batch Operations là một tính năng quản lý dữ liệu của Amazon S3, cho phép bạn quản lý hàng tỷ đối tượng trên quy mô lớn chỉ với vài cú nhấp chuột trong Bảng điều khiển quản lý Amazon S3 hoặc một yêu cầu API duy nhất. Với tính năng này, bạn có thể thực hiện các thay đổi đối với thuộc tính và dữ liệu mô tả của đối tượng, cũng như thực hiện các tác vụ quản lý lưu trữ khác như sao chép đối tượng giữa các vùng lưu trữ, thay thế các tập thẻ đối tượng, sửa đổi các kiểm soát truy cập và khôi phục các đối tượng đã lưu trữ từ S3 Glacier — thay vì mất hàng tháng phát triển ứng dụng tùy chỉnh để thực hiện các tác vụ này.

S3 Batch Operations

S3 Batch Operations là một giải pháp được quản lý để thực hiện các hoạt động lưu trữ, như sao chép và gắn thẻ đối tượng trên quy mô lớn, dù là đối với tác vụ một lần hay khối lượng công việc theo lô, định kỳ. S3 Batch Operations có thể thực hiện thao tác trên hàng tỷ đối tượng và hàng petabyte dữ liệu chỉ với một yêu cầu duy nhất. Để thực hiện công việc trong S3 Batch Operations, bạn có thể tạo một tác vụ. Tác vụ bao gồm danh sách các đối tượng, thao tác cần thực hiện và bộ thông số mà bạn chỉ định cho loại hoạt động đó. Bạn có thể tạo và chạy nhiều tác vụ cùng lúc trong S3 Batch Operations hoặc sử dụng các ưu tiên tác vụ khi cần để xác định mức độ ưu tiên cho từng tác vụ và đảm bảo công việc quan trọng nhất diễn ra trước. S3 Batch Operations cũng quản lý các lần thử lại, theo dõi tiến trình, gửi thông báo hoàn thành, tạo báo cáo và gửi sự kiện tới AWS CloudTrail đối với tất cả các thay đổi đã thực hiện và những tác vụ được thực thi.

S3 Batch Operations giúp bổ sung cho bất kỳ kiến trúc theo sự kiện nào mà bạn đang vận hành. Đối với đối tượng mới, việc sử dụng các sự kiện S3 và hàm Lambda phù hợp để chuyển đổi các loại tệp, tạo hình thu nhỏ, tiến hành quét dữ liệu và thực hiện những hoạt động khác. Ví dụ: khách hàng sử dụng các sự kiện S3 và hàm Lambda để tạo phiên bản ảnh thô có kích thước nhỏ hơn, độ phân giải thấp khi tải hình ảnh lên S3 lần đầu. S3 Batch Operations bổ sung cho luồng công việc theo sự kiện có sẵn bằng cách cung cấp một cơ chế đơn giản để thực hiện những thao tác tương tự trên các đối tượng có sẵn của bạn.

Cách thức hoạt động: Thao tác hàng loạt trong S3

Sơ đồ cách thức hoạt động của tính năng Thao tác hàng loạt trong Amazon S3

Để thực hiện công việc trong Thao tác hàng loạt S3, bạn có thể tạo một tác vụ. Tác vụ bao gồm danh sách các đối tượng, thao tác cần thực hiện và bộ thông số mà bạn chỉ định cho loại hoạt động đó. Bạn có thể tạo và chạy nhiều tác vụ cùng lúc trong S3 Batch Operations hoặc sử dụng các ưu tiên tác vụ khi cần để xác định mức độ ưu tiên cho từng tác vụ và đảm bảo công việc quan trọng nhất diễn ra trước. Thao tác hàng loạt trong S3 cũng quản lý các lần thử lại, theo dõi tiến trình, gửi thông báo hoàn thành, tạo báo cáo và gửi sự kiện tới AWS CloudTrail đối với tất cả các thay đổi đã thực hiện và những tác vụ được thực thi.

Hướng dẫn về S3 Batch Operations

Khách hàng

  • Teespring

    Teespring được thành lập năm 2011, cho phép người dùng tạo và bán trực tuyến các sản phẩm tùy chỉnh theo nhu cầu. Vì tất cả hàng hóa tùy chỉnh đều yêu cầu nhiều tài sản bên trong Teespring, nên chúng lưu trữ hàng petabyte dữ liệu trong Amazon S3.

    Thao tác hàng loạt trong Amazon S3 giúp chúng tôi tối ưu hóa công việc lưu trữ nhờ sử dụng lớp lưu trữ Glacier của Amazon S3. Chúng tôi đã sử dụng siêu dữ liệu lưu trữ của mình để tạo ra các lô đối tượng cho phép di chuyển sang Amazon S3 Glacier. Nhờ Amazon S3 Glacier, chúng tôi đã tiết kiệm được trên 80% chi phí lưu trữ. Chúng tôi luôn tìm kiếm cơ hội để tự động hóa công việc quản lý lưu trữ và nhờ có Thao tác hàng loạt trong S3, chúng tôi có thể quản lý hàng triệu đối tượng chỉ trong vài phút.

    James Brady, Phó Chủ tịch chuyên trách Kỹ thuật - Teespring
  • Capital One

    Capital One là một ngân hàng được thành lập kết hợp giữa tài chính và công nghệ, đồng thời là một trong những thương hiệu được biết đến nhiều nhất ở Mỹ. Capital One đã sử dụng Amazon S3 Batch Operations để sao chép dữ liệu giữa hai khu vực AWS nhằm tăng khả năng dự phòng dữ liệu và chuẩn hóa phạm vi dữ liệu của mình giữa hai địa điểm đó.

    Nhờ Thao tác hàng loạt trong Amazon S3, chúng tôi đã có thể tạo ra một tác vụ để sao chép hàng triệu đối tượng chỉ trong vài giờ, thay vì mất nhiều tháng để hoàn thành. Chúng tôi đã sử dụng báo cáo kho của Amazon S3, bao gồm danh sách đối tượng trong vùng lưu trữ của chúng tôi, làm đầu vào cho tác vụ Amazon S3 Batch Operations. Amazon S3 là công cụ sao chép dữ liệu, cung cấp thông tin cập nhật tiến trình và báo cáo kiểm tra khi hoàn thành tác vụ. Tính năng này giúp nhóm chúng tôi giảm bớt nhiều tuần làm việc thủ công và biến công việc truyền dữ liệu quy mô lớn này thành một hoạt động thường xuyên.

    Franz Zemen, Phó Chủ tịch, Kỹ thuật Phần mềm - Capital One
  • ePlus

     

    ePlus, một đối tác tư vấn cao cấp của AWS, thường làm việc với khách hàng để tối ưu hóa môi trường CNTT và sử dụng các giải pháp, như S3 Batch Operations, để tiết kiệm thời gian cũng như tiền bạc cho khách hàng.

    Thao tác hàng loạt trong S3 thật sự tuyệt vời. Giải pháp này không chỉ giúp một trong những khách hàng của chúng tôi tiết kiệm thời gian, giảm độ phức tạp và khó khăn khi tập hợp nhiều lựa chọn hoạt động S3, lên lịch tác vụ, sau đó hiển thị thông tin trên bảng thông tin dễ sử dụng, mà còn giúp xử lý một số trường hợp khó khăn mà tôi cho rằng chúng tôi sẽ không thể giải quyết xong trong một phần nhỏ thời gian mà S3 Batch Operations đã hoàn thành.
     
    Ví dụ: S3 Batch Operations đã sao chép nhanh chóng hơn 2 triệu đối tượng trên các khu vực trong cùng một tài khoản mà vẫn đảm bảo sự nguyên vẹn của siêu dữ liệu. Giải pháp này thực hiện trơn tru các tác vụ tương tự nhau trên nhiều tài khoản. Đáng chú ý nhất là giải pháp tạo ra một báo cáo hoàn thành tự động sàng lọc và tách riêng các hoạt động thành công và thất bại trong số 400 triệu đối tượng, cho phép xử lý đơn giản các hoạt động thất bại trong một tệp.

    David Lin, Kiến trúc sư giải pháp cấp cao kiêm Chuyên gia được chứng nhận AWS – ePlus