Di chuyển dữ liệu lên đám mây

Đưa dữ liệu tại chỗ lên AWS dành cho việc di chuyển hoặc luồng công việc đang tiến hành

Dữ liệu là nền tảng cho sự thành công trong việc triển khai ứng dụng, luồng công việc phân tích và những cải tiến về machine learning. Khi di chuyển dữ liệu lên đám mây, bạn cần hiểu dữ liệu cho các trường hợp sử dụng khác nhau đang được di chuyển đến đâu, loại dữ liệu bạn đang di chuyển và tài nguyên mạng được sử dụng cùng những lưu ý khác. AWS cung cấp nhiều dịch vụ và công cụ đối tác để giúp bạn di chuyển các tập dữ liệu của mình bất kể dữ liệu ở dạng tệp, cơ sở dữ liệu, ảnh máy, ổ đĩa dạng khối hoặc thậm chí sao lưu băng từ.

Phương pháp thực hành tốt nhất để di chuyển dữ liệu sang AWS (50:07)

Dịch vụ di chuyển dữ liệu đám mây AWS

Bộ dịch vụ truyền dữ liệu do AWS tạo ra bao gồm nhiều phương pháp giúp bạn di chuyển dữ liệu của mình hiệu quả hơn. Bạn có thể xem xét các phương pháp này theo hai nhóm; truyền dữ liệu trực tuyến và lưu trữ đám mây laidi chuyển dữ liệu ngoại tuyến sang Amazon S3.

Truyền dữ liệu trực tuyến và lưu trữ đám mây lai

Các phương pháp này giúp đơn giản hóa việc tạo liên kết mạng đến VPC, truyền dữ liệu sang AWS hoặc sử dụng S3 để lưu trữ đám mây lai với các ứng dụng tại chỗ của bạn. Các dịch vụ này có thể giúp bạn nâng và chuyển các bộ dữ liệu lớn cùng một lúc, cũng như giúp bạn tích hợp luồng quy trình hiện tại như sao lưu và khôi phục hay các luồng dữ liệu liên tục trực tiếp với lưu trữ đám mây.

AWS Direct Connect

Khách hàng chọn một kết nối vật lý chuyên dụng Direct Connect để đẩy nhanh các đợt truyền dữ liệu qua mạng giữa trung tâm dữ liệu của khách hàng và của chúng tôi.

AWS Direct Connect cho phép bạn thiết lập kết nối mạng chuyên biệt giữa mạng của bạn và một trong những địa điểm của AWS Direct Connect. Sử dụng VLAN theo tiêu chuẩn 802.1q của ngành, kết nối này có thể được phân vùng thành nhiều giao diện ảo. Điều này cho phép bạn sử dụng cùng một kết nối để truy cập các tài nguyên công cộng như các đối tượng được lưu trên Amazon S3 sử dụng không gian địa chỉ IP công khai và các tài nguyên riêng như các phiên bản Amazon EC2 đang chạy trong Amazon Virtual Private Cloud (VPC) sử dụng không gian IP riêng, đồng thời duy trì sự tách biệt mạng giữa môi trường công khai và môi trường riêng. Các giao diện ảo có thể được đặt cấu hình lại vào bất kỳ thời điểm nào để đáp ứng các nhu cầu thay đổi liên tục của bạn.

Khám phá Các gói dành cho đối tác AWS Direct Connect giúp bạn mở rộng các công nghệ tại chỗ lên đám mây. 

AWS DataSync

AWS DataSync là dịch vụ truyền dữ liệu giúp bạn dễ dàng tự động hóa việc di chuyển dữ liệu giữa không gian lưu trữ tại chỗ và Amazon S3 hoặc Amazon Elastic File System (Amazon EFS). DataSync tự động xử lý nhiều tác vụ liên quan đến truyền dữ liệu có thể làm chậm quá trình di chuyển hoặc làm ảnh hưởng đến các hoạt động CNTT của bạn, bao gồm tự chạy các phiên bản của bạn, xử lý mã hóa, quản lý tập lệnh, tối ưu hóa mạng và xác thực tính toàn vẹn dữ liệu. Bạn có thể sử dụng DataSync để truyền dữ liệu với tốc độ nhanh hơn gấp 10 lần so với các công cụ nguồn mở. Bạn có thể sử dụng DataSync để sao chép dữ liệu qua AWS Direct Connect hoặc các liên kết Internet đến AWS để di chuyển dữ liệu một lần, quy trình xử lý dữ liệu định kỳ và sao chép tự động để bảo vệ và khôi phục dữ liệu.

AWS Storage Gateway

Dịch vụ AWS Storage Gateway đơn giản hóa việc ứng dụng lưu trữ AWS tại chỗ. Các ứng dụng hiện có của bạn kết nối với cổng kết nối cục bộ thông qua các giao thức lưu trữ khối và băng từ đáp ứng tiêu chuẩn ngành để lưu dữ liệu trên Amazon S3 và Amazon Glacier. Dữ liệu được nén và truyền bảo mật đến AWS.

  • Cổng kết nối tệp cho phép chia sẻ tệp SMB hoặc NFS cho các ứng dụng tại chỗ để lưu trữ tệp dưới dạng đối tượng S3 và truy cập các tệp này bằng giao diện tệp truyền thống.
  • Cấu hình Thư viện băng từ ảo (VTL) của Cổng kết nối băng từ tích hợp liền mạch với phần mềm sao lưu hiện có của bạn để thay thế cho băng từ với chi phí phải chăng trên Amazon S3 và lưu trữ lâu dài trên S3 Glacier cũng như S3 Glacier Deep Archive.
  • Cổng kết nối ổ đĩa lưu trữ hoặc lưu cục bộ ổ đĩa dạng khối vào bộ nhớ đệm, với các bản sao lưu theo thời điểm dưới dạng kết xuất nhanh EBS. Các bản kết xuất nhanh này có thể được khôi phục trên đám mây.

Amazon S3 Transfer Acceleration

Amazon S3 Transfer Acceleration đẩy nhanh tốc độ truyền Internet công cộng sang Amazon S3. Bạn có thể tối đa hóa băng thông có sẵn không phụ thuộc vào khoảng cách hay môi trường Internet thay đổi, đồng thời không có máy khách đặc biệt hay các giao thức mạng độc quyền. Chỉ việc thay đổi điểm cuối mà bạn sử dụng với bộ chứa S3 và quá trình tăng tốc sẽ tự động diễn ra.

Đây là lựa chọn lý tưởng cho những tác vụ định kỳ diễn ra trên khoảng cách toàn cầu, như tải lên nội dung đa phương tiện, sao lưu và các tác vụ xử lý dữ liệu cục bộ thường được gửi tới một vị trí trung tâm.

Amazon Kinesis Data Firehose

Amazon Kinesis Data Firehose là cách đơn giản nhất để tải dữ liệu truyền phát lên AWS. Dịch vụ này có khả năng thu thập và tự động tải luồng dữ liệu lên Amazon S3Amazon Redshift, cho phép thực hiện các phân tích gần như theo thời gian thực bằng công cụ thông tin doanh nghiệp và bảng thông tin hiện có mà bạn hiện vẫn đang sử dụng. Đây là một dịch vụ được quản lý hoàn toàn, tự động thay đổi quy mô để phù hợp với thông lượng dữ liệu và không cần quản trị liên tục. Công cụ này còn có thể chia lô, nén và mã hóa dữ liệu trước khi tải, nhờ đó giảm thiểu lượng dung lượng lưu trữ sử dụng tại điểm đích và tăng độ bảo mật. Bạn có thể dễ dàng tạo luồng phân phối Firehose từ Bảng điều khiển quản lý AWS, đặt cấu hình cho luồng này chỉ bằng vài lần nhấp chuột và bắt đầu gửi dữ liệu đến luồng từ hàng trăm trong số hàng nghìn nguồn dữ liệu cần tải liên tục lên AWS – tất cả chỉ trong vài phút.

Các sản phẩm dành cho đối tác APN

AWS đã hợp tác với một số nhà cung cấp trong ngành về thiết bị cổng kết nối vật lý giúp xóa bỏ khoảng cách giữa sao lưu truyền thống và đám mây. Hãy liên kết dữ liệu tại chỗ hiện có với đám mây của Amazon để thực hiện di chuyển mà không làm ảnh hưởng đến hiệu suất và giữ nguyên danh mục sao lưu hiện có.

  • Tích hợp liền mạch với cơ sở hạ tầng hiện có
  • Có thể cung cấp tính năng chống trùng lặp, nén, mã hóa hoặc tăng tốc WAN
  • Lưu vào bộ nhớ đệm cục bộ các bản sao lưu gần đây, lưu mọi thứ vào két lưu trữ trên đám mây AWS

Di chuyển dữ liệu ngoại tuyến sang Amazon S3

Chúng ta tuyệt đối không nên xem thường băng thông của một chiếc xe đầu kéo chứa đầy những ổ đĩa cứng 100 Petabyte hoặc một thiết bị dung lượng 100 TB có kích thước bằng một chiếc vali. Những dịch vụ di chuyển dữ liệu ngoại tuyến này sử dụng các thiết bị di động, chịu được va chạm, rất lý tưởng trong việc di chuyển các kho lưu trữ lớn, kho dữ liệu hoặc trong các tình huống băng thông và ổ đĩa dữ liệu không thể được truyền qua mạng của bạn trong khung thời gian mong muốn.

AWS Snowball

AWS Snowball là dịch vụ vận chuyển dữ liệu với quy mô petabyte sử dụng các thiết bị bảo mật để truyền lượng dữ liệu lớn vào và ra khỏi AWS. Việc sử dụng Snowball sẽ giúp giải quyết nhiều thách thức phổ biến với việc truyền dữ liệu quy mô lớn, trong đó có băng thông mạng bị hạn chế, thời gian truyền lâu và các vấn đề bảo mật. Truyền dữ liệu bằng Snowball rất đơn giản, nhanh chóng và bảo mật.

AWS Snowball Edge

AWS Snowball Edge là thiết bị truyền dữ liệu với quy mô petabyte có các tính năng lưu trữ và điện toán tích hợp. Bạn có thể sử dụng Snowball Edge để di chuyển lượng lớn dữ liệu vào và ra khỏi AWS, dưới hình thức bậc lưu trữ tạm thời cho các bộ dữ liệu cục bộ lớn hoặc để hỗ trợ các khối lượng công việc cục bộ tại các vị trí từ xa và ngoại tuyến.

AWS Snowmobile

AWS Snowmobile là giải pháp vận chuyển dữ liệu với quy mô exabyte sử dụng một container vận chuyển bảo mật bán rơ-moóc dài 40 foot để chuyển lượng lớn dữ liệu vào và ra khỏi AWS. Việc sử dụng Snowmobile sẽ giúp giải quyết nhiều thách thức phổ biến với việc truyền dữ liệu quy mô lớn, trong đó có chi phí mạng cao, thời gian truyền lâu và các vấn đề bảo mật. Hoạt động truyền dữ liệu bằng Snowmobile được thực hiện thông qua sự phối hợp tùy chỉnh, diễn ra nhanh, bảo mật và có thể chỉ tốn một phần năm chi phí truyền dữ liệu bằng Internet tốc độ cao.

Các công cụ di chuyển dữ liệu lên đám mây không được quản lý

AWS cũng cung cấp các công cụ CLI hoặc tập lệnh đơn giản để di chuyển dữ liệu từ trang web của bạn sang lưu trữ đám mây của Amazon.

rsync

Khách hàng sử dụng rsync, một công cụ nguồn mở cùng với các công cụ hệ thống tệp bên thứ ba để sao chép dữ liệu thẳng vào các bộ chứa S3.

Giao diện dòng lệnh S3

Khách hàng sử dụng CLI Amazon S3 để viết lệnh di chuyển dữ liệu trực tiếp vào các bộ chứa S3.

Giao diện dòng lệnh S3 Glacier

Khách hàng sử dụng CLI Amazon Glacier để di chuyển dữ liệu vào két lưu trữ Glacier.

Thách thức chung của việc di chuyển dữ liệu lên đám mây

Thực tế khó khăn của việc chuyển dữ liệu xảy ra ở hầu hết các dự án. Bạn làm cách nào để dễ dàng di chuyển dữ liệu từ vị trí hiện tại lên đám mây mới với ít gián đoạn, chi phí và thời gian nhất? Đâu là cách thông minh nhất để di chuyển được hàng GB, TB hay PB dữ liệu?

Vấn đề ngầm định cơ bản là: lượng, quãng đường và tốc độ di chuyển dữ liệu là bao nhiêu? Hãy sử dụng công thức sau đây cho kịch bản tốt đẹp nhất:

Số ngày = (Tổng số byte)/(Megabit trên giây * 125 * 1000 * Mức độ sử dụng mạng * 60 giây * 60 phút * 24 giờ)

Ví dụ: nếu bạn có kết nối T1 (1,544Mbps) và 1TB (1024 * 1024 * 1024 * 1024 byte) cần di chuyển vào hoặc ra khỏi AWS, thời gian tối thiểu trên lý thuyết sẽ cần để tải qua kết nối mạng có mức sử dụng mạng 80% là 82 ngày.

Hãy bình tĩnh. Chúng tôi đã từng làm điều này. Chúng tôi đã nhận thấy rằng khách hàng tiếp cận vấn đề này theo hai cách: sử dụng các công cụ di chuyển rất cơ bản, không được quản lý để di chuyển dữ liệu hoặc chọn một trong các bộ dịch vụ của Amazon đã được liệt kê bên trên.

Theo quy luật chung, để thu được kết quả tốt nhất, chúng tôi đề xuất:

Kết nối Quy mô dữ liệu Phương pháp
Dưới 10 Mbps Dưới 500 GB Không được quản lý
Trên 10 Mbps Trên 500 GB Dịch vụ được quản lý