Blog AWS Indonesia
Mentransfer data antar akun AWS menggunakan AWS DataSync
Dalam dunia bisnis saat ini, perusahaan bekerja sama melalui berbagai cara. Salah satu caranya adalah dengan berbagi data. Data dapat datang dalam berbagai jenis, seperti aliran data, database terstruktur, dan data file dasar. Data file adalah tipe data umum dalam perusahaan, dan mungkin sulit untuk mentransfer data file antara dua protokol penyimpanan yang berbeda. Selain itu, mentransfer file antar perusahaan dan mengubah protokol secara bersamaan dapat menambah kompleksitas.
Di blog ini, kami membahas penggunaan AWS DataSync untuk menyalin data file setiap hari dari Windows Server Message Block (SMB) Share yang berjalan pada instans Windows Amazon EC2 dalam satu akun, ke Amazon S3 bucket di akun dan Region AWS yang berbeda, melalui internet. Biasanya, AWS merekomendasikan penggunaan VPC Peering untuk kasus seperti ini, tetapi jika Anda tidak dapat membuat VPC Peering antar kedua VPC, mungkin karena kebijakan keamanan internal atau kepatuhan terhadap peraturan, Anda masih dapat menggunakan internet untuk mentransfer data dengan aman. Untuk informasi selengkapnya tentang menggunakan VPC Peering, lihat blog pendamping tentang transfer data menggunakan AWS DataSync melalui VPC Peering.
Komponen AWS DataSync
AWS DataSync adalah layanan transfer data online yang menyederhanakan, mengotomatiskan, dan mempercepat pemindahan data antara sistem penyimpanan on-premise dan layanan Penyimpanan AWS, sebagai tambahan dari kemampuan memindahkan data antara layanan Penyimpanan AWS itu sendiri. Anda dapat menggunakan DataSync untuk memigrasikan dataset aktif ke AWS, mengarsipkan data untuk mengosongkan kapasitas penyimpanan on-premise, mereplikasi data ke AWS untuk kelangsungan bisnis, atau mentransfer data ke cloud untuk analisis dan pemrosesan lebih lanjut. Dengan DataSync, Anda dapat menghilangkan pekerjaan-pekerjaan manual yang terkait dengan transfer data yang dapat memperlambat migrasi dan proyek kelangsungan bisnis. DataSync secara otomatis menangani task manual, termasuk menyalin data, menjadwalkan/memonitor proses transfer, memvalidasi integritas data, dan mengoptimalkan pemanfaatan jaringan. DataSync memungkinkan transfer di antara berbagai sumber dan tujuan di on-premise atau di antara akun AWS yang berbeda, dan Anda dapat melakukan transfer ini dengan aman melalui internet jika VPC Peering tidak tersedia.
Sebelum kami membagikan langkah-langkah untuk menerapkan solusi yang bermanfaat ini, kami ingin meluangkan waktu untuk membahas komponen DataSync. Saat menyalin antara on-premise dan AWS, DataSync menggunakan agent untuk terhubung ke sistem penyimpanan on-premise. Agent ini berkomunikasi dengan layanan terkelola DataSync yang berjalan di AWS. Konfigurasi DataSync terdiri dari lokasi sumber dan tujuan (SMB dan Amazon S3 dalam kasus ini), task yang menentukan bagaimana salinan data berlangsung, dan eksekusi dari task. Kami menguraikan masing-masing komponen dalam subbagian berikut. Untuk detail lebih lanjut tentang komponen dan prosesnya, lihat dokumentasi AWS tentang cara kerja AWS DataSync.
Agent AWS DataSync di Amazon EC2
Agent AWS DataSync di Amazon EC2 dapat mentransfer data antara dua lokasi di AWS, termasuk transfer lintas Region dan lintas akun, yang menjadi fokus blog ini. Peran agent DataSync adalah mengakses sistem penyimpanan yang dikelola sendiri dan mengelola proses transfer data dari dan menuju layanan Penyimpanan AWS. Namun, perhatikan bahwa Anda tidak memerlukan agent DataSync saat menyalin data dan metadata antar layanan Penyimpanan AWS di cloud. DataSync menentukan file mana yang baru atau yang telah mengalami perubahan dan hanya mereplikasi file baru atau yang telah diubah antara lokasi sumber dan tujuan.
DataSync managed service
Komponen DataSync service adalah AWS managed service untuk DataSync yang mengatur transfer data antara agent dan tujuan akhir. Anda menggunakan layanan di Region yang Anda tentukan dari AWS Management Console.
Lokasi
Lokasi DataSync adalah endpoint dari task. Setiap task memiliki dua lokasi: lokasi sumber dan lokasi tujuan. DataSync mendukung lokasi berikut:
- Network File System (NFS)
- Server Message Block (SMB)
- Penyimpanan objek yang dikelola sendiri
- Amazon EFS
- Amazon FSx untuk Windows File Server
- Amazon S3
Task
AWS DataSync task mencakup dua lokasi (sumber dan tujuan), dan menentukan konfigurasi cara mentransfer data dari satu lokasi ke lokasi lainnya. Pengaturan konfigurasi dapat mencakup penjadwalan task, kontrol file, dan izin akses. Sebuah task adalah definisi lengkap dari transfer data.
Eksekusi task
Eksekusi task adalah proses menjalankan task secara individual, yang menunjukkan informasi seperti waktu mulai, waktu berakhir, jumlah file yang ditransfer, dan statusnya.
Dalam konfigurasi ini, kami menggunakan SMB sebagai lokasi sumber karena kami menyalin file dari instans server file EC2 Windows dan lokasi targetnya adalah Amazon S3.
Diagram arsitektur sebelumnya menunjukkan agent AWS DataSync yang berjalan sebagai EC2 instance yang terhubung ke instans server file EC2 Windows di Availability Zone yang sama. Pengaturan seperti ini bertujuan untuk menghindari biaya transfer data silang antar 2 Availability Zone yang berbeda. EC2 instans agent DataSync dan instans server file Windows adalah bagian dari akun AWS sumber yang akan terhubung dengan aman ke endpoint publik DataSync di Region dan akun AWS tujuan. Di akun dan Region tujuan, layanan DataSync akan mengelola koneksi ke Amazon S3 bucket dan melakukan transfer.
Informasi mengenai DataSync instans
Saat menjalankan AWS DataSync di Amazon EC2, ukuran instans harus setidaknya 2xlarge agar transfer data Anda dapat dilakukan.
Sebaiknya gunakan salah satu jenis instans berikut:
- 2xlarge – Untuk task mentransfer hingga 20 juta file
- 4xlarge – Untuk task mentransfer lebih dari 20 juta file
Transport Layer Security (TLS) mengenkripsi semua data yang ditransfer antara sumber dan tujuan. Selain itu, data tidak pernah disimpan di AWS DataSync itu sendiri. Layanan ini mendukung penggunaan enkripsi default untuk S3 bucket.
Tutorial solusi
Sekarang mari kita bahas pengaturan dan konfigurasinya.
Langkah 1: Buat EC2 instans DataSync
Buat agent EC2 DataSync di akun dan Region AWS sumber. Tetapkan IP publik ke instans. Anda harus meluncurkan agent DataSync di akun sumber dan mengaktifkannya di akun tujuan. Selain itu, pastikan untuk meletakkan agent DataSync di Availability Zone yang sama dengan instans server file EC2 Windows untuk menghindari biaya jaringan lintas Availability Zone.
Catatan: Jika Anda memilih untuk menyimpan agent di subnet publik, pastikan untuk mengunci grup keamanan dan aturan ACL jaringan. Administrator akun AWS sumber dapat menghapus port masuk TCP 80 setelah aktivasi agent DataSync, tetapi harus tetap menggunakan port keluar TCP 443, TCP/UDP 53, dan UDP 123. Harap tinjau dokumentasi persyaratan jaringan DataSync untuk detail selengkapnya.
Langkah 2: Buat dan aktifkan agent DataSync
Buka konsol DataSync di akun/Region tujuan. Saat Anda membuat agent, pilih Pubilc service endpoints in <Region> pada menu dropdown dan ketik alamat IP publik agent DataSync yang Anda buat di langkah 1 ke dalam kotak Agent address. Klik tombol Get key untuk mengaktifkan agent DataSync.
Catatan: Pastikan untuk memilih Amazon EC2 untuk hypervisor, endpoint layanan publik di Region AWS yang Anda inginkan, dan bahwa browser yang Anda gunakan dapat terhubung ke IP publik agent DataSync.
Langkah 3: Konfigurasikan lokasi SMB sumber
Konfigurasikan instans server file Windows EC2 sumber sebagai SMB Location. Klik opsi Locations dari panel navigasi kiri, lalu klik Create Location. Selanjutnya, pilih Server Message Block (SMB) sebagai Location type Anda. Setelah itu, pilih agent yang Anda buat pada langkah sebelumnya, dan isi alamat IP SMB Server, Share name, dan user credentials dengan izin akses untuk mengakses SMB Share.
Catatan: Administrator server file Windows akun AWS sumber harus memberikan file share domain atau workgroup service account dengan izin untuk mengakses file, folder, dan metadata. Selain itu, grup keamanan EC2 Windows instans harus mengizinkan akses masuk ke TCP/UDP 445 dan TCP/UDP 139. Dengan kata lain, grup keamanan harus mengizinkan akses SMB file share kepada alamat IP privat instans DataSync EC2 agar instans DataSync dapat mengakses SMB Share dan mentransfer data.
Langkah 4: Konfigurasikan lokasi tujuan
Konfigurasikan lokasi tujuan sebagai Amazon S3. Pilih Locations dari menu navigasi kiri, lalu klik Create Location. Pilih Amazon S3 bucket target Anda, S3 Storage Class, folder, dan IAM role dengan izin untuk mengakses Amazon S3 bucket. DataSync dapat mentransfer data langsung ke semua S3 Storage Class tanpa harus mengelola kebijakan zero-day lifecycle. Untuk setiap transfer, Anda dapat memilih S3 Storage Class yang paling hemat biaya untuk kebutuhan Anda. DataSync mendeteksi file atau objek yang ada di sistem file atau bucket tujuan. Untuk mencegah modifikasi atau kehilangan data yang tidak disengaja, Anda dapat mengonfigurasi DataSync agar tidak pernah menimpa (overwrite) data yang ada.
Catatan: Jika Anda menargetkan Amazon S3, DataSync menerapkan metadata POSIX default ke objek Amazon S3. Ini termasuk nilai default user ID dan group ID POSIX. Lihat cara DataSync menangani metadata dan file khusus untuk mempelajari lebih lanjut. Harap tinjau juga dokumentasi tentang pertimbangan Storage Class Amazon S3 dengan DataSync.
Langkah 5: Buat task replikasi
Konfigurasikan pengaturan task dengan memetakan lokasi SMB sumber yang ada di langkah 3 dan Amazon S3 bucket tujuan di langkah 4. Lihat dokumentasi pengaturan task untuk mempelajari selengkapnya tentang pengaturan dan opsi task.
Catatan: Jika Anda ingin mereplikasi file baru secara berkala, pastikan untuk memilih jadwal yang Anda inginkan.
Setelah mengonfigurasi lokasi sumber, lakukan hal yang sama untuk lokasi tujuan:
Contoh pengaturan:
Tinjau pengaturan Anda dan buat task DataSync Anda.
Langkah 6: Mulai task DataSync
Mulai task DataSync Anda sehingga DataSync bisa mulai mentransfer data dengan mengklik Start dari daftar task, atau dari dalam gambaran umum task itu sendiri. Jika Anda mengatur jadwal selama pengaturan task, maka task akan dimulai pada waktu yang telah Anda tentukan. Anda dapat mempelajari selengkapnya tentang pelaksanaan task dan memantau task DataSync Anda dengan Amazon CloudWatch dalam dokumentasi tertaut.
Informasi harga
AWS membebankan biaya ke akun tujuan untuk penggunaan AWS DataSync, karena di sinilah Anda menggunakan endpoint DataSync. Lihat halaman harga DataSync untuk informasi selengkapnya.
Dibandingkan dengan metode VPC Peering, akun sumber dikenakan biaya transfer data KELUAR yang lebih tinggi saat mentransfer data menggunakan metode internet. Jika memungkinkan, gunakan metode VPC untuk mengurangi biaya. Lihat halaman harga Amazon EC2 untuk informasi selengkapnya.
Pembersihan
Setelah migrasi data selesai, pastikan untuk menghapus sumber daya yang telat dibuat untuk proses migrasi. Hapus agent DataSync di akun sumber untuk menghindari timbulnya biaya EC2. Selain itu, hapus task DataSync, lokasi, dan konfigurasi agent di akun tujuan, kecuali Anda akan menggunakan kembali item tersebut nanti. AWS tidak mengenakan biaya kepada Anda karena memiliki konfigurasi DataSync.
Ringkasan
Di blog ini, kami telah membahas langkah pengaturan task AWS DataSync untuk menyederhanakan proses transfer data antara dua akun AWS melalui internet saat kedua akun tidak dapat menggunakan VPC Peering. VPC Peering mungkin tidak tersedia karena beberapa alasan, seperti kebijakan keamanan internal atau kepatuhan terhadap peraturan, tetapi Anda masih dapat mentransfer data dengan mudah di seluruh akun, protokol, dan Region menggunakan AWS DataSync melalui internet. Pertama, kami telah menjelaskan langkah-langkah tentang cara menyiapkan layanan DataSync untuk menggunakan endpoint layanan publik. Kemudian, kami juga telah membahas pengaturan task untuk mentransfer data dari sumber server SMB ke Amazon S3.
Solusi yang diuraikan dalam posting ini dapat membantu mentransfer data dalam jumlah besar antar akun, dengan sedikit usaha. Ini juga menghilangkan banyak kerumitan seputar proses menyalin data antara protokol dan lokasi penyimpanan yang berbeda. Dengan proses yang disederhanakan ini, Anda dapat menghemat waktu untuk mentransfer data, sekaligus mendapatkan semua kemampuan menggunakan sistem transfer data yang dikelola sepenuhnya dan mudah digunakan seperti AWS DataSync. Beberapa manfaat ini termasuk dapat mengotomatiskan dan memantau task transfer, dan dapat mentransfer data untuk memanfaatkan opsi penyimpanan yang berbeda, dalam hitungan menit.
Terima kasih telah membaca posting ini tentang menggunakan AWS DataSync untuk mentransfer data Anda melalui internet saat Anda tidak memiliki akses ke VPC Peering. Jika Anda memiliki komentar atau pertanyaan, jangan ragu untuk meninggalkannya di bagian komentar.
Artikel ini merupakan terjemahan dari blog yang dibuat oleh Patrick Coke dan Jana Gnanachandran yang berjudul Transferring data between AWS accounts using AWS DataSync