Umum

T: Apa itu Amazon RedShift?

Amazon Redshift adalah gudang data yang cepat dan dikelola sepenuhnya, memudahkan dan menghemat biaya dalam menganalisis semua data Anda menggunakan SQL standar dan alat-alat Kecerdasan Bisnis (BI) Anda yang sudah ada. Redshift memungkinkan Anda menjalankan kueri analisis kompleks pada sejumlah petabyte data terstruktur, menggunakan optimalisasi kueri canggih, penyimpanan kolumnar pada disk lokal berkinerja tinggi, dan eksekusi kueri paralel secara masif. Sebagian besar hasil muncul dalam hitungan detik. Dengan RedShift, Anda dapat memulai dari kecil hanya dengan 0,25 USD per jam tanpa komitmen dan penskalaan hingga sejumlah petabyte data untuk 1.000 USD per terabyte per tahun, kurang dari sepersepuluh biaya solusi tradisional. Amazon RedShift juga mencakup Amazon Redshift Spectrum, yang memungkinkan Anda secara langsung menjalankan kueri SQL terhadap data tidak terstruktur berukuran exabyte dalam Amazon S3. Tidak ada pemuatan atau transformasi yang diperlukan dan Anda dapat menggunakan format data terbuka, termasuk Avro, CSV, Grok, Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, SequenceFile, TextFile, dan TSV. Redshift Spectrum secara otomatis menskalakan kapasitas komputasi kueri berdasarkan data yang sedang diterima, sehingga kueri terhadap Amazon S3 berjalan cepat, terlepas dari ukuran data set.

Gudang data tradisional memerlukan waktu dan sumber daya yang signifikan untuk dikelola, khususnya untuk dataset yang besar. Selain itu, biaya keuangan terkait pembangunan, pemeliharaan, dan pengembangan gudang data lokal mandiri sangatlah tinggi. Saat data Anda bertambah, Anda harus terus mempertaruhkan data apa yang perlu dimuat ke gudang data Anda dan data apa yang harus diarsipkan di dalam penyimpanan sehingga Anda dapat mengelola biaya, menjaga kompleksitas ETL tetap rendah, dan menghasilkan kinerja yang bagus. Amazon Redshift tidak hanya menurunkan biaya dan overhead operasional gudang data secara signifikan, namun juga mempermudah analisis jumlah data besar dalam format aslinya tanpa mengharuskan Anda memuat data tersebut dengan Redshift Spectrum.

Amazon Redshift memberi Anda kemampuan kueri cepat di atas data terstruktur menggunakan klien berbasis SQL dan alat kecerdasan bisnis (BI) yang familier menggunakan koneksi ODBC dan JDBC. Kueri didistribusikan dan diparalelkan di beberapa sumber daya fisik. Anda dapat meningkatkan atau menurunkan skala gudang data Amazon Redshift secara mudah hanya dengan beberapa klik pada AWS Management Console atau dengan satu panggilan API. Amazon Redshift secara otomatis akan melakukan patch dan mencadangkan gudang data Anda, menyimpan cadangan untuk periode retensi yang ditentukan pengguna. Amazon Redshift menggunakan replikasi dan cadangan berkelanjutan untuk meningkatkan ketersediaan dan daya tahan data serta dapat secara otomatis pulih dari kegagalan komponen dan node. Selain itu, Amazon Redshift mendukung Amazon Virtual Private Cloud (Amazon VPC), SSL, enkripsi AES-256, dan Hardware Security Module (HSM) untuk melindungi data Anda saat transit dan istirahat.

Seperti halnya semua Amazon Web Services, tidak diperlukan investasi di muka, dan Anda hanya membayar untuk sumber daya yang Anda gunakan. Amazon Redshift memungkinkan Anda membayar sesuai pemakaian. Anda bahkan dapat mencoba Amazon RedShift secara gratis.

Untuk informasi mengenai ketersediaan wilayah Amazon Redshift, lihat Tabel Wilayah AWS.

T: Apa itu Redshift Spectrum?

Redshift Spectrum adalah fitur Amazon Redshift yang memungkinkan Anda untuk menjalankan kueri terhadap sejumlah exabyte data tidak terstruktur di Amazon S3, tanpa pemuatan atau ETL yang diperlukan. Ketika Anda menerbitkan kueri, kueri menuju ke titik akhir Amazon RedShift SQL, yang menghasilkan dan mengoptimalkan rencana kueri. Amazon Redshift menentukan data apa yang lokal dan apa yang ada di Amazon S3, membuat rencana untuk meminimalkan jumlah data Amazon S3 yang perlu dibaca, meminta pekerja Redshift Spectrum dari kumpulan sumber yang dibagikan untuk membaca dan memproses data dari Amazon S3.

Redshift Spectrum menskalakan ke ribuan instans jika diperlukan, sehingga kueri berjalan dengan cepat tanpa terpengaruh dengan ukuran data. Dan, Anda dapat menggunakan SQL yang benar-benar sama untuk data Amazon S3 seperti yang Anda gunakan untuk kueri Amazon Redshift Anda saat ini dan terhubung ke hasil akhir Amazon Redshift yang sama dengan menggunakan alat BI yang sama. Redshift Spectrum mengizinkan Anda memisahkan penyimpanan dan komputasi, yang memungkinkan Anda menskalakan keduanya secara independen. Anda dapat menetapkan klaster Amazon Redshift sebanyak yang Anda perlukan untuk melakukan kueri kumpulan data Amazon S3 Anda, yang memberikan ketersediaan yang tinggi dan konkurensi tanpa batas. Redshift Spectrum memberi Anda kebebasan menyimpan data di mana pun yang Anda inginkan, dalam format yang Anda inginkan, dan membuatnya tersedia untuk pemrosesan saat Anda membutuhkannya.

Untuk informasi tentang ketersediaan wilayah Redshift Spectrum, buka halaman harga Amazon Redshift.

T: Apa yang dikelola Amazon Redshift untuk saya?

Amazon Redshift mengelola pekerjaan yang diperlukan untuk melakukan penyiapan, pengoperasian, dan penskalaan gudang data, mulai dari penyediaan kapasitas infrastruktur hingga pengotomatisan tugas administratif berjalan seperti pencadangan dan patch. Amazon Redshift secara otomatis memantau node dan drive Anda untuk membantu pemulihan kegagalan. Untuk Redshift Spectrum, Amazon Redshift mengelola semua infrastruktur komputasi, penyeimbang muatan, perencanaan, penjadwalan, dan eksekusi kueri Anda pada data yang disimpan di Amazon S3.

T: Bagaimana kinerja Amazon Redshift dibandingkan dengan database tradisional dalam hal gudang data dan analisis?

Amazon Redshift menggunakan berbagai inovasi untuk mencapai kinerja hingga sepuluh kali lebih tinggi dari database tradisional dalam hal beban kerja gudang data dan analisis.

  • Penyimpanan Data Kolom: Alih-alih menyimpan data sebagai sekumpulan baris, Amazon Redshift menyusun data berdasarkan kolom. Tidak seperti sistem berbasis baris, yang cocok untuk pemrosesan transaksi, sistem berbasis kolom cocok untuk gudang data dan analisis, di mana kueri sering mencakup penjumlahan yang dilakukan atas kumpulan data yang besar. Karena hanya kolom dalam kueri yang diproses dan data kolom disimpan secara berurutan pada media penyimpanan, sistem berbasis kolom memerlukan I/O yang jauh lebih sedikit, meningkatkan kinerja kueri dengan pesat.
  • Kompresi Lanjutan: Penyimpanan data kolom dapat dikompres lebih dari penyimpanan data berbasis baris karena data yang mirip disimpan secara berurutan pada disk. Amazon Redshift menggunakan beberapa teknik kompresi dan dapat sering mencapai kompresi signifikan yang hampir sama dengan penyimpanan data relasional tradisional. Selain itu, Amazon Redshift tidak memerlukan indeks atau tampilan bermaterial dan juga menggunakan ruang lebih sedikit dari sistem database relasional tradisional. Saat memuat data ke tabel kosong, Amazon Redshift secara otomatis mengambil sampel data Anda dan memilih skema kompresi yang paling sesuai.
  • Massively Parallel Processing (MPP): Amazon Redshift secara otomatis mendistribusikan data dan beban kueri ke semua node. Amazon Redshift mempermudah penambahan node ke gudang data dan memungkinkan Anda menjaga kinerja kueri cepat saat gudang data Anda berkembang.
  • RedShift Spectrum: Redshift Spectrum memungkinkan Anda menjalankan kueri SQL terhadap sejumlah exabyte data di Amazon S3. Tidak ada muatan atau ETL yang diperlukan. Bahkan jika Anda tidak menyimpan data apa pun di Amazon Redshift, Anda masih dapat menggunakan Redshift Spectrum untuk menlakukan kueri dataset sebesar satu exabyte di Amazon S3. Ketika Anda menerbitkan kueri, kueri pergi ke titik akhir Amazon RedShift SQL, yang menghasilkan rencana kueri. Amazon RedShift menentukan data apa yang lokal dan yang ada dalam Amazon S3, menghasilkan rencana untuk meminimalkan jumlah data Amazon S3 yang perlu dibaca, meminta pekerja Redshift Spectrum keluar dari kumpulan sumber untuk membaca dan memproses data dari Amazon S3, dan menarik kembali hasil ke dalam klaster Amazon RedShift Anda untuk segala pemrosesan yang tersisa.

T: Bagaimana cara memulai dengan Amazon Redshift?

Anda dapat mendaftar dan memulai dalam hitungan menit dari halaman detail Amazon Redshift atau melalui AWS Management Console. Jika Anda belum memiliki akun AWS, Anda akan diminta untuk membuat akun baru.

Untuk menggunakan Redshift Spectrum, Anda perlu menyimpan data di Amazon S3 terlebih dahulu. Anda lalu dapat menentukan metadata mengenai data tersebut di klaster Amazon Redshift atau mendaftarkan metadata yang sudah Anda miliki di Hive Metastore dengan klaster Anda. Anda dapat mengeluarkan perintah CREATE EXTERNAL SCHEMA SQL di klaster Amazon Redshift untuk menentukan atau mendaftarkan database dalam katalog Anda sebagai skema eksternal di dalam Amazon Redshift. Anda kemudian dapat mengeluarkan kueri terhadap Amazon S3 menggunakan SQL yang Anda gunakan untuk tabel lokal dan alat BI apa pun yang mendukung Amazon Redshift saat ini. Definisi database eksternal yang Anda buat menggunakan SQL Amazon Redshift terdaftar di dalam katalog data yang digunakan Amazon Athena. Anda secara opsional dapat mengelola definisi database eksternal dari Katalog Amazon Athena juga.

Kunjungi halaman Memulai kami untuk melihat cara mencoba Amazon Redshift secara gratis.

T: Bagaimana cara membuat dan mengakses klaster gudang data Amazon Redshift?

Anda dapat dengan mudah membuat klaster gudang data Amazon Redshift menggunakan AWS Management Console atau API Amazon Redshift. Anda dapat memulai dengan satu node, gudang data 160 GB dan melakukan penskalaan hingga petabyte atau lebih dengan beberapa klik di Konsol AWS atau satu panggilan API.

Satu konfigurasi node memungkinkan Anda mulai menggunakan Amazon Redshift dengan cepat dan hemat dan menaikkan skala hingga konfigurasi multi-node saat kebutuhan Anda bertambah. Klaster gudang data Redshift dapat memuat dari 1-128 node komputasi, bergantung pada jenis node. Untuk detailnya, silakan baca dokumentasi kami.

Konfigurasi multi-node memerlukan node induk yang mengelola koneksi klien dan menerima kueri, dan dua node komputasi yang menyimpan data dan melakukan kueri serta komputasi. Node induk disediakan untuk Anda secara otomatis dan Anda tidak akan dikenakan biaya atasnya.

Cukup tentukan Availability Zone pilihan Anda (opsional), jumlah node, jenis node, nama master dan kata sandi, grup keamanan, preferensi Anda untuk retensi pencadangan, dan pengaturan sistem lainnya. Setelah Anda memilih konfigurasi yang dikehendaki, Amazon Redshift akan menyediakan sumber daya yang diperlukan dan menyiapkan klaster gudang data Anda.

Setelah klaster gudang data Anda tersedia, Anda dapat mengambil titik akhir serta string koneksi JDBC dan ODBC-nya dari AWS Management Console atau dengan menggunakan API Redshift. Anda kemudian dapat menggunakan string koneksi dengan alat database, bahasa pemrograman, atau alat Kecerdasan Bisnis (BI) favorit Anda. Anda perlu memberi izin permintaan jaringan untuk menjalankan klaster gudang data Anda. Untuk penjelasan detail, silakan baca Panduan Memulai kami.

T: Apa yang dilakukan node induk? Apa yang dilakukan node komputasi?

Node induk menerima kueri dari aplikasi klien, membagi kueri dan mengembangkan rencana eksekusi, yang merupakan kumpulan langkah berurutan untuk memproses kueri ini. Node induk lalu mengoordinasi eksekusi paralel paket ini dengan node komputasi, menjumlahkan hasil menengah dari node ini dan akhirnya mengembalikan hasil ke aplikasi klien.

Node komputasi menjalankan langkah yang ditentukan dalam paket eksekusi dan mentransmisi data di antara node untuk melayani kueri ini. Hasil menengah dikirimkan kembali ke node induk untuk dijumlahkan sebelum dikembalikan ke aplikasi klien.

T: Berapa kapasitas penyimpanan maksimum per node komputasi? Berapa jumlah data per node komputasi yang direkomendasikan untuk kinerja optimal?

Anda dapat membuat klaster menggunakan tipe node Dense Storage (DS) atau tipe node Dense Compute (DC). Tipe node Dense Storage memungkinkan pembentukan gudang data yang sangat besar menggunakan hard disk drive (HDD) untuk titik harga yang sangat rendah. Tipe node Dense Compute memungkinkan pembentukan gudang data berkinerja tinggi menggunakan CPU cepat, sejumlah besar RAM dan solid-state disk (SSD).

Tipe node Dense Storage (DS) tersedia dalam dua ukuran, Extra Large dan Eight Extra Large. Extra Large (XL) memiliki 3 HDD dengan total 2 TB penyimpanan magnetik, sedangkan Eight Extra Large (8XL) memiliki 24 HDD dengan total 16 TB penyimpanan magnetik. DS2.8XLarge memiliki 36 core virtual Intel Xeon E5-2676 v3 (Haswell) dan 244 GiB RAM, dan DS2.XL memiliki 4 core virtual Intel Xeon E5-2676 v3 (Haswell) dan 31 GiB RAM. Silakan lihat halaman harga kami untuk detail selengkapnya. Anda dapat memulai dengan satu node Extra Large, 2 TB gudang data seharga 0,85 USD per jam dan melakukan penskalaan hingga satu petabyte atau lebih. Anda dapat membayar bedasarkan jam atau menggunakan harga instans cadangan untuk mengurangi biaya Anda hingga kurang dari 1.000 USD per TB per tahun.

Tipe node Dense Compute (DS) juga tersedia dalam dua ukuran. Large memiliki 160 GB penyimpanan SSD, 2 core virtual Intel Xeon E5-2670v2 (Ivy Bridge) dan 15 GiB RAM. Eight Extra Large enam kali lebih besar dengan 2,56 TB penyimpanan SSD, 32 core virtual Intel Xeon E5-2670v2 dan 244 GiB RAM. Anda dapat memulai dengan satu node DC2.Large seharga 0,25 USD per jam dan menskalakan hingga 128 node 8XL dengan 326 TB penyimpanan SSD, 3.200 core virtual, dan 24 TiB RAM.

Arsitektur MPP Amazon Redshift berarti Anda dapat meningkatkan kinerja dengan meningkatkan jumlah node dalam klaster gudang data Anda. Jumlah data optimal per node komputasi bergantung pada karakteristik aplikasi Anda serta kebutuhan kinerja kueri Anda. Klaster gudang data Amazon Redshift dapat memuat dari 1-128 node komputasi, bergantung pada jenis node. Untuk detail selengkapnya, silakan baca dokumentasi kami.

T: Kapan sebaiknya saya menggunakan Amazon Redshift vs. Amazon RDS?

Baik Amazon Redshift dan Amazon RDS memungkinkan Anda menjalankan database relasional tradisional di dalam cloud selagi memindahkan administrasi database. Pelanggan menggunakan database Amazon RDS untuk pemrosesan transaksi online (OLTP) dan untuk pelaporan serta analisis. Amazon Redshift memanfaatkan penskalaan dan sumber daya beberapa node serta menggunakan berbagai pengoptimalan untuk memberikan urutan besarnya peningkatan atas database tradisional untuk analisis dan pelaporan beban kerja terhadap data set yang sangat besar. Amazon Redshift memberikan opsi penskalaan yang terbaik ketika kompleksitas data dan kueri Anda bertambah atau jika Anda ingin mencegah pelaporan serta pemrosesan analisis Anda terganggu dengan kinerja beban kerja OLTP Anda.

T: Kapan sebaiknya saya menggunakan Amazon Redshift atau Redshift Spectrum vs. Amazon EMR?

Anda harus menggunakan Amazon EMR jika Anda menggunakan kode kustom untuk memproses dan menganalisis dataset yang sangat besar dengan kerangka pemrosesan big data seperti Apache Spark, Hadoop, Presto, atau Hbase. Amazon EMR memberi Anda kendali penuh atas konfigurasi klaster serta perangkat lunak yang Anda pasang.

Gudang data seperti Amazon Redshift dirancang untuk tipe analisis yang benar-benar berbeda. Gudang data dirancang untuk mengambil data dari banyak sumber, seperti inventaris, keuangan, dan sistem penjualan ritel. Untuk memastikan agar pelaporan tetap akurat di seluruh perusahaan, gudang data menyimpan data di dalam mode yang sangat terstruktur. Struktur ini membangun aturan konsistensi data langsung ke tabel database. Amazon Redshift adalah layanan terbaik untuk digunakan apabila Anda perlu melakukan kueri kompleks pada koleksi data terstruktur yang besar serta mendapatkan kinerja sangat cepat.

Sementara Redshift Spectrum sangat sesuai digunakan untuk menjalankan kueri terhadap data dalam Amazon Redshift dan S3, layanan ini tidak cocok untuk jenis kasus penggunaan yang biasa diminta perusahaan dari kerangka pemrosesan seperti Amazon EMR. Amazon EMR jauh melampaui dari hanya sekadar menjalankan kueri SQL. Amazon EMR adalah sebuah layanan terkelola yang memungkinkan Anda memproses dan menganalisis data set yang sangat besar menggunakan versi kerangka pemrosesan big data populer terbaru, seperti Spark, Hadoop, dan Presto, pada klaster yang dapat dikustomisasi sepenuhnya. Dengan Amazon EMR Anda dapat menjalankan beragam tugas pemrosesan data penskalaan untuk aplikasi sepeti machine learning, analisis gambar, transformasi data, data streaming, dan segala yang dapat Anda kodekan secara virtual.

Anda dapat menggunakan Redshift Spectrum bersama dengan EMR. Redshift Spectrum menggunakan pendekatan yang sama untuk menyimpan definisi tabel seperti Amazon EMR. Redshift Spectrum dapat mendukung Apache Hive Metastore yang sama dengan yang digunakan Amazon EMR untuk menemukan data dan definisi tabel. Jika Anda saat ini menggunakan Amazon EMR dan sudah memiliki Hive Metastore, Anda cukup mengonfigurasi klaster Amazon Redshift untuk menggunakannya. Anda kemudian dapat mulai melakukan kueri data tersebut secara langsung bersama dengan tugas Amazon EMR Anda. Jadi, jika Anda sudah memanfaatkan EMR untuk memproses penyimpanan data yang besar, Anda dapat menggunakan Redshift Spectrum untuk kueri data tersebut langsung tanpa mengganggu tugas Amazon EMR Anda.

Layanan kueri, gudang data, dan kerangka pemrosesan data kompleks memiliki tempat masing-masing, dan digunakan untuk hal-hal yang berbeda. Anda hanya perlu memilih alat yang tepat untuk tugas yang diperlukan.

 

T: Kapan sebaiknya saya menggunakan Amazon Athena vs. Redshift Spectrum?

Amazon Athena adalah cara termudah untuk memberi karyawan kemampuan untuk menjalankan kueri ad-hoc pada data di Amazon S3. Athena tidak memiliki server, sehingga tidak ada infrastruktur yang harus ditetapkan atau dikelola, dan Anda dapat memulai menganalisis data secepatnya.

Jika Anda memiliki data sering diakses, yang perlu disimpan secara format sangat terstruktur dan konsisten, Anda harus menggunakan gudang data seperti Amazon Redshift. Ini memberi Anda fleksibilitas untuk menyimpan data terstruktur yang sering diakses di Amazon Redshift, dan menggunakan Redshift Spectrum untuk memperluas kueri Amazon Redshift hingga seluruh data dalam data lake Amazon S3 Anda. Hal ini memberi Anda kebebasan untuk menyimpan data di mana pun yang Anda inginkan, dalam format yang Anda inginkan, dan membuatnya tersedia untuk pemrosesan saat Anda membutuhkannya.

T: Kenapa saya harus menggunakan Amazon Redshift alih-alih menjalankan klaster gudang data MPP saya di Amazon EC2?

Amazon Redshift secara otomatis menangani banyak tugas yang memakan waktu terkait pengelolaan gudang data Anda, termasuk:

  • Penyiapan: Dengan Amazon Redshift, Anda cukup membuat klaster gudang data, menentukan skema, dan mulai memuat dan melakukan kueri data Anda. Penyediaan, konfigurasi, dan patching semua dikelola untuk Anda.
  • Ketahanan Data: Amazon Redshift mereplikasi data Anda di dalam klaster gudang data dan terus mencadangkan data ke Amazon S3, yang dirancang untuk sebelas sembilan ketahanan. Amazon Redshift menyalin setiap data drive ke node lain dalam klaster Anda. Jika satu drive gagal, kueri Anda akan berlanjut dengan sedikit peningkatan latensi sementara Redshift membuat ulang drive dari replika. Jika terjadi kegagalan node, Amazon Redshift secara otomatis menyediakan node baru dan mulai memulihkan data dari drive lain di dalam klaster atau dari Amazon S3. Redshift memprioritaskan pemulihan data yang sering dikueri sehingga kueri yang paling sering dieksekusi akan kembali bekerja dengan cepat.
  • Penskalaan: Anda dapat menambahkan atau menghapus node dari klaster gudang data Amazon Redshift dengan satu pangilan API atau dengan beberapa klik dalam AWS Management Console saat kapasitas dan kinerja Anda perlu diubah.
  • Pembaruan dan Patch Otomatis: Amazon Redshift secara otomatis menerapkan pemutakhiran dan patch gudang data sehingga Anda dapat fokus pada aplikasi dan bukan pada administrasi.
  • Kemampuan Kueri Skala Exabyte: Redshift Spectrum memungkinkan Anda menjalankan kueri SQL terhadap sejumlah exabyte data di Amazon S3. Tidak ada muatan atau ETL yang diperlukan. Bahkan jika Anda tidak menyimpan data apa pun di Amazon Redshift, Anda masih dapat menggunakan Redshift Spectrum untuk menlakukan kueri dataset sebesar satu exabyte di Amazon S3.

Penagihan

T: Bagaimana saya dikenai biaya dan ditagih atas penggunaan Amazon Redshift saya?

Anda hanya perlu membayar yang Anda gunakan, dan tidak ada biaya minimal atau biaya penyiapan. Penagihan dimulai untuk klaster gudang data segera setelah klaster gudang data tersedia. Penagihan berlanjut sampai klaster gudang data berakhir, yang akan terjadi saat penghapusan atau dalam hal kegagalan instans. Anda ditagih berdasarkan:

  • Jam node komputasi: Jam node komputasi adalah total jam yang Anda gunakan di seluruh node komputasi untuk periode penagihan. Jam penggunaan ditagih untuk setiap jam saat klaster gudang data Anda berjalan dalam keadaan tersedia. Jika tidak lagi ingin dikenai biaya klaster gudang data, Anda harus menghentikan atau menghapus instans untuk menghindari dikenai biaya atas penggunaan node tambahan. Node per jam sebagian yang digunakan dibebankan satu jam penuh. Anda dikenakan tagihan atas 1 unit per node per jam, sehingga klaster gudang data 3 node yang berjalan secara terus menerus selama sebulan akan dikenai tarif 2.160 jam instans. Anda tidak akan dikenai biaya atas jam node induk; hanya node komputasi yang akan dikenakan tarif.
  • Penyimpanan Cadangan: Penyimpanan cadangan adalah penyimpanan yang terhubung dengan snapshot otomatis dan manual untuk gudang data Anda. Meningkatkan periode penyimpanan cadangan Anda atau mengambil snapshot tambahan meningkatkan penyimpanan cadangan yang digunakan oleh gudang data Anda. Tidak ada biaya tambahan untuk penyimpanan cadangan hingga 100% dari penyimpanan yang disediakan untuk klaster gudang data aktif. Misalnya, jika Anda memiliki klaster gudang data Node XL Tunggal yang aktif dengan penyimpanan instans lokal sebesar 2 TB, kami akan memberikan hingga 2 TB-Bulan penyimpanan cadangan tanpa biaya tambahan. Penyimpanan cadangan yang melampaui ukuran penyimpanan tersedia dan cadangan yang disimpan setelah klaster Anda dihentikan ditagihkan dengan tarif Amazon S3 standar.
  • Transfer data: Tidak ada biaya transfer untuk data yang ditransfer ke atau dari Amazon Redshift dan Amazon S3 di dalam Wilayah AWS yang sama. Untuk semua transfer data ke dalam dan ke luar Amazon Redshift, Anda akan ditagih dengan tarif transfer data AWS standar.
  • Data dipindai: Dengan Redshift Spectrum, Anda akan dikenakan biaya atas jumlah data Amazon S3 yang dipindai untuk dieksekusi kueri Anda. Tidak ada biaya untuk Redshift Spectrum apabila Anda tidak menjalankan kueri. Jika Anda menyimpan data dalam format kolom, seperti Parket atau RC, biaya Anda juga akan turun karena Redshift Spectrum hanya akan memindai kolom yang diperlukan oleh kueri, dibanding memproses seluruh baris. Demikian pula, jika Anda mengompresi data menggunakan format yang didukung Redshift Spectrum, biaya Anda juga akan berkurang. Anda dikenai tarif Amazon S3 standar untuk penyimpanan data dan tarif instans Amazon Redshift untuk klaster yang digunakan.

Kecuali dinyatakan lain, harga tersebut tidak termasuk pajak dan beban biaya yang berlaku, termasuk PPN dan pajak penjualan yang berlaku. Untuk konsumen dengan alamat tagihan Jepang, penggunaan layanan AWS tunduk pada Pajak Konsumsi Jepang. Pelajari selengkapnya.

Untuk informasi harga Amazon Redshift, silakan kunjungi halaman harga Amazon Redshift.

Integrasi dan Pemuatan Data

T: Bagaimana cara memuat data ke gudang data Amazon Redshift?

Anda dapat memuat data ke Amazon Redshift dari berbagai sumber data termasuk Amazon S3, Amazon DynamoDB, Amazon EMR, AWS Glue, AWS Data Pipeline, dan atau host yang didukung SSH apa pun pada Amazon EC2 atau di lokasi. Amazon Redshift mencoba memuat data Anda secara paralel ke setiap node komputasi guna memaksimalkan tingkat di mana Anda dapat menyerap data ke klaster gudang data Anda. Untuk detail selengkapnya mengenai pemuatan data ke Amazon Redshift, silakan baca Panduan Memulai.

Ya, klien dapat tersambung ke Amazon Redshift menggunakan ODBC atau JDBC serta mengeluarkan perintah SQL ‘insert’ untuk menyisipkan data. Perlu diperhatikan bahwa ini lebih lambat dari pada menggunakan S3 atau DynamoDB karena metode tersebut memuat data secara paralel ke setiap node komputasi sementara pernyataan insert SQL memuat data melalui node induk tunggal.

T: Bagaimana cara memuat data dari sumber data Amazon RDS, Amazon EMR, Amazon DynamoDB, dan Amazon EC2 yang ada ke Amazon Redshift?

Anda dapat menggunakan perintah COPY untuk memuat data secara paralel, langsung ke Amazon Redshift dari Amazon EMR, Amazon DynamoDB, atau host yang didukung SSH apa pun. Redshift Spectrum juga memungkinkan Anda memuat data dari Amazon S3 ke klaster Anda dengan perintah sederhana INSERT INTO. Ini bisa memungkinkan Anda memuat data dari berbagai format seperti Parquet dan RC ke klaster Anda. Perhatikan bahwa jika Anda menggunakan pendekatan ini, Anda akan menambah biaya Redshift Spectrum untuk data yang dipindai dari Amazon S3.

Selain itu, banyak perusahaan ETL telah memberikan sertifikasi Amazon Redshift untuk digunakan bersama alat mereka, dan sejumlah penawaran coba gratis untuk membantu Anda memulai memuat data Anda. AWS Data Pipeline memberikan solusi kinerja tinggi, andal, dan toleran kesalahan untuk memuat data dari berbagai sumber data AWS. Anda dapat menggunakan AWS Data Pipeline untuk menentukan sumber data, transformasi data yang dikehendaki, lalu menjalankan skrip impor yang sudah ditulis untuk memuat data ke Amazon Redshift. Dan juga, AWS Glue adalah layanan ekstrak, transformasi, dan beban (ETL) yang dikelola sepenuhnya yang memudahkan persiapan dan pemuatan data untuk analisis. Anda dapat membuat dan menjalankan pekerjaan ETL AWS Glue dengan beberapa klik di AWS Management Console.

T: Saya punya banyak data untuk pemuatan awal ke Amazon Redshift. Mentransfer melalui internet akan memakan waktu lama. Bagaimana cara memuat data ini?

Anda dapat menggunakan Amazon Import/Export untuk mentransfer data ke Amazon S3 dengan perangkat penyimpanan portabel. Selain itu, Anda dapat menggunakan AWS Direct Connect untuk mendirikan koneksi jaringan khusus antara jaringan atau pusat data Anda dan AWS. Anda dapat memilih port koneksi 1 Gbit/dtk atau 10 Gbit/dtk untuk mentransfer data Anda.

Keamanan

T: Bagaimana cara Amazon Redshift mengamankan data saya?

Amazon Redshift mengenkripsi dan menjaga data Anda tetap aman saat transit dan istirahat menggunakan teknik enkripsi standar industri. Untuk mengamankan data Anda saat transit, Amazon Redshift mendukung koneksi yang didukung SSL antara aplikasi klien dan klaster gudang data Redshift Anda. Untuk mengamankan data Anda saat istirahat, Amazon Redshift mengenkripsi setiap blok menggunakan AES-256 yang dipercepat perangkat keras saat ditulis ke disk. Enkripsi ini dilakukan di tingkat rendah dalam subsistem I/O, yang mengenkripsi setiap hal yang tertulis pada disk, termasuk hasil kueri menengah. Blok dicadangkan sebagaimana mestinya, yang berarti cadangan tersebut juga dienkripsi. Secara default, Amazon RedShift menangani pengelolaan kunci tetapi Anda dapat memilih untuk mengelola kunci Anda menggunakan modul keamanan perangkat keras Anda sendiri (HSM), atau mengelola kunci Anda melalui AWS Key Management Service.

Redshift Spectrum mendukung Server Side Encryption (SSE) Amazon S3 menggunakan kunci default dikelola akun Anda yang digunakan oleh AWS Key Management Service (KMS).

T: Dapatkah saya menggunakan Amazon Redshift di Amazon Virtual Private Cloud (Amazon VPC)?

Ya, Anda dapat menggunakan Amazon Redshift sebagai bagian dari konfigurasi VPC Anda. Dengan Amazon VPC, Anda dapat menentukan topologi jaringan virtual yang mirip dengan jaringan tradisional yang mungkin Anda operasikan di pusat data Anda sendiri. Hal ini memberikan Anda kontrol penuh atas siapa yang dapat mengakses klaster gudang data Amazon Redshift Anda.

Anda dapat menggunakan Redshift Spectrum dengan klaster Amazon Redshift yang merupakan bagian dari VPC Anda. Perlu diperhatikan bahwa Redshift Spectrum saat ini tidak mendukung Perutean VPC yang Ditingkatkan.

T: Dapatkah saya mengakses node komputasi Amazon Redshift secara langsung?

Tidak. Node komputasi Amazon Redshift Anda berada di ruang jaringan privat dan hanya dapat diakses dari node induk klaster gudang data. Hal ini memberikan lapisan keamanan tambahan untuk data Anda.

Ketersediaan dan Ketahanan

T: Apa yang terjadi pada ketersediaan klaster gudang data dan daya tahan data saya jika drive pada salah satu node mengalami kegagalan?

Klaster gudang data Amazon Redshift Anda akan tetap tersedia jika drive gagal meski Anda mungkin melihat sedikit kemunduran kinerja untuk beberapa kueri. Jika terjadi kegagalan drive, Amazon Redshift secara transparan akan menggunakan replika data pada drive yang disimpan di drive lain dalam node tersebut. Selain itu, Amazon Redshift akan mencoba memindahkan data Anda ke drive yang sehat atau akan mengganti node jika tidak memungkinkan. Klaster node tunggal tidak mendukung replikasi data. Jika terjadi kegagalan drive Anda harus memulihkan klaster dari snapshot di S3. Kami menyarankan penggunaan setidaknya dua node untuk produksi.

T: Apa yang terjadi pada ketersediaan klaster gudang data dan daya tahan data saya jika terjadi kesalahan node individual?

Amazon Redshift secara otomatis akan mendeteksi dan mengganti node yang gagal dalam klaster gudang data Anda. Klaster gudang data tidak akan tersedia untuk kueri dan pembaruan hingga node pengganti disediakan dan ditambahkan ke DB. Amazon Redshift membuat node pengganti tersedia langsung dan memuat data yang paling sering diakses dari S3 agar memungkinkan Anda melanjutkan kueri data secepat mungkin. Klaster node tunggal tidak mendukung replikasi data. Jika terjadi kegagalan drive Anda harus memulihkan klaster dari snapshot di S3. Kami menyarankan penggunaan setidaknya dua node untuk produksi.

T: Apa yang terjadi pada ketersediaan klaster gudang data dan ketahanan data saya jika Availability Zone (AZ) klaster gudang data mati?

Jika Availability Zone klaster gudang data Amazon Redshift menjadi tidak tersedia, Anda tidak akan dapat menggunakan klaster hingga daya dan akses jaringan ke AZ dipulihkan. Data dari klaster gudang data Anda akan disimpan sehingga Anda bisa mulai menggunakan gudang data Amazon Redshift Anda segera setelah AZ tersedia kembali. Selain itu, Anda juga dapat memilih untuk memulihkan snapshot yang ada ke AZ baru dalam Wilayah yang sama. Amazon Redshift akan memulihkan data yang paling sering diakses terlebih dahulu sehingga Anda dapat melanjutkan kueri sesegera mungkin.

T: Apakah Amazon Redshift Penerapan Multi-AZ?

Untuk saat ini, Amazon Redshift hanya mendukung penerapan AZ-Tunggal. Anda dapat menjalankan klaster gudang data di beberapa AZ dengan memuat data ke dalam dua klaster gudang data Amazon Redshift di AZ yang berbeda dari kumpulan file input Amazon S3 yang sama. Dengan Redshift Spectrum, Anda dapat menjalankan beberapa klaster di seluruh AZ dan mengakses data di Amazon S3 tanpa perlu memuatnya ke klaster Anda. Selain itu, Anda juga dapat memulihkan klaster gudang data ke AZ yang berbeda dari snapshot klaster gudang data Anda.

Pencadangan dan Pemulihan

T: Bagaimana cara Amazon Redshift mecadangkan data saya? Bagaimana cara memulihkan klaster dari cadangan?

Amazon Redshift mereplikasi semua data di dalam klaster gudang data saat dimuat dan juga terus mencadangkan data ke S3. Amazon Redshift selalu berusaha memelihara setidaknya tiga salinan data (orisinal dan replika pada node komputasi dan satu cadangan di Amazon S3). RedShift dapat juga mereplika snapshot Anda ke S3 secara asinkronis dalam daerah lain untuk pemulihan bencana.

Secara default, Amazon Redshift mengaktifkan cadangan otomatis untuk klaster gudang data Anda dengan 1 hari periode penyimpanan. Anda dapat mengonfigurasikan ini hingga 35 hari.

Penyimpanan cadangan gratis terbatas pada total ukuran penyimpanan di node dalam klaster gudang data dan hanya berlaku untuk klaster gudang data aktif. Misalnya, jika Anda memiliki total penyimpanan gudang data sebesar 8 TB, kami akan memberikan paling banyak 8 TB penyimpanan data tanpa biaya tambahan. Jika Anda ingin memperpanjang periode retensi cadangan lebih dari satu hari, Anda dapat melakukannya dengan menggunakan AWS Management Console atau API Amazon Redshift. Untuk informasi lebih lanjut tentang snapshot otomatis, silakan baca Panduan Pengelolaan Amazon Redshift. Amazon Redshift hanya mencadangkan data yang berubah sehingga sebagian besar snapshot hanya menggunakan sedikit ruang penyimpanan cadangan gratis Anda.

Saat Anda perlu memulihkan cadangan, Anda memiliki akses ke semua cadangan otomatis dalam periode retensi cadangan Anda. Setelah Anda memilih dari cadangan mana Anda memulihkan, kami akan menyediakan klaster gudang data baru dan kemudian memulihkan data Anda ke dalamnya.

T: Bagaimana cara mengelola retensi cadangan dan snapshot otomatis saya?

Anda dapat menggunakan AWS Management Console atau API ModifyCluster untuk mengatur periode waktu penyimpanan cadangan otomatis Anda dengan memodifikasi parameter RetentionPeriod. Jika Anda ingin menonaktifkan cadangan otomatis seluruhnya, Anda dapat melakukannya dengan mengatur periode penyimpanan ke 0 (tidak disarankan).

T: Apa yang terjadi pada cadangan saya jika saya menghapus klaster gudang data?

Saat Anda menghapus klaster gudang data, Anda memiliki kemampuan untuk menentukan apakah snapshot akhir dibuat saat penghapusan, yang memungkinkan pemulihan klaster gudang data yang dihapus nantinya. Semua snapshot manual yang dibuat sebelumnya dari klaster gudang data Anda akan disimpan dan dikenakan tarif Amazon S3 standar, kecuali Anda memilih untuk menghapusnya.

Skalabilitas

T: Bagaimana cara menskalakan ukuran dan kinerja klaster gudang data Amazon Redshift saya?

Jika Anda ingin meningatkan kinerja kueri atau merespons penggunaan CPU, memori atau I/O berlebih, Anda dapat meningkatkan jumlah node di dalam klaster gudang data Anda melalui AWS Management Console atau API ModifyCluster. Saat Anda mengubah klaster gudang data, perubahan yang Anda minta akan diterapkan langsung. Metrik untuk penggunaan komputasi, penggunaan penyimpanan, dan lalu lintas baca/tulis ke klaster gudang data Amazon Redshift tersedia secara gratis melalui AWS Management Console atau API Amazon CloudWatch. Anda juga dapat menambahkan metrik tambahan yang ditentukan pengguna melalui fungsionalitas metrik kustom Amazon CloudWatch.

Dengan Redshift Spectrum, Anda dapat menjalankan beberapa klaster Amazon Redshift yang mengakses data yang sama dalam Amazon S3. Anda dapat menggunakan klaster berbeda untuk kasus penggunaan berbeda. Misalnya, Anda dapat menggunakan satu klaster untuk pelaporan standar dan klaster lain untuk kueri sains data. Tim pemasaran Anda dapat menggunakan klaster mereka sendiri yang berbeda dari tim operasi Anda. Bergantung pada jenis dan jumlah node dalam klaster lokal, serta jumlah file yang perlu diproses untuk kueri, Redshift Spectrum secara otomatis mendistribusikan eksekusi kueri ke beberapa pekerja Redshift Spectrum dari kumpulan sumber daya bersama untuk membaca dan memproses data dari Amazon S3, lalu mengembalikan hasilnya ke klaster Amazon Redshift untuk sisa pemrosesan.

T: Apakah klaster data saya akan tetap tersedia selama penskalaan?

Klaster gudang data yang ada akan tetap tersedia untuk operasi baca selagi klaster gudang data baru dibuat saat operasi penskalaan. Saat klaster gudang data baru siap, klaster gudang data yang ada tidak akan tersedia untuk sementara catatan nama resmi dari klaster gudang data yang ada akan dibalik menunjuk klaster gudang data baru. Periode ketidaktersediaan ini biasanya hanya berlangsung beberapa menit, dan akan terjadi selama periode pemeliharaan untuk klaster gudang data, kecuali Anda menetapkan bahwa perubahan harus segera diterapkan. Amazon Redshift memindahkan data secara paralel dari node komputasi dalam klaster gudang data yang ada ke node komputasi di klaster baru Anda. Hal ini memungkinkan operasi Anda selesai secepat mungkin.

Kueri dan Analisis

T: Apakah Amazon Redshift dan Redshift Spectrum kompatibel dengan paket perangkat lunak kecerdasan bisnis dan alat ETL pilihan saya?

Amazon Redshift menggunakan SQL standar industri dan diakses menggunakan driver JDBC dan ODBC standar. Anda dapat mengunduh driver JDBC dan ODBC kustom Amazon Redshift dari tab Sambungkan Klien dari Konsol Redshift. Kami telah memvalidasi intergrasi dengan vendor BI dan ETL populer, yang mana beberapa di antaranya menawarkan percobaan gratis untuk membantu Anda memulai pemuatan dan analisis data. Anda juga dapat membuka AWS Marketplace untuk menerapkan dan mengonfigurasi solusi yang dirancang untuk bekerja bersama Amazon Redshift dalam hitungan menit.

Redshift Spectrum mendukung semua alat klien Amazon Redshift. Alat klien dapat terus terhubung ke titik akhir klaster Amazon Redshift menggunakan koneksi ODBC dan JDBC. Tidak ada perubahan yang diperlukan.

Anda menggunakan sintaksis kueri yang benar-benar sama dan memiliki kemampuan kueri yang sama untuk mengakses tabel di Redshift Spectrum seperti Anda miliki untuk tabel dalam penyimpanan lokal klaster Redshift Anda. Tabel eksternal direferensikan menggunakan nama skema yang ditentukan dalam perintah CREATE EXTERNAL SCHEMA di mana tabel tersebut terdaftar.

T: Format data dan format kompresi apa yang didukung Redshift Spectrum?

Redshift Spectrum saat ini mendukung banyak format data sumber terbuka, termasuk Avro, CSV, Grok, Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, SequenceFile, TextFile, dan TSV.

Redshift Spectrum saat ini mendukung kompresi Gzip dan Snappy.

T: Apa yang terjadi jika tabel dalam penyimpanan lokal saya memiliki nama yang sama seperti tabel eksternal?

Sama seperti tabel lokal, Anda dapat menggunakan nama skema untuk memilih tabel yang Anda maksud dengan menggunakan schema_name.table_name di dalam kueri Anda.

T: Saya menggunakan Hive Metastore untuk menyimpan metadata mengenai data lake S3. Dapatkah saya menggunakan Redshift Spectrum?

Ya. Perintah CREATE EXTERNAL SCHEMA mendukung Hive Metastore. Kami saat ini belum mendukung DDL terhadap Hive Metastore.

T: Bagaimana cara mendapatkan daftar semua tabel database eksternal yang dibuat di klaster saya?

Anda dapat memerintahkan tabel sistem SVV_EXTERNAL_TABLES untuk memperoleh informasi tersebut.

Pemantauan

T: Bagaimana cara memantau kinerja klaster gudang data Amazon Redshift saya?

Metrik untuk penggunaan komputasi, penggunaan penyimpanan, dan lalu lintas baca/tulis ke klaster gudang data Amazon Redshift tersedia secara gratis melalui AWS Management Console atau API Amazon CloudWatch. Anda juga dapat menambahkan metrik tambahan yang ditentukan pengguna melalui fungsionalitas metrik kustom Amazon CloudWatch. Sebagai tambahan metrik CloudWatch, Amazon Redshift juga menyediakan informasi mengenai kueri dan kinerja klaster melalui AWS Management Console. Informasi ini memungkinkan Anda melihat pengguna dan kueri mana yang menggunakan sumber daya sistem paling banyak serta mendiagnosis masalah kinerja. Selain itu, Anda dapat melihat penggunaan sumber daya pada setiap node komputasi untuk memastikan bahwa Anda memiliki data dan kueri yang seimbang di semua node.

T: Saya memerhatikan bahwa ada beberapa kueri yang mengakses data dalam klaster saya berjalan lambat dari kueri Redshift Spectrum saya. Mengapa begitu?

Kueri Amazon Redshift berjalan di sumber daya klaster terhadap pada disk lokal. Kueri Redshift Spectrum berjalan menggunakan sumber daya penskalaan per kueri pada data di S3. Untuk sebagian besar kueri, disk lokal akan lebih cepat, namun untuk kueri yang memindai banyak data dan melakukan sedikit pemrosesan komputasi, kami dapat menerapkan pekerja Redshift Spectrum dan menyelesaikannya dengan cepat.

Pemeliharaan

T: Apa itu periode pemeliharaan? Apakah klaster data saya akan tersedia selama pemeliharaan perangkat lunak?

Amazon Redshift secara periodik melakukan pemeliharaan untuk menerapkan perbaikan, peningkatan, dan fitur baru pada klaster Anda. Anda dapat mengubah periode pemeliharaan terjadwal dengan mengubah klaster, baik secara terprogram atau dengan menggunakan Konsol Redshift. Selama periode pemeliharaan ini, klaster Amazon Redshift Anda tidak akan tersedia untuk operasi normal. Untuk informasi selengkapnya mengenai periode pemeliharaan dan jadwal berdasarkan wilayah, baca Periode Pemeliharaan dalam Panduan Pengelolaan Amazon Redshift.

Pelajari selengkapnya tentang harga Amazon Redshift

Kunjungi halaman harga
Siap membuat?
Memulai dengan Amazon Redshift
Punya pertanyaan lainnya?
Hubungi kami