Umum

Untuk menemukan hal terbaru dari Amazon Redshift kunjungi halaman Apa yang Baru.
Untuk melihat informasi dan panduan penggunaan yang lebih rinci, kunjungi Dokumentasi.

T: Apa yang dimaksud dengan Amazon Redshift?

Amazon Redshift adalah data warehouse cloud yang paling banyak digunakan. Amazon Redshift mempercepat, memudahkan, dan menghemat biaya untuk menganalisis semua data Anda menggunakan SQL standar dan alat Inteligensi Bisnis (BI) Anda yang sudah ada. Redshift memungkinkan Anda menjalankan kueri analitik yang rumit pada data terstruktur dan semi-terstruktur berukuran terabyte hingga petabyte menggunakan pengoptimalan kueri canggih, penyimpanan columnar pada penyimpanan berperforma tinggi, dan eksekusi kueri paralel secara masif. Sebagian besar hasil muncul dalam hitungan detik. Dengan Redshift, Anda dapat memulai dari yang kecil, hanya dengan 0,25 USD per jam, tanpa komitmen dan penskalaan hingga ukuran petabyte data untuk 1.000 USD per terabyte per tahun, kurang dari sepersepuluh biaya solusi lokal tradisional. Amazon Redshift juga mencakup Amazon Redshift Spectrum, yang memungkinkan Anda menjalankan kueri SQL secara langsung pada data tidak terstruktur berukuran exabyte dalam danau data Amazon S3. Tidak ada pemuatan atau transformasi yang diperlukan dan Anda dapat menggunakan format data terbuka, termasuk Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text, Hudi, Delta, dan TSV. Redshift Spectrum secara otomatis menskalakan kapasitas komputasi kueri berdasarkan data yang diterima, sehingga kueri terhadap Amazon S3 berjalan cepat, terlepas dari ukuran set datanya.

Amazon Redshift memberi Anda kemampuan kueri cepat di atas data terstruktur menggunakan klien berbasis SQL dan alat kecerdasan bisnis (BI) yang menggunakan koneksi ODBC dan JDBC standar. Kueri didistribusikan dan diparalelkan di beberapa sumber daya fisik. Anda dapat menskalakan gudang data Amazon Redshift dengan mudah hanya dengan beberapa klik di AWS Management Console atau dengan satu panggilan API. Amazon Redshift secara otomatis akan melakukan patch dan mencadangkan gudang data Anda, menyimpan cadangan untuk periode retensi yang ditentukan pengguna. Amazon Redshift menggunakan replikasi dan cadangan berkelanjutan untuk meningkatkan ketersediaan dan daya tahan data serta dapat secara otomatis pulih dari kegagalan komponen dan simpul. Selain itu, Amazon Redshift mendukung keamanan terkemuka dalam industri dengan integrasi AWS IAM, federasi identitas, kontrol akses level kolom, Amazon Virtual Private Cloud (Amazon VPC), SSL, enkripsi AES-256, dan integrasi AWS KMS internal untuk melindungi data Anda pada saat transit dan istirahat. Semua fitur keamanan Amazon Redshift disertakan tanpa biaya tambahan.

Amazon Redshift berintegrasi dengan AWS CloudTrail untuk memungkinkan Anda mengaudit semua panggilan API Redshift. Redshift mencatat semua pengoperasian SQL, mencakup percobaan koneksi, kueri, dan perubahan pada gudang data Anda. Anda dapat mengakses catatan log ini menggunakan kueri SQL terhadap tabel sistem, atau pilih untuk menyimpan catatan log di tempat aman di Amazon S3. Amazon Redshift tunduk pada persyaratan SOC1, SOC2, SOC3, dan PCI DSS Tingkat 1.

Seperti halnya semua Amazon Web Services, tidak diperlukan investasi di muka, dan Anda hanya membayar untuk sumber daya yang Anda gunakan. Amazon Redshift memungkinkan Anda membayar sesuai pemakaian. Anda bahkan dapat mencoba Amazon Redshift secara gratis.

Untuk informasi mengenai ketersediaan wilayah Amazon Redshift, lihat Tabel Wilayah AWS.

T: Mengapa saya harus menggunakan Amazon Redshift dibandingkan gudang data lokal?

Gudang data lokal memerlukan waktu dan sumber daya yang signifikan untuk dikelola, khususnya untuk dataset yang besar. Selain itu, biaya keuangan terkait pembangunan, pemeliharaan, dan pengembangan gudang data lokal yang dikelola sendiri sangatlah tinggi. Seiring bertambahnya data, Anda harus terus memilih data apa yang perlu dimuat ke gudang data Anda dan data apa yang harus diarsipkan di dalam penyimpanan sehingga Anda dapat mengelola biaya, menjaga kerumitan ETL tetap rendah, dan menghasilkan kinerja yang baik. Amazon Redshift tidak hanya menurunkan biaya dan overhead operasional gudang data secara signifikan, namun dengan Redshift Spectrum, analisis jumlah data besar dalam format aslinya dapat dilakukan dengan mudah tanpa mengharuskan Anda memuat data tersebut.

T: Apa yang dimaksud dengan AQUA (Advanced Query Accelerator) untuk Amazon Redshift?

AQUA adalah cache terdistribusi baru dan dipercepat perangkat keras yang memungkinkan Redshift berjalan 10x lebih cepat dibanding gudang data cloud perusahaan lainnya. Arsitektur gudang data yang ada dengan penyimpanan terpusat mengharuskan data dipindahkan ke kluster komputasi untuk pemrosesan. Karena gudang data terus berkembang selama beberapa tahun ke depan, bandwidth jaringan yang diperlukan untuk memindahkan seluruh data ini akan menyempit dalam kinerja kueri.

AQUA menggunakan pendekatan baru untuk gudang data cloud. AQUA membawa komputasi ke penyimpanan dengan melakukan bagian penting dalam pemrosesan data di lokasi pada cache yang inovatif. Selain itu, prosesor yang dirancang AWS dan arsitektur yang skalanya ditingkatkan digunakan untuk mempercepat pemrosesan data melebihi hal yang dapat dilakukan CPU tradisional saat ini. Pelajari selengkapnya.

T: Tipe simpul mana yang mendukung AQUA?

AQUA tersedia dengan simpul RA3.16xlarge, RA3.4xlarge, atau RA3.xlplus.

T: Bagaimana pengenaan biaya dan penagihan atas penggunaan AQUA saya?

AQUA disertai dengan tipe instans Redshift RA3 gratis. Detail tentang harga node RA3 tersedia di sini.

T: Bagaimana cara mengaktifkan/menonaktifkan AQUA untuk gudang data Redshift saya?

Untuk kluster Redshift yang berjalan di node RA3, Anda dapat mengaktifkan/menonaktifkan AQUA di tingkat kluster menggunakan konsol Redshift, CLI, atau API. Kluster harus dimulai ulang agar pengaturan berlaku. Untuk kluster Redshift yang berjalan di DC, DS, atau node generasi yang lebih lama, Anda harus meningkatkan ke node RA3 terlebih dulu dan mengaktifkan/menonaktifkan AQUA. Pengaturan default untuk AQUA adalah Otomatis, sehingga Redshift menentukan apakah AQUA diaktifkan/dinonaktifkan. Pengaturan adalah properti tingkat kluster, sehingga setelah diatur, pengaturan berlaku ke seluruh basis data, skema, dan kueri di kluster.

T: Apa tipe kueri yang dipercepat oleh AQUA?

AQUA mempercepat kueri analisis dengan menjalankan tugas intensif data seperti pemindaian, pengurutan, dan agregasi lebih dekat ke lapisan penyimpanan menggunakan perangkat keras yang dibangun dengan tujuan. Anda akan melihat peningkatan kinerja yang paling terlihat di kueri yang memerlukan pemindaian besar, terutama dengan predikat LIKE dan SIMILAR_TO. Seiring waktu, tipe kueri yang dipercepat oleh AQUA akan meningkat.

T: Bagaimana cara AQUA menjaga data saya tetap aman?

AQUA mendukung autentikasi, enkripsi, isolasi, dan kepatuhan untuk menjaga data Anda saat istirahat dan saat dikirimkan tetap aman. Autentikasi ditangani oleh Redshift menggunakan layanan autentikasi AWS IAM. Untuk enkripsi, AQUA menggunakan saluran yang dienkripsi TLS bersama dengan kunci yang disediakan pelanggan untuk menjaga data saat dikirimkan dan saat istirahat tetap aman.

T: Bagaimana cara saya mengetahui kueri mana di kluster Redshift saya yang dipercepat oleh AQUA?

Anda dapat mengueri tabel sistem untuk melihat kueri yang dipercepat oleh AQUA.

T: Apa yang dimaksud dengan Redshift Spectrum?

Redshift Spectrum adalah fitur Amazon Redshift yang memungkinkan Anda untuk menjalankan kueri terhadap data tidak terstruktur berskala exabyte di Amazon S3, tanpa diperlukan pemuatan atau ETL. Ketika Anda menerbitkan kueri, kueri menuju ke endpoint Amazon RedShift SQL, yang menghasilkan dan mengoptimalkan rencana kueri Amazon Redshift menentukan data apa yang lokal dan apa yang ada di Amazon S3, membuat rencana untuk meminimalkan jumlah data Amazon S3 yang perlu dibaca, meminta pekerja Redshift Spectrum dari kumpulan sumber yang dibagikan untuk membaca dan memproses data dari Amazon S3.

Redshift Spectrum menyesuaikan skala hingga ribuan instans jika diperlukan, sehingga kueri berjalan dengan cepat tanpa terpengaruh dengan ukuran data. Sebagai tambahan, Anda dapat menggunakan SQL yang sama untuk data Amazon S3 seperti yang Anda gunakan untuk kueri Amazon Redshift Anda dan terhubung ke endpoint Amazon Redshift yang sama dengan menggunakan alat BI yang sama. Redshift Spectrum memungkinkan Anda memisahkan penyimpanan dan komputasi, membantu Anda menskalakan keduanya secara independen. Anda dapat menetapkan klaster Amazon Redshift sebanyak yang Anda perlukan untuk melakukan kueri kumpulan data Amazon S3 Anda, yang memberikan ketersediaan yang tinggi dan konkurensi tanpa batas. Redshift Spectrum memberi Anda kebebasan menyimpan data di mana pun yang Anda inginkan, dalam format yang Anda inginkan, dan membuatnya tersedia untuk pemrosesan saat Anda membutuhkannya. Untuk informasi tentang ketersediaan wilayah Redshift Spectrum, kunjungi halaman harga Amazon Redshift.

T: Apa perbedaan antara penggunaan AQUA dan Redshift Spectrum?

Redshift Spectrum dirancang untuk memungkinkan kueri melalui format terbuka yang disimpan di Amazon S3. Format terbuka dapat dikueri oleh beberapa mesin termasuk Amazon EMR yang mendukung Apache Spark, atau Amazon Athena yang mendukung pengalaman nirserver. Redshift Spectrum tidak mendukung pembaruan transaksional dan tidak mendukung format Redshift native yang dioptimalkan yang digunakan untuk menyimpan data yang diserap di Redshift. Penggunaan Redshift Spectrum memerlukan definisi eksplisit tabel eksternal sedangkan AQUA beroperasi di tabel Redshift native. Spectrum sangat sesuai untuk menjalankan kueri yang tidak sering di data dingin secara terintegrasi dari kluster Redshift Anda.

AQUA mengakselerasi kemampuan Redshift untuk MEMINDAI dan MENGAGREGAT data bervolume besar yang merupakan bagian dari basis data Redshift Anda. Bahkan ketika memanfaatkan AQUA, Redshift mempertahankan dukungan untuk transaksi, dan AQUA akan selalu beroperasi di data terbaru.

T: Apa itu penyimpanan terkelola Amazon Redshift?

Penyimpanan terkelola Amazon Redshift tersedia dengan jenis simpul RA3 dan memungkinkan Anda menskalakan serta membayar komputasi juga penyimpanan secara independen, sehingga Anda dapat mengukur klaster hanya berdasarkan kebutuhan komputasi. Penyimpanan ini secara otomatis menggunakan penyimpanan lokal berkinerja tinggi berbasis SSD sebagai cache tingkat 1 dan memanfaatkan optimalisasi seperti temperatur blok data, usia blok data, dan pola beban kerja untuk memberikan kinerja yang tinggi seraya menskalakan penyimpanan secara otomatis ke Amazon S3 saat diperlukan tanpa memerlukan tindakan apa pun.

T: Bagaimana cara menggunakan penyimpanan terkelola Amazon Redshift?

Jika Anda telah menggunakan simpul DS atau DC Amazon Redshift, Anda dapat meningkatkan klaster yang ada menjadi instans komputasi RA3 yang baru untuk menggunakan penyimpanan terkelola. Anda juga dapat membuat klaster baru berbasis instans RA3 dan penyimpanan terkelola disertakan secara otomatis. Tindakan lain tidak diperlukan untuk menggunakan kemampuan ini.

T: Bagaimana cara Amazon Redshift menyederhanakan manajemen gudang data?

Amazon Redshift mengelola tugas yang diperlukan dalam menyiapkan, mengoperasikan, dan menskalakan gudang data. Misalnya, menyediakan kapasitas infrastruktur, mengotomatiskan tugas administratif yang sedang berlangsung seperti pencadangan dan patching, serta memantau node dan drive agar pulih dari kegagalan. Redshift juga memiliki kemampuan penyetelan otomatis, dan memberikan rekomendasi untuk mengelola data warehouse Anda di Redshift Advisor. Untuk Redshift Spectrum, Amazon Redshift mengelola semua infrastruktur komputasi, load balancing, perencanaan, penjadwalan, dan eksekusi kueri Anda pada data yang disimpan di Amazon S3.

T: Bagaimana kinerja Amazon Redshift dibandingkan dengan sebagian besar database lokal untuk gudang data dan analitik?

Amazon Redshift menggunakan berbagai inovasi untuk mencapai kinerja hingga sepuluh kali lebih baik dibanding database tradisional untuk beban kerja gudang data dan analitik, mereka menyertakan hal berikut:

  • Penyimpanan Data Kolom: Alih-alih menyimpan data sebagai sekumpulan baris, Amazon Redshift menyusun data berdasarkan kolom. Tidak seperti sistem berbasis baris, yang cocok untuk pemrosesan transaksi, sistem berbasis kolom cocok untuk gudang data dan analisis, di mana kueri sering mencakup penjumlahan yang dilakukan atas kumpulan data yang besar. Karena hanya kolom dalam kueri yang diproses dan data kolom disimpan secara berurutan pada media penyimpanan, sistem berbasis kolom memerlukan I/O yang jauh lebih sedikit, meningkatkan kinerja kueri dengan pesat.
  • Kompresi Lanjutan: Penyimpanan data kolom dapat dikompres lebih dari penyimpanan data berbasis baris karena data yang mirip disimpan secara berurutan pada disk. Amazon Redshift menggunakan beberapa teknik kompresi dan dapat sering mencapai kompresi signifikan yang hampir sama dengan penyimpanan data relasional tradisional. Saat memuat data ke tabel kosong, Amazon Redshift secara otomatis mengambil sampel data Anda dan memilih skema kompresi yang paling sesuai.
  • Massively Parallel Processing (MPP): Amazon Redshift secara otomatis mendistribusikan data dan beban kueri ke semua node. Amazon Redshift mempermudah penambahan node ke gudang data dan memungkinkan Anda menjaga kinerja kueri cepat saat gudang data Anda berkembang.
  • Redshift Spectrum: Redshift Spectrum memungkinkan Anda menjalankan kueri SQL terhadap sejumlah exabyte data di Amazon S3. Tidak ada muatan atau ETL yang diperlukan. Bahkan jika Anda tidak menyimpan data apa pun di Amazon Redshift, Anda masih dapat menggunakan Redshift Spectrum untuk menlakukan kueri dataset sebesar satu exabyte di Amazon S3. Ketika Anda menerbitkan kueri, kueri pergi ke endpoint Amazon RedShift SQL, yang menghasilkan rencana kueri. Amazon Redshift menentukan manakah data lokal dan manakah data yang ada dalam Amazon S3, menghasilkan rencana untuk meminimalkan jumlah data Amazon S3 yang perlu dibaca, meminta pekerja Redshift Spectrum keluar dari pool sumber daya bersama untuk membaca dan memproses data dari Amazon S3, serta menarik kembali hasil ke dalam kluster Amazon Redshift Anda untuk pemrosesan yang tersisa.
  • Tampilan termaterialisasi: Tampilan termaterialisasi memberikan performa kueri yang lebih cepat untuk beban kerja analitik berulang dan dapat diprediksi seperti dasbor, kueri dari alat inteligensi bisnis (BI), dan pemrosesan data ELT (Extract, Load, Transform). Dengan tampilan termaterialisasi, Anda dapat menyimpan hasil kueri yang telah dikomputasi sebelumnya dan secara efisien memeliharanya dengan secara bertahap memproses perubahan terbaru yang dibuat pada tabel sumber. Kueri berurutan yang mereferensi tampilan termaterialisasi menggunakan hasil yang telah dikomputasi sebelumnya untuk berjalan lebih cepat, serta kemampuan penyegaran otomatis dan tulis ulang kueri untuk menyederhanakan dan mengotomatiskan penggunaan tampilan termaterialisasi. Tampilan termaterialisasi dapat dibuat berdasarkan satu atau beberapa tabel sumber menggunakan filter, proyeksi, gabungan dalam, agregasi, pengelompokan, fungsi, dan gagasan SQL lainnya.
  • Skalabilitas: Kapasitas komputasi dan penyimpanan gudang data lokal dibatasi oleh kendala pada perangkat keras lokal. Redshift memberi Anda kemampuan untuk menskalakan komputasi dan penyimpanan sesuai kebutuhan untuk memenuhi perubahan beban kerja.
  • Automatic Table Optimization (ATO) adalah kemampuan penyetelan mandiri yang membantu Anda mencapai manfaat performa dari kunci penyortiran dan distribusi tanpa upaya manual. ATO terus mengamati bagaimana kueri berinteraksi dengan tabel, dan menggunakan machine learning untuk memilih kunci penyortiran dan distribusi terbaik untuk mengoptimalkan performa untuk beban kerja kluster. Jika Redshift menentukan bahwa menerapkan kunci akan meningkatkan performa kluster, tabel akan diubah dalam hitungan jam secara otomatis tanpa memerlukan intervensi administrator. Pengoptimalan yang dibuat oleh fitur ATO menampilkan peningkatan performa kluster sebesar 24% dan 34% menggunakan tolok ukur TPC-DS 3 TB dan 30 TB, secara berturut-turut, dibandingkan kluster tanpa ATO. Fitur tambahan seperti Automatic Vacuum Delete, Automatic Table Sort, dan Automatic Analyze menghilangkan kebutuhan untuk pemeliharaan dan penyetelan kluster Redshift manual guna mendapatkan performa terbaik untuk kluster baru dan beban kerja produksi.
  • Amazon Redshift Advisor mengembangkan rekomendasi yang disesuaikan untuk meningkatkan performa dan mengoptimalkan biaya dengan menganalisis beban kerja serta metrik penggunaan untuk kluster Anda.. Masuk ke konsol Amazon Redshift untuk melihat rekomendasi Advisor. Untuk informasi selengkapnya, lihat Menggunakan rekomendasi dari Amazon Redshift Advisor.

T: Bagaimana cara memulai Amazon Redshift?

Anda dapat mendaftar dan memulai dalam hitungan menit dari halaman detail Amazon Redshift atau melalui AWS Management Console. Jika belum memiliki akun AWS, Anda akan diminta untuk membuat akun baru. Kunjungi halaman Memulai kami untuk melihat cara mencoba Amazon Redshift secara gratis.

T: Bagaimana cara membuat dan mengakses klaster gudang data Amazon Redshift?

Anda dapat dengan mudah membuat klaster gudang data Amazon Redshift menggunakan AWS Management Console atau API Amazon Redshift. Anda dapat memulai dengan satu simpul, gudang data sebesar 160 GB dan meningkatkan skala hingga ukuran petabyte atau lebih dengan beberapa klik di Konsol AWS atau satu panggilan API.

Konfigurasi simpul tunggal, yang paling sesuai untuk evaluasi atau pengembangan/pengujian beban kerja, memungkinkan Anda untuk mulai menggunakan Amazon Redshift dengan cepat dan hemat serta menaikkan skala hingga konfigurasi multisimpul saat kebutuhan Anda bertambah. Kluster data warehouse Redshift dapat memuat 1-128 node komputasi, bergantung pada tipe node. Untuk tipe node generasi terbaru, RA3, jumlah minimum node adalah dua. Untuk detail selengkapnya, silakan baca dokumentasi kami.

Konfigurasi multisimpul memerlukan simpul induk yang mengelola koneksi klien dan menerima kueri, dan dua simpul komputasi yang menyimpan data dan melakukan kueri serta komputasi. Simpul induk, yang berukuran sama dengan simpul komputasi, disediakan untuk Anda secara otomatis dan Anda tidak akan dikenakan biaya atasnya.

Cukup tentukan Availability Zone pilihan Anda (opsional), jumlah simpul, jenis simpul, nama dan kata sandi master, grup keamanan, preferensi Anda untuk retensi pencadangan, dan pengaturan sistem lainnya. Setelah Anda memilih konfigurasi yang dikehendaki, Amazon Redshift akan menyediakan sumber daya yang diperlukan dan menyiapkan klaster gudang data Anda.

Setelah klaster gudang data tersedia, Anda dapat mengambil endpoint serta string koneksi JDBC dan ODBC dari AWS Management Console atau dengan menggunakan API Redshift. Anda kemudian dapat menggunakan string koneksi dengan alat database, bahasa pemrograman, atau alat Kecerdasan Bisnis (BI) favorit Anda. Anda perlu memberi izin permintaan jaringan untuk menjalankan klaster gudang data Anda. Untuk penjelasan detail, silakan baca Panduan Memulai kami.

T: Berapa kapasitas penyimpanan maksimum per node komputasi? Berapa jumlah data per node komputasi yang direkomendasikan untuk kinerja optimal?

Anda dapat membuat klaster menggunakan salah satu jenis node RA3, DC, atau DS. Jenis node RA3 memungkinkan Anda untuk menimbang dan membayar untuk komputasi dan penyimpanan secara mandiri. Anda memilih jumlah instans yang dibutuhkan berdasarkan persyaratan performa, dan hanya membayar penyimpanan terkelola yang Anda gunakan.

Tipe node RA3 tersedia dalam tiga ukuran, RA3.16XL, RA3.4XL, dan RA3.XLPLUS. Tiap simpul RA3.16XL memiliki 48 vCPU, memori sebesar 384 GiB, dan dukungan IO sebesar 8 GB/dtk. Kluster RA3.16XL dan RA3.4XL berjalan dengan minimal dua simpul dan dua simpul kluster RA3.16XL atau RA3.4XL berukuran minimum menawarkan penyimpanan terkelola berukuran 256 TB. Kuota penyimpanan terkelola untuk RA3.16XL dan RA3.4XL per simpul adalah sebesar 128 TB. Kluster RA3.16XL dapat menskalakan hingga 128 simpul yang memungkinkan pembangunan kluster dengan penyimpanan terkelola berukuran hingga dua 16 petabyte. Simpul RA3.4XL memiliki 12 vCPU, memori sebesar 96 GiB, dan dukungan IO sebesar 2 GB/dtk. Kluster RA3.4XL dapat menskalakan hingga 64 node yang memungkinkan pembangunan kluster dengan penyimpanan terkelola berukuran hingga 4 petabyte. Node RA3.XLPLUS memiliki 4vCPU, memori sebesar 32 GiB, dan dukungan IO sebesar 650 MB. Kluster RA3.XLPLUS dapat diskalakan hingga 32 node yang memungkinkan pembangunan kluster penyimpanan terkelola hingga 5 petabyte. Catatan: Seluruh ukuran penyimpanan yang disebutkan di sini adalah untuk data terkompresi. Redshift mengompresi data sebanyak 3-4x sehingga data yang tidak terkompresi berukuran 3-4x lebih besar dibandingkan dengan yang disebutkan di sini.

Jenis simpul DC juga tersedia dalam dua ukuran. Large memiliki 160 GB penyimpanan SSD, dua core virtual Intel Xeon E5-2670v2 (Ivy Bridge) dan RAM berukuran 15 GiB. Eight Extra Large berukuran 16 kali lebih besar dengan penyimpanan SSD sebesar 2,56 TB, 32 core virtual Intel Xeon E5-2670v2, dan RAM berukuran 244 GiB. Anda dapat memulai dengan satu simpul DC2.Large seharga 0,25 USD per jam dan menskalakan hingga 128 simpul 8XL dengan penyimpanan SSD sebesar 326 TB, 3.200 core virtual, dan RAM berukuran 24 TiB.

Jenis simpul DS tersedia dalam dua ukuran, Extra Large dan Eight Extra Large. Extra Large (XL) memiliki tiga HDD dengan total dua TB penyimpanan magnetis, sedangkan Eight Extra Large (8XL) memiliki 24 HDD dengan total 16 TB penyimpanan magnetis. DS2.8XLarge memiliki 36 core virtual Intel Xeon E5-2676 v3 (Haswell) dan 244 GiB RAM, dan DS2.XL memiliki empat core virtual Intel Xeon E5-2676 v3 (Haswell), dan 31 GiB RAM.

Silakan lihat halaman harga kami untuk detail selengkapnya.

T: Kapan sebaiknya saya menggunakan Amazon Redshift vs. Amazon RDS?

Baik Amazon Redshift maupun Amazon RDS memungkinkan Anda menjalankan database relasional tradisional di dalam cloud sembari memindahkan administrasi database. Pelanggan menggunakan database Amazon RDS terutama untuk beban kerja pemrosesan transaksi online (OLTP), sementara Redshift utamanya digunakan untuk pelaporan dan analitik. Beban kerja OLTP memerlukan pembuatan informasi khusus dengan cepat dan mendukung transaksi seperti sisipkan, perbarui, dan hapus, oleh karena itu paling baik ditangani oleh Amazon RDS. Amazon Redshift memanfaatkan penyesuaian skala dan sumber daya beberapa simpul serta menggunakan berbagai optimalisasi untuk memberikan urutan besarnya peningkatan atas database tradisional untuk analisis dan pelaporan beban kerja terhadap data set yang sangat besar. Amazon Redshift memberikan opsi penyesuaian skala terbaik ketika kompleksitas data dan kueri Anda bertambah atau jika Anda ingin mencegah pemrosesan pelaporan serta analitik Anda mengganggu kinerja beban kerja OLTP Anda. Kini, dengan fitur Kueri Gabungan yang baru, Anda dapat membuat kueri data dengan mudah di Amazon RDS atau layanan database Aurora dengan Amazon Redshift.

T: Kapan sebaiknya saya menggunakan Amazon Redshift atau Redshift Spectrum vs. Amazon EMR?

Anda harus menggunakan Amazon EMR jika menggunakan kode kustom untuk memproses dan menganalisis dataset yang sangat besar dengan kerangka kerja pemrosesan big data seperti Apache Spark, Hadoop, Presto, atau Hbase. Amazon EMR memberi Anda kendali penuh atas konfigurasi klaster serta perangkat lunak yang Anda pasang.

Gudang data seperti Amazon Redshift dirancang untuk tipe analisis yang benar-benar berbeda. Gudang data dirancang untuk mengambil data dari banyak sumber, seperti inventaris, keuangan, dan sistem penjualan ritel. Untuk memastikan agar pelaporan tetap akurat di seluruh perusahaan, gudang data menyimpan data di dalam mode yang sangat terstruktur. Struktur ini membangun aturan konsistensi data langsung ke tabel database. Amazon Redshift adalah layanan terbaik untuk digunakan jika Anda perlu melakukan kueri kompleks pada kumpulan data terstruktur dan semi terstruktur yang sangat besar, serta mendapatkan kinerja yang cepat.

Walau fitur Redshift Spectrum sangat sesuai digunakan untuk menjalankan kueri terhadap data dalam Amazon Redshift dan S3, layanan ini tidak cocok untuk jenis kasus penggunaan yang biasa diminta perusahaan dari kerangka kerja pemrosesan seperti Amazon EMR. Amazon EMR lebih dari sekadar menjalankan kueri SQL. Amazon EMR adalah sebuah layanan terkelola yang memungkinkan Anda memproses dan menganalisis data set yang sangat besar menggunakan versi kerangka pemrosesan big data populer terbaru, seperti Spark, Hadoop, dan Presto, pada klaster yang dapat dikustomisasi sepenuhnya. Dengan Amazon EMR Anda dapat menjalankan beragam tugas pemrosesan data penskalaan untuk aplikasi seperti machine learning, analitik grafik, transformasi data, data streaming, dan segala yang dapat Anda kodekan.

Anda dapat menggunakan Redshift Spectrum dengan EMR. Redshift Spectrum menggunakan pendekatan yang sama untuk menyimpan definisi tabel seperti Amazon EMR. Redshift Spectrum dapat mendukung Apache Hive Metastore yang sama dengan yang digunakan Amazon EMR untuk menemukan data dan definisi tabel. Jika Anda saat ini menggunakan Amazon EMR dan sudah memiliki Hive Metastore, Anda cukup mengonfigurasi klaster Amazon Redshift untuk menggunakannya. Anda kemudian dapat mulai melakukan kueri data tersebut secara langsung bersama dengan tugas Amazon EMR Anda. Jadi, jika Anda sudah menggunakan EMR untuk memproses penyimpanan data yang besar, Anda dapat menggunakan Redshift Spectrum untuk membuat kueri data tersebut secara bersamaan tanpa mengganggu tugas Amazon EMR Anda.

Layanan kueri, gudang data, dan kerangka kerja pemrosesan data kompleks memiliki tempatnya masing-masing, dan digunakan untuk hal-hal yang berbeda. Anda hanya perlu memilih alat yang tepat untuk tugas yang diperlukan.

T: Kapan sebaiknya saya menggunakan Amazon Athena vs. Redshift Spectrum?

Amazon Athena adalah cara termudah untuk memberi karyawan kemampuan menjalankan kueri ad-hoc pada data di Amazon S3. Athena tidak memiliki server, sehingga tidak ada infrastruktur yang harus disiapkan atau dikelola, dan Anda dapat memulai menganalisis data secepatnya.

Jika Anda memiliki data yang sering diakses serta perlu disimpan dalam format sangat terstruktur dan konsisten, Anda harus menggunakan gudang data seperti Amazon Redshift. Ini memberi Anda fleksibilitas untuk menyimpan data terstruktur yang sering diakses di Amazon Redshift, dan menggunakan Redshift Spectrum untuk memperluas kueri Amazon Redshift ke data dalam data lake Amazon S3 Anda. Hal ini memberi Anda kebebasan untuk menyimpan data di mana pun yang Anda inginkan, dalam format yang Anda inginkan, dan membuatnya tersedia untuk pemrosesan saat Anda membutuhkannya.

T: Kenapa saya harus menggunakan Amazon Redshift alih-alih menjalankan klaster gudang data MPP saya di Amazon EC2?

Amazon Redshift secara otomatis menangani banyak tugas yang memakan waktu terkait pengelolaan gudang data Anda, termasuk:
  • Penyiapan: Dengan Amazon Redshift, Anda cukup membuat klaster gudang data, menentukan skema, dan mulai memuat serta membuat kueri data. Anda tidak perlu mengelola penyediaan, konfigurasi, atau patching.
  • Ketahanan Data: Amazon Redshift mereplikasi data Anda di dalam klaster gudang data dan terus mencadangkan data ke Amazon S3, yang dirancang untuk ketahanan yang sempurna. Amazon Redshift menyalin setiap data drive ke node lain dalam klaster Anda. Jika satu drive gagal, kueri Anda akan berlanjut dengan sedikit peningkatan latensi sementara Redshift membuat ulang drive dari replika. Jika terjadi kegagalan node, Amazon Redshift secara otomatis menyediakan node baru dan mulai memulihkan data dari drive lain di dalam klaster atau dari Amazon S3. Redshift memprioritaskan pemulihan data yang sering dikueri sehingga kueri yang paling sering dieksekusi akan kembali bekerja dengan cepat.
  • Penyesuaian Skala: Anda dapat menambahkan atau menghapus node dari klaster gudang data Amazon Redshift dengan satu pangilan API atau dengan beberapa klik dalam AWS Management Console saat kapasitas dan kinerja Anda perlu diubah. Anda juga dapat menjadwalkan operasi penskalaan dan pengubahan ukuran dengan menggunakan kemampuan pengatur jadwal di Redshift.
  • Pembaruan dan Patch Otomatis: Amazon Redshift secara otomatis menerapkan pemutakhiran dan patch gudang data sehingga Anda dapat fokus pada aplikasi dan bukan pada administrasi.
  • Kemampuan Kueri Skala Exabyte: Redshift Spectrum memungkinkan Anda menjalankan kueri SQL terhadap sejumlah exabyte data di Amazon S3. Tidak ada muatan atau ETL yang diperlukan. Bahkan jika Anda tidak menyimpan data apa pun di Amazon Redshift, Anda masih dapat menggunakan Redshift Spectrum untuk membuat kueri dataset sebesar satu exabyte di Amazon S3.

Penagihan

T: Bagaimana saya dikenai biaya dan ditagih atas penggunaan Amazon Redshift saya?

Anda hanya perlu membayar yang Anda gunakan, dan tidak ada biaya minimal atau biaya penyiapan. Amazon Redshift mendukung kemampuan menjeda dan melanjutkan klaster, memungkinkan Anda untuk menangguhkan tagihan sesuai permintaan dengan mudah meskipun klaster tidak sedang digunakan. Misalnya, klaster yang digunakan untuk pengembangan dapat ditangguhkan tagihan komputasinya saat tidak digunakan. Saat klaster dijeda, Anda hanya dibebankan biaya untuk penyimpanan klaster. Untuk beban kerja produksi berstatus stabil, Anda bisa mendapat diskon yang signifikan melalui harga sesuai permintaan dengan beralih ke Instans Terpesan.

Penagihan untuk klaster gudang data dimulai segera setelah klaster gudang data tersedia. Penagihan berlanjut hingga klaster gudang data berhenti, yang akan terjadi saat penghapusan atau dalam pada saat kegagalan instans. Anda ditagih berdasarkan hal berikut:

  • Jam simpul komputasi: Jam simpul komputasi adalah total jam yang Anda gunakan di seluruh simpul komputasi untuk periode penagihan. Jam penggunaan ditagih untuk setiap jam saat klaster gudang data Anda berjalan dalam keadaan tersedia. Jika tidak lagi ingin dikenai biaya klaster gudang data, Anda harus menghentikan atau menghapus instans untuk menghindari dikenai biaya atas penggunaan node tambahan. Node per jam sebagian yang digunakan dibebankan satu jam penuh. Anda dikenakan tagihan atas 1 unit per node per jam, sehingga klaster gudang data 3 node yang berjalan secara terus menerus selama sebulan akan dikenai tarif 2.160 jam instans. Anda tidak akan dikenai biaya atas jam simpul induk; hanya simpul komputasi yang akan menimbulkan tarif.
  • Penyimpanan terkelola: Anda membayar untuk data yang disimpan di penyimpanan terkelola dengan tarif tetap GB-bulan untuk wilayah Anda. Penyimpanan terkelola secara khusus dilengkapi dengan jenis simpul RA3 dan Anda membayar tarif yang sama rendah untuk penyimpanan ter kelola Redshift, terlepas dari ukuran datanya. Penggunaan penyimpanan terkelola dihitung per jam berdasarkan total data yang ada dalam penyimpanan terkelola. Anda dapat memantau jumlah data dalam klaster RA3 melalui Amazon CloudWatch atau AWS Management Console. Anda tidak perlu membayar biaya transfer data antara simpul RA3 dan penyimpanan terkelola. Biaya penyimpanan terkelola tidak termasuk biaya penyimpanan cadangan yang disebabkan oleh snapshot otomatis dan manual. Setelah klaster dihentikan, Anda masih dikenakan biaya atas retensi cadangan manual Anda.
  • Penyimpanan Cadangan: Penyimpanan cadangan adalah penyimpanan yang terkait dengan snapshot yang diambil untuk gudang data Anda. Peningkatan periode retensi cadangan Anda atau pengambilan snapshot tambahan akan meningkatkan penyimpanan cadangan yang digunakan oleh gudang data Anda. Redshift mengenakan biaya untuk snapshot manual yang Anda ambil menggunakan konsol, API, atau CLI. Snapshot Otomatis Redshift, yang dibuat menggunakan fitur penjadwalan snapshot Redshift, tidak dikenakan biaya. Data yang disimpan di klaster RA3 merupakan bagian dari Redshift Managed Storage (RMS) dan ditagihkan sesuai tarif RMS, tetapi snapshot manual yang diambil untuk klaster RA3 ditagihkan sebagai penyimpanan cadangan pada tarif Amazon S3 standar yang dijelaskan dalam halaman ini. Sebagai contoh, jika klaster RA3 Anda memiliki 10 TB data dan 30 TB snapshot manual, Anda akan ditagih untuk 10 TB RMS dan 30 TB penyimpanan cadangan. Dengan klaster dense compute (DC) dan dense storage (DS), penyimpanan disertakan pada klaster dan tidak ditagihkan terpisah, tetapi cadangan disimpan secara eksternal di S3. Penyimpanan cadangan di luar ukuran penyimpanan yang disediakan pada klaster DC dan DS dikenakan biaya penyimpanan cadangan sesuai tarif Amazon S3 standar. Snapshot ditagihkan hingga kedaluwarsa atau dihapus, termasuk jika klaster dijeda maupun dihapus.
  • Transfer data: Tidak ada biaya transfer untuk data yang ditransfer ke atau dari Amazon Redshift dan Amazon S3 di dalam Wilayah AWS yang sama. Untuk semua transfer data ke dalam dan ke luar Amazon Redshift, Anda akan ditagih dengan tarif transfer data AWS standar.
  • Data dipindai: Dengan Redshift Spectrum, Anda akan dikenakan biaya atas jumlah data Amazon S3 yang dipindai untuk mengeksekusi kueri Anda. Tidak ada biaya untuk Redshift Spectrum apabila Anda tidak menjalankan kueri. Jika Anda menyimpan data dalam format kolom, seperti Parquet atau RC, biaya Anda juga akan turun karena Redshift Spectrum hanya akan memindai kolom yang diperlukan oleh kueri, bukan memproses seluruh baris. Demikian pula, jika Anda mengompresi data menggunakan format yang didukung Redshift Spectrum, biaya Anda juga akan berkurang. Anda dikenai tarif Amazon S3 standar untuk penyimpanan data dan tarif instans Amazon Redshift untuk kluster yang digunakan.
  • Penskalaan Konkurensi: Dengan Penskalaan Konkurensi, Redshift secara otomatis menambahkan kapasitas sementara untuk memberikan performa cepat secara konsisten, bahkan dengan ribuan pengguna dan kueri secara bersamaan. Tidak ada sumber daya yang dikelola, tidak ada biaya di muka, dan Anda tidak dikenakan biaya untuk waktu aktif atau nonaktif kluster sementara. Anda dapat mengakumulasikan satu jam klaster penskalaan konkurensi setiap 24 jam saat klaster utama Anda berjalan. Anda dikenakan tarif sesuai permintaan per detik untuk klaster pengaturan skala konkurensi yang digunakan melebihi kredit gratis - hanya ketika melayani kueri Anda - dengan biaya minimum satu menit setiap kali klaster penskalaan konkurensi diaktifkan. Tarif sesuai permintaan per detik didasarkan pada tipe dan jumlah node dalam kluster Amazon Redshift Anda.

Kecuali dinyatakan lain, harga tersebut tidak termasuk pajak dan beban biaya yang berlaku, termasuk PPN dan pajak penjualan yang berlaku. Untuk konsumen dengan alamat tagihan Jepang, penggunaan layanan AWS tunduk pada Pajak Konsumsi Jepang. Pelajari selengkapnya.

Untuk informasi harga Amazon Redshift, silakan kunjungi halaman harga Amazon Redshift.

Integrasi dan pemuatan data

T: Bagaimana cara memuat data ke gudang data Amazon Redshift?

Anda dapat memuat data ke Amazon Redshift dari berbagai sumber data termasuk Amazon S3, Amazon RDS, Amazon DynamoDB, Amazon EMR, AWS Glue, AWS Data Pipeline, dan atau host apa pun yang didukung SSH pada Amazon EC2 atau lokal. Amazon Redshift mencoba memuat data Anda secara paralel ke setiap simpul komputasi guna memaksimalkan tingkat di mana Anda dapat menyerap data ke dalam klaster gudang data Anda. Klien dapat tersambung ke Amazon Redshift menggunakan ODBC atau JDBC serta mengeluarkan perintah SQL ‘insert’ untuk menyisipkan data. Perlu diperhatikan bahwa ini lebih lambat dibanding menggunakan S3 atau DynamoDB karena metode tersebut memuat data secara paralel ke tiap simpul komputasi, sementara pernyataan insert SQL memuat data melalui simpul induk tunggal. Untuk detail selengkapnya mengenai pemuatan data ke Amazon Redshift, silakan baca Panduan Memulai kami.

T: Bagaimana cara memuat data dari sumber data Amazon RDS, Amazon EMR, Amazon DynamoDB, dan Amazon EC2 yang ada ke Amazon Redshift?

Anda dapat menggunakan perintah COPY untuk memuat data secara paralel, langsung ke Amazon Redshift dari Amazon EMR, Amazon DynamoDB, atau host yang didukung SSH apa pun. Redshift Spectrum juga memungkinkan Anda memuat data dari Amazon S3 ke klaster Anda dengan perintah sederhana INSERT INTO. Ini bisa memungkinkan Anda memuat data dari berbagai format seperti Parquet dan RC ke klaster Anda. Perhatikan bahwa jika Anda menggunakan pendekatan ini, Anda akan menambah biaya Redshift Spectrum untuk data yang dipindai dari Amazon S3. 

Selain itu, banyak perusahaan ETL sudah menjamin penggunaan Amazon Redshift dengan alat mereka, dan beberapa menawarkan uji coba gratis untuk membantu Anda mulai memuat data Anda. AWS Data Pipeline memberikan solusi berkinerja tinggi, andal, dan toleran kesalahan untuk memuat data dari berbagai sumber data AWS seperti Amazon RDS ke Redshift. Anda dapat menggunakan AWS Data Pipeline untuk menentukan sumber data, transformasi data yang dikehendaki, lalu mengeksekusi skrip impor yang sudah ditulis untuk memuat data ke Amazon Redshift. Sebagai tambahan, AWS Glue adalah layanan ekstraksi, pengubahan, dan pemuatan (ETL) yang dikelola sepenuhnya yang memudahkan persiapan dan pemuatan data untuk analisis. Anda dapat membuat dan menjalankan pekerjaan ETL AWS Glue dengan beberapa klik di AWS Management Console.

T: Saya punya banyak data untuk pemuatan awal ke Amazon Redshift. Mentransfer melalui internet akan memakan waktu lama. Bagaimana cara memuat data ini?

Anda dapat menggunakan AWS Snowball untuk mentransfer data ke Amazon S3 menggunakan perangkat penyimpanan portabel. Selain itu, Anda dapat menggunakan AWS Direct Connect untuk menetapkan koneksi jaringan privat antara jaringan atau pusat data Anda dan AWS. Anda dapat memilih port koneksi 1 Gbit/dtk atau 10 Gbit/dtk untuk mentransfer data Anda.

Keamanan

T: Bagaimana cara Amazon Redshift mengamankan data saya?

Amazon Redshift mendukung keamanan terkemuka dalam industri dengan integrasi AWS IAM internal, federasi identitas untuk single-sign on (SSO), multi-factor authentication, kontrol akses level kolom, Amazon Virtual Private Cloud (Amazon VPC), dan integrasi AWS KMS internal untuk melindungi data Anda pada saat transit dan istirahat. Amazon Redshift mengenkripsi dan menjaga data Anda tetap aman saat transit dan istirahat menggunakan teknik enkripsi standar industri. Untuk mengamankan data Anda saat transit, Amazon Redshift mendukung koneksi yang didukung SSL antara aplikasi klien dan klaster gudang data Redshift Anda. Untuk mengamankan data Anda saat istirahat, Amazon Redshift mengenkripsi setiap blok menggunakan AES-256 yang dipercepat perangkat keras saat ditulis ke disk. Enkripsi ini dilakukan di tingkat rendah dalam subsistem I/O, yang mengenkripsi setiap hal yang tertulis pada disk, termasuk hasil kueri menengah. Blok dicadangkan sebagaimana mestinya, yang berarti cadangan tersebut juga dienkripsi. Secara default, Amazon Redshift menangani manajemen kunci, tetapi Anda dapat memilih untuk mengelola kunci melalui AWS Key Management Service. Seluruh fitur keamanan Amazon Redshift ditawarkan tanpa biaya tambahan. Redshift Spectrum mendukung Server Side Encryption (SSE) Amazon S3 menggunakan kunci default dikelola akun Anda yang digunakan oleh AWS Key Management Service (KMS).

T: Apakah Redshift mendukung kontrol akses granular seperti keamanan tingkat kolom?

Ya. Kontrol keamanan tingkat kolom granular memastikan pengguna hanya melihat data yang mereka miliki aksesnya. Amazon Redshift mendukung kontrol akses tingkat kolom untuk tabel lokal, sehingga Anda dapat mengontrol akses ke masing-masing kolom tabel atau melihat dengan memberikan/mencabut hak istimewa tingkat kolom dari pengguna atau grup pengguna. Redshift terintegrasi dengan AWS Lake Formation, yang memastikan kontrol akses tingkat kolom Lake Formation juga dijalankan oleh kueri Redshift pada data di danau data.

T: Apakah Amazon Redshift mendukung masking data atau tokenisasi data?

Fungsi yang ditetapkan pengguna (UDF) Amazon Lambda memungkinkan Anda menggunakan fungsi AWS Lambda sebagai UDF di Amazon Redshift dan memanggilnya dari kueri Redshift SQL. Fungsi ini memungkinkan Anda menulis ekstensi kustom untuk kueri SQL Anda guna mencapai integrasi yang lebih erat dengan layanan atau produk pihak ketiga lainnya. Anda dapat menulis Lambda UDF untuk mengaktifkan tokenisasi eksternal, masking data, identifikasi atau deidentifikasi data melalui integrasi dengan vendor seperti Protegrity, dan melindungi atau tidak melindungi data sensitif berdasarkan izin dan grup pengguna, dalam waktu kueri.

T: Apakah Redshift mendukung single sign-on?

Ya. Pelanggan yang ingin menggunakan penyedia identitas perusahaan mereka seperti Microsoft Azure Active Directory, Active Directory Federation Services, Okta, Ping Federate, atau penyedia identitas lainnya yang tunduk pada SAML dapat mengonfigurasi Amazon Redshift untuk menyediakan single sign-on.

T: Bagaimana cara Redshift mendukung single sign-on dengan Microsoft Azure Active Directory?

Anda dapat melakukan sign-on ke klaster Amazon Redshift dengan identitas Microsoft Azure Active Directory (AD). Tindakan ini memungkinkan Anda untuk masuk ke Redshift tanpa menduplikasi identitas Azure Active Directory di Redshift.

T: Apakah Amazon Redshift mendukung multi-factor authentication (MFA)?

Ya. Anda dapat menggunakan multi-factor authentication (MFA) untuk keamanan tambahan saat melakukan autentikasi ke klaster Amazon Redshift.

T: Dapatkah saya menggunakan Amazon Redshift di Amazon Virtual Private Cloud (Amazon VPC)?

Ya, Anda dapat menggunakan Amazon Redshift sebagai bagian dari konfigurasi VPC Anda. Dengan Amazon VPC, Anda dapat menentukan topologi jaringan virtual yang mirip dengan jaringan tradisional yang mungkin Anda operasikan di pusat data Anda sendiri. Hal ini memberikan Anda kontrol penuh atas siapa yang dapat mengakses klaster gudang data Amazon Redshift Anda. Anda dapat menggunakan Redshift Spectrum dengan klaster Amazon Redshift yang merupakan bagian dari VPC Anda.

T: Dapatkah saya mengakses node komputasi Amazon Redshift secara langsung?

Tidak. Node komputasi Amazon Redshift Anda berada di ruang jaringan privat dan hanya dapat diakses dari node induk klaster gudang data. Hal ini memberikan lapisan keamanan tambahan untuk data Anda.

Ketersediaan dan ketahanan

T: Apa yang terjadi pada ketersediaan klaster gudang data dan daya tahan data saya jika drive pada salah satu simpul mengalami kegagalan?

Amazon Redshift secara otomatis akan mendeteksi dan mengganti simpul yang gagal dalam klaster gudang data Anda. Klaster gudang data tidak akan tersedia untuk kueri dan pembaruan hingga node pengganti disediakan dan ditambahkan ke DB. Amazon Redshift membuat node pengganti tersedia langsung dan memuat data yang paling sering diakses dari S3 agar memungkinkan Anda melanjutkan kueri data secepat mungkin. Klaster node tunggal tidak mendukung replikasi data. Jika terjadi kegagalan drive, Anda harus memulihkan klaster dari snapshot di S3. Kami menyarankan penggunaan setidaknya dua node untuk produksi.

T: Apa yang terjadi pada ketersediaan klaster gudang data dan daya tahan data saya jika terjadi kesalahan node individual?

Amazon Redshift secara otomatis akan mendeteksi dan mengganti simpul yang gagal dalam klaster gudang data Anda. Klaster gudang data tidak akan tersedia untuk kueri dan pembaruan hingga node pengganti disediakan dan ditambahkan ke DB. Amazon Redshift membuat node pengganti tersedia langsung dan memuat data yang paling sering diakses dari S3 agar memungkinkan Anda melanjutkan kueri data secepat mungkin. Klaster node tunggal tidak mendukung replikasi data. Jika terjadi kegagalan drive, Anda harus memulihkan klaster dari snapshot di S3. Kami menyarankan penggunaan setidaknya dua node untuk produksi.

T: Apa yang terjadi pada ketersediaan kluster data warehouse dan ketahanan data saya jika Availability Zone (AZ) kluster data warehouse mati?

Jika Availability Zone kluster data warehouse Amazon Redshift Anda menjadi tidak tersedia, Amazon Redshift akan secara otomatis memindahkan kluster Anda ke AWS Availability Zone (AZ) lainnya tanpa kehilangan data atau mengubah aplikasi. Untuk mengaktifkan ini, Anda harus mengaktifkan kemampuan pindah di pengaturan konfigurasi kluster Anda.

T: Apakah Amazon Redshift mendukung Multi-AZ Deployment?

Untuk saat ini, Amazon Redshift hanya mendukung penerapan AZ-Tunggal. Anda dapat menjalankan klaster gudang data di beberapa AZ dengan memuat data ke dalam dua klaster gudang data Amazon Redshift di AZ yang berbeda dari kumpulan file input Amazon S3 yang sama. Dengan Redshift Spectrum, Anda dapat menjalankan beberapa klaster di seluruh AZ dan mengakses data di Amazon S3 tanpa perlu memuatnya ke klaster Anda. Selain itu, Anda juga dapat memulihkan klaster gudang data ke AZ yang berbeda dari snapshot klaster gudang data Anda.

Pencadangan dan pemulihan

T: Bagaimana cara Amazon Redshift mencadangkan data saya? Bagaimana cara memulihkan klaster dari cadangan?

Amazon Redshift mereplikasi semua data di dalam klaster gudang data saat dimuat dan juga terus mencadangkan data ke Amazon S3. Amazon Redshift selalu berusaha memelihara setidaknya tiga salinan data (asli dan replika pada simpul komputasi, dan satu cadangan di Amazon S3). Redshift juga dapat mereplikasi snapshot Anda ke S3 di wilayah lain secara asinkron untuk pemulihan bencana.

Secara default, Amazon Redshift mengaktifkan cadangan otomatis untuk klaster gudang data Anda dengan 1 hari periode penyimpanan. Anda dapat mengonfigurasikan ini hingga 35 hari.

Penyimpanan cadangan gratis terbatas pada total ukuran penyimpanan di node dalam klaster gudang data dan hanya berlaku untuk klaster gudang data aktif. Misalnya, jika Anda memiliki total penyimpanan gudang data sebesar 8 TB, kami akan memberikan paling banyak 8 TB penyimpanan data tanpa biaya tambahan. Jika ingin memperpanjang periode retensi cadangan lebih dari satu hari, Anda dapat melakukannya dengan menggunakan AWS Management Console atau API Amazon Redshift. Untuk informasi selengkapnya tentang snapshot otomatis, harap rujuk ke Panduan Pengelolaan Amazon Redshift. Amazon Redshift hanya mencadangkan data yang berubah, sehingga sebagian besar snapshot hanya menggunakan sedikit ruang penyimpanan cadangan yang tersisa.

Saat Anda perlu memulihkan cadangan, Anda memiliki akses ke semua cadangan otomatis dalam periode retensi cadangan Anda. Setelah Anda memilih dari cadangan mana Anda memulihkan, kami akan menyediakan klaster gudang data baru dan kemudian memulihkan data Anda ke dalamnya.

T: Bagaimana cara mengelola retensi cadangan dan snapshot otomatis saya?

Anda dapat menggunakan AWS Management Console atau API ModifyCluster untuk mengelola periode waktu penyimpanan cadangan otomatis Anda dengan memodifikasi parameter RetentionPeriod. Jika Anda ingin menonaktifkan pencadangan otomatis seluruhnya, Anda dapat mengatur periode retensi ke 0 (tidak disarankan).

T: Apa yang terjadi pada cadangan saya jika saya menghapus klaster gudang data?

Saat Anda menghapus klaster gudang data, Anda memiliki kemampuan untuk menentukan apakah snapshot akhir dibuat saat penghapusan. Hal ini memungkinkan pemulihan klaster gudang data yang telah dihapus di kemudian hari. Semua snapshot manual yang dibuat sebelumnya dari klaster gudang data Anda akan disimpan dan dikenakan tarif Amazon S3 standar, kecuali Anda memilih untuk menghapusnya.

Skalabilitas

T: Bagaimana cara mengatur skala ukuran dan kinerja klaster gudang data Amazon Redshift saya?

Jika Anda ingin meningatkan kinerja kueri atau merespons penggunaan CPU, memori atau I/O berlebih, Anda dapat meningkatkan jumlah node di dalam klaster gudang data Anda menggunakan Elastic Resize melalui AWS Management Console atau API ModifyCluster. Saat Anda mengubah klaster gudang data, perubahan yang Anda minta akan diterapkan langsung. Metrik untuk penggunaan komputasi, penggunaan penyimpanan, dan traffic baca/tulis ke kluster data warehouse Amazon Redshift tersedia secara gratis melalui AWS Management Console atau API Amazon CloudWatch. Anda juga dapat menambahkan metrik tambahan yang ditentukan pengguna melalui fungsionalitas metrik kustom Amazon CloudWatch.

Dengan fitur Penskalaan Konkurensi, Anda dapat secara virtual mendukung pengguna konkuren dan kueri konkuren yang tidak terbatas, dengan performa kueri yang cepat dan konsisten. Saat penskalaan konkurensi diaktifkan, Amazon Redshift secara otomatis menambahkan kapasitas klaster tambahan saat Anda membutuhkannya untuk memproses peningkatan kueri baca konkuren.

Dengan Redshift Spectrum, Anda dapat menjalankan beberapa klaster Amazon Redshift yang mengakses data yang sama dalam Amazon S3. Anda dapat menggunakan klaster berbeda untuk kasus penggunaan berbeda. Misalnya, Anda dapat menggunakan satu klaster untuk pelaporan standar dan klaster lain untuk kueri ilmu data. Tim pemasaran Anda dapat menggunakan klaster mereka sendiri yang berbeda dari tim operasi Anda. Redshift Spectrum secara otomatis mendistribusikan eksekusi kueri ke beberapa pekerja Redshift Spectrum dari kumpulan sumber daya bersama untuk membaca dan memproses data dari Amazon S3, lalu mengembalikan hasilnya ke klaster Amazon Redshift untuk pemrosesan yang tersisa.

T: Apakah klaster gudang data saya akan tetap tersedia selama penskalaan?

Tergantung. Saat Anda menggunakan fitur Penskalaan Konkurensi, klaster tersedia sepenuhnya untuk baca dan tulis selama penskalaan konkurensi. Dengan Pengubahan ukuran elastis, klaster tidak tersedia selama empat hingga delapan menit dari waktu pengubahan ukuran. Dengan elastisitas penyimpanan RA3 Redshift dalam penyimpanan terkelola, kluster tersedia sepenuhnya dan data dipindahkan secara otomatis antara penyimpanan terkelola dan node komputasi.

T: Apa yang dimaksud dengan Amazon Redshift Data Sharing?

Amazon Redshift data sharing memungkinkan berbagi data langsung dengan aman dan mudah di seluruh Redshift. Data Sharing meningkatkan ketangkasan organisasi dengan memberi akses instan, granular, dan berperforma tinggi ke data di dalam kluster Redshift tanpa perlu menyalin atau memindahkannya dan menyediakan akses langsung ke data agar pengguna dapat melihat informasi terbaru dan konsisten saat diperbarui di kluster. Dengan data sharing, Anda dapat dengan cepat melakukan onboard beban kerja analitik baru dan menyediakannya dengan sumber daya komputasi terisolasi untuk memenuhi SLA performa yang spesifik dengan beban kerja Anda sambil mengizinkan akses ke set data umum. Selain untuk berbagi data dalam organisasi, data sharing juga memungkinkan kolaborasi aman dan terkelola di seluruh organisasi, dan dengan pihak eksternal. Kasus penggunaan umum untuk data sharing termasuk menyiapkan kluster ETL pusat untuk berbagi data dengan banyak kluster BI untuk menyediakan isolasi beban kerja baca dan chargeback, menawarkan data sebagai layanan, dan berbagi data dengan konsumen eksternal, beberapa grup bisnis dalam organisasi yang berbagi dan berkolaborasi dengan data untuk mendapatkan wawasan terdiferensiasi, dan berbagi data antara lingkungan pengembangan, pengujian, dan produksi. Untuk mempelajari selengkapnya dan memulai, baca dokumentasi Redshift.  

T: Apa yang dimaksud dengan kueri basis data silang di Redshift?

Dengan kueri basis data silang, Anda dapat dengan lancar membuat kueri dan menggabungkan data dari basis data Redshift mana pun yang aksesnya Anda miliki, terlepas dari basis data mana yang terhubung dengan Anda. Ini dapat termasuk lokal basis data pada kluster dan juga set data bersama yang dibuat tersedia dari kluster jarak jauh. Kueri basis data silang memberi Anda fleksibilitas untuk menyusun basis data terpisah guna mendukung konfigurasi multi-penyewa.

T: Kapan seharusnya pengguna menggunakan penskalaan konkurensi dan kapan seharusnya mereka menggunakan data sharing?

Data sharing dan penskalaan konkurensi merupakan fitur tambahan. Dengan penskalaan konkurensi, Redshift memungkinkan Anda menskalakan satu atau beberapa beban kerja dalam satu kluster untuk menangani konkurensi tinggi dan lonjakan kueri secara otomatis. Redshift secara elastis dan secara otomatis memulai kapasitas dalam hitungan detik untuk menangani ledakan aktivitas pengguna dan menurunkannya ketika aktivitas berkurang. Aplikasi terus berinteraksi dengan Redshift menggunakan satu endpoint aplikasi. Data sharing memungkinkan Anda menskalakan berbagai beban kerja dengan deployment multi-kluster dan multi-akun. Ini memungkinkan isolasi beban kerja dan kemampuan penagihan, kolaborasi lintas grup di lingkungan terdesentralisasi, dan kemampuan untuk menawarkan data sebagai layanan kepada pemangku kepentingan internal dan eksternal. Anda dapat mengaktifkan penskalaan konkurensi pada kluster produsen dan kluster konsumen data sharing.

Konkurensi

T: Bagaimana cara mengelola sumber daya untuk memastikan bahwa klaster Redshift saya dapat memberikan kinerja cepat dengan konsisten selama masa konkurensi tinggi?

Gudang data khusus memiliki variasi signifikan dalam penggunaan kueri secara bersamaan terhadap aliran dalam sehari. Lebih hemat biaya untuk menambahkan sumber daya hanya untuk periode saat diperlukan dibandingkan menyediakan untuk permintaan puncak. Amazon Redshift menangani hal ini secara otomatis untuk Anda.

Penskalaan Konkurensi adalah fitur di Amazon Redshift yang menyediakan kinerja kueri cepat secara konsisten, bahkan dengan ribuan kueri konkuren. Dengan fitur ini, Amazon Redshift secara otomatis menambahkan kapasitas sementara ketika diperlukan untuk menangani permintaan berat. Amazon Redshift secara otomatis merutekan kueri untuk menskalakan klaster, yang disediakan dalam hitungan detik dan mulai memproses kueri secara langsung.

Fitur ini gratis untuk sebagian besar pelanggan. Setiap klaster Amazon Redshift mendapatkan hingga satu jam kredit Penskalaan Konkurensi gratis per hari. Hal ini memberikan Anda kemampuan prediksi dalam biaya tiap bulannya, bahkan selama periode permintaan analitis yang fluktuatif.

T: Apa itu Elastic Resize dan apa perbedaannya dengan Penskalaan Konkurensi?

Perubahan Ukuran Elastis menambahkan atau menghapus node dari klaster Redshift tunggal dalam hitungan menit untuk mengelola throughput kuerinya. Misalnya, beban kerja ETL untuk beberapa jam tertentu dalam sehari atau pelaporan akhir bulan mungkin memerlukan sumber daya Redshift tambahan untuk diselesaikan tepat waktu. Penskalaan Konkurensi menambahkan sumber daya klaster tambahan untuk meningkatkan keseluruhan konkurensi kueri.

T: Dapatkah saya mengakses klaster Penskalaan Konkurensi secara langsung?

Tidak. Penskalaan Konkurensi merupakan kumpulan besar sumber daya Redshift yang dapat diskalakan dan pelanggan tidak memiliki akses langsung.

Kueri dan analitik

T: Apakah Amazon Redshift dan Redshift Spectrum kompatibel dengan paket perangkat lunak inteligensi bisnis dan alat ETL pilihan saya?

Ya, Amazon Redshift menggunakan SQL standar industri dan diakses menggunakan driver JDBC dan ODBC standar. Anda dapat mengunduh driver JDBC dan ODBC kustom Amazon Redshift dari tab Connect Client dari Konsol Redshift. Kami telah memvalidasi intergrasi dengan vendor BI dan ETL populer dan beberapa di antaranya menawarkan uji coba gratis untuk membantu Anda memulai pemuatan dan analisis data. Anda juga dapat membuka AWS Marketplace untuk menerapkan dan mengonfigurasi solusi yang dirancang untuk bekerja bersama Amazon Redshift dalam hitungan menit.

Redshift Spectrum mendukung semua alat klien Amazon Redshift. Alat klien dapat terus terhubung ke endpoint klaster Amazon Redshift menggunakan koneksi ODBC dan JDBC. Tidak ada perubahan yang diperlukan.

Anda menggunakan sintaksis kueri yang benar-benar sama dan memiliki kemampuan kueri yang sama untuk mengakses tabel di Redshift Spectrum seperti Anda miliki untuk tabel dalam penyimpanan lokal klaster Redshift Anda. Tabel eksternal direferensikan menggunakan nama skema yang ditentukan dalam perintah CREATE EXTERNAL SCHEMA di mana tabel tersebut terdaftar.

T: Apa saja format data dan format kompresi yang didukung Redshift Spectrum?

Redshift Spectrum saat ini mendukung banyak format data sumber terbuka, termasuk Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text, dan TSV.

Redshift Spectrum saat ini mendukung kompresi Gzip dan Snappy.

T: Apa yang terjadi jika tabel dalam penyimpanan lokal saya memiliki nama yang sama seperti tabel eksternal?

Sama seperti tabel lokal, Anda dapat menggunakan nama skema untuk memilih tabel yang Anda maksud dengan menggunakan schema_name.table_name di dalam kueri Anda.

T: Saya menggunakan Hive Metastore untuk menyimpan metadata mengenai data lake S3. Dapatkah saya menggunakan Redshift Spectrum?

Ya. Perintah CREATE EXTERNAL SCHEMA mendukung Hive Metastore. Kami saat ini belum mendukung DDL terhadap Hive Metastore.

T: Bagaimana cara mendapatkan daftar semua tabel database eksternal yang dibuat di klaster saya?

Anda dapat membuat kueri tabel sistem SVV_EXTERNAL_TABLES untuk memperoleh informasi tersebut.

T: Apakah Redshift mendukung kemampuan menggunakan Machine Learning dengan SQL?

Ya, fitur Amazon Redshift ML memudahkan pengguna SQL membuat, melatih, dan men-deploy model machine learning (ML) menggunakan perintah SQL yang lazim. Amazon Redshift ML memungkinkan pengguna memanfaatkan data mereka di Amazon Redshift dengan Amazon SageMaker, layanan machine learning yang dikelola sepenuhnya.

T: Apakah Amazon Redshift menyediakan API untuk mengkueri data?

Amazon Redshift menyediakan API Data bagi Anda untuk mengakses data dengan mudah dari Amazon Redshift dengan semua tipe aplikasi berbasis layanan web nirserver dan didorong peristiwa yang bersifat tradisional, cloud-native, dan dalam kontainer. API Data menyederhanakan akses ke Amazon Redshift karena Anda tidak perlu mengonfigurasi driver dan mengelola koneksi basis data. Sebagai gantinya, Anda dapat menjalankan perintah SQL ke kluster Amazon Redshift dengan cukup memanggil endpoint API aman yang disediakan oleh API Data. API Data menangani pengelolaan koneksi basis data dan buffering data. API Data bersifat asinkron, sehingga Anda dapat mengambil hasilnya nanti. Hasil kueri Anda disimpan selama 24 jam.

T: Tipe kredensial apa yang bisa saya gunakan dengan API Data Amazon Redshift?

API Data mendukung IAM credential dan menggunakan secret key dari AWS Secrets Manager. API Data menggabungkan kredensial AWS Identity and Access Management (IAM) agar Anda dapat menggunakan penyedia identitas seperti Okta atau Azure Active Directory atau kredensial basis data yang disimpan di Secrets Manager tanpa meneruskan kredensial basis data di panggilan API.

T: Dapatkah saya menggunakan API Data Amazon Redshift dari AWS CLI?

Ya, Anda dapat menggunakan API Data dari AWS CLI dengan menggunakan opsi perintah aws redshift-data.

T: Apakah API Data Redshift terintegrasi dengan layanan AWS lainnya?

Anda dapat menggunakan API Data dari layanan lainnya seperti AWS Lambda, AWS Cloud9, AWS AppSync, dan Amazon EventBridge.

T: Apakah saya harus membayar secara terpisah untuk menggunakan API Data Amazon Redshift?

Tidak, tidak ada biaya terpisah untuk menggunakan API Data.

Pemantauan

T: Bagaimana cara memantau kinerja klaster gudang data Amazon Redshift saya?

Metrik untuk penggunaan komputasi, penggunaan penyimpanan, dan traffic baca/tulis ke kluster data warehouse Amazon Redshift Anda tersedia secara gratis melalui AWS Management Console atau API Amazon CloudWatch. Anda juga dapat menambahkan metrik tambahan yang ditentukan pengguna melalui fungsi metrik kustom Amazon CloudWatch. AWS Management Console menyediakan dasbor pemantauan yang membantu Anda memantau status dan performa seluruh kluster Anda. Amazon Redshift juga menyediakan informasi mengenai kueri dan kinerja klaster melalui AWS Management Console. Informasi ini memungkinkan Anda melihat pengguna dan kueri mana yang paling banyak menggunakan sumber daya sistem untuk mendiagnosis masalah kinerja dengan melihat statistik rencana serta eksekusi kueri. Selain itu, Anda dapat melihat pemanfaatan sumber daya pada tiap simpul komputasi untuk memastikan bahwa Anda memiliki data dan kueri yang seimbang di semua simpul.

Pemeliharaan

T: Apa itu periode pemeliharaan? Apakah klaster data saya akan tersedia selama pemeliharaan perangkat lunak?

Amazon Redshift secara periodik melakukan pemeliharaan untuk menerapkan perbaikan, peningkatan, dan fitur baru pada klaster Anda. Anda dapat mengubah periode pemeliharaan terjadwal dengan mengubah klaster, baik secara terprogram atau dengan menggunakan Konsol Redshift. Selama periode pemeliharaan ini, klaster Amazon Redshift Anda tidak akan tersedia untuk operasi normal. Untuk informasi selengkapnya mengenai periode pemeliharaan dan jadwal berdasarkan wilayah, baca Periode Pemeliharaan dalam Panduan Pengelolaan Amazon Redshift.

Pelajari selengkapnya tentang harga Amazon Redshift

Kunjungi halaman harga
Siap membangun?
Memulai dengan Amazon Redshift
Punya pertanyaan lainnya?
Hubungi kami