Memilih layanan analitik AWS

untuk mendukung arsitektur data modern

Pengantar

Data perlu diakses serta dianalisis dengan aman oleh aplikasi dan orang-orang. Volume data berasal dari sumber yang baru dan beragam, serta meningkat pada tingkat yang belum pernah terjadi sebelumnya. Organisasi perlu mengekstraksi nilai data, tetapi mereka kesulitan untuk menangkap, menyimpan, dan menganalisis semua data yang dihasilkan oleh bisnis modern saat ini.

Menghadapi tantangan ini berarti membangun arsitektur data modern yang memecah semua silo data Anda untuk analitik dan wawasan, termasuk data pihak ketiga, serta menyediakannya untuk semua orang di organisasi dengan tata kelola ujung ke ujung. Menghubungkan sistem analitik dan machine learning (ML) Anda untuk mengaktifkan analitik prediktif juga menjadi hal yang makin penting.

Panduan keputusan ini membantu Anda mengajukan pertanyaan yang tepat untuk membangun arsitektur data modern di layanan AWS. Panduan ini menjelaskan cara memecah silo data (dengan menghubungkan danau data dan gudang data), silo sistem (dengan menghubungkan ML serta analitik), dan silo orang (dengan memberikan data kepada semua orang di organisasi).

Kutipan enam menit ini berasal dari presentasi satu jam yang disampaikan oleh G2 Krishnamoorthy, VP AWS Analytics di Re:Invent 2022. Kutipan ini memberikan gambaran umum tentang layanan analitik AWS. Presentasi lengkap membahas keadaan analitik di AWS saat ini serta inovasi layanan terbaru seputar data, dan menyoroti keberhasilan pelanggan dengan analitik AWS.

Waktu pembacaan

20 menit

Tujuan

Membantu menentukan layanan analitik AWS mana yang paling cocok untuk organisasi Anda.

Tingkat

Pemula

Terakhir diperbarui

8 Agustus 2023

Layanan yang dicakup

Amazon AppFlow
Amazon Athena
AWS Data Exchange
Amazon DataZone
Amazon EMR
AWS Glue
Amazon Kinesis
AWS Lake Formation
Amazon Managed Streaming for Apache Kafka (Amazon MSK)
OpenSearch
Amazon QuickSight
Amazon Redshift
Amazon S3
Amazon SageMaker

Panduan keputusan lainnya tentang

Integrasi aplikasi
Kontainer
Basis data
Strategi pengembangan
Machine learning
Penyimpanan

Pahami

Strategi data modern diaktifkan oleh serangkaian blok bangunan teknologi yang membantu Anda mengelola, mengakses, menganalisis, dan bertindak berdasarkan data. Strategi ini juga memberi Anda banyak opsi untuk terhubung ke sumber data. Strategi data modern harus memberdayakan tim Anda untuk:

Menjalankan analitik atau ML dengan menggunakan alat atau teknik pilihan Anda
Mengelola siapa saja yang memiliki akses ke data dengan kontrol keamanan dan tata kelola data yang tepat
Memecahkan silo data untuk memberi Anda yang terbaik dari danau data dan penyimpanan data yang dibuat khusus
Menyimpan data dalam jumlah berapa pun dengan biaya rendah dan dalam format data terbuka yang berbasis standar. Arsitektur data modern AWS menghubungkan danau, gudang, dan layanan yang dibuat khusus lainnya menjadi suatu kesatuan yang koheren.

Gambaran Umum Layanan Analitik AWS

Penerapan strategi data modern di AWS didasarkan pada lima pilar berikut:

Danau data yang dapat diskalakan

Untuk mengambil keputusan dengan cepat, Anda harus menyimpan data dalam jumlah berapa pun dalam format terbuka dan mampu memecah silo data yang terputus. Anda mungkin juga perlu memberdayakan orang-orang di organisasi untuk menjalankan analitik atau ML (menggunakan alat atau teknik pilihan Anda untuk melakukannya) dan mengelola siapa saja yang dapat mengakses potongan data tertentu dengan kontrol keamanan serta tata kelola data yang tepat.

Arsitektur data modern dimulai dengan danau data. Danau data memungkinkan Anda menyimpan semua data (relasional, nonrelasional, terstruktur, dan tidak terstruktur) dengan biaya yang hemat. Dengan AWS, Anda dapat memindahkan sejumlah data dari berbagai silo ke dalam danau data Amazon S3. Amazon S3 kemudian menyimpan data menggunakan format terbuka berbasis standar.

Dibuat khusus sesuai performa dan biaya

Pipeline data on-premise sering dipasang ke alat-alat yang saat ini Anda gunakan, sehingga memberikan pengalaman yang kurang optimal. AWS menyediakan beragam layanan data yang dibuat khusus agar Anda dapat memilih alat yang tepat untuk pekerjaan yang tepat, sehingga Anda tidak perlu mengorbankan fungsionalitas, performa, skala, atau biaya.

Nirserver dan mudah digunakan

Untuk berbagai jenis kebutuhan analitik, AWS menyediakan opsi nirserver yang didesain agar Anda dapat fokus pada aplikasi, tanpa harus menyentuh infrastruktur apa pun.

Proses memasukkan data mentah ke dalam suatu status yang dapat digunakan untuk memperoleh wawasan bisnis, dan dilakukan melalui tahapan extract, transform, and load (ETL) dari pipeline data, dapat menjadi sebuah tantangan. AWS bergerak menuju pendekatan Nol-ETL (pendekatan yang menghilangkan kebutuhan akan proses ETL tradisional). Pendekatan ini akan membantu Anda menganalisis data di tempatnya berada, tanpa perlu menggunakan ETL. Fitur dalam layanan AWS yang mendukung pendekatan ini meliputi: 

Amazon Zero-ETL Aurora ke Redshift
Penyerapan Streaming Amazon Redshift secara langsung dari Kinesis dan MSK ke Redshift
Kueri Gabungan di Amazon Redshift dan Amazon Athena

Akses data, keamanan, dan tata kelola terpadu

Setelah memiliki danau data terpusat dan kumpulan layanan analitik yang dibuat khusus, Anda kemudian memerlukan kemampuan untuk mengakses data di mana pun data tersebut berada, lalu mengamankannya serta memiliki kebijakan tata kelola untuk mematuhi peraturan dan praktik terbaik keamanan yang relevan.

Tata kelola dimulai dengan AWS Lake Formation. Layanan ini memungkinkan Anda untuk mengakses data di mana pun data tersebut berada, baik di basis data, gudang data, penyimpanan data yang dibuat khusus, atau danau data, dan kemudian menjaga agar data tetap aman di mana pun Anda menyimpannya.

Untuk tata kelola data, AWS secara otomatis menemukan, memberi tanda, membuat katalog, serta menjaga data tetap sinkron, dan Anda dapat secara terpusat menentukan serta mengelola kebijakan keamanan, tata kelola, dan audit untuk memenuhi peraturan khusus industri serta geografi Anda.

Machine learning bawaan

AWS menawarkan integrasi ML bawaan sebagai bagian dari layanan analitik kami yang dibuat secara khusus. Anda dapat membangun, melatih, dan men-deploy model ML menggunakan perintah SQL yang sudah dikenal, tanpa memerlukan pengalaman ML apa pun sebelumnya.

Menggunakan berbagai tipe penyimpanan data (relasional, nonrelasional, gudang data, dan layanan analitik) untuk kasus penggunaan yang berbeda merupakan hal yang biasa. AWS menyediakan berbagai integrasi untuk memberi Anda opsi untuk melatih model pada data Anda, atau menambahkan hasil inferensi langsung dari penyimpanan data Anda, tanpa harus mengekspor dan memproses data.

Pertimbangkan

Ada banyak alasan untuk membangun pipeline analitik di AWS. Anda mungkin perlu mendukung greenfield atau proyek percontohan sebagai langkah pertama dalam perjalanan migrasi cloud. Atau, Anda bisa memigrasikan beban kerja yang ada dengan gangguan sesedikit mungkin. Apa pun tujuan Anda, pertimbangan berikut mungkin berguna dalam membuat pilihan.

Analisis sumber data dan tipe data yang tersedia untuk mendapatkan pemahaman yang komprehensif tentang keragaman, frekuensi, serta kualitas data. Pahami setiap potensi tantangan dalam memproses dan menganalisis data. Analisis ini sangat penting karena:
- Sumber data bersifat beragam dan berasal dari berbagai sistem, aplikasi, perangkat, serta platform eksternal.
- Sumber data memiliki struktur, format, dan frekuensi pembaruan data yang unik. Analisis sumber-sumber ini membantu dalam mengidentifikasi metode dan teknologi pengumpulan data yang cocok.
- Menganalisis tipe data, seperti data terstruktur, semi-terstruktur, dan tidak terstruktur menentukan pendekatan pemrosesan serta penyimpanan data yang sesuai.
- Menganalisis sumber dan tipe fasilitas penilaian kualitas data membantu Anda mengantisipasi potensi masalah kualitas data, seperti nilai yang hilang, inkonsistensi, atau ketidakakuratan.
Tentukan persyaratan pemrosesan data tentang cara data diserap, diubah, dibersihkan, dan disiapkan untuk analisis. Pertimbangan utama meliputi:
- Transformasi data: Tentukan transformasi khusus yang diperlukan agar data mentah cocok untuk analisis. Proses tersebut melibatkan tugas-tugas seperti agregasi, normalisasi, pemfilteran, dan pengayaan data.
- Pembersihan data: Nilai kualitas data dan tentukan proses untuk menangani data yang hilang, tidak akurat, atau inkonsistensi. Terapkan teknik pembersihan data guna memastikan data berkualitas tinggi untuk wawasan yang andal.
- Frekuensi pemrosesan: Tentukan apakah pemrosesan waktu nyata, mendekati waktu nyata, atau batch diperlukan berdasarkan kebutuhan analitik. Pemrosesan waktu nyata memungkinkan wawasan langsung, sementara pemrosesan batch mungkin cukup untuk analisis berkala.
- Skalabilitas dan throughput: Evaluasi persyaratan skalabilitas untuk menangani volume data, kecepatan pemrosesan, dan jumlah permintaan data konkuren. Pastikan bahwa pendekatan pemrosesan yang dipilih dapat mengakomodasi pertumbuhan di masa mendatang.
- Latensi: Pertimbangkan latensi yang dapat diterima untuk pemrosesan data dan waktu yang dibutuhkan mulai dari penyerapan data hingga mendapatkan hasil analisis. Hal ini sangat penting untuk analitik waktu nyata atau analitik yang sensitif waktu.
Tentukan kebutuhan penyimpanan dengan menentukan cara dan tempat data disimpan di seluruh pipeline analitik. Pertimbangan penting meliputi:
- Volume data: Nilai jumlah data yang dihasilkan dan dikumpulkan, serta perkirakan pertumbuhan data di masa mendatang untuk merencanakan kapasitas penyimpanan yang memadai.
- Retensi data: Tentukan durasi data yang harus dipertahankan untuk analisis historis atau tujuan kepatuhan. Tentukan kebijakan retensi data yang sesuai.
- Pola akses data: Pahami bagaimana data akan diakses dan dikueri untuk memilih solusi penyimpanan yang paling sesuai. Pertimbangkan operasi baca dan tulis, frekuensi akses data, serta lokalitas data.
- Keamanan data: Prioritaskan keamanan data dengan mengevaluasi opsi enkripsi, kontrol akses, dan mekanisme perlindungan data untuk melindungi informasi sensitif.
- Optimisasi biaya: Optimalkan biaya penyimpanan dengan memilih solusi penyimpanan yang paling hemat biaya berdasarkan pola dan penggunaan akses data.
- Integrasi dengan layanan analitik: Pastikan integrasi yang lancar antara solusi penyimpanan yang dipilih serta alat pemrosesan dan analitik data dalam pipeline.
Saat memutuskan layanan analitik untuk pengumpulan dan penyerapan data, pertimbangkan berbagai tipe data yang relevan dengan kebutuhan serta tujuan organisasi Anda. Tipe data umum yang mungkin perlu Anda pertimbangkan meliputi:
- Data transaksional: Mencakup informasi tentang interaksi atau transaksi individual, seperti pembelian pelanggan, transaksi keuangan, pesanan online, dan log aktivitas pengguna.
- Data berbasis file: Mengacu pada data terstruktur atau tidak terstruktur yang disimpan dalam file, seperti file log, spreadsheet, dokumen, gambar, file audio, dan file video. Layanan analitik harus mendukung penyerapan format file yang berbeda/
- Data peristiwa: Menangkap kejadian atau insiden yang signifikan, seperti tindakan pengguna, peristiwa sistem, peristiwa mesin, atau peristiwa bisnis. Peristiwa dapat mencakup data apa pun yang tiba dengan kecepatan tinggi yang ditangkap untuk pemrosesan on-stream atau down-stream.
Tanggung jawab operasional dibagi antara Anda dan AWS, dengan pembagian tanggung jawab yang bervariasi di berbagai tingkat modernisasi. Anda memiliki opsi untuk mengelola sendiri infrastruktur analitik di AWS atau memanfaatkan berbagai layanan analitik nirserver untuk mempelajari beban manajemen infrastruktur.

Opsi kelola sendiri memberi pengguna kontrol yang lebih besar atas infrastruktur dan konfigurasi, tetapi opsi tersebut membutuhkan lebih banyak upaya operasional.

Opsi nirserver menghilangkan banyak beban operasional, menyediakan skalabilitas otomatis, ketersediaan tinggi, dan fitur keamanan yang kuat, yang memungkinkan pengguna untuk lebih fokus dalam membangun solusi analitik serta mendorong wawasan, daripada mengelola infrastruktur dan tugas operasional. Pertimbangkan manfaat solusi analitik nirserver berikut:
- Penyederhanaan infrastruktur: Layanan nirserver menyederhanakan manajemen infrastruktur, yang membebaskan pengguna dari tugas penyediaan, penskalaan, dan pemeliharaan. AWS menangani aspek operasional ini, sehingga mengurangi overhead manajemen.
- Penskalaan otomatis dan performa: Layanan nirserver secara otomatis menskalakan sumber daya berdasarkan tuntutan beban kerja, yang memastikan performa optimal tanpa intervensi manual.
- Ketersediaan tinggi dan pemulihan bencana: AWS menyediakan ketersediaan tinggi untuk layanan nirserver. AWS mengelola redundansi data, replikasi, dan pemulihan bencana untuk meningkatkan ketersediaan serta keandalan data.
- Keamanan dan kepatuhan: AWS mengelola langkah-langkah keamanan, enkripsi data, dan kepatuhan untuk layanan nirserver, dengan mengikuti standar industri serta praktik terbaik.
- Pemantauan dan pencatatan: AWS menawarkan kemampuan pemantauan, pencatatan, dan peringatan bawaan untuk layanan nirserver. Pengguna dapat mengakses metrik dan log terperinci melalui AWS CloudWatch.
Saat membangun pipeline analitik modern, memutuskan tipe beban kerja yang akan didukung sangatlah penting untuk memenuhi kebutuhan analitik yang berbeda secara efektif. Poin keputusan utama yang perlu dipertimbangkan untuk setiap tipe beban kerja meliputi:

Beban kerja batch
- Volume dan frekuensi data: Pemrosesan batch cocok untuk volume data yang besar dengan pembaruan berkala.
- Latensi data: Pemrosesan batch mungkin menimbulkan beberapa penundaan dalam mengirimkan wawasan dibandingkan dengan pemrosesan waktu nyata.
Analisis interaktif
- Kompleksitas kueri data: Analisis interaktif membutuhkan respons latensi rendah untuk umpan balik yang cepat.
- Visualisasi data: Evaluasi kebutuhan akan alat visualisasi data interaktif agar pengguna bisnis dapat menjelajahi data secara visual.
Beban kerja streaming
- Kecepatan dan volume data: Beban kerja streaming memerlukan pemrosesan waktu nyata untuk menangani data berkecepatan tinggi.
- Pengelompokan data: Tentukan pengelompokan data dan agregasi berbasis waktu untuk streaming data guna mengekstraksi wawasan yang relevan.
Tentukan dengan jelas tujuan bisnis dan wawasan yang ingin Anda peroleh dari analitik. Tipe analitik yang berbeda melayani tujuan yang berbeda. Misalnya:
- Analitik deskriptif sangat cocok untuk mendapatkan gambaran umum historis
- Analitik diagnostik membantu memahami alasan di balik peristiwa masa lalu
- Analitik prediktif memprakirakan hasil di masa mendatang
- Analitik preskriptif memberikan rekomendasi untuk tindakan optimal
Cocokkan tujuan bisnis Anda dengan tipe analitik yang relevan. Berikut adalah beberapa kriteria keputusan utama untuk membantu Anda memilih tipe analitik yang tepat:
- Ketersediaan dan kualitas data: Analitik deskriptif dan diagnostik bergantung pada data historis, sementara analitik prediktif serta preskriptif memerlukan data historis yang cukup dan data berkualitas tinggi untuk membangun model yang akurat.
- Volume dan kompleksitas data: Analitik prediktif dan preskriptif memerlukan pemrosesan data substansial dan sumber daya komputasional. Pastikan infrastruktur dan alat Anda dapat menangani volume serta kompleksitas data.
- Kompleksitas keputusan: Jika keputusan melibatkan banyak variabel, kendala, dan tujuan, analitik preskriptif mungkin lebih cocok untuk memandu tindakan yang optimal.
- Toleransi risiko: Analitik preskriptif dapat memberikan rekomendasi, tetapi disertai dengan ketidakpastian. Pastikan bahwa pengambil keputusan memahami risiko yang terkait dengan output analitik.
Nilai kebutuhan skalabilitas dan performa arsitektur. Desain harus bisa mengatasi peningkatan volume data, permintaan pengguna, dan beban kerja analitik. Faktor keputusan utama yang perlu dipertimbangkan meliputi:
- Volume dan pertumbuhan data: Nilai volume data saat ini dan antisipasi pertumbuhan di masa mendatang.
- Kecepatan data dan persyaratan waktu nyata: Tentukan apakah data perlu diproses serta dianalisis dalam waktu nyata atau mendekati waktu nyata.
- Kompleksitas pemrosesan data: Analisis kompleksitas tugas pemrosesan dan analisis data Anda. Untuk tugas yang intensif secara komputasi, layanan seperti Amazon EMR menyediakan lingkungan yang dapat diskalakan dan terkelola untuk pemrosesan big data.
- Konkurensi dan beban pengguna: Pertimbangkan jumlah pengguna konkuren dan tingkat beban pengguna pada sistem.
- Kemampuan penskalaan otomatis: Pertimbangkan layanan yang menawarkan kemampuan penskalaan otomatis, yang memungkinkan sumber daya untuk secara otomatis menaikkan atau menurunkan skala sesuai permintaan. Hal imi memastikan pemanfaatan sumber daya yang efisien dan optimisasi biaya.
- Distribusi geografis: Pertimbangkan layanan dengan replikasi global dan akses data latensi rendah jika arsitektur data Anda perlu didistribusikan ke banyak wilayah atau lokasi.
- Tarik ulur performa-biaya: Seimbangkan kebutuhan performa dengan pertimbangan biaya. Layanan dengan performa tinggi mungkin hadir dengan biaya yang lebih tinggi.
- Perjanjian tingkat layanan (SLA): Periksa SLA yang disediakan oleh layanan AWS untuk memastikan SLA tersebut memenuhi ekspektasi skalabilitas dan performa Anda.
Tata kelola data adalah serangkaian proses, kebijakan, dan kontrol yang perlu Anda terapkan untuk memastikan manajemen, kualitas, keamanan, serta kepatuhan aset data yang efektif. Poin keputusan utama yang perlu dipertimbangkan meliputi:
- Kebijakan retensi data: Tentukan kebijakan retensi data berdasarkan persyaratan peraturan dan kebutuhan bisnis serta tetapkan proses pembuangan data yang aman ketika data tidak lagi diperlukan.
- Jejak audit dan pencatatan: Tentukan mekanisme pencatatan dan audit untuk memantau akses serta penggunaan data. Terapkan jejak audit komprehensif untuk melacak perubahan data, upaya akses, dan aktivitas pengguna untuk pemantauan kepatuhan serta keamanan.
- Persyaratan kepatuhan: Pahami regulasi kepatuhan data khusus industri dan geografis yang berlaku untuk organisasi Anda. Pastikan bahwa arsitektur data selaras dengan regulasi dan pedoman ini.
- Klasifikasi data: Klasifikasikan data berdasarkan sensitivitasnya dan tentukan kontrol keamanan yang tepat untuk setiap kelas data.
- Pemulihan bencana dan keberlanjutan bisnis: Rencanakan pemulihan bencana serta keberlanjutan bisnis untuk memastikan ketersediaan dan ketahanan data jika terjadi kejadian yang tidak terduga atau kegagalan sistem.
- Berbagi data pihak ketiga: Jika harus berbagi data dengan entitas pihak ketiga, terapkan protokol dan perjanjian berbagi data yang aman untuk melindungi kerahasiaan data serta mencegah penyalahgunaan data.
Keamanan data dalam pipeline analitik mencakup perlindungan data di setiap tahap pipeline untuk memastikan kerahasiaan, integritas, dan ketersediaannya. Poin keputusan utama yang perlu dipertimbangkan meliputi:
- Kontrol akses dan otorisasi: Terapkan protokol autentikasi dan otorisasi yang kuat untuk memastikan bahwa hanya pengguna yang sah yang dapat mengakses sumber daya data tertentu.
- Enkripsi data: Pilih metode enkripsi yang sesuai untuk data yang disimpan dalam basis data, danau data, dan selama pergerakan data di antara komponen arsitektur yang berbeda.
- Pengaburan data dan anonimisasi: Pertimbangkan perlunya pengaburan data atau anonimisasi untuk melindungi data sensitif, seperti PII atau data bisnis yang sensitif, sekaligus memungkinkan proses analitik tertentu terus berjalan.
- Integrasi data yang aman: Tetapkan praktik integrasi data yang aman untuk memastikan bahwa data mengalir dengan aman di antara komponen arsitektur yang berbeda, menghindari kebocoran data atau akses tidak sah selama pergerakan data.
- Isolasi Jaringan: Pertimbangkan layanan yang mendukung Titik Akhir VPC AWS agar tidak mengekspos sumber daya ke internet publik.
Tentukan titik integrasi dan aliran data antara berbagai komponen pipeline analitik untuk memastikan aliran dan interoperabilitas data yang lancar. Poin keputusan utama yang perlu dipertimbangkan meliputi:
- Integrasi sumber data: Identifikasi sumber data asal pengumpulan data, seperti basis data, aplikasi, file, atau API eksternal. Tentukan metode penyerapan data (batch, waktu nyata, berbasis peristiwa) untuk membawa data ke dalam pipeline secara efisien dan dengan latensi minimal.
- Transformasi data: Tentukan transformasi yang diperlukan guna menyiapkan data untuk analisis. Tentukan alat dan proses untuk membersihkan, menggabungkan, menormalkan, atau memperkaya data saat bergerak melalui pipeline.
- Arsitektur pergerakan data: Pilih arsitektur yang sesuai untuk pergerakan data di antara komponen pipeline. Pertimbangkan pemrosesan batch, pemrosesan aliran, atau kombinasi keduanya berdasarkan kebutuhan waktu nyata dan volume data.
- Replikasi dan sinkronisasi data: Tentukan mekanisme replikasi dan sinkronisasi data untuk menjaga data tetap mutakhir di semua komponen. Pertimbangkan solusi replikasi waktu nyata atau sinkronisasi data berkala tergantung pada kebutuhan kesegaran data.
- Kualitas dan validasi data: Terapkan pemeriksaan kualitas data dan langkah-langkah validasi untuk memastikan integritas data saat data bergerak melalui pipeline. Tentukan tindakan yang akan diambil ketika data gagal divalidasi, seperti peringatan atau penanganan kesalahan.
- Keamanan dan enkripsi data: Tentukan bagaimana data akan diamankan selama transit dan diam. Tentukan metode enkripsi untuk melindungi data sensitif di seluruh pipeline, dengan mempertimbangkan tingkat keamanan yang diperlukan berdasarkan sensitivitas data.
- Skalabilitas dan ketahanan: Pastikan bahwa desain aliran data memungkinkan skalabilitas horizontal dan dapat menangani peningkatan volume lalu lintas data.
Membangun pipeline analitik Anda di AWS memberikan berbagai peluang optimisasi biaya. Untuk memastikan efisiensi biaya, pertimbangkan strategi berikut:
- Ukuran dan pemilihan sumber daya: Sesuaikan ukuran sumber daya berdasarkan kebutuhan beban kerja aktual. Pilih layanan AWS dan tipe instans yang sesuai dengan kebutuhan performa beban kerja sambil menghindari penyediaan yang berlebihan.
- Penskalaan otomatis: Terapkan penskalaan otomatis untuk layanan yang mengalami beban kerja yang bervariasi. Penskalaan otomatis secara dinamis menyesuaikan jumlah instans berdasarkan permintaan, sehingga mengurangi biaya selama periode lalu lintas rendah.
- Instans Spot: Manfaatkan Instans Spot AWS EC2 untuk beban kerja yang tidak penting dan toleran terhadap kesalahan. Instans Spot dapat mengurangi biaya secara signifikan dibandingkan dengan instans sesuai permintaan.
- Instans Terpesan: Pertimbangkan untuk membeli Instans Terpesan AWS guna mencapai penghematan biaya yang signifikan dibandingkan harga sesuai permintaan untuk beban kerja yang stabil dengan penggunaan yang dapat diprediksi.
- Tingkat penyimpanan data:Optimalkan biaya penyimpanan data dengan menggunakan kelas penyimpanan yang berbeda berdasarkan frekuensi akses data.
- Kebijakan siklus hidup data: Siapkan kebijakan siklus hidup data untuk memindahkan atau menghapus data secara otomatis berdasarkan umur dan pola penggunaannya. Kebijakan ini membantu mengelola biaya penyimpanan dan menjaga penyimpanan data tetap selaras dengan nilainya.

Pilih

Setelah mengetahui kriteria untuk mengevaluasi kebutuhan analitik, Anda siap memilih layanan analitik AWS mana yang tepat untuk kebutuhan organisasi Anda. Tabel berikut mengelompokkan serangkaian layanan yang selaras dengan hal-hal yang perlu Anda capai untuk tujuan bisnis, seperti menjalankan analitik lanjutan, melakukan manajemen data atau analitik prediktif, serta ML.

Area Tujuan

Kasus penggunaan

Layanan analitik terkait

Analitik interaktif
Proses analisis dan eksplorasi data dalam waktu nyata, yang memungkinkan pengguna untuk mengueri dan memvisualisasikan data secara interaktif untuk mendapatkan wawasan serta membuat keputusan berbasis data dengan cepat.

Pemrosesan big data
Big data dicirikan oleh tiga dimensi, volume, kecepatan, dan variasinya. Solusi pemrosesan big data bertujuan untuk mengatasi tantangan yang ditimbulkan oleh besarnya skala dan kompleksitas big data.

Penggudangan data
Penyimpanan terpusat, organisasi, serta pengambilan data terstruktur dan terkadang semi-terstruktur bervolume besar dari berbagai sumber dalam suatu organisasi.

Analitik waktu nyata
Proses menganalisis dan memproses data saat data dihasilkan, diterima, atau diserap, tanpa penundaan yang signifikan.

Analitik operasional
Penggunaan analisis dan wawasan data waktu nyata untuk mengoptimalkan serta meningkatkan proses dan aktivitas operasional yang sedang berlangsung dalam suatu organisasi.

Dasbor dan visualisasi
Dasbor dan visualisasi memberikan representasi visual dari set data yang kompleks sehingga memudahkan pengguna untuk memahami pola, tren, dan wawasan secara sekilas. Keduanya menyederhanakan pemahaman data, bahkan untuk pengguna nonteknis, dengan menyajikan informasi dengan cara yang menarik secara visual dan intuitif.

Penyiapan Data Visual
Menggunakan alat dan antarmuka visual untuk mengeksplorasi, membersihkan, mentransformasi, dan memanipulasi data secara visual dan intuitif.

Kasus Penggunaan

Layanan analitik terkait

Pergerakan data waktu nyata
Pergerakan data waktu nyata melibatkan penundaan minimal dalam mentransfer data, biasanya dalam hitungan detik atau milidetik setelah tersedia.

Tata kelola data
Serangkaian proses, kebijakan, dan pedoman yang memastikan manajemen, ketersediaan, ketergunaan, integritas, dan keamanan data yang tepat sepanjang siklus hidupnya.

Penyimpanan objek untuk danau data
Danau data yang dibangun di AWS menggunakan Amazon S3 sebagai platform penyimpanan primernya. Amazon S3 menyediakan fondasi yang optimal untuk danau data karena skalabilitasnya yang hampir tidak terbatas dan daya tahannya yang tinggi.

Cadangan dan arsip untuk danau data
Danau data, yang didukung oleh Amazon S3, memberi organisasi ketersediaan, ketangkasan, dan fleksibilitas yang diperlukan untuk pendekatan analitik modern guna mendapatkan wawasan yang lebih dalam. Melindungi informasi sensitif atau informasi penting bisnis yang disimpan dalam bucket S3 ini merupakan prioritas tinggi bagi organisasi.

Katalog data
Alat manajemen metadata, yang memberikan informasi mendetail tentang data yang tersedia, struktur, karakteristik, dan hubungannya.

Data pihak ketiga
Data pihak ketiga dan data Perangkat Lunak sebagai Layanan (SaaS) menjadi makin penting bagi operasi bisnis dalam lanskap berbasis data modern.

Kasus Penggunaan

Layanan analitik terkait

Kerangka kerja dan antarmuka
Infrastruktur AWS ML mendukung semua kerangka kerja ML terkemuka.

Layanan platform
Infrastruktur terkelola penuh untuk membangun, melatih, dan men-deploy model machine learning.

Integrasi Data Langsung
Bangun, latih, dan deploy model ML menggunakan perintah SQL yang sudah dikenal.

Gunakan

Sekarang seharusnya Anda memiliki pemahaman yang jelas tentang tujuan bisnis serta volume dan kecepatan data yang akan Anda serap serta analisis untuk mulai membangun pipeline data.

Untuk menjelajahi cara menggunakan dan mempelajari setiap layanan yang tersedia dengan selengkapnya, kami telah menyediakan jalur untuk menjelajahi cara kerja masing-masing layanan. Bagian berikut menyediakan tautan ke dokumentasi mendalam, tutorial praktik langsung, dan sumber daya untuk membantu Anda memulai dari penggunaan dasar hingga pembelajaran mendalam yang lebih canggih.

Analitik lanjutan

Analitik interaktif
Memulai Amazon Athena

Pelajari cara menggunakan Amazon Athena untuk mengueri data dan membuat tabel berdasarkan data sampel yang disimpan di Amazon S3, mengueri tabel, dan memeriksa hasil kueri.

Mulai tutorial »

Mulai Apache Spark di Amazon Athena

Gunakan pengalaman notebook yang disederhanakan di konsol Amazon Athena untuk mengembangkan aplikasi Apache Spark menggunakan API notebook Python atau Athena.

Mulai tutorial »

AWS re:Invent 2022: Yang baru di Amazon Athena

Pelajari cara untuk membawa Athena ke data Anda, menerapkannya ke semua data Anda yang mencakup danau data, sumber eksternal, dan banyak lagi.

Tonton sesi »

Menganalisis data di S3 menggunakan Amazon Athena

Jelajahi cara menggunakan Athena pada log dari Elastic Load Balancers, yang dihasilkan sebagai file teks dalam format yang telah ditentukan sebelumnya. Kami menunjukkan kepada Anda cara membuat tabel, mempartisi data dalam format yang digunakan oleh Athena, mengonversinya ke Parquet, dan membandingkan performa kueri.

Baca posting blog »
Pemrosesan big data
Memulai AWS EMR

Pelajari cara meluncurkan klaster sampel menggunakan Spark, dan cara menjalankan skrip PySpark sederhana yang disimpan di bucket Amazon S3.

Mulai tutorial »

Memulai Amazon EMR di EKS

Kami menunjukkan kepada Anda cara memulai Amazon EMR di EKS dengan melakukan deployment aplikasi Spark pada klaster virtual.

Mulai tutorial »

Mulai EMR Nirserver

Jelajahi cara EMR Nirserver menyediakan lingkungan runtime nirserver yang menyederhanakan operasi aplikasi analitik yang menggunakan kerangka kerja sumber terbuka terbaru.

Mulai tutorial »

Yang baru di Amazon EMR

Pelajari pengembangan Amazon EMR terbaru, termasuk Amazon EMR Nirserver, Amazon EMR Studio, dan masih banyak lagi.

Tonton sesi »
Penggudangan data
Memulai Amazon Redshift

Pahami alur dasar Amazon Redshift Nirserver untuk membuat sumber daya nirserver, menghubungkan ke Amazon Redshift Nirserver, memuat data sampel, lalu menjalankan kueri pada data.

Jelajahi panduan »

Modernisasikan gudang data Anda

Jelajahi bagaimana Anda dapat menggunakan kemampuan Amazon Redshift yang baru untuk memodernisasi gudang data dengan memperoleh akses ke semua data Anda.

Tonton video »

Men-deploy gudang data di AWS

Pelajari cara membuat dan mengonfigurasi gudang data Amazon Redshift, memuat data sampel, dan menganalisisnya menggunakan klien SQL.

Mulai tutorial »

Lokakarya pendalaman Amazon Redshift

Jelajahi serangkaian latihan yang membantu pengguna mulai menggunakan platform Redshift.

Mulai lokakarya »
Analitik waktu nyata
Memulai Amazon Kinesis Data Analytics untuk Apache Flink

Pahami konsep dasar Kinesis Data Analytics untuk Apache Flink dan API DataStream.

Jelajahi panduan »

Lokakarya analitik streaming

Pelajari cara membangun arsitektur streaming ujung ke ujung untuk menyerap, menganalisis, dan memvisualisasikan data streaming mendekati waktu nyata.

Mulai lokakarya »

Pengantar Amazon Kinesis Data Analytics untuk aplikasi Java

Jelajahi bagaimana Anda dapat menggunakan aplikasi Apache Flink di Amazon Kinesis Data Analytics untuk mendapatkan wawasan yang lebih tepat waktu dari data Anda.

Tonton sesi (harus masuk) »

Lab clickstream

Lab ujung ke ujung untuk kasus penggunaan clickstream menggunakan Amazon MSK untuk penyimpanan aliran dan Amazon KDA untuk Aplikasi Java dengan mesin Apache Flink untuk pemrosesan aliran.

Mulai lab »
Analitik operasional
Memulai Amazon OpenSearch Service

Pelajari cara menggunakan Amazon OpenSearch Service untuk membuat dan mengonfigurasi domain pengujian.

Mulai tutorial »

Memvisualisasikan panggilan dukungan pelanggan dengan OpenSearch Service dan Dasbor OpenSearch

Temukan panduan lengkap untuk situasi berikut: suatu bisnis menerima sejumlah panggilan dukungan pelanggan dan ingin menganalisisnya. Apa subjek dari tiap-tiap panggilan? Berapa banyak yang positif? Berapa banyak yang negatif? Bagaimana manajer dapat mencari atau meninjau transkrip panggilan ini?

Mulai tutorial »

Lokakarya memulai Amazon OpenSearch Nirserver

Pelajari cara menyiapkan domain Amazon OpenSearch Nirserver baru di konsol AWS. Jelajahi berbagai tipe kueri pencarian yang tersedia dan desain visualisasi yang menarik, serta pelajari cara mengamankan domain dan dokumen berdasarkan hak istimewa pengguna yang ditetapkan.

Mulai lokakarya »

Membangun solusi analitik log dengan Amazon OpenSearch Service

Pelajari cara mengukur klaster OpenSearch untuk beban kerja analitik log.

Baca posting blog »
Dasbor dan visualisasi
Memulai analisis data Amazon QuickSight

Pelajari cara membuat analisis pertama Anda. Gunakan data sampel untuk membuat analisis sederhana atau tingkat lanjut. Atau, Anda dapat terhubung ke data Anda sendiri untuk membuat analisis.

Jelajahi panduan »

Memvisualisasikan dengan QuickSight

Temukan sisi teknis kecerdasan bisnis (BI) dan visualisasi data dengan AWS. Pelajari cara menyematkan dasbor ke aplikasi dan situs web, serta mengelola akses dan izin dengan aman.

Mulai kursus »

Lokakarya QuickSight

Mulailah perjalanan QuickSight Anda dengan lokakarya.

Mulai lokakarya »
Penyiapan data visual
Memulai AWS Glue DataBrew

Pelajari cara membuat proyek DataBrew pertama Anda. Anda memuat set data sampel, menjalankan transformasi pada set data tersebut, membangun resep untuk menangkap transformasi tersebut, dan menjalankan tugas untuk menulis data yang ditransformasikan ke Amazon S3.

Mulai tutorial »

Mentransformasi data dengan AWS Glue DataBrew

Pelajari AWS Glue DataBrew, yaitu alat persiapan data visual yang memudahkan analis data dan ilmuwan data dalam membersihkan serta menormalisasi data guna mempersiapkannya untuk analitik dan machine learning. Pelajari cara membuat konsep proses ETL menggunakan AWS Glue DataBrew.

Mulai lab »

AWS Glue DataBrew immersion day

Jelajahi cara menggunakan AWS Glue DataBrew untuk membersihkan serta menormalisasi data untuk analitik dan machine learning.

Mulai lokakarya »

Manajemen data

Pergerakan data waktu nyata
Tata kelola data
Penyimpanan objek untuk danau data
Katalog data
Data pihak ketiga

Pergerakan data waktu nyata
Memulai penyerapan streaming dari Amazon Kinesis Data Streams

Jelajahi cara mengalirkan data secara langsung dari Kinesis Data Streams ke Amazon Redshift, sehingga mengurangi waktu yang dibutuhkan untuk mengakses data dan mengurangi biaya penyimpanan.

Jelajahi panduan »

Memulai penyerapan streaming dari Amazon Managed Streaming for Apache Kafka

Pelajari cara mengalirkan data secara langsung dari Amazon MSK ke Amazon Redshift, sehingga mengurangi waktu yang dibutuhkan untuk mengakses data dan mengurangi biaya penyimpanan.

Jelajahi panduan »

Mulai integrasi Nol-ETL Amazon Aurora dengan Amazon Redshift

Pelajari cara memulai analitik operasional mendekati waktu nyata dengan integrasi Nol-ETL Amazon Aurora dengan Amazon Redshift.

Baca posting blog »

Lokakarya AWS Glue immersion day

Kerjakan banyak lab praktik langsung untuk menunjukkan kepada Anda cara memecahkan masalah dunia nyata menggunakan AWS Glue dan layanan AWS terkait.

Mulai lokakarya »

Amazon Kinesis Data Firehose immersion day

Pelajari cara menyerap data streaming dengan mudah ke Amazon OpenSearch dan Amazon Redshift dengan beberapa langkah konfigurasi.

Mulai lokakarya »

Lokakarya Amazon Kinesis Video Streams

Pelajari cara menyerap dan menyimpan video dari perangkat kamera, pemutaran langsung dan sesuai permintaan, serta mengunduh file video menggunakan Amazon Kinesis Video Streams.

Mulai lokakarya »
Tata kelola data
Pusatkan tata kelola untuk danau data Anda menggunakan AWS Lake Formation

Jelajahi bagaimana Anda dapat menggunakan AWS Lake Formation untuk memusatkan tata kelola data dan manajemen akses data sekaligus menggunakan Amazon Redshift Spectrum untuk mengueri danau data Anda.

Baca posting blog »

Memulai Amazon DataZone

Pelajari cara membuat domain root Amazon DataZone, memperoleh URL portal data, menelusuri alur kerja Amazon DataZone dasar untuk produsen data dan konsumen data.

Jelajahi panduan »

Mulai EMR Nirserver

Jelajahi cara EMR Nirserver menyediakan lingkungan runtime nirserver yang menyederhanakan operasi aplikasi analitik yang menggunakan kerangka kerja sumber terbuka terbaru.

Jelajahi panduan »
Penyimpanan objek untuk danau data
Memulai AWS Lake Formation

Pelajari cara menyiapkan Lake Formation untuk pertama kalinya untuk mengelola objek dan lokasi data Katalog Data AWS Glue yang sudah ada di Amazon S3.

Jelajahi panduan »

Lokakarya AWS Lake Formation

Jelajahi cara menggunakan AWS Lake Formation untuk membangun, mengamankan, dan mengelola danau data di AWS.

Mulai lokakarya »

Penyimpanan pusat - Amazon S3 sebagai platform penyimpanan danau data

Temukan bagaimana Amazon S3 menjadi fondasi optimal untuk danau data karena skalabilitasnya yang hampir tidak terbatas dan daya tahannya yang tinggi.

Baca laporan resmi »
Katalog data
Katalog data dan perayap di AWS Glue

Temukan bagaimana Anda dapat menggunakan informasi di Katalog Data untuk membuat dan memantau pekerjaan ETL Anda.

Jelajahi panduan »

Memulai Katalog Data AWS Glue

Pelajari cara membuat Katalog Data AWS Glue pertama Anda, yang menggunakan bucket Amazon S3 sebagai sumber data.

Mulai tutorial »
Data pihak ketiga
Memulai sebagai pelanggan AWS Data Exchange

Pahami proses lengkap menjadi pelanggan produk data di AWS Data Exchange menggunakan konsol AWS Data Exchange.

Jelajahi panduan »

Memulai sebagai penyedia AWS Data Exchange

Pahami proses lengkap menjadi penyedia produk data di AWS Data Exchange menggunakan konsol AWS Data Exchange.

Jelajahi panduan »

Memulai Amazon AppFlow

Pelajari Amazon AppFlow dan temukan prasyarat untuk memulai.

Jelajahi panduan »

Lokakarya AWS Data Exchange

Jelajahi lab mandiri yang dapat Anda gunakan untuk memahami dan mempelajari bagaimana layanan AWS dapat digunakan bersama dengan data pihak ketiga untuk menambahkan wawasan ke proyek analitik data Anda.

Mulai lokakarya »

Lokakarya Amazon AppFlow

Pelajari Amazon AppFlow dan cara mentransfer data dengan mudah antara layanan SaaS populer dan AWS.

Mulai lokakarya »

Analitik prediktif dan ML

Kerangka kerja dan antarmuka
Layanan platform
Integrasi data langsung

Kerangka kerja dan antarmuka
Memulai dengan AMI AWS Deep Learning

Jelajahi kiat tentang pemilihan DLAMI yang tepat untuk Anda, pemilihan tipe instans yang sesuai dengan kasus penggunaan dan anggaran Anda, serta informasi tambahan yang mendeskripsikan pengaturan kustom.
Jelajahi panduan »

Tutorial AMI Deep Learning

Serangkaian tutorial untuk menunjukkan kepada Anda cara menggunakan AMI Deep Learning dengan perangkat lunak Conda.

Mulai tutorial »

Mulai dengan deep learning menggunakan AMI AWS Deep Learning

Pelajari tentang AMI AWS Deep Learning (Amazon Machine Images), yang memungkinkan Anda membangun lingkungan dan alur kerja kustom.

Baca posting blog »
Layanan platform
Cara kerja Amazon SageMaker

Jelajahi ikhtisar machine learning dan cara kerja Amazon SageMaker.

Jelajahi panduan »

Memulai Amazon SageMaker

Kami menunjukkan kepada Anda cara memulai Amazon EMR di EKS dengan melakukan deployment aplikasi Spark pada klaster virtual.

Jelajahi panduan »

Hasilkan prediksi machine learning tanpa menulis kode

Pelajari cara menggunakan Amazon SageMaker Canvas untuk membangun model ML dan menghasilkan prediksi yang akurat tanpa menulis satu baris kode pun.

Mulai tutorial »
Integrasi data langsung
Menggunakan machine learning dengan Amazon Athena

Jelajahi cara ML dan Amazon Athena memungkinkan Anda menggunakan Athena untuk menulis pernyataan SQL yang menjalankan inferensi Machine Learning (ML) dengan menggunakan Amazon SageMaker.

Jelajahi panduan »

Mendapatkan wawasan dengan machine learning di Amazon QuickSight

Pelajari bagaimana kemampuan ML dan bahasa alami dengan Amazon QuickSight Enterprise Edition membawa Anda melampaui analisis deskriptif dan diagnostik, serta mendorong Anda ke dalam prakiraan dan pengambilan keputusan.

Jelajahi panduan »

Memulai Amazon Redshift ML

Pelajari cara menggunakan data di klaster Redshift untuk melatih model dengan Amazon SageMaker.

Jelajahi panduan »

Cara memulai Neptune ML

Kami menunjukkan kepada Anda cara untuk dapat dengan mudah menyiapkan Neptune ML dan menyimpulkan properti vertex dalam grafik.

Baca posting blog »

Jelajahi

Diagram arsitektur

Jelajahi diagram arsitektur untuk membantu Anda mengembangkan, menskalakan, dan menguji solusi analitik di AWS.

Jelajahi diagram arsitektur »

Laporan Resmi

Jelajahi laporan resmi untuk membantu Anda memulai, mempelajari praktik terbaik, dan memahami opsi analitik.

Jelajahi laporan resmi »

Solusi AWS

Jelajahi solusi yang telah diperiksa dan panduan arsitektur untuk kasus penggunaan umum untuk layanan analitik.

Jelajahi solusi »

Apakah halaman ini membantu?

Umpan Balik