Data Lake dan Analisis di AWS

Portofolio layanan untuk membuat solusi data lake dan analisis yang paling komprehensif, aman, dapat diskalakan, dan hemat biaya.

AWS menghadirkan rangkaian layanan yang menyediakan semua hal yang diperlukan untuk membangun dan mengelola data lake dengan cepat dan mudah untuk analisis. Data lake yang didukung AWS dapat menangani skala, ketangkasan, dan fleksibilitas yang diperlukan untuk memadukan berbagai jenis pendekatan data dan analisis untuk mendapatkan wawasan yang lebih mendalam, dengan cara yang tidak dapat oleh gudang data dan silo data tradisional. AWS memberi layanan analisis dan machine learning dengan cakupan luas kepada pelanggan, tanpa membahayakan keamanan atau tata kelola.

Ada lebih banyak organisasi dengan data lake dan analisis di AWS dibandingkan di tempat lain. Pelanggan seperti NASDAQ, Zillow, Yelp, iRobot, dan FINRA memercayai AWS untuk menjalankan beban kerja analisis penting bisnis mereka.

Data Lake dan Analisis di AWS

Data Lake dan Analisis di AWS

Untuk membangun solusi data lake dan analisis, AWS memberikan seperangkat layanan yang paling komprehensif untuk memindahkan, menyimpan, dan menganalisis data Anda.

aws-datalake-diagram-simplified

Perpindahan Data

Impor data Anda dari tempat lokal, secara real-time.

Data Lake

Simpan segala jenis data dengan aman, dari gigabyte hingga exabyte.

Analisis

Analisis data Anda dengan berbagai pilihan layanan analisis.

Machine Learning

Prediksikan hasil mendatang, dan tentukan tindakan untuk respons cepat.

Perpindahan Data

Langkah pertama membangun data lake di AWS adalah memindahkan data ke cloud. Batasan fisik bandwidth dan kecepatan transfer menghalangi kemampuan memindahkan data tanpa gangguan besar, biaya tinggi, dan waktu. Untuk membuat transfer data mudah dan fleksibel, AWS memberikan jangkauan pilihan yang sangat luas untuk mentransfer data ke cloud.

Untuk membuat tugas ETL dan ML Transforms bagi data lake Anda, pelajari tentang Pembentukan Lake AWS.

Perpindahan data di lokasi

AWS menyediakan beragam cara untuk memindahkan data dari pusat data ke AWS. Untuk mendirikan koneksi jaringan khusus antara jaringan Anda dan AWS, Anda dapat menggunakan AWS Direct Connect. Untuk memindahkan petabyte hingga exabyte data ke AWS menggunakan perangkat fisik, Anda dapat menggunakan AWS Snowball dan AWS Snowmobile. Untuk membuat aplikasi di lokasi Anda menyimpan data langsung ke AWS, Anda dapat menggunakan AWS Storage Gateway.  

Perpindahan data real-time

AWS memberikan bermacam-macam cara untuk menyerap data real-time yang dihasilkan dari sumber baru semacam situs web, aplikasi mobile, dan perangkat yang tersambung internet. Untuk mempermudah pengambilan dan pemuatan data streaming atau data perangkat IoT, Anda dapat menggunakan Amazon Kinesis Data Firehose, Amazon Kinesis Video Streams, dan AWS IoT Core.  

Data Lake

Setelah data siap untuk cloud, AWS mempermudah penyimpanan data dalam segala format, secara aman, dan pada skala masif dengan Amazon S3 dan Amazon Glacier. Untuk mempermudah pengguna akhir menemukan data yang relevan untuk dipakai dalam analisis mereka, AWS Glue secara otomatis membuat katalog tunggal yang dapat dicari, dan dapat dikuerikan oleh pengguna.

Untuk membuat data lake yang aman lebih cepat, pelajari lebih lanjut tentang Pembentukan Lake AWS

Penyimpanan Objek

Amazon S3

Amazon S3 merupakan penyimpanan objek yang aman, sangat dapat diskalakan, kuat dengan latensi milidetik untuk akses data. S3 dibuat untuk menyimpan segala jenis data dari mana saja – termasuk situs web dan aplikasi mobile, aplikasi perusahaan, serta data dari perangkat dan sensor IoT. Layanan ini dibuat untuk menyimpan dan mengambil berapa pun jumlah data, dengan ketersediaan yang tidak tertandingi, dan dibangun dari dasar untuk menghantarkan ketahanan sebesar 99.999999999% (11 angka sembilan). S3 Select berfokus pada pengambilan dan pembacaan data, mengurangi waktu respons hingga 400%. S3 menyediakan kemampuan keamanan dan kepatuhan yang komprehensif yang memenuhi persyaratan peraturan yang paling ketat sekalipun.  

Cadangan dan Arsip

Amazon Glacier

Amazon Glacier adalah penyimpanan yang aman, tahan lama, dengan harga terjangkau untuk pencadangan dan pengarsipan jangka panjang yang dapat mengakses data dalam hitungan menit, dan Gracier Select juga membaca dan mengambil data yang diperlukan saja. Dirancang untuk menyampaikan 99,999999999% (11 sembilan) durabilitas, dan menyediakan kemampuan keamanan & kepatuhan menyeluruh yang dapat membantu memenuhi bahkan persyaratan hukum yang paling ketat. Pelanggan dapat menyimpan data paling sedikit 0,004 USD setiap gigabyte per bulan, penghematan yang signifikan dibandingkan solusi di lokasi.

Katalog Data

AWS Glue

AWS Glue merupakan layanan yang terkelola secara penuh yang menyediakan katalog data untuk membuat data dalam data lake dapat ditemukan, dan memiliki kemampuan mengekstrak, mengubah, dan memuat (ETL) untuk menyiapkan data untuk analysis. Katalog data tersebut secara otomatis dibuat sebagai penyimpanan metadata yang persisten untuk semua aset data, membuat semua data dapat dicari, dan dapat dikuerikan dalam tampilan tunggal.

Analisis

AWS memberikan rangkaian layanan analisis yang paling luas, dan paling hemat biaya yang berjalan di data lake. Setiap layanan analisis dibangun dengan tujuan untuk berbagai kasus penggunaan analisis seperti analisis interaktif, pemrosesan big data menggunakan Apache Spark dan Hadoop, gudang data, analisis real-time, analisis operasional, dasbor, dan visualisasi.

Untuk mengelola akses layanan mandiri yang aman ke data di data lake untuk layanan analisis, pelajari lebih lanjut tentang Pembentukan Lake AWS.

Analisis Interaktif

Amazon Athena

Untuk analisis interaktif, Amazon Athena mempermudah analisis data secara langsung dalam S3 dan Glacier menggunakan queri SQL standar. Athena tidak memiliki server, sehingga tidak perlu menyiapkan atau mengelola infrastruktur. Anda dapat memulai mengelola kueri data secara instan, mendapatkan hasilnya dalam hitungan detik dan bayar hanya untuk kueri yang Anda jalankan. Cukup arahkan ke data Anda di Amazon S3, tentukan skemanya, dan mulai kueri menggunakan SQL standar. Sebagian besar hasil dikirimkan dalam hitungan detik.  

Pemrosesan Big Data

Amazon EMR

Untuk pemrosesan big data menggunakan kerangka kerja Spark dan Hadoop Amazon EMR memberikan layanan terkelola yang mempermudah, mempercepat, dan menghemat biaya pemrosesan data berjumlah besar. Amazon EMR mendukung 19 proyek sumber terbuka yang berbeda, termasuk Hadoop, Spark, HBase, dan Presto, dengan EMR Notebooks yang dikelola untuk rekayasa data, pengembangan ilmu data, dan kolaborasi. Setiap proyek diperbarui di EMR dalam 30 hari sejak versi dirilis, memastikan Anda memiliki yang terbaru dan terandal dari komunitas, tanpa kesulitan berarti.

Gudang Data

Amazon Redshift

Untuk gudang data, Amazon Redshift memberikan kemampuan untuk menjalankan kueri analitik yang kompleks terhadap petabyte data terstruktur, dan mencakup Redshift Spectrum yang menjalankan kueri SQL secara langsung terhadap Exabyte data terstruktur maupun tidak terstruktur di S3 tanpa memerlukan perpindahan data yang tidak dibutuhkan. Harga Amazon Redshift kurang dari sepersepuluh biaya solusi tradisional. Mulai perlahan cukup dengan 0,25 USD per jam dan tingkatkan skala data hingga petabyte dengan 1.000 USD per terabyte per tahun.

Analisis Real-Time

Amazon Kinesis

Untuk analisis real-time, Amazon Kinesis mempermudah pengumpulan, pemrosesan dan analisis data streaming semacam data telemetri IoT, log aplikasi, dan aliran klik situs web. Amazon Kinesis memungkinkan Anda memproses dan menganalisis data ketika datang dalam data lake Anda dan merespons secara real-time alih-alih menunggu sampai semua data dikumpulkan sebelum proses dapat dimulai.

Analisis Operasional

Amazon Elasticsearch Service

Untuk analisis operasional semacam pemantauan aplikasi, analisis log, dan analisis aliran klik, Amazon Elasticsearch Service memungkinkan Anda mencari, menjelajah, memfilter, mengagregasi, dan memvisualisasi data hampir secara real-time. Amazon Elasticsearch Service memberikan API yang mudah digunakan dari Elasticsearch dan kemampuan analisis real-time bersama dengan ketersediaan, skalabilitas, dan keamanan yang diperlukan oleh beban kerja produksi.

 

Dasbor dan Visualisasi

Amazon QuickSight

Untuk dasbor dan visualisasi, Amazon Quicksight memberikan layanan analisis bisnis yang didukung cloud, yang cepat, yang mempermudah pembuatan visualisasi yang memukau dan dasbor yang kaya yang dapat diakses dari browser atau perangkat mobile apa pun.

 

Machine Learning

Untuk kasus penggunaan analisis prediktif, AWS memberikan seperangkat luas layanan machine learning, dan alat yang berjalan pada data lake Anda di AWS. Layanan kami berasal dari pengetahuan dan kemampuan yang kami bangun di Amazon, di mana ML telah mendukung mesin, rantai suplai, perkiraan, pusat pemenuhan, dan perencanaan kapasitas rekomendasi Amazon.com  

Kerangka Kerja dan Antarmuka

Untuk praktisi dan saintis data ahli machine learning, AWS menyediakan AWS Deep Learning AMI yang mempermudah pembangunan model deep learning, dan membangun klaster dengan instans GPU yang dioptimalisasi dengan ML dan DL. AWS mendukung semua kerangka kerja machine learning utama, termasuk Apache MXNet, TensorFlow, dan Caffe2, sehingga Anda dapat menghadirkan atau mengembangkan model yang Anda pilih. Kemampuan ini memberikan daya, kecepatan, dan efisiensi yang tidak tertandingi yang diperlukan beban kerja deep learning dan machine learning.

Layanan Platform

Untuk pengembang yang ingin mendalami ML, Amazon SageMaker adalah layanan platform yang mempermudah seluruh proses pembuatan, pelatihan, dan penerapan model ML dengan menyediakan semua yang Anda perlukan untuk menghubungkan data pelatihan, memilih, dan mengoptimalkan algoritme dan kerangka kerja terbaik, dan menerapkan model Anda pada klaster auto-scaling dari Amazon EC2. SageMaker juga meliputi buku catatan Jupyter yang di-host yang memudahkan untuk mengeksplorasi, dan memvisualisasikan data pelatihan Anda yang disimpan di Amazon S3.

Layanan Aplikasi

Untuk pengembang yang ingin memasukkan fungsionalitas AI yang dibuat sebelumnya ke dalam aplikasi mereka, AWS menyediakan API berorientasi solusi untuk visi komputer, dan pemrosesan bahasa alami. Layanan aplikasi ini memungkinkan pengembang menambahkan kecerdasan ke aplikasi mereka tanpa mengembangkan dan melatih model milik mereka.

Lebih banyak data lake & analisis yang dibangun di AWS dibandingkan di tempat lain

Mengapa data lake dan analisis di AWS?

Fleksibilitas dan pilihan

AWS menawarkan serangkaian alat dan mesin analisis terluas yang menganalisis daya menggunakan format terbuka dan standar terbuka. Anda perlu menyimpan data dalam format data berbasis standar semacam CSV, ORC, Grok, Avro, dan Parquet, dan fleksibilitas untuk menganalisis hari dalam berbagai cara semacam gudang data, kueri SQL interaktif, analisis real-time, dan pemrosesan big data. Luasnya layanan analitik yang dapat digunakan dengan data Anda di AWS, memastikan bahwa kebutuhan Anda akan terpenuhi untuk kasus penggunaan analitik saat ini dan di masa mendatang.

Skalabilitas dan ketersediaan yang tidak tertandingi

Amazon S3 ini dibuat untuk menyimpan dan memperoleh berapa pun jumlah data, dengan ketersediaan yang tidak tertandingi, dan dibangun dari dasar untuk menghantarkan ketahanan sebesar 99.999999999% (11 angka sembilan). Layanan ini merupakan satu-satunya penawaran penyimpanan yang dapat menyimpan data Anda di banyak pusat data di tiga availability zone dalam Wilayah AWS tunggal untuk resiliensi yang tidak tertandingi untuk masalah pusat data tunggal, dan penawaran penyimpanan satu-satunya yang secara mulus mereplikasi data antara wilayah mana pun.

Keamanan tinggi

S3 merupakan platform penyimpanan satu-satunya yang memungkinkan Anda menerapkan akses, log, dan kebijakan audit di tingkat akun dan objek. S3 menyediakan enkripsi sisi-server otomatis, enkripsi dengan kunci yang dikelola dengan AWS Key Management Service (KMS), dan enkripsi dengan kunci yang Anda kelola. S3 mengenkripsi data dalam transit ketika mereplikasi di wilayah, dan memungkinkan Anda menggunakan akun terpisah untuk wilayah sumber dan tujuan untuk melindungi dari penghapusan pihak dalam yang berbahaya. Untuk secara proaktif mendeteksi tahap awal serangan, Amazon Macie, layanan keamanan yang didukung ML memantau aktivitas akses data untuk anomali, dan mengeluarkan peringatan mendetail apabila mendeteksi risiko akses tanpa otorisasi atau kebocoran data yang tidak disengaja.

Hemat biaya

Data lake yang dibangun di AWS merupakan yang paling hemat. Data yang jarang digunakan dapat dipindahkan ke Amazon Glacier yang memberikan pencadangan dan pengarsipan jangka panjang dengan biaya yang rendah. Kemampuan manajemen Amazon S3 dapat menganalisis pola akses objek untuk memindahkan data yang jarang digunakan ke Glacier sesuai pesanan atau secara otomatis dengan kebijakan siklus aktif. Anda dapat memulai menyusun kueri data dengan Amazon Athena dengan biaya paling kecil sebesar 0,005 USD/GB yang dikueri. Layanan analisis dan machine learning lain dihargai dengan pendekatan bayar sesuai pemakaian untuk sumber daya yang dikonsumsi.

Kinerja cepat

Layanan analisis AWS seperti Amazon Redshift dan Amazon Athena dibangun untuk kinerja kueri interaktif yang cepat untuk mendukung sejumlah besar kueri interaktif bersamaan. Ketika menjalankan portofolio luas layanan analisis dan machine learning AWS menggunakan Amazon S3 Select, hanya subset data yang diperlukan dalam objek yang dikembalikan, yang membuat kueri menjadi sangat cepat hingga 400% lebih cepat, dan sangat hemat. Glacier Select menyediakan kemampuan yang memungkinkan Anda memperoleh data yang diarsipkan dengan lebih cepat, dan memungkinkan Anda memperluas kemampuan analisis terhadap data lake Anda untuk mencakup penyimpanan arsip.  

 

Jaringan partner terbesar

AWS Partner Network (APN) memiliki integrasi partner dua kali lebih banyak dibandingkan siapa pun, dengan puluh ribuan partner, termasuk vendor konsultasi dan perangkat lunak independen, di seluruh dunia. Layanan ini mempermudah pekerjaan dan integrasi dengan banyak alat yang sama yang kini Anda gunakan dan sukai. Data Lake Quick Starts, yang dikembangkan oleh arsitektur solusi dan partner AWS, membantu membangun, menguji, dan menerapkan solusi data lake berdasarkan praktik terbaik AWS untuk keamanan dan ketersediaan yang sangat baik, dalam beberapa langkah sederhana. 

 

Mulai menggunakan AWS

Step 1 - Sign up for an AWS account

Mendaftar akun AWS

Dapatkan akses secara instan ke AWS Tingkat Gratis
 
icon2

Bangun data lake yang aman dalam hitungan hari

Baca tentang Pembentukan Lake AWS

 
icon3

Mulai membangun dengan AWS

Mulai menggunakan data lake di AWS

Terapkan data lake dengan AWS Lake Formation
Punya pertanyaan lainnya?
Hubungi kami