Data Lake dan Analisis di AWS

Portofolio layanan untuk membuat solusi data lake dan analisis yang paling komprehensif, aman, dapat diskalakan, dan hemat biaya.

 

Ukuran dan kompleksitas data yang perlu dianalisis saat ini, yang berarti teknologi dan pendekatan yang berfungsi sama seperti yang lama, tidak berfungsi lagi. Untuk mendapatkan nilai terbaik dari data Anda, AWS menyediakan portofolio layanan yang paling komprehensif, aman, dapat diskalakan, dan hemat biaya yang memungkinkan Anda membuat data lake di cloud, menganalisis semua data, termasuk data dari perangkat IoT dengan beragam pendekatan analitis termasuk machine learning.

Ada lebih banyak organisasi yang menjalankan data lake dan analisisnya di AWS dibandingkan dengan tempat lain dengan pelanggan seperti NASDAQ, Zillow, Yelp, iRobot, dan FINRA yang memercayakan AWS untuk menjalankan beban kerja analisis kritis bisnis mereka.

Data Lake dan Analisis di AWS

Data Lake dan Analisis di AWS

Untuk membangun solusi data lake dan analisis, AWS memberikan seperangkat layanan yang paling komprehensif untuk memindah, menyimpan, dan menganalisis data Anda.

aws-datalake-diagram-simplified

Perpindahan Data

Impor data Anda di lokasi, secara real-time.

Data Lake

Simpan segala jenis data dengan aman, dari gigabyte hingga exabyte.

Analisis

Analisis data Anda dengan beragam pilihan alat dan mesin analisis yang luas.

Machine Learning

Perkirakan hasil mendatang, dan rencanakan tindakan.

Perpindahan Data

Langkah pertama membangun data lake di AWS adalah memindahkan data ke cloud. Batasan fisik bandwidth dan kecepatan transfer menghalangi kemampuan memindahkan data tanpa gangguan besar, biaya tinggi, dan waktu. Untuk membuat transfer data mudah dan fleksibel, AWS memberikan jangkauan pilihan yang sangat luas untuk mentransfer data ke cloud.

Perpindahan data di lokasi

AWS menyediakan beragam cara untuk memindahkan data dari pusat data ke AWS. Untuk mendirikan koneksi jaringan khusus antara jaringan Anda dan AWS, Anda dapat menggunakan AWS Direct Connect. Untuk memindahkan petabyte hingga exabyte data ke AWS menggunakan perangkat fisik, Anda dapat menggunakan AWS Snowball dan AWS Snowmobile. Untuk membuat aplikasi di lokasi Anda menyimpan data langsung ke AWS, Anda dapat menggunakan AWS Storage Gateway.  

Perpindahan data real-time

AWS memberikan bermacam-macam cara untuk menyerap data real-time yang dihasilkan dari sumber baru semacam situs web, aplikasi mobile, dan perangkat yang tersambung internet. Untuk mempermudah pengambilan dan pemuatan data streaming atau data perangkat IoT, Anda dapat menggunakan Amazon Kinesis Data Firehose, Amazon Kinesis Video Streams, dan AWS IoT Core.  

Data Lake

Setelah data siap untuk cloud, AWS mempermudah penyimpanan data dalam segala format, secara aman, dan pada skala masif dengan Amazon S3 dan Amazon Glacier.  Untuk mempermudah pengguna akhir menemukan data yang relevan untuk dipakai dalam analisis mereka, AWS Glue secara otomatis membuat katalog tunggal yang dapat dicari, dan dapat dikuerikan oleh pengguna.

Penyimpanan Objek

Amazon S3

Amazon S3 merupakan penyimpanan objek yang aman, sangat dapat diskalakan, kuat dengan latensi milidetik untuk akses data. S3 dibuat untuk menyimpan segala jenis data dari mana saja – termasuk situs web dan aplikasi mobile, aplikasi perusahaan, serta data dari perangkat dan sensor IoT. Layanan ini dibuat untuk menyimpan dan mengambil berapa pun jumlah data, dengan ketersediaan yang tidak tertandingi, dan dibangun dari dasar untuk menghantarkan ketahanan sebesar 99.999999999% (11 angka sembilan). S3 menyediakan kemampuan keamanan dan kepatuhan yang komprehensif yang memenuhi persyaratan peraturan yang paling ketat sekalipun.  

Cadangan dan Arsip

Amazon Glacier

Amazon Glacier adalah penyimpanan yang aman, tahan, dan sangat hemat biaya untuk pencadangan dan pengarsipan jangka panjang yang dapat mengakses data dalam hitungan menit.  Dirancang untuk menyampaikan 99,999999999% (11 sembilan) durabilitas, dan menyediakan kemampuan keamanan & kepatuhan menyeluruh yang dapat membantu memenuhi bahkan persyaratan hukum yang paling ketat. Pelanggan dapat menyimpan data paling sedikit 0,004 USD setiap gigabyte per bulan, penghematan yang signifikan dibandingkan solusi di lokasi.

Katalog Data

AWS Glue

AWS Glue merupakan layanan yang terkelola secara penuh yang menyediakan katalog data untuk membuat data dalam data lake dapat ditemukan, dan memiliki kemampuan mengekstrak, mengubah, dan memuat (ETL) untuk menyiapkan data untuk analysis. Katalog data tersebut secara otomatis dibuat sebagai penyimpanan metadata yang persisten untuk semua aset data, membuat semua data dapat dicari, dan dapat dikuerikan dalam tampilan tunggal.

Analisis

AWS memberikan rangkaian layanan analisis yang paling luas, dan paling hemat biaya yang berjalan di data lake. Setiap layanan analisis dibangun dengan tujuan untuk berbagai kasus penggunaan analitik seperti analisis interaktif, pemrosesan big data menggunakan Hadoop dan Spark, gudang data, analisis real-time, analisis operasional, dasbor, dan visualisasi.

Analisis Interaktif

Amazon Athena

Untuk analisis interaktif, Amazon Athena mempermudah analisis data secara langsung dalam S3 dan Glacier menggunakan queri SQL standar. Athena tidak memiliki server, sehingga tidak perlu menyiapkan atau mengelola infrastruktur. Anda dapat memulai mengelola kueri data secara instan, mendapatkan hasilnya dalam hitungan detik dan bayar hanya untuk kueri yang Anda jalankan. Cukup arahkan ke data Anda di Amazon S3, tentukan skemanya, dan mulai kueri menggunakan SQL standar. Sebagian besar hasil dikirimkan dalam hitungan detik.  

Pemrosesan Big Data

Amazon EMR

Untuk pemrosesan big data menggunakan kerangka kerja Hadoop dan Spark Amazon EMR memberikan layanan terkelola yang mempermudah, mempercepat, dan menghemat biaya pemrosesan data berjumlah besar. Amazon EMR mendukung 19 proyek sumber terbuka yang berbeda mencakup Hadoop, Spark, HBase, Presto, dan sebagainya. Setiap proyek diperbarui di EMR dalam 30 hari sejak versi dirilis, memastikan Anda memiliki yang terbaru dan terhebat dari komunitas.

Gudang Data

Amazon Redshift

Untuk gudang data, Amazon Redshift memberikan kemampuan untuk menjalankan kueri analitik yang kompleks terhadap petabyte data terstruktur, dan mencakup Redshift Spectrum yang menjalankan kueri SQL secara langsung terhadap Exabyte data terstruktur maupun tidak terstruktur di S3 tanpa memerlukan perpindahan data yang tidak dibutuhkan. Harga Amazon Redshift kurang dari sepersepuluh biaya solusi tradisional. Mulai perlahan cukup dengan 0,25 USD per jam dan tingkatkan skala data hingga petabyte dengan 1.000 USD per terabyte per tahun.

Analisis Real-Time

Amazon Kinesis

Untuk analisis real-time, Amazon Kinesis mempermudah pengumpulan, pemrosesan dan analisis data streaming semacam data telemetri IoT, log aplikasi, dan aliran klik situs web. Amazon Kinesis memungkinkan Anda memproses dan menganalisis data ketika datang dalam data lake Anda dan merespons secara real-time alih-alih menunggu sampai semua data dikumpulkan sebelum proses dapat dimulai.

Analisis Operasional

Amazon Elasticsearch Service

Untuk analisis operasional semacam pemantauan aplikasi, analisis log, dan analisis aliran klik, Amazon Elasticsearch Service memungkinkan Anda mencari, menjelajah, memfilter, mengagregasi, dan memvisualisasi data hampir secara real-time. Amazon Elasticsearch Service memberikan API yang mudah digunakan dari Elasticsearch dan kemampuan analisis real-time bersama dengan ketersediaan, skalabilitas, dan keamanan yang diperlukan oleh beban kerja produksi.

 

Dasbor dan Visualisasi

Amazon QuickSight

Untuk dasbor dan visualisasi, Amazon Quicksight memberikan layanan analisis bisnis yang didukung cloud, yang cepat, yang mempermudah pembuatan visualisasi yang memukau dan dasbor yang kaya yang dapat diakses dari browser atau perangkat mobile apa pun.

 

Machine Learning

Untuk kasus penggunaan analisis prediktif, AWS memberikan seperangkat luas layanan machine learning, dan alat yang berjalan pada data lake Anda di AWS. Layanan kami berasal dari pengetahuan dan kemampuan yang kami bangun di Amazon, di mana ML telah mendukung mesin, rantai suplai, perkiraan, pusat pemenuhan, dan perencanaan kapasitas rekomendasi Amazon.com  

Kerangka Kerja dan Antarmuka

Untuk praktisi dan saintis data ahli machine learning, AWS menyediakan AWS Deep Learning AMI yang mempermudah pembangunan model deep learning, dan membangun klaster dengan instans GPU yang dioptimalisasi dengan ML dan DL. AWS mendukung semua kerangka kerja mesin utama, termasuk TensorFlow, Caffe2, dan Apache MXNet, sehingga Anda dapat membawa atau mengembangkan model yang Anda pilih. Kemampuan ini memberikan daya, kecepatan, dan efisiensi yang tidak tertandingi yang diperlukan beban kerja deep learning dan machine learning.

Layanan Platform

Untuk pengembang yang ingin mendalami ML, Amazon SageMaker adalah layanan platform yang mempermudah seluruh proses pembuatan, pelatihan, dan penerapan model ML dengan menyediakan semua yang Anda perlukan untuk menghubungkan data pelatihan, memilih, dan mengoptimalkan algoritme dan kerangka kerja terbaik, dan menerapkan model Anda pada klaster auto-scaling dari Amazon EC2. SageMaker juga meliputi buku catatan Jupyter yang di-host yang memudahkan untuk mengeksplorasi, dan memvisualisasikan data pelatihan Anda yang disimpan di Amazon S3.

Layanan Aplikasi

Untuk pengembang yang ingin memasukkan fungsionalitas AI yang dibuat sebelumnya ke dalam aplikasi mereka, AWS menyediakan API berorientasi solusi untuk visi komputer, dan pemrosesan bahasa alami. Layanan aplikasi ini memungkinkan pengembang menambahkan kecerdasan ke aplikasi mereka tanpa mengembangkan dan melatih model milik mereka.

Lebih banyak data lake & analisis yang dibangun di AWS dibandingkan di tempat lain

Mengapa data lake dan analisis di AWS?

Fleksibilitas dan pilihan

AWS menawarkan serangkaian alat dan mesin analisis terluas yang menganalisis daya menggunakan format terbuka dan standar terbuka. Anda perlu menyimpan data dalam format data berbasis standar semacam CSV, ORC, Grok, Avro, dan Parquet, dan fleksibilitas untuk menganalisis hari dalam berbagai cara semacam gudang data, kueri SQL interaktif, analisis real-time, dan pemrosesan big data. Luasnya layanan analitik yang dapat digunakan dengan data Anda di AWS, memastikan bahwa kebutuhan Anda akan terpenuhi untuk kasus penggunaan analitik saat ini dan di masa mendatang.

Skalabilitas dan ketersediaan yang tidak tertandingi

Amazon S3 ini dibuat untuk menyimpan dan memperoleh berapa pun jumlah data, dengan ketersediaan yang tidak tertandingi, dan dibangun dari dasar untuk menghantarkan ketahanan sebesar 99.999999999% (11 angka sembilan). Layanan ini merupakan satu-satunya penawaran penyimpanan yang dapat menyimpan data Anda di banyak pusat data di tiga availability zone dalam Wilayah AWS tunggal untuk resiliensi yang tidak tertandingi untuk masalah pusat data tunggal, dan penawaran penyimpanan satu-satunya yang secara mulus mereplikasi data antara wilayah mana pun.

Keamanan tinggi

S3 merupakan platform penyimpanan satu-satunya yang memungkinkan Anda menerapkan akses, log, dan kebijakan audit di tingkat akun dan objek. S3 menyediakan enkripsi sisi-server otomatis, enkripsi dengan kunci yang dikelola dengan AWS Key Management Service (KMS), dan enkripsi dengan kunci yang Anda kelola. S3 mengenkripsi data dalam transit ketika mereplikasi di wilayah, dan memungkinkan Anda menggunakan akun terpisah untuk wilayah sumber dan tujuan untuk melindungi dari penghapusan pihak dalam yang berbahaya. Untuk secara proaktif mendeteksi tahap awal serangan, Amazon Macie, layanan keamanan yang didukung ML memantau aktivitas akses data untuk anomali, dan mengeluarkan peringatan mendetail apabila mendeteksi risiko akses tanpa otorisasi atau kebocoran data yang tidak disengaja.

Hemat biaya

Data lake yang dibangun di AWS merupakan yang paling hemat. Data yang jarang digunakan dapat dipindahkan ke Amazon Glacier yang memberikan pencadangan dan pengarsipan jangka panjang dengan biaya yang rendah. Kemampuan manajemen Amazon S3 dapat menganalisis pola akses objek untuk memindahkan data yang jarang digunakan ke Glacier sesuai pesanan atau secara otomatis dengan kebijakan siklus aktif. Anda dapat memulai menyusun kueri data dengan Amazon Athena dengan biaya paling kecil sebesar 0,005 USD/GB yang dikueri. Layanan analisis dan machine learning lain dihargai dengan pendekatan bayar sesuai pemakaian untuk sumber daya yang dikonsumsi.

Kinerja cepat

Layanan analisis AWS seperti Amazon Redshift dan Amazon Athena dibangun untuk kinerja kueri interaktif yang cepat untuk mendukung sejumlah besar kueri interaktif bersamaan. Ketika menjalankan portofolio luas layanan analisis dan machine learning AWS menggunakan Amazon S3 Select, hanya subset data yang diperlukan dalam objek yang dikembalikan, yang membuat kueri menjadi sangat cepat hingga 400% lebih cepat, dan sangat hemat. Glacier Select menyediakan kemampuan yang memungkinkan Anda memperoleh data yang diarsipkan dengan lebih cepat, dan memungkinkan Anda memperluas kemampuan analisis terhadap data lake Anda untuk mencakup penyimpanan arsip.  

 

Jaringan partner terbesar

AWS Partner Network (APN) memiliki integrasi partner dua kali lebih banyak dibandingkan siapa pun, dengan puluh ribuan partner, termasuk vendor konsultasi dan perangkat lunak independen, di seluruh dunia. Layanan ini mempermudah pekerjaan dan integrasi dengan banyak alat yang sama yang kini Anda gunakan dan sukai. Data Lake Quick Starts, yang dikembangkan oleh arsitektur solusi dan partner AWS, membantu membangun, menguji, dan menerapkan solusi data lake berdasarkan praktik terbaik AWS untuk keamanan dan ketersediaan yang sangat baik, dalam beberapa langkah sederhana. 

 

Mulai menggunakan AWS

icon1

Mendaftar akun AWS

Dapatkan akses secara instan ke AWS Tingkat Gratis.
Pelajari selengkapnya: Apa itu data lake?
icon2

Pelajari selengkapnya tentang data lake di AWS

Baca selengkapnya tentang menerapkan data lake di AWS di sini.
Lihat sesi pada Arsitektur Data Lake di sini dan pola arsitektur big data di sini.
Lihat sesi pelanggan tentang bagaimana mereka membuat Data Lake termasuk FINRA, Amazon.com, Rovio, dan Sysco Foods
 
icon3

Mulai membangun dengan AWS

Unggah data Anda di Amazon S3, Katalogkan data Anda dengan AWS Glue, dan mulai melakukan kueri dengan Amazon Athena. Jalankan kueri gudang data dengan Amazon Redshift Spectrum, Hadoop dan Spark dengan Amazon EMR, dan Machine Learning dengan Amazon Sagemaker.
 
Anda punya POC dan ingin menghubungi seseorang? Hubungi kami atau terapkan melalui Mulai Cepat AWS kami

Mulai menggunakan data lake di AWS

Terapkan data lake dengan Mulai Cepat AWS
Ada pertanyaan lagi?
Hubungi kami