Data Lake dan Analisis di AWS

Cara tercepat untuk mendapatkan jawaban dari semua data Anda bagi semua pengguna Anda

AWS menghadirkan rangkaian layanan terintegrasi yang menyediakan semua hal yang diperlukan untuk membangun dan mengelola data lake dengan cepat dan mudah untuk analisis. Data lake yang didukung AWS dapat menangani skala, ketangkasan, dan fleksibilitas yang diperlukan untuk memadukan berbagai jenis pendekatan data dan analisis untuk mendapatkan wawasan yang lebih mendalam, dengan cara yang tidak dapat oleh gudang data dan silo data tradisional. AWS memberi layanan analisis dan machine learning dengan cakupan luas kepada pelanggan, tanpa membahayakan keamanan atau tata kelola.

Ada lebih banyak organisasi dengan data lake dan analisis di AWS dibandingkan di tempat lain. Pelanggan seperti NASDAQ, Zillow, Yelp, iRobot, dan FINRA memercayai AWS untuk menjalankan beban kerja analisis penting bisnis mereka.

Data Lake dan Analisis di AWS

Data Lake dan Analisis di AWS

Untuk membangun solusi data lake dan analisis, AWS memberikan seperangkat layanan yang paling komprehensif untuk memindahkan, menyimpan, dan menganalisis data Anda.

aws-datalake-diagram-simplified

Perpindahan Data

Impor data Anda dari tempat lokal, secara real-time.

Data Lake

Simpan segala jenis data dengan aman, dari gigabyte hingga exabyte.

Analisis

Analisis data Anda dengan berbagai pilihan layanan analisis.

Machine Learning

Prediksikan hasil mendatang, dan tentukan tindakan untuk respons cepat.

Mengapa data lake dan analisis di AWS?

Paling mudah untuk membangun data lake

Bangun data lake yang aman hanya dalam hitungan hari. Pengalaman kami bekerja dengan puluhan dari ribuan pelanggan untuk membangun data lake yang produktif telah memungkinkan kami untuk menjadikan setiap aspek analisis data di cloud menjadi lebih mudah. Misalnya, AWS Lake Formation mengotomatiskan langkah-langkah manual yang diperlukan untuk membangun data lake dan menyediakan satu mekanisme keamanan di seluruh data Anda, jadi Anda menghabiskan lebih sedikit waktu pada pengangkatan berat yang tidak berbeda yang diperlukan untuk membangun data lake dan lebih banyak waktu mengeksplorasi data Anda untuk mendapatkan jawaban atas pertanyaan Anda yang paling penting.

Performa terbaik dengan harga paling terjangkau

AWS adalah tempat tercepat dan paling hemat biaya untuk menyimpan dan menganalisis data. Misalnya, Amazon S3 menyediakan lima kelas penyimpanan dan manajemen siklus hidup data otomatis, sehingga Anda hanya membayar kebutuhan data Anda berdasarkan cara penggunaan data. Amazon Redshift 3x lebih cepat dari gudang data cloud lainnya dan semakin cepat setiap tahun. Amazon EMR menyediakan tempat tercepat untuk menjalankan beban kerja Apache Spark dan Apache HIVE di cloud. Integrasi mendalam EMR dengan sisa AWS memudahkan pemanfaatan fitur hemat biaya, seperti instans Spot EC2, untuk mengurangi biaya hingga 90%.

Paling komprehensif dan terbuka

Kini, mengunci semua data Anda di satu analisis terisolasi sudah tidak canggih lagi. Analisis modern memerlukan kumpulan alat dan pendekatan yang berbeda, termasuk SQL, R, Scala, Jupyter, dan Python, untuk mendapatkan wawasan dan jawaban yang tepat dengan menggunakan beragam bahasa. AWS menyediakan serangkaian layanan analisis yang mapan dan komprehensif yang dijalankan terhadap data lake terbuka, sehingga Anda dapat menggunakan alat yang tepat untuk tugas yang tepat tanpa perlu memindahkan atau mengubah data untuk setiap pendekatan analisis yang berbeda. Semua layanan kami mendukung akses data yang disimpan di satu penyimpanan objek (S3) dengan API terbuka, dalam format terbuka (mis.: Apache Paquet, Apache ORC, Apache Avro), serta menggunakan mesin milik sendiri (Redshift untuk gudang data) dan mesin terbuka (mis: Spark, Hive). 

Paling aman

Penting untuk tetap menyimpan data Anda dengan aman dan mematuhi peraturan yang terkait. AWS menyediakan serangkaian alat yang melampaui fungsionalitas keamanan standar, seperti enkripsi dan kontrol akses ke pemantauan proaktif dan manajemen kebijakan keamanan terpadu. Misalnya, Amazon Macie membantu memantau data lake Anda guna memastikan Anda tidak secara tidak sengaja mengekspos kredensial atau personally identifiable information (PII). Amazon Inspector membantu menegakkan praktik terbaik dan mengidentifikasi masalah konfigurasi yang dapat dieksploitasi, dan AWS Lake Formation memungkinkan Anda untuk secara konsisten mengontrol akses ke data di data lake Anda di semua layanan analisis. 

Perpindahan Data

Langkah pertama membangun data lake di AWS adalah memindahkan data ke cloud. Batasan fisik bandwidth dan kecepatan transfer menghalangi kemampuan memindahkan data tanpa gangguan besar, biaya tinggi, dan waktu. Untuk membuat transfer data mudah dan fleksibel, AWS memberikan jangkauan pilihan yang sangat luas untuk mentransfer data ke cloud.

Untuk membuat tugas ETL dan ML Transforms bagi data lake Anda, pelajari tentang Pembentukan Lake AWS.

Perpindahan data di lokasi

AWS menyediakan beragam cara untuk memindahkan data dari pusat data ke AWS. Untuk mendirikan koneksi jaringan khusus antara jaringan Anda dan AWS, Anda dapat menggunakan AWS Direct Connect. Untuk memindahkan petabyte hingga exabyte data ke AWS menggunakan perangkat fisik, Anda dapat menggunakan AWS Snowball dan AWS Snowmobile. Untuk membuat aplikasi di lokasi Anda menyimpan data langsung ke AWS, Anda dapat menggunakan AWS Storage Gateway.  

Perpindahan data real-time

AWS memberikan bermacam-macam cara untuk menyerap data real-time yang dihasilkan dari sumber baru semacam situs web, aplikasi mobile, dan perangkat yang tersambung internet. Untuk mempermudah pengambilan dan pemuatan data streaming atau data perangkat IoT, Anda dapat menggunakan Amazon Kinesis Data Firehose, Amazon Kinesis Video Streams, dan AWS IoT Core.  

Data Lake

Setelah data siap untuk cloud, AWS mempermudah penyimpanan data dalam segala format, secara aman, dan pada skala masif dengan Amazon S3 dan Amazon Glacier. Untuk mempermudah pengguna akhir menemukan data yang relevan agar dapat digunakan dalam analisis mereka, AWS Glue secara otomatis membuat katalog tunggal yang dapat dicari dan dapat dikuerikan oleh pengguna.

Untuk membuat data lake yang aman lebih cepat, pelajari lebih lanjut tentang Pembentukan Lake AWS

Penyimpanan Objek

Amazon S3

Amazon S3 merupakan penyimpanan objek yang aman, sangat dapat diskalakan, kuat dengan latensi milidetik untuk akses data. S3 dibuat untuk menyimpan segala jenis data dari mana saja – termasuk situs web dan aplikasi mobile, aplikasi perusahaan, serta data dari perangkat dan sensor IoT. Layanan ini dibuat untuk menyimpan dan mengambil berapa pun jumlah data, dengan ketersediaan yang tidak tertandingi, dan dibangun dari dasar untuk menghantarkan ketahanan sebesar 99.999999999% (11 angka sembilan). S3 Select berfokus pada pengambilan dan pembacaan data, mengurangi waktu respons hingga 400%. S3 menyediakan kemampuan keamanan dan kepatuhan yang komprehensif yang memenuhi persyaratan peraturan yang paling ketat sekalipun.  

Cadangan dan Arsip

Amazon Glacier

Amazon Glacier adalah penyimpanan yang aman, tahan lama, dengan harga terjangkau untuk pencadangan dan pengarsipan jangka panjang yang dapat mengakses data dalam hitungan menit, dan Gracier Select juga membaca dan mengambil data yang diperlukan saja. Dirancang untuk menyampaikan 99,999999999% (11 sembilan) durabilitas, dan menyediakan kemampuan keamanan & kepatuhan menyeluruh yang dapat membantu memenuhi bahkan persyaratan hukum yang paling ketat. Pelanggan dapat menyimpan data paling sedikit 0,004 USD setiap gigabyte per bulan, penghematan yang signifikan dibandingkan solusi di lokasi.

Katalog Data

AWS Glue

AWS Glue merupakan layanan yang terkelola secara penuh yang menyediakan katalog data untuk membuat data dalam data lake dapat ditemukan, dan memiliki kemampuan mengekstrak, mengubah, dan memuat (ETL) untuk menyiapkan data untuk analysis. Katalog data tersebut secara otomatis dibuat sebagai penyimpanan metadata yang persisten untuk semua aset data, membuat semua data dapat dicari, dan dapat dikuerikan dalam tampilan tunggal.

Analisis

AWS memberikan rangkaian layanan analisis yang paling luas, dan paling hemat biaya yang berjalan di data lake. Setiap layanan analisis dibangun dengan tujuan untuk berbagai kasus penggunaan analisis seperti analisis interaktif, pemrosesan big data menggunakan Apache Spark dan Hadoop, gudang data, analisis real-time, analisis operasional, dasbor, dan visualisasi.

Untuk mengelola akses layanan mandiri yang aman ke data di data lake untuk layanan analisis, pelajari lebih lanjut tentang Pembentukan Lake AWS.

Analisis Interaktif

Amazon Athena

Untuk analisis interaktif, Amazon Athena mempermudah analisis data secara langsung dalam S3 dan Glacier menggunakan queri SQL standar. Athena tidak memiliki server, sehingga tidak perlu menyiapkan atau mengelola infrastruktur. Anda dapat memulai mengelola kueri data secara instan, mendapatkan hasilnya dalam hitungan detik dan bayar hanya untuk kueri yang Anda jalankan. Cukup arahkan ke data Anda di Amazon S3, tentukan skemanya, dan mulai kueri menggunakan SQL standar. Sebagian besar hasil dikirimkan dalam hitungan detik.  

Pemrosesan Big Data

Amazon EMR

Untuk pemrosesan big data menggunakan kerangka kerja Spark dan Hadoop Amazon EMR memberikan layanan terkelola yang mempermudah, mempercepat, dan menghemat biaya pemrosesan data berjumlah besar. Amazon EMR mendukung 19 proyek sumber terbuka yang berbeda, termasuk Hadoop, Spark, HBase, dan Presto, dengan EMR Notebooks yang dikelola untuk rekayasa data, pengembangan ilmu data, dan kolaborasi. Setiap proyek diperbarui di EMR dalam 30 hari sejak versi dirilis, memastikan Anda memiliki yang terbaru dan terandal dari komunitas, tanpa kesulitan berarti.

Gudang Data

Amazon Redshift

Untuk gudang data, Amazon Redshift memberikan kemampuan untuk menjalankan kueri analitik yang kompleks terhadap petabyte data terstruktur, dan mencakup Redshift Spectrum yang menjalankan kueri SQL secara langsung terhadap Exabyte data terstruktur maupun tidak terstruktur di S3 tanpa memerlukan perpindahan data yang tidak dibutuhkan. Harga Amazon Redshift kurang dari sepersepuluh biaya solusi tradisional. Mulai perlahan cukup dengan 0,25 USD per jam dan tingkatkan skala data hingga petabyte dengan 1.000 USD per terabyte per tahun.

Analisis Real-Time

Amazon Kinesis

Untuk analisis real-time, Amazon Kinesis mempermudah pengumpulan, pemrosesan dan analisis data streaming semacam data telemetri IoT, log aplikasi, dan aliran klik situs web. Amazon Kinesis memungkinkan Anda memproses dan menganalisis data ketika datang dalam data lake Anda dan merespons secara real-time alih-alih menunggu sampai semua data dikumpulkan sebelum proses dapat dimulai.

Analisis Operasional

Amazon Elasticsearch Service

Untuk analisis operasional semacam pemantauan aplikasi, analisis log, dan analisis aliran klik, Amazon Elasticsearch Service memungkinkan Anda mencari, menjelajah, memfilter, mengagregasi, dan memvisualisasi data hampir secara real-time. Amazon Elasticsearch Service memberikan API yang mudah digunakan dari Elasticsearch dan kemampuan analisis real-time bersama dengan ketersediaan, skalabilitas, dan keamanan yang diperlukan oleh beban kerja produksi.

 

Dasbor dan Visualisasi

Amazon QuickSight

Untuk dasbor dan visualisasi, Amazon Quicksight memberikan layanan analisis bisnis yang didukung cloud, yang cepat, yang mempermudah pembuatan visualisasi yang memukau dan dasbor yang kaya yang dapat diakses dari browser atau perangkat mobile apa pun.

 

Machine Learning

Untuk kasus penggunaan analisis prediktif, AWS memberikan seperangkat luas layanan machine learning, dan alat yang berjalan pada data lake Anda di AWS. Layanan kami berasal dari pengetahuan dan kemampuan yang kami bangun di Amazon, di mana ML telah mendukung mesin, rantai suplai, perkiraan, pusat pemenuhan, dan perencanaan kapasitas rekomendasi Amazon.com  

Kerangka Kerja dan Antarmuka

Untuk praktisi dan saintis data ahli machine learning, AWS menyediakan AWS Deep Learning AMI yang mempermudah pembangunan model deep learning, dan membangun klaster dengan instans GPU yang dioptimalisasi dengan ML dan DL. AWS mendukung semua kerangka kerja machine learning utama, termasuk Apache MXNet, TensorFlow, dan Caffe2, sehingga Anda dapat menghadirkan atau mengembangkan model yang Anda pilih. Kemampuan ini memberikan daya, kecepatan, dan efisiensi yang tidak tertandingi yang diperlukan beban kerja deep learning dan machine learning.

Layanan Platform

Untuk pengembang yang ingin mendalami ML, Amazon SageMaker adalah layanan platform yang mempermudah seluruh proses pembuatan, pelatihan, dan penerapan model ML dengan menyediakan semua yang Anda perlukan untuk menghubungkan data pelatihan, memilih, dan mengoptimalkan algoritme dan kerangka kerja terbaik, dan menerapkan model Anda pada klaster auto-scaling dari Amazon EC2. SageMaker juga meliputi buku catatan Jupyter yang di-host yang memudahkan untuk mengeksplorasi, dan memvisualisasikan data pelatihan Anda yang disimpan di Amazon S3.

Layanan Aplikasi

Untuk pengembang yang ingin memasukkan fungsionalitas AI yang dibuat sebelumnya ke dalam aplikasi mereka, AWS menyediakan API berorientasi solusi untuk visi komputer, dan pemrosesan bahasa alami. Layanan aplikasi ini memungkinkan pengembang menambahkan kecerdasan ke aplikasi mereka tanpa mengembangkan dan melatih model milik mereka.

Lebih banyak data lake & analisis yang dibangun di AWS dibandingkan di tempat lain

Mulai menggunakan AWS

Step 1 - Sign up for an AWS account

Mendaftar akun AWS

Dapatkan akses secara instan ke AWS Tingkat Gratis
 
icon2

Bangun data lake yang aman dalam hitungan hari

Baca tentang Pembentukan Lake AWS

 
icon3

Mulai membangun dengan AWS

Mulai menggunakan data lake di AWS

Terapkan data lake dengan AWS Lake Formation
Punya pertanyaan lainnya?
Hubungi kami