Lewati ke Konten Utama

Pemrosesan Data Amazon SageMaker

Pemrosesan Data Amazon SageMaker

Analisis, siapkan, dan integrasikan data untuk analitik dan AI dalam jumlah besar

Mengapa memilih Pemrosesan Data SageMaker?

Siapkan, integrasikan, dan atur data Anda dengan kemampuan pemrosesan data dari Amazon Athena, Amazon EMR, AWS Glue, dan Amazon Man aged Workflow untuk Apache Airflow (Amazon MWAA). Proses dan integrasikan data Anda, di mana pun lokasinya, dengan konektivitas cepat dan mudah ke ratusan sumber data.

Manfaatkan kerangka kerja pemrosesan data sumber terbuka, seperti Apache Spark, Trino, dan Apache Flink. Analisis data dalam skala besar dengan Trino, tanpa mengelola infrastruktur dan bangun analitik waktu nyata dengan leluasa menggunakan Apache Flink dan Apache Spark.

Percayalah bahwa data Anda akurat dan aman dengan mengotomatiskan kualitas data, identifikasi data sensitif, pelacakan garis keturunan, dan menegakkan kontrol akses yang halus.

Keuntungan

Pemrosesan Data Amazon SageMaker menyediakan akses komprehensif ke kerangka kerja pemrosesan data dan aliran, mesin kueri SQL terdistribusi sumber terbuka, dan alat bantu paling populer, seperti notebook, editor kueri, dan extract, transform, dan load (ETL) visual.

Anda dapat mengakses kerangka kerja paling populer, seperti Apache Spark untuk menyiapkan dan mengintegrasikan data Anda dalam skala apa pun. Tanggapi kebutuhan bisnis waktu nyata dengan pemrosesan aliran menggunakan Apache Flink dan Spark Streaming, dan analisis data dengan kerangka kerja SQL sumber terbuka terkemuka, seperti Trino. Sederhanakan orkestrasi alur kerja tanpa harus mengelola infrastruktur dengan integrasi native dengan Amazon Managed Workflows with Apache Airflow (MWAA).

SageMaker Data Processing mengakses data dari danau di Amazon SageMaker, memungkinkan Anda memproses dan mengintegrasikan menggunakan satu salinan data untuk semua kasus penggunaan Anda termasuk analitik, kueri ad hoc, pembelajaran mesin (ML), dan AI generatif.

Arsitektur rumah danau terbuka Amazon SageMaker menyatukan data di seluruh danau data Amazon Simple Storage Service (Amazon S3) dan gudang data Amazon Redshift, menyediakan akses terpadu ke data Anda. Anda dapat menemukan dan menganalisis data yang disatukan di Lakehouse dengan ratusan konektor, integrasi nol-ETL, dan sumber data gabungan, yang memberi Anda gambaran lengkap tentang bisnis Anda. SageMaker bekerja secara langsung dengan arsitektur data Anda yang ada, tanpa dibatasi oleh format penyimpanan tertentu atau pilihan mesin kueri.

Tingkatkan efisiensi dengan kinerja kueri cepat di tabel Apache Iceberg. Dapatkan wawasan hingga 2x lebih cepat daripada sistem sumber terbuka tradisional dengan versi Apache Spark, Apache Airflow, Apache Flink, Trino, dan banyak lagi yang kompatibel dengan API sumber terbuka yang beperforma tinggi.

Pemrosesan Data SageMaker memungkinkan Anda untuk fokus pada transformasi dan analisis data tanpa mengelola kapasitas komputasi atau aplikasi sumber terbuka sehingga menghemat waktu dan mengurangi biaya. Anda dapat secara otomatis menyediakan kapasitas di Amazon EMR di Amazon Elastic Compute Cloud (Amazon EC2) atau Amazon EMR di Amazon Elastic Kubernetes Service (Amazon EKS). Aturan penskalaan mengelola perubahan permintaan komputasi Anda untuk mengoptimalkan performa dan runtime.

Dapatkan kepercayaan dan transparansi dengan pelaporan kualitas data otomatis, deteksi data sensitif, dan pelacakan silsilah untuk data dan model AI melalui integrasi dengan Katalog Amazon SageMaker. Tingkatkan kepercayaan pada kualitas data Anda dengan pengukuran, pemantauan, dan rekomendasi otomatis untuk aturan kualitas data.

Memproses dan menganalisis data Anda dengan aman dengan mengikuti dan menerapkan kontrol akses berbutir halus yang ditentukan pada kumpulan data di danau, memungkinkan Anda menentukan izin sekali dan membuat data Anda dapat diakses oleh pengguna resmi di seluruh organisasi Anda. Lakehouse terintegrasi dengan AWS Glue Data Quality, menyatukan integrasi data tanpa server, manajemen kualitas data, dan kemampuan ML tingkat lanjut dalam lingkungan yang terpadu.

Layanan AWS

Integrasi data yang disederhanakan

AWS SageMaker menyediakan integrasi data tanpa server, menyederhanakan eksplorasi, persiapan, dan integrasi data dari berbagai sumber. Terhubung ke beragam sumber data, kelola data Anda dalam katalog data terpusat, dan buat, jalankan, mengatur, dan memantau saluran dan pekerjaan ETL secara visual untuk memuat data ke rumah danau Anda.  Jika pekerjaan Apache Spark gagal, Anda dapat menggunakan pemecahan masalah AI generatif untuk mengidentifikasi akar penyebab dan menyelesaikan masalah dengan cepat. Amazon SageMaker secara otomatis menskalakan sesuai permintaan, sehingga Anda dapat fokus untuk mendapatkan wawasan dari data Anda tanpa mengelola infrastruktur.

Jalankan dan skalakan Apache Spark, Apache Hive, Trino, dan beban kerja lainnya

Amazon EMR menawarkan kemudahan dan penghematan biaya dalam menjalankan beban kerja pemrosesan data, seperti Apache Spark, Apache Airflow, Apache Flink, Trino, dan banyak lagi. Bangun dan jalankan pipeline pemrosesan data dan secara otomatis skalakan lebih cepat daripada solusi on-premises.

Lacak biaya

Athena menyediakan cara sederhana dan fleksibel untuk menganalisis data Anda dalam skala apa pun. Athena adalah layanan kueri interaktif yang menyederhanakan analisis data di Amazon S3 menggunakan SQL standar. Athena bersifat nirserver, jadi tidak ada infrastruktur yang perlu diatur atau dikelola, dan Anda dapat memilih untuk membayar berdasarkan kueri yang Anda jalankan atau sumber daya komputasi yang dibutuhkan oleh kueri Anda. Gunakan Athena untuk memproses log, melakukan analitik data, dan menjalankan kueri interaktif. Athena menskalakan secara otomatis, dengan menjalankan kueri secara paralel, sehingga hasilnya keluar dengan cepat, bahkan dengan set data besar dan kueri yang kompleks.

Orkestrasi alur kerja yang berfokus pada keamanan, selalu tersedia, dan terkelola untuk Apache Airflow

Amazon MWAA adalah layanan terkelola untuk Apache Airflow yang memungkinkan Anda menggunakan platform Apache Airflow Anda saat ini yang sudah dikenal untuk mengatur pekerjaan pemrosesan data Anda. Anda mendapatkan skalabilitas, ketersediaan, dan keamanan yang ditingkatkan tanpa beban operasional saat mengelola infrastruktur yang mendasarinya. Amazon MWAA mengatur alur kerja Anda menggunakan grafik asiklik terarah (DAG) yang ditulis dalam Python atau studio alur kerja visual. Anda hanya perlu memberi Amazon MWAA bucket S3 tempat DAG, plugin, dan persyaratan Python Anda berada. Lakukan deployment Apache Airflow dalam skala besar tanpa beban operasional dalam mengelola infrastruktur yang mendasarinya.

Kasus penggunaan

Identifikasi dan akses data di AWS, on-premise, dan cloud lainnya dengan cepat, lalu sediakan data tersebut secara instan untuk pembuatan kueri serta transformasi. Gunakan federasi kueri dan Zero-ETL untuk menyederhanakan akses ke data pada layanan database AWS dan dari aplikasi pihak ketiga.

Proses data menggunakan kerangka kerja, seperti Apache Spark, Apache Flink, dan Trino, dan berbagai beban kerja, termasuk batch, microbatch, dan streaming.

Jalankan pemrosesan data dalam skala besar dan analisis bagaimana-jika menggunakan algoritma statistik dan model prediktif untuk mengungkap pola tersembunyi, korelasi, tren pasar, dan preferensi pelanggan.