Infrastruktur AWS Machine Learning

Infrastruktur performa tinggi, hemat biaya, dan dapat diskalakan untuk setiap beban kerja

Lebih banyak machine learning terjadi di AWS daripada di tempat lain

Lebih banyak pelanggan, di berbagai rangkaian industri, memilih AWS dibandingkan dengan cloud lainnya untuk membangun, melatih, dan men-deploy aplikasi machine learning (ML) mereka. AWS memberikan pilihan lebih banyak dari komputasi canggih, jaringan kecepatan tinggi, dan opsi penyimpanan performa tinggi yang dapat diskalakan untuk proyek atau aplikasi ML apa pun.

Setiap proyek ML berbeda, dan dengan AWS, Anda dapat menyesuaikan infrastruktur agar sesuai dengan performa dan persyaratan anggaran Anda. Dari menggunakan kerangka kerja ML yang paling sesuai untuk tim Anda, hingga memilih platform perangkat keras yang tepat untuk meng-hosting model ML Anda, AWS menawarkan berbagai pilihan layanan untuk memenuhi kebutuhan Anda.

Bisnis telah menemukan cara baru untuk memanfaatkan ML untuk mesin rekomendasi, deteksi objek, asisten suara, deteksi penipuan, dan banyak lagi. Meskipun penggunaan ML mendapatkan daya tarik, pelatihan dan deployment model ML berbiaya mahal, waktu pengembangan modelnya lama, dan pengadaan infrastruktur dalam jumlah yang tepat untuk memenuhi kondisi bisnis yang berubah kadang sulit. Layanan infrastruktur AWS ML menghilangkan hambatan adopsi ML dengan menjadi berperforma tinggi, hemat biaya, dan sangat fleksibel.

Infrastruktur AWS ML: Performa tinggi, hemat biaya, dan sangat fleksibel (3:20)

Pilih dari Serangkaian Layanan Machine Learning yang Beragam

Grafik di bawah menggambarkan kedalaman dan beragamnya layanan yang ditawarkan AWS. Layanan alur kerja, ditampilkan di lapisan atas, memudahkan Anda untuk mengelola dan menskalakan infrastruktur ML yang mendasarinya. Lapisan berikutnya menyoroti bahwa infrastruktur AWS ML mendukung semua kerangka kerja ML unggulan. Lapisan bawah menunjukkan contoh layanan komputasi, jaringan, dan penyimpanan yang merupakan blok dasar dari infrastruktur ML.

Pilih Dari Serangkaian Layanan Machine Learning yang Luas Amazon SageMakerAWS Deep Learning AMIsAWS Deep Learning ContainersAWS BatchAWS ParallelClusterAmazon EKSAmazon ECSAmazon EMRTensorFlowPyTorchMXNetEC2 P4EC2 P3EC2 G4EC2 Inf1Elastic InferenceAWS OutpostsElastic Fabric AdapterAmazon S3Amazon EBSAmazon FSxAmazon EFS

Layanan Infrastruktur Machine Learning

Pengembangan ML lama adalah proses yang kompleks, mahal, dan berulang. Pertama, Anda perlu menyiapkan data contoh untuk melatih model. Kemudian, developer perlu memilih algoritme atau kerangka kerja mana yang akan mereka gunakan untuk membangun model. Kemudian, mereka perlu melatih model tentang cara membuat prediksi, dan menyesuaikannya sehingga memberikan prediksi terbaik. Terakhir, mereka perlu mengintegrasikan model dengan aplikasi mereka dan men-deploy aplikasi ini pada infrastruktur yang akan diskalakan.

  • Siapkan
  • Membangun
  • Pelatihan
  • Deploy
  • Siapkan
  • Ilmuwan data sering menghabiskan banyak waktu untuk mengeksplorasi dan memproses, atau "berkutat dengan", contoh data sebelum menggunakannya untuk pelatihan model. Untuk melakukan praproses data, Anda biasanya mengambil data ke dalam repositori, membersihkan data dengan memfilter dan memodifikasi data Anda sehingga lebih mudah untuk dijelajahi, menyiapkan, atau mengubah data menjadi set data yang berarti dengan memfilter bagian yang tidak Anda inginkan atau butuhkan, serta memberi label pada data.

    Tantangan Solusi AWS Cara
    Pelabelan data manual Amazon Mechanical Turk Menyediakan tenaga kerja manusia sesuai permintaan, dapat diskalakan, untuk menyelesaikan tugas.
    Pelabelan data manual Amazon SageMaker Ground Truth Mengotomatiskan pelabelan dengan melatih Ground Truth dari data yang diberi label oleh manusia sehingga layanan mempelajari cara untuk memberi label data sendiri.
    Mengelola dan menskalakan pemrosesan data Amazon SageMaker Processing Perluas pengalaman terkelola penuh ke beban kerja pemrosesan data. Hubungkan ke penyimpanan yang ada atau sumber data sistem file, tingkatkan sumber daya yang diperlukan untuk menjalankan pekerjaan Anda, simpan output ke penyimpanan tetap, serta periksa log dan metrik.
    Pengelolaan sejumlah besar data yang diperlukan untuk melatih model Amazon EMR Memproses data dalam jumlah besar dengan cepat dan hemat biaya dalam skala besar.
    Penyimpanan file bersama dari sejumlah besar data yang diperlukan untuk melatih model
    Amazon S3 Menawarkan ketersediaan global penyimpanan data jangka panjang yang tahan lama dalam format akses get/put yang mudah diakses.
  • Membangun
  • Begitu data pelatihan tersedia, Anda harus memilih algoritme machine learning dengan gaya pembelajaran yang memenuhi kebutuhan Anda. Algoritma ini secara luas dapat diklasifikasikan sebagai pembelajaran yang diawasi, pembelajaran yang tidak diawasi, atau pembelajaran penguatan. Guna membantu dalam pengembangan model Anda, kerangka kerja berbagai machine learning yang berbeda seperti TensorFlow, Pytorch, dan MXNet tersedia dengan pustaka dan alat untuk mempermudah pengembangan.

    Tantangan Solusi AWS Cara
    Mengakses Jupyter Notebooks Meng-hosting Jupyter Notebooks Meng-hosting Jupyter Notebooks yang berjalan di instans EC2 pilihan Anda.
    Berbagi dan berkolaborasi dalam Jupyter Notebooks Notebook Amazon SageMaker Jupyter notebook terkelola penuh yang dapat mulai Anda gunakan dalam hitungan detik dan berbagi dengan satu klik. Dependensi kode secara otomatis ditangkap, sehingga Anda dapat dengan mudah berkolaborasi dengan orang lain. Rekan kerja akan mendapatkan notebook yang sama, yang disimpan di tempat yang sama.
    Pembuatan algoritme Algoritme Amazon SageMaker yang Telah Disiapkan Sebelumnya Algoritme machine learning yang dapat diskalakan dan berperforma tinggi, dioptimalkan untuk kecepatan dan akurasi, yang dapat melakukan pelatihan pada set data skala petabyte.
    Optimalisasi kerangka kerja Deep Learning Amazon SageMaker Kerangka kerja unggulan ini secara otomatis dikonfigurasi dan dioptimalkan untuk performa tinggi. Anda tidak perlu menyiapkan kerangka kerja secara manual dan dapat menggunakannya dalam kontainer bawaan.
    Mulai menggunakan banyak kerangka kerja ML AMI Deep Learning AWS Memungkinkan pengguna dengan cepat meluncurkan instans Amazon EC2 yang telah diinstal sebelumnya dengan kerangka kerja dan antarmuka deep learning populer seperti TensorFlow, PyTorch, dan Apache MXNet.
    Memulai kontainer dengan menggunakan banyak kerangka kerja ML   AWS Deep Learning Containers Citra Docker yang telah diinstal sebelumnya dengan kerangka kerja deep learning untuk memudahkan men-deploy lingkungan machine learning kustom dengan cepat.
  • Pelatihan
  • Setelah membangun model, Anda memerlukan sumber daya komputasi, jaringan, dan penyimpanan untuk melatih model Anda. Pelatihan model yang lebih cepat dapat memungkinkan ilmuwan data dan insinyur machine learning untuk melakukan iterasi lebih cepat, melatih lebih banyak model, dan meningkatkan akurasi. Setelah melatih model, evaluasi model untuk menentukan apakah keakuratan inferensinya dapat diterima.

    Instans

    Tantangan
    Solusi AWS            Cara
    Pelatihan skala besar yang sensitif terhadap waktu Segera Hadir: Instans EC2 didukung oleh AWS Trainium
    AWS Trainium adalah chip machine learning (ML) yang dirancang khusus oleh AWS yang memberikan performa dengan harga terbaik untuk melatih model ML di cloud. Selain memberikan pelatihan ML yang paling hemat biaya, Trainium menawarkan performa tertinggi dengan daya komputasi paling teraflop (TFLOPS) untuk ML di cloud dan memungkinkan rangkaian aplikasi ML yang lebih luas.
    Pelatihan skala besar yang sensitif terhadap waktu Segera hadir: Instans EC2 yang didukung oleh Habana Gaudi
    Instans Amazon EC2 yang didukung oleh akselerator Gaudi dari Habana Labs, sebuah perusahaan Intel, dirancang khusus untuk melatih model deep learning. Instans EC2 baru akan memanfaatkan hingga 8 akselerator Gaudi dan memberikan performa harga hingga 40% lebih baik daripada instans EC2 berbasis GPU saat ini untuk melatih model deep learning.
    Pelatihan skala besar yang sensitif terhadap waktu Instans P4 Amazon EC2 Instans P4d memberikan pelatihan machine learning dengan performa tertinggi di cloud dengan 8 GPU NVIDIA A100 Tensor Core, jaringan instans 400 Gbps, dan dukungan untuk Elastic Fabric Adapter (EFA) dengan NVIDIA GPUDirect RDMA (akses memori langsung jarak jauh). Instans P4d di-deploy dalam klaster hyperscale yang disebut EC2 UltraClusters yang memberikan performa kelas superkomputer untuk developer, peneliti, dan ilmuwan data ML sehari-hari.
    Pelatihan skala besar yang sensitif terhadap waktu Instans P3 Amazon EC2 Instans P3 menghadirkan hingga satu petaflop performa presisi campuran per instans dengan hingga 8 GPU NVIDIA® V100 Tensor Core dan throughput jaringan hingga 100 Gbps.
    Pelatihan skala kecil yang sensitif terhadap biaya Instans G4 Amazon EC2 Instans G4 menghasilkan hingga 65 TFLOP kinerja FP16 dan merupakan solusi menarik untuk pekerjaan pelatihan skala kecil.

    Layanan Orkestrasi

    Tantangan Solusi AWS Cara
    Pelatihan multisimpul Elastic Fabric Adapter EFA memungkinkan pelanggan untuk menjalankan aplikasi yang membutuhkan komunikasi antar simpul tingkat tinggi dalam skala besar menggunakan antarmuka perangkat keras bypass sistem operasi (OS) yang dibuat khusus.
    Orkestrasi kontainer kompleks yang sangat dapat diskalakan Amazon Elastic Container Service (ECS) Amazon ECS adalah layanan orkestrasi kontainer yang dikelola sepenuhnya.
    Orkestrasi Kubernetes yang sangat dapat diskalakan Amazon Elastic Kubernetes Service (EKS) Anda dapat menggunakan Kubeflow dengan EKS untuk memodelkan alur kerja machine learning Anda dan menjalankan tugas pelatihan terdistribusi secara efisien.
    Pelatihan skala besar AWS Batch Batch secara dinamis menyediakan jumlah dan jenis sumber daya komputasi yang optimal berdasarkan volume dan persyaratan sumber daya spesifik dari pekerjaan batch yang diajukan.
    Mengoptimalkan performa untuk pelatihan skala besar AWS ParallelCluster AWS ParallelCluster secara otomatis menyiapkan sumber daya komputasi yang diperlukan dan sistem file bersama untuk proyek pelatihan ML skala besar.

    Penyimpanan

    Tantangan Solusi AWS Cara
    Penyimpanan yang dapat diskalakan Amazon S3 S3 dapat dengan mudah mencapai ribuan transaksi per detik sebagai tingkat penyimpanan.
    Throughput dan latensi akses penyimpanan Amazon FSx for Lustre FSx for Lustre yang terintegrasi dengan S3 menghadirkan penyimpanan file bersama dengan throughput tinggi dan latensi rendah yang konsisten.
    Pemrosesan batch di lokasi pusat Amazon Elastic File System (EFS) EFS menyediakan akses mudah ke set data machine learning besar atau kode bersama, langsung dari lingkungan notebook, tanpa perlu menyediakan penyimpanan atau khawatir tentang mengelola sistem file jaringan.
    Performa I/O tinggi untuk penyimpanan kerja sementara Amazon Elastic Block Store (EBS) EBS memungkinkan latensi satu digit-milidetik untuk kebutuhan penyimpanan performa tinggi.

    Layanan Terkelola Sepenuhnya

    Tantangan Solusi AWS Cara
    Manajemen dan pelacakan eksperimen Eksperimen Amazon SageMaker Evaluasi dan atur eksperimen pelatihan dengan cara yang mudah dan skalabel, atur ribuan eksperimen pelatihan, catat artefak eksperimen, dan visualisasikan model dengan cepat.
    Model debug Amazon SageMaker Debugger Antarmuka visual untuk menganalisis data debug dan melihat indikator visual tentang potensi anomali dalam proses pelatihan.
    Penyetelan Model Penyetelan Otomatis Amazon SageMaker Menyetel model secara otomatis dengan menyesuaikan ribuan kombinasi parameter algoritme yang berbeda untuk sampai pada prediksi paling akurat yang mampu dihasilkan model.
  • Deploy
  • Setelah Anda menyelesaikan pelatihan dan mengoptimalkan model Anda ke tingkat akurasi dan presisi yang diinginkan, Anda memasukkannya ke dalam produksi untuk membuat prediksi. Inferensi adalah apa yang sebenarnya menyumbang sebagian besar biaya machine learning. Menurut pelanggan, inferensi machine learning dapat mewakili hingga 90% dari keseluruhan biaya operasional untuk menjalankan beban kerja machine learning.

    Instans

    Tantangan Solusi AWS Cara
    Biaya tinggi dan performa rendah Instans Inf1 Amazon EC2 instans Inf1 menghadirkan hingga 16 chip AWS Inferentia, chip machine learning berperforma tinggi yang dirancang dan dibuat oleh AWS.
    Inferensi untuk model yang menggunakan pustaka CUDA, CuDNN, atau TensorRT NVIDIA Instans G4 Amazon EC2 Instans G4 dilengkapi dengan GPU NVIDIA T4 yang menghasilkan throughput latensi rendah hingga 40X lebih baik daripada CPU.
    Inferensi untuk model yang memanfaatkan Intel AVX-512 Vector Neural Network Instructions (AVX512 VNNI) Instans C5 Amazon EC2 Instans C5 menyertakan Intel AVX-512 VNNI yang membantu mempercepat operasi machine learning biasa seperti konvolusi, dan secara otomatis meningkatkan performa inferensi pada berbagai beban kerja deep learning.
    Akselerasi inferensi ukuran yang tepat untuk harga/performa yang optimal Amazon Elastic Inference Elastic Inference memungkinkan Anda untuk melampirkan akselerasi bertenaga GPU berbiaya rendah ke instans Amazon EC2.
    Inferensi latensi rendah, pemrosesan data lokal, atau persyaratan penyimpanan
    AWS Outposts AWS Outposts adalah layanan terkelola penuh yang memperluas infrastruktur AWS, layanan AWS, API, dan alat ke hampir semua pusat data, ruang lokasi bersama, atau fasilitas lokal.

    Penskalaan Inferensi

    Tantangan Solusi AWS Cara
    Penskalaan kompleks infrastruktur Anda AWS CloudFormation CloudFormation memungkinkan Anda menggunakan bahasa pemrograman atau file teks sederhana untuk memodelkan dan menyediakan, secara otomatis dan aman, semua sumber daya yang diperlukan untuk aplikasi Anda di semua wilayah dan akun.
    Skalabilitas infrastruktur Anda yang tidak dapat diprediksi AWS Auto Scaling AWS Auto Scaling memantau aplikasi Anda dan secara otomatis menyesuaikan kapasitas untuk mempertahankan performa yang stabil dan dapat diprediksi dengan biaya serendah mungkin.
    Penggunaan instans EC2 yang tidak dapat diprediksi Amazon EC2 Fleet Dengan satu panggilan API, Anda dapat menyediakan kapasitas di seluruh tipe instans EC2 dan di seluruh model pembelian untuk mencapai skala, performa, dan biaya yang diinginkan.
    Memastikan akurasi model Amazon SageMaker Model Monitor Terus pantau kualitas model machine learning dalam produksi dan terima peringatan saat ada penyimpangan dalam kualitas model tanpa membuat peralatan tambahan.
    Mengelola biaya inferensi Titik Akhir Multi-Model Amazon SageMaker Deploy beberapa model dengan satu klik pada satu titik akhir dan tempatkan menggunakan wadah kontainer tunggal untuk memberikan cara yang dapat diskalakan serta hemat biaya untuk men-deploy sejumlah besar model.
Toyota

"Instans P3 membantu kami mengurangi waktu kami untuk melatih model machine learning dari hari ke jam dan kami berharap dapat memanfaatkan instans P4d, karena memori GPU tambahan dan format float yang lebih efisien akan memungkinkan kami untuk melatih model yang lebih kompleks dengan lebih cepat."

Intuit

Intuit mendukung AWS dan menggunakan AWS untuk melayani pelanggannya dengan lebih baik. Intuit menggunakan Amazon SageMaker untuk melatih model machine learning dengan cepat dan dalam skala besar, meringkas waktu yang dibutuhkan untuk men-deploy model hingga 90 persen. Pelajari selengkapnya.

GE Healthcare

"Dengan klaster GPU sebelumnya, perlu waktu berhari-hari untuk melatih model AI yang kompleks, seperti GAN Progresif, untuk simulasi dan melihat hasilnya. Menggunakan instans P4d baru mengurangi waktu pemrosesan dari hitungan hari ke jam. Kami melihat kecepatan dua hingga tiga kali lebih cepat pada model pelatihan."

Capital One

Capital One mengubah data menjadi wawasan melalui machine learning, yang memungkinkan perusahaan berinovasi dengan cepat untuk pelanggannya. Capital One menggunakan layanan AWS termasuk Amazon S3 untuk mendukung inovasi machine learning. Pelajari selengkapnya.

Zillow

Zillow menjalankan algoritme ML-nya menggunakan Spark di Amazon EMR untuk dengan cepat membuat klaster yang dapat diskalakan dan menggunakan kemampuan pemrosesan terdistribusi untuk memproses kumpulan data besar hampir secara waktu nyata, membuat fitur, dan melatih serta menilai jutaan model ML. Pelajari selengkapnya.

Berdasarkan Jumlah

Performa

2,5x lebih baik

performa deep learning untuk P4d dibandingkan dengan instans P3 generasi sebelumnya, menawarkan performa tertinggi di cloud.

Performa

62 menit

adalah waktu pengaturan catatan untuk melatih BERT dengan TensorFlow menggunakan 256 instans P3dn.24xlarge dengan 2.048 GPU.

Biaya Rendah

40% biaya lebih rendah

per inferensi untuk instans Inf1 dibandingkan dengan instans G4, menawarkan biaya per inferensi terendah di cloud.

Ketersediaan

22 wilayah geografis

di seluruh dunia dengan hingga 69 Availability Zone tersedia untuk banyak layanan infrastruktur machine learning AWS.

Manfaat

  • Performa Tinggi
  • Hemat Biaya
  • Sangat Fleksibel
  • Performa Tinggi
  • Sering kali, efisiensi pengembangan ilmuwan data dan insinyur ML dibatasi oleh seberapa sering mereka dapat melatih model deep learning mereka untuk menggabungkan fitur baru, meningkatkan akurasi prediksi, atau menyesuaikan penyimpangan data. AWS menyediakan infrastruktur komputasi, jaringan, dan penyimpanan berperforma tinggi, tersedia secara luas dengan basis bayar sesuai penggunaan, memungkinkan tim pengembangan untuk melatih model mereka sesuai kebutuhan dan tidak membiarkan infrastruktur menghambat inovasi mereka.

    Komputasi: Mengurangi Waktu Pelatihan menjadi Hitungan Menit dan Meningkatkan Inferensi Anda

    AWS menyediakan instans GPU berperforma tinggi dan instans pertama di industri yang menampilkan silikon yang dibuat khusus untuk inferensi ML.

    Instans P4d Amazon EC2 adalah instans berperforma tertinggi di cloud untuk pelatihan machine learning, memberikan biaya pelatihan hingga 60% lebih rendah, termasuk performa deep learning 2,5x lebih baik dibandingkan instans P3 generasi sebelumnya. Instans P4d juga di-deploy dalam klaster hyperscale, yang disebut EC2 UltraClusters, yang terdiri dari lebih dari 4.000 GPU NVIDIA A100, jaringan skala Petabit, dan penyimpanan latensi rendah yang dapat diskalakan dengan FSx for Lustre. EC2 UltraCluster mendemokratisasikan akses ke performa kelas superkomputer untuk developer, peneliti, dan ilmuwan data sehari-hari dengan model pemakaian bayar sesuai penggunaan, tanpa biaya penyiapan atau pemeliharaan apa pun.

    Amazon EC2 P4d

    Untuk melakukan deployment model terlatih dalam produksi, instans Amazon EC2 Inf1 memberikan performa tinggi dan inferensi machine learning dengan biaya terendah di cloud. Instans ini menampilkan chip AWS Inferentia, chip inferensi machine learning berperforma tinggi yang dirancang dan dibangun oleh AWS. Dengan 1 hingga 16 chip AWS Inferentia per instans, instans Inf1 dapat meningkatkan performa hingga 2000 Operasi Tera per Detik (TOPS).

    Amazon EC2 Inf1

    Jaringan: Infrastruktur yang dapat diskalakan untuk pelatihan terdistribusi yang efisien atau inferensi penskalaan

    Melatih model besar membutuhkan waktu, dan makin besar dan kompleks modelnya, makin lama pelatihannya. AWS memiliki beberapa solusi jaringan untuk membantu pelanggan menskalakan deployment multisimpul mereka untuk mengurangi waktu pelatihan. Elastic Fabric Adapter (EFA) adalah antarmuka jaringan untuk instans Amazon EC2 yang memungkinkan pelanggan menjalankan aplikasi yang membutuhkan komunikasi antarsimpul tingkat tinggi pada skala di AWS. Antarmuka perangkat keras bypass sistem operasi (OS) yang dibuat khusus meningkatkan performa komunikasi antar-instans, yang sangat penting untuk penskalaan secara efisien. Dengan EFA, aplikasi pelatihan machine learning yang menggunakan NVIDIA Collective Communications Library (NCCL) dapat menskalakan hingga ribuan GPU. Dipasangkan dengan bandwidth jaringan hingga 400 Gbps per instans dan NVIDIA GPUDirect RDMA (akses memori langsung jarak jauh) untuk komunikasi GPU ke GPU dengan latensi rendah antar instans, Anda mendapatkan performa klaster GPU on-premise yang mahal dengan elastisitas dan fleksibilitas sesuai permintaan dari AWS Cloud.

    Elastic Fabric Adapter (EFA)

    Penyimpanan: Opsi ideal untuk membuat danau data atau mengelola data berlabel

    Organisasi dengan semua ukuran, di semua industri, menggunakan danau data untuk mengubah data dari biaya yang harus dikelola, menjadi aset bisnis yang dapat digunakan untuk memperoleh wawasan bisnis yang berharga atau untuk memberikan pengalaman pelanggan yang ditingkatkan dengan bantuan machine learning. Amazon Simple Storage Service (S3) adalah layanan penyimpanan objek terbesar dan paling berperforma untuk data terstruktur dan tidak terstruktur dan layanan penyimpanan pilihan untuk membangun danau data. Dengan Amazon S3, Anda dapat dengan menghemat biaya membangun dan menskalakan data lake dengan ukuran berapa pun di lingkungan yang aman di mana data dilindungi dengan daya tahan 99,999999999% (11 9 detik). Untuk pelatihan terdistribusi, jika Anda memerlukan akses lebih cepat ke data berlabel, Amazon FSx for Lustre memberikan performa yang dioptimalkan untuk latensi sub-milidetik dan throughput yang diskalakan hingga ratusan gigabyte per detik. FSx for Luster terintegrasi dengan Amazon S3, memudahkan pemrosesan set data dengan sistem file Luster. Saat ditautkan ke bucket S3, sistem file FSx for Lustre secara transparan menampilkan objek S3 sebagai file dan memungkinkan Anda untuk menulis data yang diubah kembali ke S3.

    Amazon Simple Storage Service (S3)
  • Hemat Biaya
  • Organisasi dengan cepat mengadopsi penggunaan deep learning untuk membangun aplikasi yang belum pernah terlihat sebelumnya. Ditambah dengan peningkatan pesat dalam kompleksitas model, biaya untuk membangun, melatih, dan men-deploy aplikasi machine learning bertambah dengan cepat. Saat perusahaan beralih dari menjelajahi dan bereksperimen dengan machine learning ke men-deploy aplikasi mereka dalam skala besar, AWS menawarkan kombinasi ideal antara performa dan layanan infrastruktur berbiaya rendah di seluruh siklus pengembangan aplikasi.

    Biaya Terendah di industri untuk inferensi ML

    Inferensi machine learning dapat mewakili hingga 90% dari keseluruhan biaya operasional untuk menjalankan aplikasi machine learning dalam produksi. Instans Inf1 Amazon EC2 menghadirkan inferensi machine learning berperforma tinggi dan dengan biaya terendah di cloud. Instans Inf1 dibangun dari nol untuk mendukung aplikasi inferensi machine learning. Instans tersebut menghadirkan hingga 16 chip AWS Inferentia, chip machine learning berperforma tinggi yang dirancang dan dibuat oleh AWS. Setiap chip AWS Inferentia mendukung hingga 128 TOPS (triliun operasi per detik) performa dengan daya rendah untuk memungkinkan efisiensi performa tinggi.

    Amazon EC2 Inf1

    Untuk aplikasi yang membutuhkan GPU untuk menjalankan modelnya dalam produksi, instans Amazon EC2 G4 adalah instans GPU paling hemat biaya di industri. Menampilkan GPU NVIDIA T4, instans ini tersedia dalam berbagai ukuran dengan akses ke satu GPU atau beberapa GPU dengan jumlah vCPU dan memori yang berbeda - memberi Anda fleksibilitas untuk memilih ukuran instans yang tepat untuk aplikasi Anda.

    Amazon EC2 G4

    Tidak semua model machine learning sama, dan model yang berbeda mendapat manfaat dari tingkat akselerasi perangkat keras yang berbeda. Instans C5 Amazon EC2 berbasis Intel menawarkan harga terendah per vCPU dalam rangkaian Amazon EC2 dan ideal untuk menjalankan beban kerja intensif komputasi tingkat lanjut. Instans ini mendukung Intel Deep Learning Boost dan dapat menawarkan keseimbangan yang ideal antara performa dan biaya untuk menjalankan model ML dalam produksi.

    Amazon EC2 C5

    Amazon Elastic Inference memungkinkan Anda melampirkan akselerasi bertenaga GPU berbiaya rendah ke instans Amazon EC2, instans Amazon SageMaker, atau tugas Amazon ECS untuk mengurangi biaya menjalankan inferensi deep learning hingga 75%.

    Amazon Elastic Inference

    Pilihan luas instans GPU untuk mengoptimalkan waktu dan biaya pelatihan, tersedia dalam skala besar

    Bergantung pada jenis aplikasi machine learning, pelanggan lebih memilih untuk mengoptimalkan siklus pengembangan mereka untuk mengurangi waktu yang diperlukan untuk melatih model ML mereka atau menurunkan total biaya pelatihan. Dalam kebanyakan kasus, biaya pelatihan tidak hanya mencakup biaya pelatihan, tetapi juga biaya peluang waktu menganggur yang dapat dihabiskan oleh para insinyur ML dan ilmuwan data untuk mengoptimalkan model mereka.

    Instans G4 Amazon EC2 menghadirkan platform GPU paling hemat biaya di industri. Instans ini optimal untuk melatih model yang tidak terlalu rumit dan ideal untuk bisnis atau institusi yang kurang sensitif terhadap waktu pelatihan. Instans G4 menyediakan akses ke hingga delapan GPU NVIDIA T4, masing-masing memberikan hingga 65 TFLOP performa FP16.

    Amazon EC2 G4

    Instans Amazon EC2 P4 menawarkan instans tunggal terbaik di kelasnya dan performa pelatihan terdistribusi, yang memungkinkan tim teknik mengurangi waktu iterasi model mereka secara signifikan, mempercepat waktu ke pasar, dan mengoptimalkan keseluruhan biaya teknis mereka. Instans ini memberikan biaya hingga 60% lebih rendah dibandingkan instans P3 generasi sebelumnya dan dapat di-deploy melalui semua opsi harga EC2 dengan diskon hingga 90% menggunakan Spot. Karena performa GPU dan akselerator ML perangkat keras meningkat setidaknya 2X setiap 18 bulan, menggunakan infrastruktur AWS pada model bayar sesuai penggunaan memberi Anda kemampuan untuk memanfaatkan performa harga terbaik tanpa mengunci CapEx yang berharga untuk klaster on-prem yang memiliki umur simpan terbatas.

    Amazon EC2 P4

    Instans Amazon EC2 P3 dan P3dn menghadirkan komputasi performa tinggi di cloud dengan hingga 8 GPU NVIDIA® V100 Tensor Core dan throughput jaringan hingga 100 Gbps untuk machine learning dan aplikasi HPC. Instans ini memberikan hingga satu petaflop performa presisi campuran per instans untuk mempercepat machine learning dan aplikasi komputasi berperforma tinggi secara signifikan. Instans P3 dan P3dn tersedia dalam 4 ukuran yang menyediakan hingga 8 GPU dan 96 vCPU dan tersedia secara global di 18 wilayah AWS.

    Instans Amazon EC2 P3 dan P3dn
  • Sangat Fleksibel
  • Dukungan untuk semua kerangka kerja machine learning utama

    Kerangka kerja seperti TensorFlow dan PyTorch mengabstraksi banyak hal kecil dalam menangani implementasi model ML dengan memungkinkan developer untuk fokus pada logika keseluruhan dan aliran data model mereka. Lebih dari 70% perusahaan yang membuat aplikasi machine learning telah menyatakan bahwa tim mereka menggunakan campuran kerangka kerja ML yang berbeda. Infrastruktur ML AWS mendukung semua kerangka kerja deep learning yang populer, memungkinkan tim Anda memilih kerangka kerja yang tepat agar sesuai dengan preferensi dan efisiensi pengembangan mereka.

    TensorFlow
    PyTorch
    mxnet
    Keras
    Gluon
    Horovod

    Optimizations that plug under the frameworks

    Di AWS, kami memiliki fokus yang kuat untuk memungkinkan pelanggan tidak hanya menjalankan beban kerja ML mereka di AWS, tetapi juga memberi mereka kebebasan tertinggi untuk memilih kerangka kerja ML atau layanan infrastruktur yang paling sesuai untuk mereka. Optimalisasi perangkat lunak untuk melatih dan men-deploy model secara efektif pada layanan infrastruktur AWS terintegrasi dengan kerangka kerja ML paling populer (TensorFlow, PyTorch, dan MXNet) yang memungkinkan pelanggan untuk terus menggunakan kerangka kerja mana pun yang mereka inginkan, dan tidak dibatasi oleh kerangka kerja/atau arsitektur perangkat keras tertentu. Beroperasi pada tingkat kerangka kerja memberikan kebebasan kepada pelanggan untuk selalu memilih solusi terbaik untuk kebutuhan mereka, dan tidak terikat pada arsitektur perangkat keras atau penyedia cloud tertentu.

    AWS Neuron adalah kit pengembangan perangkat lunak (SDK) untuk chip AWS Inferentia dan memungkinkan developer untuk menjalankan inferensi latensi rendah dan berperforma tinggi menggunakan instans Inf1 Amazon EC2 berbasis AWS Inferentia. AWS Neuron terintegrasi secara native dengan kerangka kerja populer termasuk TensorFlow, PyTorch, dan MXNet. Pelanggan dapat membawa model yang telah dilatih sebelumnya dan hanya membuat beberapa baris perubahan kode dari dalam kerangka kerja untuk mempercepat inferensi mereka dengan instans EC2 Inf1, tanpa menulis kode khusus chip AWS Inferentia.

    AWS Neuron

    Untuk mendukung pelatihan multi-simpul/terdistribusi yang efisien, AWS telah mengintegrasikan Elastic Fabric Adapter (EFA) dengan NVIDIA Collective Communications Library (NCCL) - pustaka untuk berkomunikasi antara beberapa GPU dalam satu simpul atau di beberapa simpul. Serupa dengan AWS Neuron, pelanggan dapat terus menggunakan kerangka kerja ML pilihan mereka untuk membangun model mereka, dan memanfaatkan pengoptimalan terselubung untuk infrastruktur AWS.

    Nvidia

Opsi Harga

Pelatihan machine learning dan beban kerja inferensi dapat menunjukkan karakteristik yang stabil (seperti penandaan batch foto per jam untuk populasi besar), spikey (seperti memulai pekerjaan pelatihan baru atau rekomendasi pencarian selama periode promosi), atau keduanya. AWS memiliki opsi harga dan solusi untuk membantu Anda mengoptimalkan performa dan biaya infrastruktur Anda.

Opsi Harga

 

 

A - gunakan instans Spot untuk beban kerja yang fleksibel dan toleran terhadap kesalahan seperti tugas pelatihan ML yang tidak sensitif terhadap waktu

B - gunakan instans Sesuai Permintaan untuk beban kerja spiky baru atau stateful seperti tugas pelatihan ML jangka pendek

C - gunakan Savings Plans untuk beban kerja yang diketahui/status seperti beban kerja inferensi stabil

Kasus Penggunaan Solusi AWS Cara
Pekerjaan pelatihan jangka pendek Harga Sesuai Permintaan Dengan instans Sesuai Permintaan, pembayaran kapasitas komputasi per jam atau per detik tergantung instans yang dijalankan.
Pekerjaan pelatihan yang memiliki waktu mulai-berhenti yang fleksibel Harga Spot Instans Spot Amazon EC2 memungkinkan Anda untuk meminta kapasitas komputasi Amazon EC2 cadangan hingga 90% dari harga Sesuai Permintaan.
Beban kerja machine learning yang stabil pada berbagai tipe instans dalam jangka waktu yang lama Savings Plans Savings Plans menawarkan penghematan yang signifikan dibandingkan harga Sesuai Permintaan, sebagai imbalan atas komitmen untuk menggunakan daya komputasi dalam jumlah tertentu untuk periode satu atau tiga tahun.