Amazon Elastic Inference
Kurangi biaya inferensi machine learning hingga 75%
Pembaruan Penting
Terima kasih atas minat Anda pada Amazon Elastic Inference. Amazon Elastic Inference tidak lagi tersedia untuk pelanggan baru. Anda bisa mendapatkan performa yang lebih baik dengan biaya lebih rendah untuk beban kerja inferensi machine learning Anda dengan menggunakan opsi akselerasi perangkat keras lainnya seperti AWS Inferentia. Jika saat ini Anda menggunakan Amazon Elastic Inference, pertimbangkan untuk memigrasikan beban kerja Anda ke alternatif ini. Untuk mempelajari selengkapnya, kunjungi halaman Infrastruktur Machine Learning AWS.
Amazon Elastic Inference memungkinkan Anda memasang akselerasi yang didukung GPU dengan biaya rendah ke instans Amazon EC2 dan SageMaker atau tugas Amazon ECS, untuk mengurangi biaya menjalankan inferensi deep learning hingga 75%. Amazon Elastic Inference mendukung model TensorFlow, Apache MXNet, PyTorch, dan ONNX.
Inferensi adalah proses membuat prediksi menggunakan model terlatih. Dalam aplikasi deep learning, inferensi menyumbang hingga 90% dari total biaya operasional karena dua alasan. Pertama, instans GPU mandiri biasanya dirancang untuk pelatihan model - bukan untuk inferensi. Sedangkan tugas pelatihan memproses ratusan sampel data secara paralel, tugas inferensi biasanya memproses satu masukan waktu nyata, dan dengan demikian menggunakan komputasi GPU dalam jumlah kecil. Hal ini membuat inferensi GPU mandiri menjadi tidak efisien terkait biaya. Di sisi lain, instans CPU mandiri tidak dikhususkan untuk operasi matriks, sehingga sering kali terlalu lambat untuk inferensi deep learning.. Kedua, model yang berbeda memiliki persyaratan CPU, GPU, dan memori. Mengoptimalkan satu sumber daya dapat menyebabkan sumber daya lain tidak dimanfaatkan dan biaya lebih tinggi.
Amazon Elastic Inference memecahkan masalah tersebut dengan memungkinkan Anda memasangkan jumlah akselerasi inferensi dari GPU yang tepat ke jenis instans Amazon EC2 atau Amazon SageMaker atau tugas Amazon ECS mana pun tanpa perubahan kode. Dengan Amazon Elastic Inference, Anda dapat memilih tiap instans CPU di AWS yang paling sesuai dengan keseluruhan komputasi dan kebutuhan memori aplikasi Anda, lalu secara terpisah mengonfigurasi jumlah akselerasi inferensi yang tepat dengan dukungan GPU agar Anda dapat memanfaatkan sumber daya secara efisien dan mengurangi biaya.
Manfaat
Mengurangi biaya inferensi hingga 75%
Amazon Elastic Inference memungkinkan Anda memilih jenis instans yang paling sesuai dengan keseluruhan komputasi dan kebutuhan memori aplikasi Anda. Anda kemudian dapat menentukan secara terpisah jumlah akselerasi inferensi yang Anda butuhkan. Cara ini mengurangi biaya inferensi hingga 75% karena Anda tidak perlu lagi menyediakan komputasi GPU secara berlebihan untuk inferensi.
Dapatkan dengan tepat apa yang Anda butuhkan
Amazon Elastic Inference dapat menyediakan TFLOPS presisi tunggal (triliun operasi titik mengambang per detik) dari akselerasi inferensi atau hingga 32 TFLOPS presisi campuran. Ini adalah rentang komputasi inferensi yang jauh lebih sesuai dibandingkan dengan rentang hingga 1.000 TFLOPS yang disediakan oleh instans Amazon EC2 P3 mandiri. Misalnya, model pemrosesan bahasa sederhana mungkin hanya memerlukan satu TFLOPS untuk menjalankan inferensi dengan baik, sedangkan model visi komputer yang canggih mungkin memerlukan hingga 32 TFLOPS.
Merespons perubahan permintaan
Anda dapat mengatur skala jumlah akselerasi inferensi ke atas dan ke bawah dengan mudah menggunakan grup Auto Scaling Amazon EC2 untuk memenuhi permintaan aplikasi Anda tanpa kapasitas penyediaan yang berlebihan. Ketika Auto Scaling EC2 meningkatkan instans EC2 Anda untuk memenuhi permintaan yang meningkat, juga secara otomatis meningkatkan akselerator yang terpasang untuk setiap instans. Demikian pula, ketika mengurangi instans EC2 Anda saat permintaan menurun, juga secara otomatis menurunkan akselerator yang terpasang untuk setiap instans. Hal ini membantu Anda membayar hanya yang Anda butuhkan saat Anda memerlukannya.
Dukungan untuk kerangka kerja populer
Amazon Elastic Inference mendukung model TensorFlow dan Apache MXNet, dengan kerangka kerja lainnya yang akan segera hadir.