Amazon Elastic Inference
Makine öğrenimi çıkarım maliyetlerinde %75'e varan oranda tasarruf sağlayın
Önemli Güncelleme
Amazon Esnek Çıkarım ile gösterdiğiniz ilgi için teşekkür ederiz. Amazon Esnek Çıkarım artık yeni müşteriler için erişilebilir değildir. AWS Inferentia gibi diğer donanım hızlandırma seçeneklerini kullanarak makine öğrenimi çıkarım iş yükleriniz için daha düşük maliyetle daha iyi performans elde edebilirsiniz. Şu anda Amazon Esnek Çıkarım kullanıyorsanız lütfen iş yükünüzü bu alternatiflere taşımayı düşünün. Daha fazla bilgi edinmek için AWS Machine Learning Altyapısı sayfasını ziyaret edin.
Amazon Esnek Çıkarım, derin öğrenme çıkarımı çalıştırma maliyetini %75'e varan oranda azaltmak için Amazon EC2 ve SageMaker bulut sunucularına veya Amazon ECS görevlerine düşük maliyetli GPU destekli hızlandırma eklemenize olanak tanır. Amazon Elastic Inference; TensorFlow, Apache MXNet, PyTorch ve ONNX modellerini destekler.
Çıkarım, eğitilmiş bir model kullanarak tahminde bulunma işlemidir. Derin öğrenme uygulamalarında, çıkarım iki nedenle toplam operasyonel maliyetlerin %90 kadarını oluşturur. Bu nedenlerden ilki, bağımsız GPU bulut sunucularının çıkarım için değil, genellikle model eğitimi için tasarlanmış olmasıdır. Eğitim işleri, yüzlerce veri örneğini paralel şekilde toplu olarak işlerken, çıkarım işleri genellikle tek bir girdiyi gerçek zamanlı olarak işler ve bu nedenle az miktarda bir GPU işlemi kullanır. Bu, bağımsız GPU çıkarımını maliyet açısından verimsiz hale getirir. Öte yandan, bağımsız CPU bulut sunucuları matris işlemleri için özelleştirilmemiştir ve bu nedenle derin öğrenme çıkarımı için genellikle çok yavaştır. Söz konusu nedenlerden ikincisi, farklı modellerin farklı CPU, GPU ve bellek gereksinimleri olmasıdır. Bir kaynak için optimizasyon yapmak, diğer kaynakların yeterince kullanılmamasına ve daha yüksek maliyetlere neden olabilir.
Amazon Elastic Inference, kodunuzda değişiklik yapmadan herhangi bir EC2 veya SageMaker bulut sunucusu tipine ya da ECS görevine doğru miktarda GPU destekli çıkarım hızlandırması ekleyerek bu sorunların üstesinden gelmenizi sağlar. Amazon Esnek Çıkarım sayesinde AWS'de uygulamanızın genel işlem ve bellek gereksinimlerine en uygun CPU bulut sunucusunu seçebilir ve ardından kaynakları verimli bir şekilde kullanmanıza ve maliyeti düşürmenize olanak tanıyan doğru miktarda GPU destekli çıkarım hızlandırmasını ayrı şekilde yapılandırabilirsiniz.
Avantajlar
Çıkarım maliyetlerini %75'e varan oranda azaltın
Amazon Elastic Inference, uygulamanızın genel işlem ve bellek gereksinimlerine en uygun bulut sunucusu tipini seçmenize olanak tanır. Ardından, ihtiyacınız olan çıkarım hızlandırması miktarını ayrı olarak belirleyebilirsiniz. Artık çıkarım için fazla GPU işlemi tedarik etmenize gerek kalmadığından, çıkarım maliyetleri %75'e varan oranda azalır.
Tam olarak ihtiyaç duyduğunuz şeye erişin
Amazon Elastic Inference, en az tek hassaslıkta TFLOPS (saniyede trilyon kayan nokta işlemi) çıkarım hızlandırması veya en fazla 32 karma hassaslıkta TFLOPS sağlayabilir. Bu, bağımsız bir Amazon EC2 P3 bulut sunucusu tarafından sağlanan 1.000 TFLOPS'a kadar olan aralıktan çok daha uygun bir çıkarım işlem aralığıdır. Örneğin basit bir dil işleme modeli, çıkarımı iyi çalıştırmak için tek bir TFLOPS gerektirebilirken, karmaşık bir görüntü işleme modeli 32 adede kadar TFLOPS'a ihtiyaç duyabilir.
Talep değişikliklerine yanıt verin
Fazla kapasite tedarik etmeden uygulamanızın taleplerini karşılamak için Amazon EC2 Auto Scaling gruplarını kullanarak çıkarım hızlandırma miktarını kolayca artırabilir ve azaltabilirsiniz. EC2 Auto Scaling, artan talebi karşılamak için EC2 bulut sunucularınızı artırdığında, her bir bulut sunucusu için ekli hızlandırıcının ölçeğini de otomatik olarak artırır. Benzer şekilde, talep azaldığında EC2 bulut sunucularınızı azaltırken, her bir bulut sunucusu için ekli hızlandırıcının ölçeğini de otomatik olarak azaltır. Bu, yalnızca ihtiyacınız olan şeyler için, ihtiyacınız olduğunda ödeme yapmanıza yardımcı olur.
Popüler çerçeveler için destek
Amazon Esnek Çıkarım, TensorFlow ve Apache MXNet modellerini destekler. Yakında ek çerçeveler için destek sunulacaktır.