Amazon EC2 Inf1 Bulut Sunucuları
Çok çeşitli sektörlerden işletmeler, yapay zekanın gücüne dayanan dönüşümlerle işletme inovasyonuna yön vermenin, müşteri deneyimini iyileştirmenin ve süreç iyileştirmeleri yapmanın yollarını arıyor. Yapay zeka uygulamalarına güç veren makine öğrenimi modelleri, bilişim altyapısı maliyetlerinin yükselmesine yol açacak şekilde giderek karmaşıklaşıyor. Makine öğrenimi uygulamaları geliştirip çalıştırmaya yönelik altyapı harcamasının %90 kadarını çoğu zaman çıkarım oluşturuyor. Müşteriler, makine öğrenimi uygulamalarını üretim ortamlarına dağıtmak için uygun maliyetli altyapı çözümleri arıyor.
Amazon EC2 Inf1 bulut sunucuları, yüksek performanslı ve düşük maliyetli makine öğrenimi çıkarımı sunar. Çıkarım başına, karşılaştırılabilir güncel nesil GPU tabanlı Amazon EC2 bulut sunucularından 2,3 kata kadar daha yüksek aktarım hızı ve %70'e kadar daha düşük maliyet sağlar. Inf1 bulut sunucuları, makine öğrenimi çıkarım uygulamalarını desteklemek için sıfırdan oluşturulmuştur. Bu bulut sunucuları, 16'ya kadar AWS Inferentia yongası sunar. Bu yongalar, AWS tarafından tasarlanıp oluşturulan yüksek performanslı makine öğrenimi çıkarım yongalarıdır. Inf1 bulut sunucuları aynı zamanda, yüksek aktarım hızında çıkarım sağlamak için 2. nesil Intel® Xeon® Ölçeklenebilir işlemciler ve 100 Gbps'ye varan ağ iletişimi sunar.
Müşteriler, Inf1 bulut sunucularını kullanarak arama, öneri altyapıları, bilgisayarlı görü, konuşma tanıma, doğal dil işleme, kişiselleştirme ve dolandırıcılık algılama gibi büyük ölçekli makine öğrenimi çıkarım uygulamalarını çalıştırabilir.
Geliştiriciler; TensorFlow, PyTorch ve MXNet gibi popüler makine öğrenimi çerçeveleriyle entegre AWS Neuron SDK'yi kullanarak makine öğrenimi modellerini Inf1 bulut sunucularına dağıtabilir. Aynı makine öğrenimi iş akışlarını kullanmaya devam edebilir ve uygulamaları minimum düzeyde kod değişikliği ile ve satıcıya özel hiçbir çözüme bağlı kalmaksızın, sorunsuz bir şekilde Inf1 bulut sunucularına geçirebilirler.
Amazon SageMaker, Neuron SDK ile önceden yapılandırılmış olarak gelen AWS Derin Öğrenme AMI'leri veya container’lı makine öğrenimi uygulamaları için Amazon ECS ya da Amazon EKS ile Inf1 bulut sunucularını kolayca kullanmaya başlayın.
Avantajlar
Çıkarım başına %70'e varan daha düşük maliyet
Inf1 kullanan geliştiriciler, makine öğrenimi üretim dağıtımlarının maliyetini önemli ölçüde azaltabilir. Inf1 bulut sunucularının düşük bulut sunucusu maliyeti ile yüksek aktarım hızının birleşimi; çıkarım başına, karşılaştırılabilir güncel nesil GPU tabanlı EC2 bulut sunucularından %70'e kadar daha düşük maliyet sağlar.
Kullanım kolaylığı ve kod taşınabilirliği
Neuron SDK; TensorFlow, PyTorch ve MXNet gibi yaygın makine öğrenimi çerçeveleri ile entegredir. Geliştiriciler, aynı makine öğrenimi iş akışlarını kullanmaya devam edebilir ve uygulamalarını minimum düzeyde kod değişikliği ile sorunsuz bir şekilde Inf1 bulut sunucularına geçirebilir. Bu onlara tercih ettikleri makine öğrenimi çerçevesini ve gereksinimlerini en iyi karşılayan işlem platformunu kullanma özgürlüğü ve satıcıya özel çözümlere bağlı kalmadan en son teknolojilerden faydalanma imkanı sağlar.
2,3 kata varan daha yüksek aktarım hızı
Inf1 bulut sunucuları, karşılaştırılabilir güncel nesil GPU tabanlı Amazon EC2 bulut sunucularından 2,3 kata kadar daha yüksek aktarım hızı sağlar. Inf1 bulut sunucularına güç veren AWS Inferentia yongaları, gerçek zamanlı uygulamaların aktarım hızını en üst düzeye çıkarmasını ve gecikme gereksinimlerini karşılamasını sağlayan küçük toplu iş boyutlarına yönelik çıkarım performansı için optimize edilmiştir.
Son derece düşük gecikme süresi
AWS Inferentia yongaları, makine öğrenimi modellerinin doğrudan yonga üzerinde önbelleğe alınmasını sağlayan büyük yonga üzeri bellekle donatılmıştır. Modellerinizi, NeuronCore Pipeline gibi dış bellek kaynaklarına erişme ihtiyacını ortadan kaldıran özellikler kullanarak dağıtabilirsiniz. Inf1 bulut sunucuları ile, gerçek zamanlı çıkarım uygulamalarını bant genişliğinizi etkilemeksizin gerçek zamanlıya yakın gecikmelerle dağıtabilirsiniz.
Çok çeşitli makine öğrenimi modellerine ve veri türlerine yönelik destek
Inf1 bulut sunucuları, görüntü tanıma/sınıflandırma için SSD, VGG ve ResNext gibi yaygın kullanılan pek çok makine öğrenimi modeli mimarisinin yanı sıra doğal dil işleme için Transformer ve BERT'i destekler. Ek olarak, Neuron'daki HuggingFace model deposu için destek, müşterilere önceden eğitilmiş ve hatta sadece tek bir kod satırını değiştirerek ince ayarlı modeller kullanarak kolayca çıkarım derleme ve çalıştırma imkanı sunar. Çeşitli modeller ve performans ihtiyaçları için BF16 ve FP16 dahil olmak üzere birden fazla veri türü karmaşık duyarlılıkla desteklenir.
Özellikler
AWS Inferentia tarafından sağlanmıştır
AWS Inferentia, düşük maliyetle yüksek performanslı çıkarım sunmak için AWS tarafından amaca yönelik olarak oluşturulmuş bir makine öğrenimi yongasıdır. Her AWS Inferentia yongası, dört adet birinci nesil NeuronCore'a sahiptir ve saniye başına 128 tera işleme (TOPS) kadar performans sağlar ve FP16, BF16 ve INT8 veri türlerini destekler. Ayrıca AWS Inferentia yongalarında, büyük modelleri önbelleğe alma işleminde kullanılabilecek büyük miktarda yonga belleği bulunur ve bu durum özellikle sık bellek erişimi gerektiren modeller için kullanışlıdır.
AWS Neuron'u kullanarak popüler makine öğrenimi çerçeveleriyle dağıtın
AWS Neuron yazılım geliştirme seti (SDK); derleyici, çalışma zamanı sürücüsü ve profil oluşturma araçlarından oluşur. TensorFlow, PyTorch ve MXNet gibi popüler çerçevelerde oluşturulup eğitilen karmaşık sinir ağı modellerinin dağıtımının Inf1 bulut sunucuları aracılığıyla yürütülmesini sağlar. Neuron'un NeuronCore Pipeline'ı ile, yüksek hızlı ve fiziksel yongadan yongaya bağlantı kullanarak birden fazla Inferentia yongasında yürütmeyi mümkün kılmak için büyük modelleri bölebilir ve bu sayede hem yüksek çıkarım aktarım hızı hem de daha düşük çıkarım maliyeti elde edebilirsiniz.
Yüksek performanslı ağ iletişimi ve depolama
Inf1 bulut sunucuları, yüksek hızlı ağ iletişimine erişim gerektiren uygulamalar için 100 Gbps’ye varan ağ aktarım hızı sunar. Yeni nesil Elastic Network Adapter (ENA) ve NVM Express (NVMe) teknolojisi sayesinde Inf1 bulut sunucuları, ağ iletişimi ve Amazon Elastic Block Store (Amazon EBS) için hem yüksek aktarım hızlı hem de düşük gecikme süreli arabirimler sunar.
AWS Nitro System üzerinde geliştirilmiştir
AWS Nitro System yüksek performans, yüksek erişilebilirlik ve yüksek güvenlik sunarken görselleştirme maliyetlerini azaltmak için özel donanım ve yazılımlara klasik görselleştirme işlevlerinin birçoğunu sunan zengin bir yapı taşı koleksiyonudur.
Nasıl çalışır?

Müşteri Görüşleri

2008'de San Francisco'da kurulan Airbnb, dünyanın neredeyse her ülkesinden 900 milyondan fazla misafir ağırlamış olan 4 milyonun üzerinde ev sahibinin bulunduğu topluluk temelli bir pazar yeri.
"Airbnb'nin Topluluk Destek Platformu, dünyanın dört bir yanından milyonlarca misafir ve ev sahibinden oluşan topluluğumuza akıllı, ölçeklenebilir ve istisnai bir hizmet deneyimi sunmamıza olanak tanıyor. Destek chatbot uygulamalarımızın kullandığı Doğal Dil İşleme modellerimizin performansını iyileştirmenin yollarını sürekli olarak arıyoruz. PyTorch tabanlı BERT modellerimiz için, AWS Inferentia tarafından sağlanan Amazon EC2 Inf1 bulut sunucularında, GPU tabanlı bulut sunucularına kıyasla aktarım hızında varsayılan olarak 2 kat artış görüyoruz. Gelecekte diğer modeller ve kullanım örnekleri için Inf1 bulut sunucularını kullanmayı iple çekiyoruz."
Bo Zeng, Mühendislik Müdürü - AirBnB

"Makine öğrenimini (ML) Snapchat'in birçok özelliğine ekliyoruz ve bu alanda yenilikleri keşfetmek en önemli önceliğimiz. Infertia’yi öğrendiğimizde performans ve maliyet dâhil olmak üzere ML dağıtımları için bize yardımcı olması için Inf1/Inferentia bulut sunucuları edinmek için AWS ile işbirliğine başladık. Öneri modellerimiz ile başladık ve gelecekte Inf1 bulut sunucuları ile daha fazla model edinmeyi dört gözle bekliyoruz."
Nima Khajehnouri, Mühendislikten Sorumlu Başkan Yardımcısı - Snap Inc.

"Sprinklr'ın yapay zeka temelli birleştirilmiş müşteri deneyimi yönetme (Unified-CXM) platformu, şirketlerin birden fazla kanalda gerçek zamanlı müşteri geri bildirimlerini toplayıp eyleme geçirilebilir öngörülere dönüştürmesine olanak tanır ve sonuç olarak proaktif sorun çözümü, iyileştirilmiş ürün geliştirme, iyileştirilmiş içerik pazarlaması, daha iyi müşteri hizmeti ve çok daha fazlasını ortaya çıkarır. Amazon EC2 Inf1'i kullanarak doğal dil işleme (NLP) modellerimizden birinin performansını önemli ölçüde iyileştirebildik ve görüntü işleme modellerimizden birinin performansını artırdık. Küresel müşterilerimize daha iyi hizmet sunabilmek için Amazon EC2 Inf1'i kullanmaya devam etmek için sabırsızlanıyoruz."
Vasant Srinivasan, Ürün Mühendisliği Kıdemli Başkan Yardımcısı, Sprinklr

"Son teknoloji ürünü Doğal Dil İşleme (NLP) ürünümüz Finch for Text, kullanıcılara büyük hacimli metinlerde birden fazla varlık türünü ayıklama, belirsizleştirme ve zenginleştirme olanağı sunuyor. Finch for Text, müşterilerimize küresel veri akışlarında düşük gecikmeli zenginleştirmeler sağlamak için önemli bilgi işlem kaynakları gerektirir. Artık AWS Inf1 bulut sunucularını; PyTorch NLP, çeviri ve varlık anlam ayrımı modellerimizde kullanıyoruz. Çıkarım hızımızı ve performansımızı korurken minimum optimizasyonlarla çıkarım maliyetlerimizi %80'in üzerinde (GPU'lar üzerinden) azaltmayı başardık. Bu iyileştirme; müşterilerimizin Fransızca, İspanyolca, Almanca ve Hollandaca dilindeki metinlerini akış veri akışlarında ve küresel ölçekte gerçek zamanlı olarak zenginleştirmelerini sağlıyor. Bu da finansal hizmetlerimiz, veri toplayıcımız ve kamu sektörü müşterilerimiz için kritik bir öneme sahip."
Scott Lightner, Teknolojiden Sorumlu Müdür - Finch Computing

“Autodesk, Inferentia kullanarak yapay zeka temelli sanal asistanımız olan Autodesk Virtual Agent’in (AVA) bilişsel teknolojisini geliştiriyor. AVA, doğal dil anlama (NLU) ve derin öğrenme teknikleri uygulayarak sorguların arkasındaki bağlamı, niyeti ve anlamı çıkarmak için aylık 100.000 müşteri sorusunu cevaplamaktadır. Inferentia kullanarak NLU modellerimiz için G4dn bulut sunucularına kıyasla 4,9 kat daha yüksek aktarım hızı elde edebiliyoruz ve Inferentia temelli Inf1 bulut sunucularında daha fazla iş yükü çalıştırmayı dört gözle beliyoruz."
Binghui Ouyang, Kıdemli Veri Bilimcisi, Autodesk
Amazon EC2 Inf1 Bulut Sunucularını Kullanan Amazon Hizmetleri

Amazon Advertising, her ölçekten işletmelerin müşterilerle alışveriş yolculuklarının her aşamasında bağlantı kurmasına yardımcı olur. En uygun müşteri deneyimi için, metin ve görüntüler dahil olmak üzere her gün milyonlarca reklam yönetiliyor, sınıflandırılıyor ve sunuluyor.
"Metin reklam işleme süreçlerimiz için, AWS Inferentia tabanlı Inf1 bulut sunucuları üzerinde küresel olarak PyTorch tabanlı BERT modelleri dağıtıyoruz. GPU'lardan Inferentia'ya geçerek, maliyetlerimizi benzer performansla %69 oranında azaltabildik. AWS Inferentia için modellerimizi derleyerek test etmemiz üç haftadan az bir zaman aldı. Modellerimizi Inf1 bulut sunucularına dağıtmak için Amazon SageMaker'ı kullanmak, dağıtımımızın ölçeklenebilir ve yönetmesi kolay olmasını sağladık. Derlenen modelleri ilk kez analiz ettiğimde AWS Inferentia ile elde edilen performans öylesine etkileyiciydi ki, doğru olduklarını doğrulamak için karşılaştırmaları yeniden çalıştırmak zorunda kaldım! Gelecekte görüntü reklam işleme modellerimizi Inferentia'ya taşımayı planlıyoruz. Halihazırda yaptığımız karşılaştırmalarda, bu modeller için benzer GPU tabanlı bulut sunucularına kıyasla %30 daha düşük gecikme süresi ve %71 oranında maliyet tasarrufu elde ettiğimizi gördük."
Yashal Kanungo, Uygulamalı Bilim İnsanı, Amazon Advertising

"Amazon Web Services tarafından desteklenen Amazon Alexa'nın yapay zeka ve makine öğrenimi tabanlı zekası, bugün 100 milyondan fazla cihazda kullanılabilir. Biz, müşterilerimize Alexa'nın daima daha akıllı, daha konuşkan, daha proaktif ve hatta daha eğlenceli olacağı sözünü veriyoruz. Bu sözleri yerine getirmek için yanıt sürelerinde ve makine öğrenimi altyapısı maliyetlerinde sürekli iyileştirmeler gerekmektedir. Bu yüzden, Alexa'nın metin seslendirmesindeki çıkarım gecikmesini ve çıkarım başına olan maliyeti azaltmak amacıyla Amazon EC2 Inf1'i kullanacağımız için çok heyecanlıyız. Amazon EC2 Inf1 sayesinde, her ay Alexa'yı kullanan onlarca milyon müşterimize çok daha iyi hizmet sunabileceğiz."
Tom Taylor, Kıdemli Başkan Yardımcısı, Amazon Alexa
"Müşteri deneyimimizi daha da iyileştirmek ve altyapı maliyetlerimizi düşürmek için sürekli inovasyon yapıyoruz. Web tabanlı soru yanıtlama (WBQA) iş yüklerimizi GPU tabanlı P3 bulut sunucularından AWS Inferentia tabanlı Inf1 bulut sunucularına taşımak, çıkarsama maliyetlerini %60 oranında azaltmamıza yardımcı olmanın yanı sıra uçtan uca gecikmeyi de %40'ın üzerinde azaltarak Alexa ile müşteri Soru-Cevap deneyimini iyileştirmeye yardımcı oldu. TensorFlow tabanlı modelimiz için Amazon SageMaker'ı kullanmak, Inf1 bulut sunucularına geçiş sürecini basit ve yönetilmesi kolay bir hale getirdi. Artık bu WBQA iş yüklerini çalıştırmak için küresel olarak Inf1 bulut sunucularını kullanıyoruz ve hem maliyetleri hem de gecikmeyi daha da azaltmak üzere performanslarını AWS Inferentia için optimize ediyoruz."
Eric Lind, Yazılım Geliştirme Mühendisi, Alexa AI

"Amazon Prime Video, Prime Video üyeleri için en iyi izleyici deneyimini sağlamak amacıyla canlı etkinliklerin video kalitesini analiz etmek için bilgisayarlı görme ML modellerini kullanıyor. Görüntü sınıflandırma ML modellerimizi EC2 Inf1 bulut sunucularına dağıttık ve performansta 4 kat iyileşme ve maliyette %40'a varan tasarruf elde ettik. Şimdi bu maliyet tasarruflarından yararlanarak Prime Video üyelerine daha gelişmiş görüntüleme deneyimi sunmak amacıyla ses ve video dosyaları arasındaki senkronizasyon boşlukları gibi daha karmaşık kusurları tespit edebilen gelişmiş modeller geliştirmek ve geliştirmek istiyoruz."

"Amazon Rekognition, müşterilere nesneleri, insanları, metinleri ve etkinlikleri tanımlamak için yardım eden basit ve kolay bir görüntü ve video analizi uygulamasıdır. Amazon Rekognition, müşterilerimiz için günlük trilyonlarca görüntü ve video analiz edebilen yüksek performanslı derin öğrenme altyapısına ihtiyaç duymaktadır. AWS Inferentia temelli Inf1 bulut sunucuları ile nesne sınıflandırması gibi Rekognition modelleri çalıştırmak bu modelleri GPU’larda çalıştırmaya kıyasla 8 kat daha az gecikme süresi ve 2 kat daha fazla aktarım hızıyla sonuçlanmıştır. Bu sonuçlar doğrultusunda Rekognition’ı Inf1’e taşıyarak müşterilerimizin doğru sonuçları daha hızlı almalarını sağlıyoruz."
Fiyatlandırma
*Gösterilen fiyatlar ABD Doğu (Kuzey Virginia) AWS Bölgesi için geçerlidir. 1 yıllık ve 3 yıllık rezerve edilmiş bulut sunucusu fiyatları, "Kısmi Ön Ödeme" ödeme seçeneklerine veya Kısmı Ön Ödeme olanağı olmayan bulut sunucularında "Ön Ödemesiz" seçeneğe yöneliktir.
Amazon EC2 Inf1 bulut sunucuları; İstek Üzerine, Rezerve Edilmiş veya Spot Bulut Sunucuları olarak ABD Doğu (K. Virginia) ve ABD Batı (Oregon) AWS Bölgelerinde kullanılabilir.
Kullanmaya Başlama
Amazon SageMaker Kullanımı
Amazon SageMaker, düşük gecikme süresiyle gerçek zamanlı tahminler oluşturmaya başlayabilmeniz için Amazon Inf1 bulut sunucuları üzerindeki üretim ortamınızda eğitilmiş makine öğrenimi modelinizi derlemenizi ve dağıtmanızı kolaylaştırır. AWS Inferentia'nın derleyicisi olan AWS Neuron, Amazon SageMaker Neo ile entegredir ve eğitilmiş makine öğrenimi modellerinizi Inf1 bulut sunucularında en ideal olarak çalışacak şekilde derlemenizi sağlar. Amazon SageMaker sayesinde modellerinizi yüksek performans ve yüksek erişilebilirliğe sahip gerçek zamanlı çıkarım sağlamak üzere birden fazla erişilebilirlik alanına dağıtılmış olan Inf1 bulut sunucularının otomatik ölçeklendirme kümeleri üzerinde kolayca çalıştırabilirsiniz. Github'daki örnekler ile Amazon SageMaker kullanarak Inf1'e nasıl dağıtım yapacağınızı öğrenin.
AWS Deep Learning AMI'lerin Kullanımı
AWS Deep Learning AMI’leri (DLAMI), makine öğrenimi uygulayıcılarına ve araştırmacılarına bulutta ve tüm ölçeklerde derin öğrenimi hızlandırmak için kullanabilecekleri altyapıyı ve araçları sunar. AWS Neuron SDK, AWS Deep Learning AMI’lerinde önceden yüklenmiş halde gelir. Böylece, makine öğrenimi modellerinizi Inf1 bulut sunucularında en ideal şekilde derleyebilir ve çalıştırabilirsiniz. Başlangıç sürecinde size yardımcı olması için AMI seçim kılavuzunu ve diğer derin öğrenim kaynaklarını ziyaret edin. DLAMI’yi Neuron ile nasıl kullanacağınızı öğrenmek için AWS DLAMI Kullanmaya Başlama kılavuzuna bakın.
Deep Learning Containers’ı Kullanma
Geliştiriciler, artık Inf1 bulut sunucularını bir tam olarak yönetilen Kubernetes hizmeti olan Amazon Elastic Kubernetes Service (EKS)’de veya Amazon’un bir tam olarak yönetilen container orkestrasyon hizmeti olanAmazon Elastic Container Service (ECS)’de dağıtabilirler. Amazon EKS üzerinde veya Amazon ECS ile Inf1’i kullanmaya başlama hakkında daha fazla bilgiye ulaşabilirsiniz. Container’ları Inf1 bulut sunucuları üzerinden çalıştırma konusunda Neuron container araçları öğreticisi sayfasından ulaşabilirsiniz. Neuron, AWS DL Container’larında önceden yüklenmiş olarak da mevcuttur.
Bloglar ve Makaleler
How Amazon Search reduced ML inference costs by 85% with AWS Inferentia
Yazar: Joao Moura, Jason Carlson, Jaspreet Singh, Shaohui Xi, Shruti Koparkar, Haowei Sun, Weiqi Zhang ve Zhuoqi Zhangs, 22.09.2022
High-performance, low-cost machine learning infrastructure is accelerating innovation in the cloud
Yazar: MIT Technology Review Insights, 01.11.2021
Yazarlar: Davide Galliteli ve Hasan Poonawala, 19.10.2021
Machine learning in the cloud is helping businesses innovate
Yazar: MIT Technology Review Insights, 15.10.2021
Yazarlar: Alex Iankoulski, Joshua Correa, Mahadevan Balasubramaniam ve Sundar Ranganatha, 30.09.2021
Yazarlar: Fabio Nonato de Paula ve Mahadevan Balasubramaniam, 4.05.2021
Yazar: Binghui Ouyang, 7.04.2021
Majority of Alexa now running on faster, more cost-effective Amazon EC2 Inf1 instances
Yazar: Sébastien Stormacq, 12.11.2020
Yazar: Julien Simon, 22.04.2020
Amazon ECS Now Supports EC2 Inf1 Instances
Yazar: Julien Simon, 14.08.2020
Yazarlar: Fabio Nonato De Paula ve Haichen Li, 22.07.2020
Amazon EKS now supports EC2 Inf1 instances
Yazar: Julien Simon, 15.06.2020