Amazon EC2 Inf1 Bulut Sunucuları

Yüksek performanslı ve düşük maliyetli makine öğrenimi çıkarımı

AWS Neuron aracılığıyla Inf1 bulut sunucularını kullanmaya başlayın

Çok çeşitli sektörlerden işletmeler, yapay zekânın (AI) gücüne dayanan dönüşümlerle işletme inovasyonuna yön vermenin, müşteri deneyimini iyileştirmenin ve süreç iyileştirmeleri yapmanın yollarını arıyor. Yapay zekâ uygulamalarına güç veren makine öğrenimi (ML) modelleri, işlem altyapısı maliyetlerinin yükselmesine yol açacak şekilde giderek karmaşıklaşıyor. ML uygulamaları geliştirip çalıştırmaya yönelik altyapı harcamasının %90 kadarını çoğu zaman çıkarım oluşturuyor. Müşteriler, ML uygulamalarını üretim ortamlarına dağıtmak için uygun maliyetli altyapı çözümleri arıyor.

Amazon EC2 Inf1 bulut sunucuları, yüksek performanslı ve düşük maliyetli ML çıkarımı sunar. Çıkarım başına, karşılaştırılabilir Amazon EC2 bulut sunucularından 2,3 kata kadar daha yüksek aktarım hızı ve %70'e kadar daha düşük maliyet sağlar. Inf1 bulut sunucuları, ML çıkarım uygulamalarını desteklemek için sıfırdan oluşturulmuştur. Bu bulut sunucuları, 16'ya kadar AWS Inferentia çipi sunar. Bu çipler, AWS tarafından tasarlanıp oluşturulan yüksek performanslı ML çıkarım çipleridir. Inf1 bulut sunucuları, aynı zamanda yüksek aktarım hızında çıkarım sağlamak için 2. Nesil Intel Xeon Ölçeklenebilir işlemciler ve 100 Gbps'ye varan ağ iletişimi sunar.

Müşteriler, Inf1 bulut sunucularını kullanarak arama, öneri altyapıları, bilgisayarlı görü, konuşma tanıma, doğal dil işleme (NLP), kişiselleştirme ve dolandırıcılık algılama gibi büyük ölçekli ML çıkarım uygulamalarını çalıştırabilir.

Geliştiriciler; TensorFlow, PyTorch ve Apache MXNet gibi popüler makine öğrenimi çerçeveleriyle entegre AWS Neuron SDK'yi kullanarak ML modellerini Inf1 bulut sunucularına dağıtabilir. Aynı ML iş akışlarını kullanmaya devam edebilir ve uygulamaları minimum düzeyde kod değişikliği ile ve satıcıya özel hiçbir çözüme bağlı kalmaksızın sorunsuz bir şekilde Inf1 bulut sunucularına geçirebilirler.

Amazon SageMaker, Neuron SDK ile önceden yapılandırılmış olarak gelen AWS Derin Öğrenme AMI'leri (DLAMI) veya container'lı ML uygulamaları için Amazon Esnek Container Hizmeti (Amazon ECS) ya da Amazon Esnek Kubernetes Hizmeti (Amazon EKS) ile Inf1 bulut sunucularını kolayca kullanmaya başlayın.

Amazon EC2 Inf1 Instances (1:23)

Avantajlar

Çıkarım başına %70'e varan daha düşük maliyet

Inf1 kullanan geliştiriciler, ML üretim dağıtımlarının maliyetini önemli ölçüde azaltabilir. Inf1 bulut sunucularının düşük bulut sunucusu maliyeti ile yüksek aktarım hızının birleşimi, çıkarım başına karşılaştırılabilir Amazon EC2 bulut sunucularından %70'e kadar daha düşük maliyet sağlar.

Kullanım kolaylığı ve kod taşınabilirliği

Neuron SDK; TensorFlow, PyTorch ve MXNet gibi yaygın ML çerçeveleri ile entegredir. Geliştiriciler, aynı ML iş akışlarını kullanmaya devam edebilir ve uygulamalarını minimum düzeyde kod değişikliği ile sorunsuz bir şekilde Inf1 bulut sunucularına geçirebilir. Bu onlara tercih ettikleri ML çerçevesini ve gereksinimlerini en iyi karşılayan işlem platformunu kullanma özgürlüğü ve satıcıya özel çözümlere bağlı kalmadan en son teknolojilerden faydalanma imkânı sağlar.

2,3 kata varan daha yüksek aktarım hızı

Inf1 bulut sunucuları, karşılaştırılabilir Amazon EC2 bulut sunucularından 2,3 kata kadar daha yüksek aktarım hızı sağlar. Inf1 bulut sunucularına güç veren AWS Inferentia yongaları, gerçek zamanlı uygulamaların aktarım hızını en üst düzeye çıkarmasını ve gecikme gereksinimlerini karşılamasını sağlayan küçük toplu iş boyutlarına yönelik çıkarım performansı için optimize edilmiştir.

Son derece düşük gecikme süresi

AWS Inferentia çipleri, ML modellerinin doğrudan çip üzerinde önbelleğe alınmasını sağlayan büyük çip üzeri bellekle donatılmıştır. Modellerinizi, NeuronCore İşlem Hattı gibi dış bellek kaynaklarına erişme ihtiyacını ortadan kaldıran özellikler kullanarak dağıtabilirsiniz. Inf1 bulut sunucuları ile, gerçek zamanlı çıkarım uygulamalarını bant genişliğinizi etkilemeksizin gerçek zamanlıya yakın gecikmelerle dağıtabilirsiniz.

Çeşitli ML modelleri ve veri türleri için destek

Inf1 bulut sunucuları, görüntü tanıma/sınıflandırma için SSD, VGG ve ResNext gibi yaygın kullanılan pek çok ML modeli mimarisinin yanı sıra NLP için Transformer ve BERT'i destekler. Ek olarak, Neuron'daki HuggingFace model deposu için destek, müşterilere önceden eğitilmiş veya sadece tek bir kod satırını değiştirerek hassas şekilde ayarlanmış modeller kullanarak kolayca çıkarım derleme ve çalıştırma imkânı sunar. Çeşitli modeller ve performans ihtiyaçları için BF16 ve FP16 dâhil olmak üzere birden fazla veri türü karmaşık duyarlılıkla desteklenir.

Özellikler

AWS Inferentia tarafından sağlanmıştır

AWS Inferentia, düşük maliyetle yüksek performanslı çıkarım sunmak için AWS tarafından amaca yönelik olarak oluşturulmuş bir ML çipidir. Her AWS Inferentia çipi, dört adet birinci nesil NeuronCore'a sahiptir ve saniye başına 128 tera işleme (TOPS) kadar performans sağlamakta olup FP16, BF16 ve INT8 veri türlerini destekler. Ayrıca AWS Inferentia yongalarında, büyük modelleri önbelleğe alma işleminde kullanılabilecek büyük miktarda yonga belleği bulunur ve bu durum özellikle sık bellek erişimi gerektiren modeller için kullanışlıdır.

AWS Neuron'u kullanarak popüler ML çerçeveleriyle dağıtın

AWS Neuron SDK; derleyici, çalışma zamanı sürücüsü ve profil oluşturma araçlarından oluşur. TensorFlow, PyTorch ve MXNet gibi popüler çerçevelerde oluşturulup eğitilen karmaşık sinir ağı modellerinin dağıtımının Inf1 bulut sunucuları aracılığıyla yürütülmesini sağlar. NeuronCore İşlem Hattı ile, yüksek hızlı ve fiziksel çipten çipe bağlantı kullanarak birden fazla Inferentia çipinde yürütmeyi mümkün kılmak için büyük modelleri bölebilir ve bu sayede hem yüksek çıkarım aktarım hızı hem de daha düşük çıkarım maliyeti elde edebilirsiniz.

Yüksek performanslı ağ iletişimi ve depolama

Inf1 bulut sunucuları, yüksek hızlı ağ iletişimine erişim gerektiren uygulamalar için 100 Gbps’ye varan ağ aktarım hızı sunar. Yeni nesil Esnek Ağ Bağdaştırıcısı (ENA) ve NVM Express (NVMe) teknolojisi sayesinde Inf1 bulut sunucuları, ağ iletişimi ve Amazon Esnek Blok Deposu (Amazon EBS) için hem yüksek aktarım hızlı hem de düşük gecikme süreli arabirimler sunar.

AWS Nitro Sistemi üzerinde geliştirilmiştir

AWS Nitro System yüksek performans, yüksek erişilebilirlik ve yüksek güvenlik sunarken görselleştirme maliyetlerini azaltmak için özel donanım ve yazılımlara klasik görselleştirme işlevlerinin birçoğunu sunan zengin bir yapı taşı koleksiyonudur.

Nasıl çalışır?

Inf1 ve AWS Inferentia kullanımı

Müşteri görüşleri

Snap Inc

"ML'yi Snapchat'in birçok özelliğine ekliyoruz ve bu alanda yenilikleri keşfetmek en önemli önceliğimiz. Infertia'yi öğrendiğimizde performans ve maliyet dâhil olmak üzere ML dağıtımları için bize yardımcı olması için Inf1/Inferentia bulut sunucuları edinmek için AWS ile işbirliğine başladık. Öneri modellerimiz ile başladık ve gelecekte Inf1 bulut sunucuları ile daha fazla model edinmeyi dört gözle bekliyoruz."

Nima Khajehnouri, Mühendislikten Sorumlu Başkan Yardımcısı, Snap Inc.

"Sprinklr'ın yapay zekâ temelli birleştirilmiş müşteri deneyimi yönetme (Unified-CXM) platformu, şirketlerin birden fazla kanalda gerçek zamanlı müşteri geri bildirimlerini toplayıp eyleme geçirilebilir öngörülere dönüştürmesine olanak tanır ve sonuç olarak proaktif sorun çözümü, iyileştirilmiş ürün geliştirme, iyileştirilmiş içerik pazarlaması, daha iyi müşteri hizmeti ve çok daha fazlasını ortaya çıkarır. Amazon EC2 Inf1'i kullanarak NLP modellerimizden birinin performansını önemli ölçüde iyileştirebildik ve görüntü işleme modellerimizden birinin performansını artırdık. Küresel müşterilerimize daha iyi hizmet sunabilmek için Amazon EC2 Inf1'i kullanmaya devam etmek için sabırsızlanıyoruz."

Vasant Srinivasan, Ürün Mühendisliği Kıdemli Başkan Yardımcısı, Sprinklr

Print

"Son teknoloji NLP ürünümüz Finch for Text, kullanıcılara büyük hacimli metinlerde birden fazla varlık türünü ayıklama, belirsizleştirme ve zenginleştirme olanağı sunuyor. Finch for Text, müşterilerimize küresel veri akışlarında düşük gecikmeli zenginleştirmeler sağlamak için önemli bilgi işlem kaynakları gerektirir. Artık AWS Inf1 bulut sunucularını; PyTorch NLP, çeviri ve varlık anlam ayrımı modellerimizde kullanıyoruz. Çıkarım hızımızı ve performansımızı korurken minimum optimizasyonlarla çıkarım maliyetlerimizi %80'in üzerinde (GPU'lar üzerinden) azaltmayı başardık. Bu iyileştirme; müşterilerimizin Fransızca, İspanyolca, Almanca ve Felemenkçe dilindeki metinlerini akış veri akışlarında ve küresel ölçekte gerçek zamanlı olarak zenginleştirmelerini sağlıyor. Bu da finansal hizmetlerimiz, veri toplayıcımız ve kamu sektörü müşterilerimiz için kritik bir öneme sahip."

Scott Lightner, Teknolojiden Sorumlu Müdür, Finch Computing

Finch Computing

"Yüz binlerce kaynaktan farklı biçimlerde (görüntüler, videolar, ses dosyaları, metin sensörleri, tüm bu türlerin kombinasyonları) birçok dilde dünyanın dört bir yanından birçok olay türü hakkında uyarılar sağlıyoruz. Bu ölçek göz önüne alındığında hız ve maliyeti optimize etmek, işletmemiz için kesinlikle kritik bir öneme sahiptir. AWS Inferentia ile model gecikmesini azalttık ve dolar başına 9 kata kadar daha iyi aktarım hızı elde ettik. Bu, daha gelişmiş DL modelleri dağıtarak ve maliyetlerimizi kontrol altında tutarken 5 kat daha fazla veri hacmi işleyerek model doğruluğunu artırmamıza ve platformumuzun özelliklerini büyütmemize olanak sağladı."

Alex Jaimes, Bilim Departmanı Müdürü ve Yapay Zekâ Kıdemli Başkan Yardımcısı, Dataminr

Autodesk

"Autodesk, Inferentia kullanarak yapay zekâ temelli sanal asistanımız olan Autodesk Virtual Agent’in (AVA) bilişsel teknolojisini geliştiriyor. AVA, doğal dil anlama (NLU) ve derin öğrenme (DL) teknikleri uygulayarak sorguların arkasındaki bağlamı, niyeti ve anlamı çıkarmak için aylık 100.000 müşteri sorusunu cevaplamaktadır. Inferentia kullanarak NLU modellerimiz için G4dn bulut sunucularına kıyasla 4,9 kat daha yüksek aktarım hızı elde edebiliyoruz ve Inferentia temelli Inf1 bulut sunucularında daha fazla iş yükü çalıştırmayı dört gözle beliyoruz."

Binghui Ouyang, Kıdemli Veri Bilimcisi, Autodesk

Daha fazlasını görüntüleyin

Screening Eagle

"Yere nüfuz eden radarın kullanımı ve görsel kusurların tespiti genel olarak uzman anketörlerin alanıdır. AWS mikro hizmet tabanlı mimari, otomatik denetim araçları ve denetçiler tarafından çekilen videoları işlememize olanak tanır. Şirket içi yerleşik modellerimizi geleneksel GPU tabanlı bulut sunucularından Inferentia'ya geçirerek maliyetleri %50 oranında azaltmayı başardık. Ayrıca süreleri bir G4dn GPU bulut sunucusuyla karşılaştırırken performans kazanımlarını görebildik. Ekibimiz, Inferentia tabanlı Inf1 bulut sunucularında daha fazla iş yükü çalıştırmayı dört gözle bekliyor."

Jesús Hormigo, Bulut Başkanı ve Yapay Zekâ Sorumlusu, Screening Eagle Technologies

Japonya'da bir ağ hizmeti ve iletişim çözümü sağlayıcısı olan NTT PC Communications, bilgi ve iletişim teknolojisi pazarına yenilikçi ürünler kazandırma konusunda telekomünikasyon alanında liderdir.

"NTT PC, gelişmiş duruş tahmini ML modellerine dayanan bir hareket analizi API platform hizmeti olan AnyMotion hizmetini geliştirdi. AnyMotion platformumuzu tam olarak yönetilen bir container düzenleme hizmeti için Amazon ECS'yi kullanarak Amazon EC2 Inf1 bulut sunucuları üzerinde dağıttık. AnyMotion container'larımızı Amazon EC2 Inf1 üzerinde dağıtarak, güncel nesil GPU tabanlı EC2 bulut sunucularına kıyasla aktarım hızında 4,5 kat artış, %25 daha düşük çıkarım gecikme süresi ve %90 daha düşük maliyet sağladık. Bu üstün sonuçlar, uygun ölçekte AnyMotion hizmetinin kalitesini artırmaya yardımcı olacak."

Toshiki Yanagisawa, Yazılım Mühendisi, NTT PC Communications Inc.

Anthem, onlarca eyalette 40 milyondan fazla üyenin sağlık bakım ihtiyaçlarını karşılayan ülkenin önde gelen sağlık yardımı şirketlerinden biridir.

"Dijital sağlık platformları pazarı gözle görülür bir hızla büyüyor. Bu pazarda istihbarat toplamak çok miktarda müşteri görüşleri verisi olduğundan ve bu verilerin yapılandırılmamış doğasından zorlayıcı bir görevdir. Uygulamamız DL doğal dil modelleri (Dönüştürücüler) aracılığıyla müşteri görüşlerinden eyleme dönüştürülebilir öngörüler oluşturmayı otomatik hâle getirir. Uygulamamız işlem açısından yoğundur ve uygulamamızın yüksek performanslı bir şekilde dağıtılması gerekir. DL çıkarım iş yükümüzü AWS Inferentia işlemcisi tarafından sağlanan Amazon EC2 Inf1 bulut sunucularına sorunsuz bir şekilde dağıttık. Yeni Inf1 bulut sunucuları, GPU tabanlı bulut sunucularına kıyasla 2 kat daha yüksek aktarım hızı sağlıyor ve çıkarım iş yüklerimizi kolaylaştırmamıza olanak tanıyor."

Numan Laanait ve Miro Mihaylov, PhD, AI Yöneticileri/Veri Bilimcileri, Anthem

Condé Nast

"Condé Nast'ın küresel portföyünde Wired, Vogue ve Vanity Fair gibi 20'den fazla lider medya markasını kapsıyor. Birkaç hafta içinde ekibimiz, öneri motorumuzu AWS Inferentia çipleriyle entegre etmeyi başardı. Bu birleşme, SageMaker'ın Inf1 bulut sunucularında son teknoloji doğal dil modelleri için birden fazla çalışma zamanı optimizasyonu sağlıyor. Sonuç olarak, daha önce dağıtılan GPU bulut sunucularıyla kıyaslandığında %72 daha düşük maliyet gözlemledik."

Paul Fryzel, Baş Mühendis, Yapay Zekâ Altyapısı, Condé Nast

Ciao

"Ciao, geleneksel güvenlik kameralarını insan gözünün özelliğine eş değer yüksek performanslı analiz kameralarına dönüştürüyor. Uygulamamız, bir olayı felakete dönüşmeden önce uyarı aracılığıyla bildirmek için bulut tabanlı yapay zekaya sahip kamera çözümlerini kullanarak çevresel koşulları izleme yoluyla felaket önleme çözümünde ilerleme kaydetmektedir. Bu tür bir uyarı, duruma önceden müdahale etmeyi sağlar. Nesne algılama sayesinde, personele gerek olmadan fiziksel mağazalardaki videolardan gelen misafir sayısını tahmin ederek de öngörü sağlayabiliriz. Ciao Camera, YOLOv4 ile G4dn'den %40 daha iyi fiyat performansına sahip AWS Inferentia temelli Inf1 bulut sunucularını ticari olarak kullanmaya başlamıştır. Daha fazla hizmetimizin, Inf1 bulut sunucularının sunduğu önemli maliyet verimliliğinden yararlanmasını bekliyoruz."

Shinji Matsumoto, Yazılım Mühendisi, Ciao Inc.

欧文ベーシックロゴ（The Asahi Shimbun）

"Asahi Shimbun, Japonya'daki en popüler günlük gazetelerden biridir. Şirketimizin bir departmanı olarak kurulan Media Lab’de, özellikle yapay zekâ olmak üzere son teknolojiyi araştırmayı ve yeni işler için en son teknolojileri bağlamayı amaçlayan görevler vardır. AWS Inferentia temelli Amazon EC2 Inf1 bulut sunucularının Tokyo’da başlatılmasıyla bu bulut sunucularında PyTorch temelli metin özetlememizi test ettik. Bu uygulama son 30 yıldaki makalelerde eğitilmiş büyük tutarda metin işler ve başlıklar ve özet cümleler oluşturur. Inferentia'yı kullanarak CPU temelli bulut sunucuları üzerindeki maliyetleri daha da azalttık. Maliyetlerdeki bu çarpıcı düşüş, karmaşık modellerimizin çoğunu uygun ölçekte dağıtmamızı sağlıyor. Önceden bunun ekonomik olarak uygulanabilir olmadığına inanıyorduk."

Hideaki Tamori, PhD, Kıdemli Yönetici, Media Lab, Asahi Shimbun Company

CS Disco

"CS Disco, avukatlar için avukatlar tarafından geliştirilen, e-keşfe yönelik yapay zekâ çözümlerinin lider tedarikçisi olarak hukuk teknolojisini yeniden icat ediyor. Disco AI, terabaytlarca verinin derlenmesi gibi zahmetli bir görevi hızlandırıyor, inceleme sürelerini kısaltıyor ve işlem açısından masraflı ve yüksek maliyetli olan karmaşık NLP modellerinden yararlanarak inceleme doğruluğunu artırıyor. Disco, AWS Inferentia tabanlı Inf1 bulut sunucularının, günümüzdeki GPU bulut sunucularıyla kıyaslandığında Disco AI'da çıkarım maliyetini en az %35 oranında azalttığını belirledi. CS Disco, Inf1 bulut sunucuları ile ilgili bu pozitif deneyime dayanarak Inferentia'ya geçiş yapma fırsatlarını keşfedecek."

Alan Lockett, Kıdemli Araştırma Direktörü, CS Disco

Talroo

"Talroo'da müşterilerimize özgün iş adayları çekmelerine böylece işe alım yapabilmelerine imkân veren veri-temelli bir platform sağlıyoruz. Müşterilerimize en iyi ürün ve hizmetleri sunabilmek için sürekli olarak yeni teknolojileri araştırmaktayız. Inferentia’yı kullanarak yapay zekâ temelli arama ve eşleştirme teknolojimizi geliştirmek için metin verilerinden oluşan bir kitaplıktan öngörüler çıkarıyoruz. Talroo, SageMaker ile yüksek aktarım hızlı NLU modelleri oluşturmak için Amazon EC2 Inf1 bulut sunucularından yararlanır. Talroo’nun ilk testleri Amazon EC2 Inf1 bulut sunucularının G4dn GPU temelli bulut sunucularına oranla %40 daha az çıkarım gecikmesi ve 2 kat daha yüksek aktarım hızı teslim ettiğini göstermiştir. Bu sonuçlar doğrultusunda Talroo, AWS altyapısının bir parçası olarak Amazon EC2 Inf1 bulut sunucularını kullanmayı planlıyor."

Janet Hu, Yazılım Mühendisi, Talroo

DMP

"Digital Media Professionals (DMP), yapay zekâ temelli bir ZIA™ platformu ile geleceği görselleştirmektedir. DMP'nin verimli bilgisayarlı görme sınıflandırma teknolojileri durum gözleme, suçu önleme ve kazayı önleme gibi büyük miktarda gerçek zamanlı görüntü verilerine yönelik öngörü oluşturmak için kullanılmaktadır. Görüntü segmentasyonu modellerimizin, AWS Inferentia tabanlı Inf1 bulut sunucularında GPU tabanlı G4 bulut sunucularından dört kat daha hızlı çalıştığını fark ettik. Bu daha yüksek aktarım hızı ve daha düşük maliyet sayesinde Inferentia, araç yol kameralarına yönelik uygulamalar gibi yapay zekâ iş yüklerimizi uygun ölçekte dağıtmamızı sağlıyor."

Hiroyuki Umeda, Yönetici ve Genel Müdür, Satış ve Pazarlama Grubu, Digital Media Professionals

Hotpot.ai

Hotpot.ai, tasarımcı olmayan kişileri cezbedici grafikler oluşturma konusunda güçlendirir ve profesyonel tasarımcıların alışılmış görevlerini otomatikleştirmesine yardımcı olur.

"ML, stratejimiz için temel niteliği taşıdığından AWS Inferentia tabanlı Inf1 bulut sunucularını denemekten çok heyecan duyduk. Inf1 bulut sunucularının araştırma ve geliştirme işlem hattımıza entegre edilmesinin kolay olduğunu gördük. En önemlisi, G4dn GPU tabanlı bulut sunucularına kıyasla etkileyici performans kazançları gözlemledik. İlk modelimizle Inf1 bulut sunucuları yaklaşık %45 daha yüksek aktarım hızı sağladı ve çıkarım başına maliyeti neredeyse %50 oranında azalttı. Diğer modelleri de taşımak ve ML çıkarım altyapımızın çoğunluğunu AWS Inferentia'ya geçirmek için AWS ekibiyle yakın iş birliği içinde çalışmak istiyoruz."

Clarence Hu, Kurucu, Hotpot.ai

SkyWatch

"SkyWatch, her gün uzaydan elde edilen yüzlerce trilyon piksellik dünya gözlem verisi işliyor. Yeni AWS Inferentia tabanlı Inf1 bulut sunucularının, gerçek zamanlı bulut algılama ve görüntü kalitesi puanlama için Amazon SageMaker kullanarak benimsenmesi hızlı ve kolaydı. Bu, yalnızca dağıtım yapılandırmamızdaki bulut sunucusu tipini değiştirme meselesiydi. Bulut sunucu tiplerini Inferentia tabanlı Inf1 ile değiştirerek performansımızı %40 oranında iyileştirdik ve genel masraflarımızı %23’e kadar düşürdük. Bu, büyük bir kazanç. Bu, minimum mühendislik yüküyle beraber müşterilerimize yüksek kalitede uydu görüntüsü sunmaya devam ederken genel operasyonel maliyetimizi azaltmamıza olanak sağladı. Verilerimizin güvenilirliğinin ve müşteri deneyiminin daha da iyileşmesi amacıyla Inf1 bulut sunucularını kullanmak için tüm çıkarım uç noktalarımızı ve toplu ML işlemlerimizi geçirmeyi sabırsızlıkla bekliyoruz."

Adler Santos, Mühendislik Yöneticisi, SkyWatch

Money Forward, Inc.

Money Forward, Inc., açık ve adil bir finansal platformla işletmelere ve bireylere hizmet ediyor. Bir Money Forward grup şirketi olan HiTTO Inc., bu platformun bir parçası olarak, kurumsal müşterilerinin farklı ihtiyaçlarını karşılamak için özelleştirilmiş NLP modelleri kullanan bir yapay zekâ sohbet robotu hizmeti sunuyor.

"Yapay zekâ sohbet robotu hizmetimizi Amazon EC2 Inf1 bulut sunucularına taşımak oldukça kolaydı. Geçiş sürecini iki ay içinde tamamladık ve Amazon ECS'yi kullanarak Inf1 bulut sunucularında geniş ölçekli bir hizmet başlattık. Inf1 bulut sunucusu başına birden çok model sunarak çıkarım gecikmemizi %97 oranında ve çıkarım maliyetlerimizi %50'nin üzerinde (karşılaştırılabilir GPU tabanlı bulut sunucularına göre) azaltmayı başardık. Inferentia tabanlı Inf1 bulut sunucularında daha fazla iş yükü çalıştırmayı dört gözle bekliyoruz."

Kento Adachi, Teknik lider, CTO ofisi, Money Forward, Inc.

Daralt

Amazon EC2 Inf1 bulut sunucularını kullanan Amazon hizmetleri

Amazon Advertising

Amazon Advertising, her ölçekten işletmelerin müşterilerle alışveriş yolculuklarının her aşamasında bağlantı kurmasına yardımcı olur. En uygun müşteri deneyimi için, metin ve görüntüler dahil olmak üzere her gün milyonlarca reklam yönetiliyor, sınıflandırılıyor ve sunuluyor.

"Metin reklam işleme süreçlerimiz için, AWS Inferentia tabanlı Inf1 bulut sunucuları üzerinde küresel olarak PyTorch tabanlı BERT modelleri dağıtıyoruz. GPU'lardan Inferentia'ya geçerek, maliyetlerimizi benzer performansla %69 oranında azaltabildik. AWS Inferentia için modellerimizi derleyerek test etmemiz üç haftadan az bir zaman aldı. Modellerimizi Inf1 bulut sunucularına dağıtmak için Amazon SageMaker'ı kullanmak, dağıtımımızın ölçeklenebilir ve yönetmesi kolay olmasını sağladık. Derlenen modelleri ilk kez analiz ettiğimde AWS Inferentia ile elde edilen performans öylesine etkileyiciydi ki, doğru olduklarını doğrulamak için karşılaştırmaları yeniden çalıştırmak zorunda kaldım! Gelecekte görüntü reklam işleme modellerimizi Inferentia'ya taşımayı planlıyoruz. Hâlihazırda yaptığımız karşılaştırmalarda, bu modeller için benzer GPU tabanlı bulut sunucularına kıyasla %30 daha düşük gecikme süresi ve %71 oranında maliyet tasarrufu elde ettiğimizi gördük."

Yashal Kanungo, Uygulamalı Bilim İnsanı, Amazon Advertising

Haber blogunu okuyun »

"AWS tarafından desteklenen Amazon Alexa'nın yapay zekâ ve makine öğrenimi tabanlı zekâsı, bugün 100 milyondan fazla cihazda kullanılabilir. Biz, müşterilerimize Alexa'nın daima daha akıllı, daha konuşkan, daha proaktif ve hatta daha eğlenceli olacağı sözünü veriyoruz. Bu sözleri yerine getirmek için yanıt sürelerinde ve ML altyapısı maliyetlerinde sürekli iyileştirmeler gerekmektedir. Bu yüzden, Alexa'nın metin seslendirmesindeki çıkarım gecikmesini ve çıkarım başına olan maliyeti azaltmak amacıyla Amazon EC2 Inf1'i kullanacağımız için çok heyecanlıyız. Amazon EC2 Inf1 sayesinde, her ay Alexa'yı kullanan onlarca milyon müşterimize çok daha iyi hizmet sunabileceğiz."

Tom Taylor, Kıdemli Başkan Yardımcısı, Amazon Alexa

"Müşteri deneyimimizi daha da iyileştirmek ve altyapı maliyetlerimizi düşürmek için sürekli inovasyon yapıyoruz. Web tabanlı soru yanıtlama (WBQA) iş yüklerimizi GPU tabanlı P3 bulut sunucularından AWS Inferentia tabanlı Inf1 bulut sunucularına taşımak, çıkarım maliyetlerini %60 oranında azaltmamıza yardımcı olmanın yanı sıra uçtan uca gecikmeyi de %40'ın üzerinde azaltarak Alexa ile müşteri soru-cevap deneyimini iyileştirmeye yardımcı oldu. TensorFlow tabanlı modelimiz için Amazon SageMaker'ı kullanmak, Inf1 bulut sunucularına geçiş sürecini basit ve yönetilmesi kolay bir hâle getirdi. Artık bu WBQA iş yüklerini çalıştırmak için küresel olarak Inf1 bulut sunucularını kullanıyoruz ve hem maliyetleri hem de gecikmeyi daha da azaltmak üzere performanslarını AWS Inferentia için optimize ediyoruz."

Eric Lind, Yazılım Geliştirme Mühendisi, Alexa AI

Amazon Alexa

"Amazon Prime Video, Prime Video üyeleri için en iyi izleyici deneyimini sağlamak amacıyla canlı etkinliklerin video kalitesini analiz etmek için bilgisayarlı görme ML modellerini kullanıyor. Görüntü sınıflandırma ML modellerimizi EC2 Inf1 bulut sunucularına dağıttık ve performansta 4 kat iyileşme ve maliyette %40'a varan tasarruf elde ettik. Şimdi bu maliyet tasarruflarından yararlanarak Prime Video üyelerine daha gelişmiş görüntüleme deneyimi sunmak amacıyla ses ve video dosyaları arasındaki senkronizasyon boşlukları gibi daha karmaşık kusurları tespit edebilen gelişmiş modeller geliştirmek ve geliştirmek istiyoruz."

Victor Antonino, Çözüm Mimarı, Amazon Prime Video

Amazon Alexa

"Amazon Rekognition, müşterilere nesneleri, insanları, metinleri ve etkinlikleri tanımlamak için yardım eden basit ve kolay bir görüntü ve video analizi uygulamasıdır. Amazon Rekognition, müşterilerimiz için günlük trilyonlarca görüntü ve video analiz edebilen yüksek performanslı DL altyapısına ihtiyaç duymaktadır. AWS Inferentia temelli Inf1 bulut sunucuları ile nesne sınıflandırması gibi Amazon Rekognition modelleri çalıştırmak, bu modelleri GPU’larda çalıştırmaya kıyasla 8 kat daha az gecikme süresi ve 2 kat daha fazla aktarım hızıyla sonuçlanmıştır. Bu sonuçlar doğrultusunda Amazon Rekognition'ı Inf1'e taşıyarak müşterilerimizin doğru sonuçları daha hızlı almalarını sağlıyoruz."

Rajneesh Singh, Yönetici, SW Engineering, Amazon Rekognition and Video

Fiyatlandırma

*Gösterilen fiyatlar ABD Doğu (Kuzey Virginia) AWS Bölgesi için geçerlidir. 1 yıllık ve 3 yıllık rezerve edilmiş bulut sunucusu fiyatları, "Kısmi Ön Ödeme" ödeme seçeneklerine veya Kısmı Ön Ödeme olanağı olmayan bulut sunucularında "Ön Ödemesiz" seçeneğe yöneliktir.

Amazon EC2 Inf1 bulut sunucuları; İstek Üzerine, Rezerve Edilmiş veya Spot Bulut Sunucuları olarak ABD Doğu (K. Virginia) ve ABD Batı (Oregon) AWS Bölgelerinde kullanılabilir.

Kullanmaya başlama

Amazon SageMaker Kullanımı

SageMaker, düşük gecikme süresiyle gerçek zamanlı tahminler oluşturmaya başlayabilmeniz için Amazon Inf1 bulut sunucuları üzerindeki üretim ortamınızda eğitilmiş ML modelinizi derlemenizi ve dağıtmanızı kolaylaştırır. AWS Inferentia'nın derleyicisi olan AWS Neuron, Amazon SageMaker Neo ile entegredir ve eğitilmiş ML modellerinizi Inf1 bulut sunucularında en ideal olarak çalışacak şekilde derlemenizi sağlar. SageMaker sayesinde modellerinizi yüksek performans ve yüksek erişilebilirliğe sahip gerçek zamanlı çıkarım sağlamak üzere birden fazla Erişilebilirlik Alanı'na dağıtılmış olan Inf1 bulut sunucularının otomatik ölçeklendirme kümeleri üzerinde kolayca çalıştırabilirsiniz. GitHub'daki örnekler ile SageMaker kullanarak Inf1'e nasıl dağıtım yapacağınızı öğrenin.

DLAMI'yi Kullanma

DLAMI, ML uygulayıcılarına ve araştırmacılarına bulutta ve tüm ölçeklerde derin öğrenimi hızlandırmak için kullanabilecekleri altyapıyı ve araçları sunar. AWS Neuron SDK, DLAMI'de önceden yüklenmiş hâlde gelir. Böylece, ML modellerinizi Inf1 bulut sunucularında en ideal şekilde derleyebilir ve çalıştırabilirsiniz. Başlangıç sürecinde size yardımcı olması için AMI seçim kılavuzunu ve diğer DL kaynaklarını ziyaret edin. DLAMI’yi Neuron ile nasıl kullanacağınızı öğrenmek için AWS DLAMI Kullanmaya Başlama kılavuzuna bakın.

Derin Öğrenme Container'larını Kullanma

Geliştiriciler, artık Inf1 bulut sunucularını bir tam olarak yönetilen Kubernetes hizmeti olan Amazon EKS'de veya Amazon’un bir tam olarak yönetilen container düzenleme hizmeti olan Amazon ECS'de dağıtabilirler. Amazon EKS üzerinde veya Amazon ECS ile Inf1'i kullanmaya başlama hakkında daha fazla bilgiye ulaşabilirsiniz. Container'ları Inf1 bulut sunucuları üzerinden çalıştırma konusunda Neuron container araçları öğreticisi sayfasından ulaşabilirsiniz. Neuron, AWS Derin Öğrenme Container'larında önceden yüklenmiş olarak da mevcuttur.

Bloglar ve makaleler

Amazon Search, AWS Inferentia ile ML çıkarım maliyetlerini nasıl %85 oranında azalttı?

Yazar: Joao Moura, Jason Carlson, Jaspreet Singh, Shaohui Xi, Shruti Koparkar, Haowei Sun, Weiqi Zhang ve Zhuoqi Zhangs, 22.09.2022

High-performance, low-cost machine learning infrastructure is accelerating innovation in the cloud

Yazar: MIT Technology Review Insights, 01.11.2021

Choose the best AI accelerator and model compilation for computer vision inference with Amazon SageMaker

Yazarlar: Davide Galliteli ve Hasan Poonawala, 19.10.2021

Machine learning in the cloud is helping businesses innovate

Yazar: MIT Technology Review Insights, 15.10.2021

AWS Inferentia ile Amazon EKS'de saatte 50 USD altında bir ücret karşılığında 3.000 derin öğrenme modeli sunun

Yazarlar: Alex Iankoulski, Joshua Correa, Mahadevan Balasubramaniam ve Sundar Ranganatha, 30.09.2021

Achieve 12x higher throughput and lowest latency for PyTorch Natural Language Processing applications out-of-the-box on AWS Inferentia

Yazarlar: Fabio Nonato de Paula ve Mahadevan Balasubramaniam, 4.05.2021

How We Used AWS Inferentia to Boost PyTorch NLP Model Performance by 4.9x for the Autodesk Ava Chatbot

Yazar: Binghui Ouyang, 7.04.2021

Majority of Alexa now running on faster, more cost-effective Amazon EC2 Inf1 instances

Yazar: Sébastien Stormacq, 12.11.2020

Announcing availability of Inf1 instances in Amazon SageMaker for high performance and cost-effective machine learning inference

Yazar: Julien Simon, 22.04.2020

Amazon ECS Now Supports EC2 Inf1 Instances

Yazar: Julien Simon, 14.08.2020

Deploying TensorFlow OpenPose on AWS Inferentia-based Inf1 instances for significant price performance improvements

Yazarlar: Fabio Nonato De Paula ve Haichen Li, 22.07.2020

Amazon EKS now supports EC2 Inf1 instances

Yazar: Julien Simon, 15.06.2020

Amazon EC2 Update – Inf1 Instances with AWS Inferentia Chips for High Performance Cost-Effective Inferencing

Yazar: Jeff Barr, 3.12.2019

AWS Inferentia is now available in 11 AWS Regions, with best-in-class performance for running object detection models at scale

Yazar: Gadi Hutt, 28.09.2020

Ek kaynaklar

Amazon EC2 Inf1'i kullanarak makine öğrenimi çıkarım maliyetlerinizde %71’e varan tasarruf edin

Web Semineri: Yeni Amazon EC2 Inf1 bulut sunucuları ile ML uygulamalarını çalıştırma maliyetini azaltın

Amazon EC2 Inf1 bulut sunucuları: bulutta en düşük maliyetli makine öğrenimi çıkarımı ile yüksek performans

TensorFlow modellerinin Amazon SageMaker ile AWS Inferentia tabanlı Inf1 bulut sunucularında dağıtılması