Instans Inf1 Amazon EC2

Inferensi pembelajaran mesin kinerja tinggi berbiaya paling rendah di cloud

Bisnis di berbagai rangkaian industri mencari transformasi yang didukung kecerdasan buatan (AI) untuk mendorong inovasi bisnis, meningkatkan pengalaman pelanggan, dan memproses peningkatan. Model machine learning yang mendukung aplikasi kecerdasan buatan (AI) menjadi makin kompleks, yang berakibat meningkatnya biaya infrastruktur komputasi dasar. Hingga 90% pengeluaran infrastruktur untuk mengembangkan dan menjalankan aplikasi ML sering di inferensi. Pelanggan mencari solusi infrastruktur yang hemat biaya untuk menerapkan aplikasi ML mereka dalam produksi.

Instans Inf1 Amazon EC2 menghadirkan inferensi ML berkinerja tinggi dan berbiaya paling rendah di cloud. Instans tersebut mengirimkan throughput yang lebih tinggi hingga 2,3x dan biaya yang lebih rendah hingga 70% per inferensi dibandingkan instans Amazon EC2 berbasis GPU generasi saat ini yang sebanding. Instans Inf1 dibangun dari nol untuk mendukung aplikasi inferensi pembelajaran mesin. Instans tersebut menghadirkan hingga 16 chip AWS Inferentia, chip machine learning berkinerja tinggi yang dirancang dan dibuat oleh AWS. Selain itu, instans Inf1 menyertakan prosesor Intel® Xeon® Scalable generasi ke-2 dan jaringan hingga 100 Gbps yang mengirimkan inferensi throughput tinggi.

Pelanggan bisa menggunakan instans Inf1 untuk menjalankan aplikasi inferensi machine learning skala besar seperti pencarian, mesin rekomendasi, visi komputer, pengenalan ucapan, pemrosesan bahasa alami, personalisasi, dan deteksi penipuan, dengan biaya terendah di cloud.

Developer bisa menerapkan model machine learning pada instans Inf1 menggunakan AWS Neuron SDK, yang terintegrasi dengan kerangka kerja machine learning populer seperti TensorFlow, PyTorch, dan MXNet. Mereka bisa terus menggunakan alur kerja ML yang sama dan dengan lancar memigrasikan aplikasi ke instans Inf1 dengan perubahan kode minimal dan tanpa terikat ke solusi khusus vendor.

Mulai dengan mudah dengan instans Inf1 menggunakan Amazon SageMaker, AMI AWS Deep Learning yang dikonfigurasi sebelumnya dengan Neuron SDK, atau menggunakan Amazon ECS atau Amazon EKS untuk aplikasi ML dalam kontainer.

Amazon EC2 Inf1 instances based on AWS Inferentia (2:51)

Keuntungan

Biaya per inferensi yang lebih rendah hingga 70%

Dengan menggunakan Inf1, developer bisa mengurangi biaya penerapan produksi machine learning mereka secara signifikan dengan biaya paling rendah per inferensi di cloud. Kombinasi biaya instans yang rendah dan throughput tinggi instans Inf1 memberikan biaya per inferensi yang lebih rendah hingga 70% dibandingkan instans Amazon EC2 berbasis GPU generasi saat ini yang sebanding.

Kemudahan penggunaan dan portabilitas kode

Neuron SDK terintegrasi dengan kerangka kerja machine learning umum seperti TensorFlow, PyTorch, dan MXNet. Developer bisa terus menggunakan alur kerja ML yang sama dan dengan lancar memigrasikan aplikasi mereka ke instans Inf1 dengan perubahan kode minimal. Hal ini memberi mereka kebebasan untuk menggunakan kerangka kerja machine learning pilihan, platform komputasi yang paling memenuhi persyaratan mereka, dan memanfaatkan teknologi terbaru tanpa terikat dengan solusi khusus vendor.

Throughput yang lebih tinggi hingga 2,3x

Instans Inf1 mengirimkan throughput yang lebih tinggi hingga 2,3x dibandingkan instans Amazon EC2 berbasis GPU generasi saat ini yang sebanding. Chip AWS Inferentia yang mendukung instans Inf1 dioptimalkan untuk kinerja inferensi untuk ukuran batch kecil, memungkinkan aplikasi waktu nyata memaksimalkan throughput dan memenuhi persyaratan latensi.

Latensi yang luar biasa rendah

Chip AWS Inferentia dilengkapi dengan memori on-chip besar yang memungkinkan cache model machine learning langsung di chip. Anda bisa menerapkan model Anda menggunakan kemampuan seperti NeuronCore Pipeline yang menghilangkan kebutuhan untuk mengakses sumber daya memori luar. Dengan Instans Inf1, Anda bisa menerapkan aplikasi inferensi waktu nyata pada latensi hampir secara waktu nyata tanpa memengaruhi bandwidth.

Dukungan untuk berbagai model dan jenis data machine learning

Instans Inf1 mendukung banyak arsitektur model machine learning yang umum digunakan seperti SSD, VGG, dan dan ResNext untuk pengenalan/klasifikasi gambar serta Transformer dan BERT untuk pemrosesan bahasa alami. Selain itu, dukungan untuk repositori model HuggingFace di Neuron memberi pelanggan kemampuan untuk menyusun dan menjalankan inferensi menggunakan model yang dilatih sebelumnya – atau bahkan yang disetel, dengan mudah, cukup dengan mengubah satu baris kode. Beberapa jenis data termasuk BF16 dan FP16 dengan presisi campuran juga didukung untuk berbagai model dan kebutuhan kinerja.

Fitur

Didukung Oleh AWS Inferentia

AWS Inferentia adalah chip intereferensi pembelajaran mesin yang dirancang dan dibuat oleh AWS untuk menghasilkan kinerja tinggi berbiaya rendah. Setiap chip AWS Inferentia menyediakan hingga 128 TOPS (triliunan operasi per detik) kinerja, dan dukungan untuk tipe data FP16, BF16, dan INT8. Chip AWS Inferentia juga memiliki sejumlah besar memori on-chip yang dapat digunakan untuk membuat cache model besar, yang khususnya bermanfaat bagi model yang memerlukan akses memori secara sering.

Kit pengembangan perangkat lunak (SDK) AWS Neuron terdiri dari compiler, driver run-time, dan alat pembuatan profil. Hal ini memungkinkan penerapan model jaringan neural kompleks, yang dibuat dan dilatih di kerangka kerja populer seperti TensorFlow, PyTorch, dan MXNet, bisa dieksekusi menggunakan instans Inf1. Dengan NeuronCore Pipeline dari Neuron, Anda bisa memecah model besar untuk eksekusi di beberapa chip Inferentia menggunakan interkoneksi chip ke chip fisik kecepatan tinggi, yang memberikan throughput inferensi tinggi, tetapi biaya inferensi yang lebih rendah.

Jaringan dan penyimpanan berkinerja tinggi

Instans Inf1 menawarkan throughput jaringan hingga 100 Gbps untuk aplikasi yang memerlukan akses ke jaringan berkecepatan tinggi. Teknologi Elastic Network Adapter (ENA) dan NVM Express (NVMe) generasi berikutnya menyediakan instans Inf1 dengan antarmuka throughput tinggi dan latensi rendah untuk jaringan dan Amazon Elastic Block Store (Amazon EBS).

Dibangun di AWS Nitro System

AWS Nitro System adalah kumpulan komponen dasar yang mengalihkan beban berbagai fungsi virtualisasi konvensional ke perangkat keras dan perangkat lunak khusus untuk memberikan kinerja tinggi, ketersediaan tinggi, dan keamanan tinggi sekaligus juga mengurangi biaya overhead virtualisasi.

Cara kerjanya

Cara menggunakan Inf1 dan AWS Inferentia

Testimoni Pelanggan

SkyWatch
“Bungee Tech mendorong peritel dan merek untuk bersaing secara efektif dalam lanskap yang selalu berubah dengan menganalisis jutaan produk di seluruh dunia untuk memberikan data kecerdasan pasar canggih dengan analitik terbaik di kelasnya. Analisis kami dirancang supaya akurat, bisa ditindaklanjuti, dan tepat waktu untuk memberi klien kami keuntungan kompetitif yang unik. Kami memigrasikan beban kerja inferensi NLP throughput tinggi kami dari instans berbasis GPU ke instans Inf1 Amazon EC2. Model kami mudah dioptimalkan untuk menjalankan instans Inf1 dan memerlukan satu teknisi sekitar satu hari untuk menyiapkan dan mengautomasikannya. Dengan mengizinkan kami menjalankan model yang lebih besar dan lebih akurat tanpa meningkatkan biaya, instans Inf1 memungkinkan kami memberikan pengalaman unggul ke pelanggan kami.”

Charles Ding, CTO, Bungee Tech

SkyWatch
"Kami menggabungkan machine learning (ML) ke dalam banyak aspek Snapchat dan menjelajahi inovasi di bidang ini menjadi prioritas utama. Setelah mendengar tentang Inferentia, kami mulai berkolaborasi dengan AWS untuk mengadopsi instans Inf1/Inferentia untuk membantu kami dengan penerapan ML, termasuk dalam hal kinerja dan biaya. Kami mulai dengan model rekomendasi, dan tidak sabar ingin mengadopsi lebih banyak model dengan instans Inf1 di masa depan.”

Nima Khajehnouri, VP Engineering, Snap Inc.

Anthem
"Autodesk memajukan teknologi kognitif asisten virtual yang didukung kecerdasan buatan (AI) kami, Autodesk Virtual Agent (AVA) dengan menggunakan Inferentia. AVA menjawab lebih dari 100.000 pertanyaan pelanggan per bulan dengan menerapkan teknik natural language understanding (NLU) dan pembelajaran mendalam untuk mengekstrak konteks, tujuan, dan makna di balik pertanyaan. Dengan memelopori Inferentia, kami mampu mendapatkan throughput yang 4,9x lebih tinggi daripada G4dn untuk model NLU kami, dan tidak sabar ingin menjalankan lebih banyak beban kerja di instans Inf1 berbasis Inferentia.”

Binghui Ouyang, Sr Data Scientist, Autodesk

Anthem
Anthem adalah salah satu perusahaan manfaat kesehatan terkemuka nasional, melayani kebutuhan perawatan kesehatan lebih dari 40 juta anggota di lusinan negara bagian. "Pasar platform kesehatan digital tumbuh luar biasa pesat. Mengumpulkan intelijen di pasar ini menjadi tugas yang menantang karena banyaknya data opini pelanggan dan sifatnya tidak terstruktur. Aplikasi kami mengotomatiskan pembuatan wawasan yang dapat ditindaklanjuti dari opini pelanggan melalui model bahasa alami pembelajaran mendalam (Transformer). Aplikasi kami intensif komputasi dan harus diterapkan dengan kinerja sangat tinggi. Kami menerapkan beban kerja penginferensi pembelajaran mendalam dengan mulus pada instans Inf1 Amazon EC2 yang didukung prosesor AWS Inferentia. Instans Inf1 baru memberikan throughput 2X lebih tinggi ke instans berbasis GPU sehingga kami dapat menyederhanakan beban kerja inferensi kami.”

Numan Laanait, PhD, Ilmuwan AI/Data Utama & Miro Mihaylov, PhD, Ilmuwan AI/Data Utama

Condé Nast
“Portofolio global Condé Nast terdiri lebih dari 20 merek media ternama, termasuk Wired, Vogue, dan Vanity Fair. Dalam beberapa minggu, tim kami dapat mengintegrasikan mesin rekomendasi dengan chip AWS Inferentia. Penggabungan ini memungkinkan beberapa optimalisasi runtima untuk model bahasa natural tercanggih di instans SageMaker Inf1. Hasilnya, kami mengamati pengurangan biaya sebesar 72% jika dibandingkan instans GPU yang diterapkan sebelumnya.”

Paul Fryzel, Principal Engineer, AI Infrastructure

Asahi Shimbun
“Ciao tengah mengembangkan kamera keamanan konvensional menjadi kamera analisis kinerja tinggi yang setara dengan kemampuan mata manusia. Aplikasi kami mengedepankan pencegahan bencana, memantau kondisi lingkungan dengan solusi kamera kecerdasan buatan (AI) berbasis cloud untuk memperingatkan sebelum bencana terjadi. Peringatan ini memungkinkan reaksi awal terhadap situasi. Berdasarkan deteksi objek, kami juga dapat memberikan pengamatan dengan memperkirakan jumlah tamu yang masuk tanpa staf dari video di toko fisik. Ciao Camera secara komersial mengadopsi instans Inf1 berbasis AWS Inferentia dengan kinerja harga 40% lebih baik dari G4dn dengan YOLOv4. Kami harap akan ada lebih banyak layanan kami dengan Inf1 yang memanfaatkan efisiensi biaya yang signifikan.”

Shinji Matsumoto, Pakar Perangkat Lunak, Ciao Inc.

Asahi Shimbun
“Asahi Shimbun adalah salah satu surat kabar harian paling populer di Jepang. Media Lab, yang didirikan sebagai salah satu departemen perusahaan kami, punya misi untuk meneliti teknologi terkini, khususnya AI, dan menghubungkan teknologi mutakhir untuk bisnis baru. Dengan peluncuran instans Inf1 Amazon EC2 berbasis AWS Inferentia di Tokyo, kami menguji aplikasi AI peringkasan teks berbasis PyTorch kami pada instans ini. Aplikasi ini memproses teks dalam jumlah besar dan menghasilkan berita utama dan kalimat ringkasan yang dilatih tentang artikel dari 30 tahun terakhir. Dengan Inferentia, kami menurunkan biaya menurut tingkat besaran terhadap instans berbasis CPU. Pengurangan biaya drastis ini memungkinkan kami menerapkan model paling kompleks sesuai skala, yang sebelumnya kami yakini tidak layak secara ekonomi”

Hideaki Tamori, PhD, Administrator Senior, Media Lab, Perusahaan Asahi Shimbun

CS Disco
“CS Disco menciptakan kembali teknologi hukum sebagai penyedia utama solusi AI untuk penemuan elektronik, oleh praktisi hukum dan untuk praktisi hukum. Disco AI mempercepat tugas sulit dengan menyisir data berukuran terabyte, mempercepat waktu pengulasan, dan meningkatkan akurasi pengulasan dengan memanfaatkan model Pemrosesan Bahasa Alami kompleks, yang sangat mahal secara komputasi. Disco menemukan bahwa instans Inf1 berbasis AWS Inferentia mengurangi biaya inferensi Disco AI setidaknya sebesar 35% dibandingkan instans GPU terkini. Berkat pengalaman positif dengan instans Inf1 ini, CS Disco akan mempertimbangkan kesempatan untuk bermigrasi ke Inferentia.”

Alan Lockett, Direktur Peneliti Senior di CS Disco

Talroo
“Di Talroo, pelanggan kami berikan platform berbasis data agar mereka bisa menarik kandidat pekerjaan unik, sehingga mereka bisa merekrut. Kami selalu menjajaki teknologi baru untuk memastikan adanya produk dan layanan terbaik bagi pelanggannya. Dengan Inferentia, kami mengekstrak wawasan dari korpus data teks untuk menyempurnakan teknologi cari-dan-cocokkan yang didukung AI. Talroo memanfaatkan instans Inf1 Amazon EC2 untuk membuat model Pemahaman Bahasa Alami throughput tinggi dengan SageMaker. Pengujian awal Talroo menunjukkan bahwa instans Inf1 Amazon EC2 memiliki latensi inferensi 40% lebih rendah dan throughput 2X lebih tinggi dibandingkan instans berbasis GPU G4dn. Berdasarkan hasil ini, Talroo ingin menggunakan instans Inf1 Amazon EC2 sebagai bagian dari infrastruktur AWS-nya.”

Janet Hu, Rekayasawan Perangkat Lunak, Talroo

Digital Media Professionals (DMP)
"Digital Media Professionals (DMP) memvisualisasikan masa depan dengan platform ZIA™ berbasis AI (Kecerdasan Buatan). Teknologi klasifikasi visi komputer efisien DMP digunakan untuk membangun wawasan tentang sejumlah besar data gambar waktu nyata, seperti observasi kondisi, pencegahan kejahatan, dan pencegahan kecelakaan. Kami mengetahui bahwa model segmentasi gambar kami berjalan empat kali lebih cepat di instans Inf1 berbasis AWS Inferentia dibandingkan instans G4 berbasis GPU. Karena throughput yang lebih tinggi dan biaya yang lebih rendah, Inferentia memungkinkan kami men- deploy beban kerja kecerdasan buatan (AI) seperti aplikasi untuk kamera dasbor mobil sesuai skala."

Hiroyuki Umeda - Direktur & Manajer Umum, Grup Penjualan & Pemasaran, Digital Media Professionals

Hotpot.ai
Hotpot.ai memberdayakan nondesainer dalam pembuatan grafik yang menarik dan membantu desainer profesional mengotomatiskan tugas-tugas penghafalan. "Karena pembelajaran mesin adalah inti strategi kami, kami sangat antusiaas mencoba instans Inf1 berbasis AWS Inferentia. Kami dapati ternyata instans Inf1 mudah diintegrasikan ke dalam pipeline penelitian dan pengembangan kami. Yang terpenting, kami amati peningkatan kinerjanya yang mengesankan dibandingkan dengan instans berbasis GPU G4dn. Dengan model pertama kami, instans Inf1 menghasilkan throughput sekitar 45% lebih tinggi dan menurunkan biaya per inferensi sebesar hampir 50%. Kami berniat untuk bekerja sama dengan tim AWS untuk memindahkan model lain dan mengalihkan sebagian besar infrastruktur inferensi ML kami ke AWS Inferentia."

Clarence Hu, Pendiri, Hotpot.ai

SkyWatch
"SkyWatch memproses ratusan triliun piksel data observasi Bumi, yang diambil dari luar angkasa tiap hari. Mengadopsi instans Inf1 baru berbasis AWS Inferentia menggunakan Amazon SageMaker untuk deteksi cloud secara waktu nyata dan penilaian kualitas gambar menjadi cepat dan mudah. Semua itu hanya masalah mengganti jenis instans dalam konfigurasi penerapan kami. Dengan mengalihkan jenis instans ke Inf1 berbasis Inferentia, kami meningkatkan kinerja sebesar 40% dan menurunkan biaya sebesar 23% secara keseluruhan. Ini keuntungan besar. Dengan demikian kami berhasil menurunkan biaya operasional secara keseluruhan sambil terus memberikan citra satelit berkualitas tinggi kepada pelanggan, dengan biaya teknis yang minimal. Kami berharap dapat mentransisikan semua titik akhir inferensi dan proses ML batch kami untuk menggunakan instans Inf1 guna lebih meningkatkan keandalan data dan pengalaman pelanggan kami."

Adler Santos, Manajer Teknik Rekayasa, SkyWatch

Layanan Amazon Menggunakan Instans Inf1 Amazon EC2

Amazon Alexa

Lebih dari 100 juta perangkat Alexa telah terjual secara global, dan pelanggan juga memberikan lebih dari 400.000 ulasan bintang 5 untuk perangkat Echo di Amazon. “Kecerdasan berbasis AI dan ML Amazon Alexa, yang didukung Amazon Web Services, tersedia di lebih dari 100 juta perangkat saat ini - dan janji kami kepada pelanggan adalah bahwa Alexa selalu menjadi lebih pintar, lebih komunikatif, lebih proaktif, dan bahkan lebih menyenangkan,” Kata Tom Taylor, Wakil Presiden Senior, Amazon Alexa. “Untuk memenuhi janji itu, perlu penyempurnaan berkelanjutan dalam hal waktu respons dan biaya infrastruktur pembelajaran mesin, karena itulah kami sangat senang menggunakan Amazon EC2 Inf1 untuk menurunkan latensi inferensi dan biaya per inferensi pada teks-ke-ucapan Alexa. Dengan Amazon EC2 Inf1, kami akan mampu membuat layanan menjadi lebih baik bagi puluhan juta pelanggan yang menggunakan Alexa setiap bulan.”

Amazon Alexa
“Amazon Rekognition adalah aplikasi analisis gambar dan video yang sederhana dan mudah, yang membantu pelanggan mengidentifikasi objek, manusia, teks, dan aktivitas. Amazon Rekognition memerlukan infrastruktur pembelajaran mendalam dengan kinerja tinggi yang dapat menganalisis miliaran gambar dan video setiap harinya untuk pelanggan kami. Dengan instans Inf1 berbasis AWS Inferentia, menjalankan model Rekognition seperti klasifikasi objek, menghasilkan latensi 8X lebih rendah, dan throughput 2X lipat jika dibandingkan menjalankan model ini di GPU. Berdasarkan hasil ini, kami memindahkan Rekognition ke Inf1, memberi pelanggan kami kesempatan untuk mendapatkan hasil yang akurat lebih cepat.”
 
Rajneesh Singh, Director, SW Engineering, Rekognition and Video

Harga

* Harga yang ditunjukkan adalah untuk Wilayah AWS AS Timur (Virginia Utara) Harga untuk instans terpesan 1 tahun dan 3 tahun adalah untuk opsi pembayaran "Sebagian Di Muka" atau "Tanpa Biaya Di Muka" untuk instans tanpa opsi Sebagian Di Muka.

Instans Inf1 Amazon EC2 tersedia di Wilayah AWS AS Timur (Virginia U.), AS Barat (Oregon) sebagai Instans Sesuai Permintaan, Terpesan, atau Spot.

Memulai

Menggunakan Amazon SageMaker

Amazon SageMaker memudahkan kompilasi dan penerapan model machine learning yang Anda latih dalam produksi pada instans Inf1 Amazon sehingga Anda dapat mulai membuat prediksi real-time dengan latensi rendah. AWS Neuron, kompilator untuk AWS Inferentia, terintegrasi dengan Amazon SageMaker Neo sehingga Anda dapat mengompilasi model pembelajaran mesin terlatih Anda untuk bekerja optimal pada instans Inf1. Dengan Amazon SageMaker, Anda akan mudah memilih untuk menjalankan model Anda di klaster auto scaling instans Inf1 yang tersebar di beberapa availability zone untuk menghasilkan kinerja dan interferensi waktu nyata dengan ketersediaan tinggi. Pelajari cara menerapkan ke Inf1 menggunakan Amazon SageMaker dengan contoh di Github.

Menggunakan AMI AWS Deep Learning

AMI AWS Deep Learning (DLAMI) menjadi infrastruktur dan peralatan bagi praktisi dan peneliti pembelajaran mesin guna mempercepat proses pembelajaran mendalam dalam cloud, dalam skala apa pun. AWS Neuron SDK telah diinstal sebelumnya di AMI AWS Deep Learning untuk mengompilasi dan menjalankan model pembelajaran mesin Anda secara optimal pada instans Inf1. Untuk membantu Anda melalui proses persiapan, kunjungi panduan pemilihan AMI dan sumber daya pembelajaran mendalam lainnya. Lihat panduan Memulai AWS DLAMI untuk mempelajari cara menggunakan DLAMI dengan Neuron.

Menggunakan Deep Learning Containers

Pengembang sekarang dapat menerapkan instans Inf1 di Amazon Elastic Kubernetes Service(EKS), yang merupakan layanan Kubernetes terkelola penuh, dan juga di Amazon Elastic Container Service (ECS), yang merupakan layanan orkestrasi kontainer terkelola penuh dari Amazon. Pelajari lebih lanjut tentang memulai dengan Inf1 diAmazon EKSatau denganAmazon ECS. Detail lebih lanjut tentang menjalankan kontainer di instans Inf1 tersedia di halaman tutorial alat kontainer Neuron. Neuron juga tersedia pra-instal di AWS DL Containers.

Blog dan Artikel