- Amazon EC2›
- Tipe instans›
- Instans Inf2
Instans Inf2 Amazon EC2
Performa tinggi dengan biaya terendah di Amazon EC2 untuk inferensi AI generatif
Mengapa Instans Inf2 Amazon EC2?
Instans Inf2 Amazon Elastic Compute Cloud (Amazon EC2) dibuat khusus untuk inferensi deep learning (DL). Instans tersebut memberikan performa tinggi dengan biaya terendah di Amazon EC2 untuk model kecerdasan buatan (AI) generatif, termasuk model bahasa besar (large language models, LLM) dan transformator visi. Anda dapat menggunakan instans Inf2 untuk menjalankan aplikasi inferensi untuk perangkuman teks, pembuatan kode, pembuatan video dan gambar, pengenalan suara, personalisasi, deteksi penipuan, dan banyak lagi.
Instans Inf2 didukung oleh AWS Inferentia2, chip AWS Inferentia generasi kedua. Instans Inf2 meningkatkan performa Inf1 dengan memberikan performa komputasi 3x lebih tinggi, memori akselerator total 4x lebih besar, throughput hingga 4x lebih tinggi, dan latensi hingga 10x lebih rendah. Instans Inf2 merupakan instans pertama dengan pengoptimalan inferensi di Amazon EC2 untuk mendukung inferensi terdistribusi penskalaan ke luar dengan konektivitas berkecepatan sangat tinggi di antara cip Inferentia. Anda kini dapat melakukan deployment model secara efisien dan hemat biaya dengan ratusan miliar parameter di beberapa cip pada instans Inf2.
SDK AWS Neuron membantu developer melakukan deployment model pada cip AWS Inferentia (dan melatihnya pada cip AWS Trainium). SDK AWS Neuron terintegrasi secara native dengan kerangka kerja, seperti PyTorch dan TensorFlow sehingga Anda dapat terus menggunakan kode aplikasi dan alur kerja yang ada untuk menjalankannya di instans Inf2.
Keuntungan
Instans Inf2 adalah instans pertama dengan pengoptimalan inferensi di Amazon EC2 untuk mendukung inferensi terdistribusi dalam skala besar. Sekarang Anda dapat melakukan deployment model secara efisien dengan ratusan miliar parameter di beberapa cip Inferentia pada instans Inf2 menggunakan konektivitas berkecepatan sangat tinggi di antara cip tersebut.
Instans Inf2 dirancang untuk memberikan performa tinggi dengan biaya terendah di Amazon EC2 untuk deployment DL Anda. Instans Inf2 menawarkan throughput hingga 4x lebih tinggi dan latensi hingga 10x lebih rendah daripada instans Inf1 Amazon EC2. Instans Inf2 memberikan performa harga yang lebih baik hingga 40% dibandingkan instans Amazon EC2 lainnya yang sebanding.
Gunakan SDK AWS Neuron untuk mengekstrak performa penuh instans Inf2. Dengan Neuron, Anda dapat menggunakan kerangka kerja yang ada, seperti PyTorch dan TensorFlow serta mendapatkan performa kreatif yang dioptimalkan untuk model di repositori populer seperti Hugging Face. Neuron mendukung integrasi runtime dengan alat penyajian seperti TorchServe dan TensorFlow Serving. Neuron juga membantu mengoptimalkan performa dengan profil bawaan dan alat debugging seperti Neuron-Top dan terintegrasi ke dalam alat visualisasi populer seperti TensorBoard.
Instans Inf2 memberikan performa/watt hingga 50% lebih baik dibandingkan dengan instans Amazon EC2 lainnya yang sebanding. Instans ini dan cip Inferentia2 yang mendasarinya menggunakan proses silikon canggih serta pengoptimalan perangkat keras dan perangkat lunak untuk menghasilkan efisiensi energi yang tinggi saat menjalankan model DL dalam skala besar. Gunakan Instans Inf2 untuk membantu Anda mencapai tujuan keberlanjutan saat melakukan deployment model yang sangat besar.
Fitur
Instans Inf2 didukung oleh hingga 12 cip AWS Inferentia2 yang terhubung dengan NeuronLink berkecepatan sangat tinggi untuk komunikasi kolektif yang efisien. Instans Inf2 menawarkan hingga 2,3 petaflop komputasi dan throughput hingga 4x lebih tinggi serta latensi 10x lebih rendah daripada instans Inf1.
Untuk mengakomodasi model DL yang besar, instans Inf2 menawarkan memori akselerator bersama hingga 384 GB (32 GB HBM di setiap cip Inferentia2, 4x lebih besar daripada Inferentia generasi pertama) dengan total bandwidth memori 9,8 TB/detik (10x lebih cepat daripada Inferentia generasi pertama).
Untuk komunikasi cepat di antara cip Inferentia2, instans Inf2 mendukung 192 GB/detik NeuronLink, interkoneksi tanpa pemblokiran berkecepatan tinggi. Inf2 adalah satu-satunya instans dengan pengoptimalan inferensi untuk menawarkan interkoneksi ini, fitur yang hanya tersedia di instans pelatihan yang lebih mahal. Untuk model yang sangat besar dan tidak cocok dengan cip tunggal, data mengalir langsung di antara cip dengan NeuronLink, melewati CPU sepenuhnya. Dengan NeuronLink, Inf2 mendukung inferensi terdistribusi yang lebih cepat dan meningkatkan throughput serta latensi.
Inferentia2 mendukung FP32, TF32, BF16, FP16, UINT8, dan tipe data FP8 (cFP8) baru yang dapat dikonfigurasi. AWS Neuron dapat menggunakan model FP32 dan FP16 yang sangat presisi dan melakukan autocast menjadi tipe data dengan tingkat presisi lebih rendah, sekaligus mengoptimalkan akurasi dan performa. Autocasting mengurangi waktu masuk pasar dengan menghilangkan kebutuhan untuk pelatihan ulang dengan presisi yang lebih rendah dan memungkinkan inferensi dengan performa yang lebih tinggi dengan tipe data yang lebih kecil.
Untuk mendukung laju inovasi DL, instans Inf2 memiliki beberapa inovasi yang membuatnya fleksibel dan dapat diperpanjang untuk melakukan deployment model DL yang terus berkembang. Instans Inf2 memiliki optimalisasi perangkat keras dan dukungan perangkat lunak untuk bentuk input dinamis. Untuk memungkinkan dukungan bagi operator baru di masa depan, instans Inf2 mendukung operator kustom yang ditulis dalam C++. Instans Inf2 juga mendukung pembulatan stokastik, suatu metode pembulatan secara probabilistik yang memungkinkan performa tinggi dan akurasi yang lebih tinggi dibandingkan mode pembulatan yang lama.
Detail produk
|
Instance Size
|
Inferentia2 Chips
|
Accelerator Memory (GB)
|
vCPU
|
Memory (GiB)
|
Local Storage
|
Inter-Chip Interconnect
|
Network Bandwidth (Gbps)
|
EBS Bandwidth (Gbps)
|
On-Demand Price
|
1-Year Reserved Instance
|
3-Year Reserved Instance
|
|---|---|---|---|---|---|---|---|---|---|---|---|
|
inf2.xlarge
|
1
|
32
|
4
|
16
|
Hanya EBS
|
Tidak tersedia
|
Hingga 15
|
Hingga 10
|
0,76 USD
|
0,45 USD
|
0,30 USD
|
|
inf2.8xlarge
|
1
|
32
|
32
|
128
|
Hanya EBS
|
Tidak tersedia
|
Hingga 25
|
10
|
1,97 USD
|
1,81 USD
|
0,79 USD
|
|
inf2.24xlarge
|
6
|
192
|
96
|
384
|
Hanya EBS
|
Ya
|
50
|
30
|
6,49 USD
|
3,89 USD
|
2,60 USD
|
|
inf2.48xlarge
|
12
|
384
|
192
|
768
|
Hanya EBS
|
Ya
|
100
|
60
|
12,98 USD
|
7,79 USD
|
5,19 USD
|
Testimoni Pelanggan dan Partner
Berikut adalah beberapa contoh dari cara pelanggan dan partner dalam mencapai tujuan bisnis mereka dengan instans Inf2 Amazon EC2.
Leonardo.ai
“Tim kami di Leonardo memanfaatkan AI generatif untuk memungkinkan para profesional dan penggemar kreatif menghasilkan aset visual dengan kualitas, kecepatan, dan konsistensi gaya yang tak tertandingi. Harga terhadap performa AWS Inf2 Utilizing AWS Inf2 kami dapat mengurangi biaya hingga 80% tanpa mengorbankan performa, yang secara mendasar mengubah proposisi nilai yang dapat kami tawarkan kepada pelanggan untuk memungkinkan fitur-fitur kami yang paling canggih pada titik harga yang lebih mudah diakses. AWS Inf2 Utilizing AWS Inf2 juga mengurangi kekhawatiran seputar ketersediaan biaya dan kapasitas untuk layanan AI tambahan kami, yang semakin penting seiring dengan pertumbuhan dan peningkatan skala kami. Ini adalah teknologi kunci yang memungkinkan bagi kami karena kami terus mendorong apa yang mungkin dengan AI generatif, memungkinkan era baru kreativitas dan kekuatan ekspresif bagi pengguna kami. “
Pete Werner, Head of AI di Leonardo.Ai
landasan pacu
“Di Runway, rangkaian Alat Ajaib AI kami memungkinkan pengguna kami untuk menghasilkan dan mengedit konten yang belum pernah ada sebelumnya. Kami terus mencoba hal lain yang mungkin dilakukan melalui pembuatan konten yang didukung AI, dan karena model AI kami menjadi lebih kompleks, biaya infrastruktur yang mendasari untuk menjalankan model ini dalam skala besar bisa menjadi mahal. Melalui kolaborasi dengan instans Inf2 Amazon EC2 yang didukung oleh AWS Inferentia, kami dapat menjalankan beberapa model dengan throughput hingga 2x lebih tinggi daripada instans berbasis GPU yang setara. Inferensi berkinerja tinggi dan berbiaya rendah ini memungkinkan kami untuk memperkenalkan lebih banyak fitur, menerapkan model yang lebih kompleks, dan pada akhirnya memberikan pengalaman yang lebih baik bagi jutaan pembuat konten yang menggunakan Runway. “
Cristóbal Valenzuela, Cofounder dan CEO di Runway
Qualtrics
Qualtrics mendesain dan mengembangkan perangkat lunak manajemen pengalaman.
“Di Qualtrics, fokus kami adalah membangun teknologi yang menutup kesenjangan pengalaman bagi pelanggan, karyawan, merek, dan produk. Untuk mencapainya, kami mengembangkan model DL multitugas dan multimodal yang kompleks untuk meluncurkan berbagai fitur baru, seperti klasifikasi teks, penandaan urutan, analisis diskursus, ekstraksi frasa kunci, ekstraksi topik, pembuatan klaster, dan pemahaman percakapan ujung ke ujung. Saat kami menggunakan model yang lebih kompleks ini dalam lebih banyak aplikasi, volume data tidak terstruktur akan meningkat, dan kami membutuhkan lebih banyak solusi yang dioptimalkan dengan inferensi yang dapat memenuhi tuntutan ini, seperti instans Inf2, untuk menghadirkan pengalaman terbaik bagi pelanggan kami. Kami senang dengan instans Inf2 baru karena tidak hanya akan memungkinkan kami mencapai throughput yang lebih tinggi, sekaligus mengurangi latensi secara dramatis, tetapi juga memperkenalkan fitur seperti inferensi terdistribusi dan dukungan bentuk input dinamis yang ditingkatkan, yang akan membantu kami menskalakan untuk memenuhi kebutuhan penerapan saat kami mendorong menuju model besar yang lebih besar dan lebih kompleks. “
Aaron Colak, Head of Core Machine Learning di Qualtrics
Finch Computing
Finch Computing adalah perusahaan teknologi bahasa alami yang menyediakan aplikasi kecerdasan buatan untuk klien pemerintah, layanan keuangan, dan integrator data.
“Untuk memenuhi kebutuhan pelanggan kami akan pemrosesan bahasa alami real-time, kami mengembangkan model DL canggih yang dapat disesuaikan dengan beban kerja produksi yang besar. Kami harus menyediakan transaksi berlatensi rendah dan mencapai throughput tinggi untuk memproses umpan data global. Kami telah memigrasikan banyak beban kerja produksi ke instans Inf1 dan mampu memangkas biaya sebesar 80% melebihi GPU. Saat ini, kami sedang mengembangkan model yang lebih besar dan lebih kompleks yang memungkinkan pengartian yang lebih berwawasan dan lebih mendalam dari teks tertulis. Banyak pelanggan kami yang memerlukan akses ke wawasan ini secara waktu nyata, dan performa pada instans Inf2 akan membantu kami memberikan latensi yang lebih rendah serta throughput yang lebih tinggi daripada instans Inf1. Dengan peningkatan kinerja Inf2 dan fitur Inf2 baru, seperti dukungan untuk ukuran input dinamis, kami meningkatkan efisiensi biaya, meningkatkan pengalaman pelanggan secara real-time, dan membantu pelanggan kami mengumpulkan wawasan baru dari data mereka. “
Franz Weckesser, Chief Architect di Finch Computing
Money Forward Inc.
Money Forward, Inc. melayani bisnis dan perorangan dengan platform keuangan yang terbuka dan adil. Sebagai bagian dari platform ini, HiTTO Inc., perusahaan grup Money Forward menawarkan layanan chatbot AI, yang menggunakan model pemrosesan bahasa alami (natural language processing, NLP) yang disesuaikan untuk memenuhi beragam kebutuhan pelanggan perusahaan mereka.
“Kami meluncurkan layanan chatbot AI skala besar pada instans Amazon EC2 Inf1 dan mengurangi latensi inferensi kami sebesar 97% dibandingkan instans berbasis GPU yang sebanding sambil juga mengurangi biaya. Kami sangat senang melihat peningkatan performa lebih lanjut dalam hasil pengujian awal kami pada instans Inf2 Amazon EC2. Dengan model NLP kustom yang sama, Inf2 AWS dapat mengurangi latensi hingga 10x dibandingkan Inf1. Saat kami beralih ke model parameter multi-miliar yang lebih besar, Inf2 memberi kami keyakinan bahwa kami dapat terus memberikan pelanggan kami pengalaman pengguna ujung ke ujung yang unggul. “
Takuya Nakade, CTO di Money Forward Inc.
Membaca file
“Di Fileread.ai, kami membangun solusi untuk membuat interaksi dengan dokumen Anda semudah mengajukan pertanyaan kepada mereka, memungkinkan pengguna menemukan apa yang mereka cari, dari semua dokumen mereka dan mendapatkan informasi yang tepat dengan lebih cepat. Sejak beralih ke instans Inf2 EC2 baru, kami telah melihat peningkatan yang signifikan dalam kemampuan inferensi NLP kami. Penghematan biaya saja telah menjadi terobosan bagi kami, memungkinkan kami mengalokasikan sumber daya dengan lebih efisien tanpa mengorbankan kualitas. Kami mengurangi latensi inferensi sebesar 33% sekaligus meningkatkan throughput sebesar 50% sehingga dapat memuaskan pelanggan kami dengan penyelesaian yang lebih cepat. Tim kami telah terpesona oleh kecepatan dan kinerja Inf2 dibandingkan dengan instans G5 yang lebih lama, dan jelas bahwa ini adalah model NLP yang digunakan di masa depan”
Daniel Hu, CEO di Fileread
Yaraku
“Di Yaraku, misi kami adalah membangun infrastruktur yang membantu orang berkomunikasi melintasi hambatan bahasa. Produk unggulan kami, YarakuZen, memungkinkan siapa saja, mulai dari penerjemah profesional hingga individu monolingual, untuk menerjemahkan dan mengedit teks serta dokumen dengan penuh keyakinan. Untuk mendukung proses ini, kami menawarkan berbagai alat canggih berdasarkan model DL, yang mencakup berbagai tugas seperti penerjemahan, pencocokan per kata antara bahasa sumber dan bahasa target (bitext word alignment), segmentasi kalimat, pemodelan bahasa, dan lainnya. Dengan instans Inf1, kami dapat mempercepat layanan dalam memenuhi permintaan yang terus meningkat sekaligus mengurangi biaya inferensi lebih dari 50% dibandingkan instans berbasis GPU. Kami kini beralih ke pengembangan model generasi berikutnya yang lebih besar dan akan membutuhkan kemampuan instans Inf2 yang ditingkatkan untuk memenuhi permintaan sekaligus mempertahankan latensi rendah. Dengan Inf2, kami akan dapat meningkatkan model kami sebesar 10x sambil mempertahankan throughput yang sama, memungkinkan kami untuk memberikan tingkat kualitas yang lebih tinggi kepada pelanggan kami. “
Giovanni Giacomo, NLP Lead di Yaraku
Hugging Face
Misi Hugging Face adalah mendemokratisasi ML yang baik untuk membantu pengembang ML di seluruh dunia memecahkan masalah dunia nyata. Kunci untuk mewujudkan hal itu adalah dengan memastikan model-model terbaru dan terhebat dapat berjalan secepat dan seefisien mungkin pada cip ML terbaik di cloud. Kami sangat senang dengan potensi Inferentia2 untuk menjadi cara standar baru untuk melakukan deployment model AI generatif dalam skala besar. Dengan Inf1, kami melihat biaya hingga 70% lebih rendah daripada instans berbasis GPU tradisional, dan dengan Inf2, kami telah melihat latensi hingga 8x lebih rendah untuk Transformator menyerupai BERT dibandingkan dengan Inferentia1. Dengan Inferentia2, komunitas kami akan dapat dengan mudah menskalakan kinerja ini ke LLM pada skala parameter 100B +, dan juga model difusi dan visi komputer terbaru. “
PyTorch
“PyTorch mempercepat jalur dari pembuatan prototipe penelitian ke penerapan produksi untuk pengembang ML. Kami telah berkolaborasi dengan tim AWS untuk memberikan dukungan PyTorch native untuk instans Inf2 Amazon EC2 baru yang didukung AWS Inferentia2. Karena makin banyak anggota komunitas kami yang ingin melakukan deployment model AI generatif yang besar, kami sangat senang bermitra dengan tim AWS untuk mengoptimalkan inferensi terdistribusi pada instans Inf2 dengan konektivitas NeuronLink berkecepatan tinggi di antara cip. Dengan Inf2, developer yang menggunakan PyTorch sekarang dapat dengan mudah melakukan deployment LLM dan model transformator visi yang sangat besar. Selain itu, instans Inf2 menghadirkan kemampuan inovatif lainnya kepada pengembang PyTorch, termasuk tipe data yang efisien, bentuk dinamis, operator khusus, dan pembulatan stokastik yang dioptimalkan perangkat keras, membuatnya sangat cocok untuk adopsi luas oleh komunitas PyTorch. “
Nextira
“Tantangan historis dengan LLM, dan lebih luas lagi dengan aplikasi AI generatif tingkat perusahaan, adalah biaya yang terkait dengan pelatihan dan menjalankan model DL berkinerja tinggi. Bersama AWS Trainium, AWS Inferentia2 meminimalkan biaya yang perlu dikeluarkan oleh pelanggan saat mereka membutuhkan pelatihan beperforma tinggi. Kini, pelanggan kami yang ingin mengambil manfaat dalam pelatihan dan inferensi dapat mencapai hasil yang lebih baik dengan biaya yang rendah. Trainium dan Inferentia dapat mempercepat skala guna memenuhi segala kebutuhan DL, bahkan yang paling kompleks, untuk perusahaan-perusahaan besar yang ada saat ini. Banyak pelanggan Nextira yang menjalankan beban kerja AI besar akan mendapat manfaat langsung dengan chipset baru ini, meningkatkan efisiensi dalam penghematan biaya dan kinerja dan mengarah ke hasil yang lebih cepat di pasar mereka. “
Jason Cutrer, founder dan CEO di Nextira
Amazon CodeWhisperer
Amazon CodeWhisperer adalah pendamping pengodean AI yang menghasilkan rekomendasi kode satu baris atau fungsi penuh secara waktu nyata di lingkungan pengembangan terintegrasi (integrated development environment, IDE) untuk membantu Anda membangun perangkat lunak dengan cepat.
“Dengan CodeWhisperer, kami meningkatkan produktivitas pengembang perangkat lunak dengan memberikan rekomendasi kode menggunakan model AI generatif. Untuk mengembangkan rekomendasi kode yang sangat efektif, kami meningkatkan jaringan DL kami menjadi miliaran parameter. Pelanggan kami membutuhkan rekomendasi kode secara real time saat mereka mengetik, sehingga respons latensi rendah sangat penting. Model AI generatif yang besar memerlukan komputasi dengan performa tinggi untuk memberikan waktu respons dalam sepersekian detik. Dengan Inf2, kami memberikan latensi yang sama seperti menjalankan CodeWhisperer pada instans GPU pelatihan yang dioptimalkan untuk urutan input dan output yang besar. Dengan demikian, instans Inf2 membantu kami menghemat biaya dan daya sambil memberikan pengalaman terbaik bagi pengembang. “
Doug Seven, General Manager di Amazon CodeWhisperer
Pencarian Amazon
Mesin pencarian produk Amazon mengindeks miliaran produk, melayani miliaran kueri pelanggan setiap harinya, dan merupakan salah satu layanan yang paling banyak digunakan di dunia.
“Saya sangat senang dengan peluncuran Inf2 GA. Performa unggul dari Inf2, ditambah dengan kemampuannya untuk menangani model yang lebih besar dengan miliaran parameter, menjadikannya pilihan yang sempurna untuk layanan kami dan memungkinkan kami untuk membuka kemungkinan baru dalam hal kompleksitas dan akurasi model. Dengan kecepatan dan efisiensi biaya yang signifikan yang ditawarkan oleh Inf2, mengintegrasikannya ke dalam infrastruktur layanan Amazon Search dapat membantu memenuhi permintaan pelanggan kami yang terus meningkat. Kami berencana untuk memperkuat pengalaman belanja baru kami menggunakan LLM generatif menggunakan Inf2. “
Trishul Chilimbi, VP di Amazon Search
Memulai
Deploy model pada instans Inf2 dengan lebih mudah menggunakan Amazon SageMaker dan secara signifikan kurangi biaya untuk melakukan deployment model ML serta tingkatkan performa tanpa perlu mengelola infrastruktur. SageMaker adalah layanan yang dikelola sepenuhnya dan terintegrasi dengan alat MLOps. Oleh karena itu, Anda dapat menskalakan deployment model, mengelola model dengan lebih efektif dalam produksi, dan mengurangi beban operasional.
AWS Deep Learning AMI (DLAMI) menyediakan infrastruktur dan alat bagi praktisi serta peneliti DL untuk mempercepat DL di cloud, pada skala apa pun. Driver AWS Neuron telah dikonfigurasi sebelumnya dalam DLAMI untuk melakukan deployment model DL Anda secara optimal pada instans Inf2.
Sekarang Anda dapat melakukan deployment instans Inf2 di Amazon Elastic Kubernetes Service (Amazon EKS), layanan Kubernetes terkelola penuh, dan di Amazon Elastic Container Service (Amazon ECS), layanan orkestrasi kontainer terkelola penuh. Neuron prainstal juga tersedia di Kontainer AWS Deep Learning. Untuk mempelajari selengkapnya tentang cara menjalankan kontainer di instans Inf2, lihat tutorial kontainer Neuron.