Instans Inf2 Amazon EC2

Performa tinggi dengan biaya terendah di Amazon EC2 untuk inferensi AI generatif

Instans Inf2 Amazon Elastic Compute Cloud (Amazon EC2) dibuat khusus untuk inferensi deep learning (DL). Instans tersebut memberikan performa tinggi dengan biaya terendah di Amazon EC2 untuk model kecerdasan buatan (AI) generatif, termasuk model bahasa besar (large language models, LLM) dan transformator visi. Anda dapat menggunakan instans Inf2 untuk menjalankan aplikasi inferensi untuk peringkasan teks, pembuatan kode, pembuatan video dan gambar, pengenalan suara, personalisasi, deteksi penipuan, dan banyak lagi.

Instans Inf2 didukung oleh AWS Inferentia2, akselerator AWS Inferentia generasi kedua. Instans Inf2 meningkatkan performa Inf1 dengan memberikan performa komputasi 3x lebih tinggi, memori akselerator total 4x lebih besar, throughput hingga 4x lebih tinggi, dan latensi hingga 10x lebih rendah. Instans Inf2 merupakan instans pertama yang dioptimalkan dengan inferensi di Amazon EC2 untuk mendukung inferensi terdistribusi scale-out dengan konektivitas yang berkecepatan sangat tinggi di antara akselerator. Sekarang Anda dapat melakukan deployment model secara efisien dan hemat biaya dengan ratusan miliar parameter di beberapa akselerator pada instans Inf2.

SDK AWS Neuron membantu developer melakukan deployment model pada akselerator AWS Inferentia (dan melatihnya pada akselerator AWS Trainium). SDK AWS Neuron terintegrasi secara native dengan kerangka kerja, seperti PyTorch dan TensorFlow sehingga Anda dapat terus menggunakan kode aplikasi dan alur kerja yang ada untuk menjalankannya di instans Inf2.

Cara kerjanya

  • Menggunakan AWS DLAMI
  • Diagram yang menunjukkan alur kerja untuk melakukan deployment instans Inf2 Amazon EC2 menggunakan AWS Deep Learning AMI (DLAMI).
  • Menggunakan Amazon EKS
  • Diagram yang menunjukkan alur kerja untuk membuat klaster Kubernetes, melakukan deployment instans Inf2 Amazon EC2 untuk klaster Anda, dan menjalankan aplikasi inferensi Anda di Kubernetes.
  • Menggunakan Amazon ECS
  • Diagram yang menunjukkan alur kerja untuk melakukan deployment instans Inf2 Amazon EC2 menggunakan AWS Deep Learning Containers dengan Amazon ECS.
  • Menggunakan Amazon SageMaker
  • Diagram yang menunjukkan alur kerja untuk menggunakan artefak model yang disimpan dalam bucket Amazon S3 dan gambar kontainer Amazon ECR dengan Amazon SageMaker untuk men-deploy inferensi pada instans Inf2.

Manfaat

Men-deploy model AI generatif dengan lebih dari 100 miliar parameter dalam skala besar

Instans Inf2 adalah instans pertama yang dioptimalkan dengan inferensi di Amazon EC2 untuk mendukung inferensi terdistribusi dalam skala besar. Sekarang Anda dapat men-deploy model secara efisien dengan ratusan miliar parameter di beberapa akselerator pada instans Inf2, menggunakan konektivitas berkecepatan sangat tinggi di antara akselerator.

Meningkatkan performa sekaligus menurunkan biaya inferensi secara signifikan

Instans Inf2 dirancang untuk memberikan performa tinggi dengan biaya terendah di Amazon EC2 untuk deployment DL Anda. Instans Inf2 menawarkan throughput hingga 4x lebih tinggi dan latensi hingga 10x lebih rendah daripada instans Inf1 Amazon EC2. Instans Inf2 memberikan performa harga yang lebih baik hingga 40% dibandingkan instans Amazon EC2 lainnya yang sebanding.

Gunakan kerangka kerja dan pustaka ML yang sudah ada


Gunakan SDK AWS Neuron untuk mengekstrak performa penuh instans Inf2. Dengan Neuron, Anda dapat menggunakan kerangka kerja yang ada, seperti PyTorch dan TensorFlow serta mendapatkan performa kreatif yang dioptimalkan untuk model di repositori populer seperti Hugging Face. Neuron mendukung integrasi runtime dengan alat penyajian seperti TorchServe dan TensorFlow Serving. Neuron juga membantu mengoptimalkan performa dengan profil bawaan dan alat debugging seperti Neuron-Top dan terintegrasi ke dalam alat visualisasi populer seperti TensorBoard.

Penuhi tujuan keberlanjutan Anda dengan solusi hemat energi

Instans Inf2 memberikan performa/watt hingga 50% lebih baik dibandingkan instans Amazon EC2 lainnya yang sebanding. Instans ini dan akselerator Inferentia2 yang mendasarinya menggunakan proses silikon canggih dan pengoptimalan perangkat keras dan perangkat lunak untuk menghasilkan efisiensi energi yang tinggi saat menjalankan model DL dalam skala besar. Gunakan Instans Inf2 untuk membantu Anda mencapai tujuan keberlanjutan saat men-deploy model yang sangat besar.

Fitur

Hingga 2,3 petaflop dengan AWS Inferentia2

Instans Inf2 didukung oleh hingga 12 akselerator AWS Inferentia2 yang terhubung dengan NeuronLink berkecepatan sangat tinggi untuk komunikasi kolektif yang efisien. Instans Inf2 menawarkan hingga 2,3 petaflop komputasi dan throughput hingga 4x lebih tinggi serta latensi 10x lebih rendah daripada instans Inf1.

Memori akselerator bandwidth tinggi hingga 384 GB

Untuk mengakomodasi model DL yang besar, instans Inf2 menawarkan memori akselerator bersama hingga 384 GB (32 GB HBM di setiap akselerator Inferentia2, 4x lebih besar daripada Inferensia generasi pertama) dengan total bandwidth memori 9,8 Tb/s (10x lebih cepat daripada Inferensia generasi pertama).

Untuk komunikasi cepat di antara akselerator, instans Inf2 mendukung 192 GB/s NeuronLink, interkoneksi tanpa pemblokiran berkecepatan tinggi. Inf2 adalah satu-satunya instans yang dioptimalkan dengan inferensi untuk menawarkan interkoneksi ini, fitur yang hanya tersedia dalam instans pelatihan yang lebih mahal. Untuk model yang sangat besar dan tidak cocok dengan akselerator tunggal, data mengalir langsung di antara akselerator dengan NeuronLink, melewati CPU sepenuhnya. Dengan NeuronLink, Inf2 mendukung inferensi terdistribusi yang lebih cepat dan meningkatkan throughput serta latensi.

Dioptimalkan untuk tipe data baru dengan casting otomatis

Inferentia2 mendukung FP32, TF32, BF16, FP16, UINT8, dan tipe data FP8 (cFP8) baru yang dapat dikonfigurasi. AWS Neuron dapat menggunakan model FP32 dan FP16 yang sangat presisi dan melakukan autocast menjadi tipe data dengan tingkat presisi lebih rendah, sekaligus mengoptimalkan akurasi dan performa. Autocasting mengurangi waktu masuk pasar dengan menghilangkan kebutuhan untuk pelatihan ulang dengan presisi yang lebih rendah dan memungkinkan inferensi dengan performa yang lebih tinggi dengan tipe data yang lebih kecil.

Optimalisasi DL mutakhir

Untuk mendukung laju inovasi DL, instans Inf2 memiliki beberapa inovasi yang membuatnya fleksibel dan dapat diperpanjang untuk melakukan deployment model DL yang terus berkembang. Instans Inf2 memiliki optimalisasi perangkat keras dan dukungan perangkat lunak untuk bentuk input dinamis. Untuk memungkinkan dukungan bagi operator baru di masa depan, instans Inf2 mendukung operator kustom yang ditulis dalam C++. Instans Inf2 juga mendukung pembulatan stokastik, suatu metode pembulatan secara probabilistik yang memungkinkan performa tinggi dan akurasi yang lebih tinggi dibandingkan mode pembulatan yang lama. 

Detail produk

Ukuran Instans Akselerator Inferentia2 Akselerator
Memori
(GB)
vCPU Memori
(GiB)
Penyimpanan
Lokal
Interkoneksi
Antar-Akselerator
Bandwidth
Jaringan
(Gbps)
Bandwidth
EBS
(Gbps)
Harga Sesuai Permintaan Instans yang Dicadangkan selama 1 Tahun Instans yang Dicadangkan selama 3 Tahun
inf2.xlarge 1 32 4 16 Hanya EBS Tidak tersedia Hingga 15 Hingga 10 0,76 USD 0,45 USD 0,30 USD
inf2.8xlarge 1 32 32 128 Hanya EBS Tidak tersedia Hingga 25 10 1,97 USD 1,81 USD 0,79 USD
inf2.24xlarge 6 192 96 384 Hanya EBS Ya 50 30 6,49 USD 3,89 USD 2,60 USD
inf2.48xlarge 12 384 192 768 Hanya EBS Ya 100 60 12,98 USD 7,79 USD 5,19 USD

Testimoni pelanggan

"Tim kami di Leonardo memanfaatkan AI generatif untuk memungkinkan para profesional dan penggemar kreatif menghasilkan aset visual dengan kualitas, kecepatan, dan konsistensi gaya yang tak tertandingi. Harga terhadap performa AWS Inf2 Utilizing AWS Inf2 kami dapat mengurangi biaya hingga 80% tanpa mengorbankan performa, yang secara mendasar mengubah proposisi nilai yang dapat kami tawarkan kepada pelanggan untuk memungkinkan fitur-fitur kami yang paling canggih pada titik harga yang lebih mudah diakses. AWS Inf2 Utilizing AWS Inf2 juga mengurangi kekhawatiran seputar ketersediaan biaya dan kapasitas untuk layanan AI tambahan kami, yang semakin penting seiring dengan pertumbuhan dan peningkatan skala kami. AWS Inf2 Utilizing AWS Inf2 adalah teknologi pendukung utama bagi kami karena kami terus mendorong batas-batas yang mungkin dapat dicapai dengan AI generatif sehingga menciptakan era baru kreativitas dan kekuatan ekspresif bagi para pengguna kami. "

Pete Werner, Head of AI, Leonardo.ai
Logo runway
"Di Runway, rangkaian AI Magic Tools kami memungkinkan pengguna untuk menghasilkan dan mengedit konten yang belum pernah ada sebelumnya. Kami terus mencoba hal lain yang mungkin dilakukan melalui pembuatan konten yang didukung AI, dan karena model AI kami menjadi lebih kompleks, biaya infrastruktur yang mendasari untuk menjalankan model ini dalam skala besar bisa menjadi mahal. Melalui kolaborasi dengan instans Inf2 Amazon EC2 yang didukung oleh AWS Inferentia, kami dapat menjalankan beberapa model dengan throughput hingga 2x lebih tinggi daripada instans berbasis GPU yang setara. Inferensi performa tinggi yang murah ini memungkinkan kami untuk menghadirkan lebih banyak fitur, melakukan deployment model yang lebih kompleks, dan memberikan pengalaman yang lebih baik bagi jutaan pembuat konten yang menggunakan Runway."

Cristóbal Valenzuela, Cofounder dan CEO, Runway
Qualtrics

Qualtrics mendesain dan mengembangkan perangkat lunak manajemen pengalaman.

“Fokus kami di Qualtrics adalah membangun teknologi yang akan mengatasi kesenjangan pengalaman bagi pelanggan, karyawan, merek, dan produk. Untuk mencapainya, kami mengembangkan model DL multitugas dan multimodal yang kompleks untuk meluncurkan berbagai fitur baru, seperti klasifikasi teks, penandaan urutan, analisis diskursus, ekstraksi frasa kunci, ekstraksi topik, pembuatan klaster, dan pemahaman percakapan ujung ke ujung. Saat kami menggunakan model yang lebih kompleks ini dalam lebih banyak aplikasi, volume data tidak terstruktur akan meningkat, dan kami membutuhkan lebih banyak solusi yang dioptimalkan dengan inferensi yang dapat memenuhi tuntutan ini, seperti instans Inf2, untuk menghadirkan pengalaman terbaik bagi pelanggan kami. Kami sangat senang dengan instans Inf2 yang baru karena selain memungkinkan kami mencapai throughput yang lebih tinggi sekaligus memangkas latensi secara signifikan, instans ini juga menghadirkan berbagai fitur seperti inferensi terdistribusi dan dukungan bentuk input dinamis yang disempurnakan yang akan membantu kami menskalakan guna memenuhi kebutuhan deployment seiring dengan semakin besar dan kompleksnya model kami."

Aaron Colak, Head of Core Machine Learning, Qualtrics
Finch Computing

Finch Computing adalah perusahaan teknologi bahasa alami yang menyediakan aplikasi kecerdasan buatan untuk klien pemerintah, layanan keuangan, dan integrator data.

"Untuk memenuhi kebutuhan pelanggan akan pemrosesan bahasa alami waktu nyata, kami mengembangkan model DL canggih yang menskalakan beban kerja produksi besar. Kami harus menyediakan transaksi berlatensi rendah dan mencapai throughput tinggi untuk memproses umpan data global. Kami telah memigrasikan banyak beban kerja produksi ke instans Inf1 dan mampu memangkas biaya sebesar 80% melebihi GPU. Saat ini, kami sedang mengembangkan model yang lebih besar dan lebih kompleks yang memungkinkan pengartian yang lebih berwawasan dan lebih mendalam dari teks tertulis. Banyak pelanggan kami yang memerlukan akses ke wawasan ini secara waktu nyata, dan performa pada instans Inf2 akan membantu kami memberikan latensi yang lebih rendah serta throughput yang lebih tinggi daripada instans Inf1. Dengan peningkatan performa Inf2 dan fitur Inf2 yang baru, seperti dukungan untuk ukuran input dinamis, kami berhasil mengoptimalkan efisiensi biaya, meningkatkan pengalaman pelanggan waktu nyata, dan membantu pelanggan mendapatkan wawasan baru dari data mereka.”

Franz Weckesser, Chief Architect, Finch Computing
Logo Money Forward

Money Forward, Inc. melayani bisnis dan perorangan dengan platform keuangan yang terbuka dan adil. Sebagai bagian dari platform ini, HiTTO Inc., perusahaan grup Money Forward menawarkan layanan chatbot AI, yang menggunakan model pemrosesan bahasa alami (natural language processing, NLP) yang disesuaikan untuk memenuhi beragam kebutuhan pelanggan perusahaan mereka.

“Kami meluncurkan layanan chatbot AI skala besar di instans Inf1 Amazon EC2 dan mengurangi latensi inferensi sebesar 97% dibandingkan instans berbasis GPU yang sebanding sekaligus mengurangi biaya. Kami sangat senang melihat peningkatan performa lebih lanjut dalam hasil pengujian awal kami pada instans Inf2 Amazon EC2. Dengan model NLP kustom yang sama, Inf2 AWS dapat mengurangi latensi hingga 10x dibandingkan Inf1. Saat kami beralih ke model parameter multimiliar yang lebih besar, Inf2 memberi kami keyakinan bahwa kami dapat terus memberi pelanggan pengalaman ujung ke ujung terbaik."

Takuya Nakade, CTO, Money Forward Inc.
Logo Fileread.ai
“Di Fileread.ai, kami membangun solusi untuk membuat interaksi dengan dokumen Anda semudah mengajukan pertanyaan kepada mereka, memungkinkan pengguna menemukan apa yang mereka cari, dari semua dokumen mereka dan mendapatkan informasi yang tepat lebih cepat. Sejak beralih ke instans Inf2 EC2 baru, kami telah melihat peningkatan yang signifikan dalam kemampuan inferensi NLP kami. Penghematan biaya saja telah menjadi terobosan bagi kami, memungkinkan kami mengalokasikan sumber daya dengan lebih efisien tanpa mengorbankan kualitas. Kami mengurangi latensi inferensi sebesar 33% sekaligus meningkatkan throughput sebesar 50% sehingga dapat memuaskan pelanggan kami dengan penyelesaian yang lebih cepat. Tim kami sangat kagum dengan kecepatan dan performa Inf2 dibandingkan instans G5 lama. Inf2 adalah masa depan deployment model NLP."

Daniel Hu, CEO, Fileread
Logo Yaraku
“Di Yaraku, misi kami adalah membangun infrastruktur yang membantu masyarakat berkomunikasi tanpa hambatan bahasa. Produk unggulan kami, YarakuZen, memungkinkan siapa saja, mulai dari penerjemah profesional hingga individu monolingual, untuk menerjemahkan dan mengedit teks serta dokumen dengan penuh keyakinan. Untuk mendukung proses ini, kami menawarkan berbagai alat canggih berdasarkan model DL, yang mencakup berbagai tugas seperti penerjemahan, pencocokan per kata antara bahasa sumber dan bahasa target ( bitext word alignment), segmentasi kalimat, pemodelan bahasa, dan lainnya. Dengan instans Inf1, kami dapat mempercepat layanan dalam memenuhi permintaan yang terus meningkat sekaligus mengurangi biaya inferensi lebih dari 50% dibandingkan instans berbasis GPU. Kami kini beralih ke pengembangan model generasi berikutnya yang lebih besar dan akan membutuhkan kemampuan instans Inf2 yang ditingkatkan untuk memenuhi permintaan sekaligus mempertahankan latensi rendah. Dengan Inf2, kami akan dapat menaikkan skala model sebesar 10x sekaligus mempertahankan throughput yang serupa. Inf2 juga memungkinkan kami untuk memberikan kualitas yang lebih baik kepada pelanggan kami."

Giovanni Giacomo, NLP Lead, Yaraku

Testimoni Partner AWS

Logo Hugging Face
"Misi Hugging Face adalah mendemokrasikan ML yang baik untuk membantu developer ML di seluruh dunia memecahkan masalah di dunia nyata. Kunci untuk mewujudkan hal itu adalah memastikan model terbaru dan terhebat agar berjalan secepat dan seefisien mungkin pada akselerator ML terbaik di cloud. Kami sangat senang dengan potensi Inferentia2 untuk menjadi cara standar baru untuk melakukan deployment model AI generatif dalam skala besar. Dengan Inf1, kami melihat biaya hingga 70% lebih rendah daripada instans berbasis GPU tradisional, dan dengan Inf2, kami telah melihat latensi hingga 8x lebih rendah untuk Transformator menyerupai BERT dibandingkan dengan Inferentia1. Dengan Inferentia2, komunitas kami akan dapat dengan mudah menskalakan performa ini ke LLM pada skala lebih dari 100 miliar parameter, serta model difusi dan visi komputer terbaru."  
Logo PyTorch
“PyTorch mempercepat jalur dari pembuatan prototipe penelitian hingga deployment produksi untuk developer ML. Kami telah berkolaborasi dengan tim AWS untuk memberikan dukungan PyTorch native untuk instans Inf2 Amazon EC2 baru yang didukung AWS Inferentia2. Karena semakin banyak anggota komunitas kami yang ingin melakukan deployment model AI generatif yang besar, kami sangat senang untuk bermitra dengan tim AWS untuk mengoptimalkan inferensi terdistribusi pada instans Inf2 dengan konektivitas NeuronLink berkecepatan tinggi di antara akselerator. Dengan Inf2, developer yang menggunakan PyTorch sekarang dapat dengan mudah melakukan deployment model LLM yang sangat besar dan transformator visi. Selain itu, instans Inf2 menghadirkan kemampuan inovatif lainnya kepada developer PyTorch, termasuk tipe data yang efisien, bentuk dinamis, operator khusus, dan pembulatan stokastik perangkat keras yang dioptimalkan, membuatnya sangat cocok untuk digunakan secara luas oleh komunitas PyTorch.” 
Logo Weights & Biases
“Weights & Biases (W&B) menyediakan alat developer untuk teknisi dan ilmuwan data ML untuk membangun model yang lebih baik dengan lebih cepat. Platform W&B memberikan beragam wawasan kepada praktisi ML untuk meningkatkan performa model, termasuk pemanfaatan infrastruktur komputasi yang mendasarinya. Kami telah berkolaborasi dengan tim AWS untuk menambahkan dukungan bagi Amazon Trainium dan Inferentia2 ke dasbor metrik sistem kami sehingga dapat menyediakan data berharga yang sangat dibutuhkan selama eksperimen dan pelatihan model. Hal ini memungkinkan praktisi ML untuk mengoptimalkan model mereka guna memperoleh manfaat penuh dari perangkat keras AWS yang dibuat khusus untuk melatih model mereka secara lebih cepat dan dengan biaya yang lebih rendah."

Phil Gurbacki, VP of Product, Weights & Biases
Logo OctoML
“OctoML membantu developer mengurangi biaya dan membangun aplikasi AI yang dapat diskalakan dengan mengemas model DL mereka untuk berjalan pada perangkat keras dengan performa tinggi. Kami telah menghabiskan beberapa tahun terakhir membangun keahlian pada solusi perangkat lunak dan perangkat keras terbaik dan mengintegrasikannya ke dalam platform kami. Akar kami sebagai perancang chip dan peretas sistem menjadikan AWS Trainium dan Inferentia semakin menarik bagi kami. Kami melihat akselerator ini sebagai faktor pendorong utama untuk masa depan inovasi AI di cloud. Peluncuran GA instans Inf2 dilakukan secara tepat waktu bersamaan dengan munculnya LLM populer sebagai penyusun utama aplikasi AI generasi berikutnya. Kami sangat bersemangat untuk membuat instans ini tersedia di platform kami agar para developer dapat dengan mudah memperoleh manfaat performa tinggi dan penghematan biaya.”
 
Jared Roesch, CTO and Cofounder, OctoML
Logo OctoML
"Tantangan besar yang muncul terkait LLM, dan lebih luas lagi terkait aplikasi AI generatif tingkat korporasi, adalah tentang biaya yang dikeluarkan untuk pelatihan dan eksekusi model DL yang beperforma tinggi. Bersama AWS Trainium, AWS Inferentia2 meminimalkan biaya yang perlu dikeluarkan oleh pelanggan saat mereka membutuhkan pelatihan beperforma tinggi. Kini, pelanggan kami yang ingin mengambil manfaat dalam pelatihan dan inferensi dapat mencapai hasil yang lebih baik dengan biaya yang rendah. Trainium dan Inferentia dapat mempercepat skala guna memenuhi segala kebutuhan DL, bahkan yang paling kompleks, untuk perusahaan-perusahaan besar yang ada saat ini. Banyak pelanggan Nextira yang menjalankan beban kerja AI besar yang akan mendapat manfaat langsung dengan chipset baru ini; mereka memperoleh peningkatan efisiensi dalam penghematan biaya dan performa sehingga mendorong hasil yang lebih cepat di pasar."

Jason Cutrer, founder and CEO, Nextira

Layanan Amazon yang menggunakan Instans Inf2 Amazon EC2

Logo Amazon

Amazon CodeWhisperer adalah pendamping pengodean AI yang menghasilkan rekomendasi kode satu baris atau fungsi penuh secara waktu nyata di lingkungan pengembangan terintegrasi (integrated development environment, IDE) untuk membantu Anda membangun perangkat lunak dengan cepat.

“Dengan CodeWhisperer, kami meningkatkan produktivitas developer perangkat lunak dengan memberikan rekomendasi kode menggunakan model AI generatif. Untuk mengembangkan rekomendasi kode yang sangat efektif, kami meningkatkan jaringan DL kami menjadi miliaran parameter. Pelanggan kami membutuhkan rekomendasi kode secara real time saat mereka mengetik, sehingga respons latensi rendah sangat penting. Model AI generatif yang besar memerlukan komputasi dengan performa tinggi untuk memberikan waktu respons dalam sepersekian detik. Dengan Inf2, kami memberikan latensi yang sama seperti menjalankan CodeWhisperer pada instans GPU pelatihan yang dioptimalkan untuk urutan input dan output yang besar. Dengan demikian, instans Inf2 membantu kami menghemat biaya dan daya sekaligus memberikan pengalaman terbaik bagi developer.”  

Doug Seven, General Manager, Amazon CodeWhisperer

Logo Amazon

Mesin pencarian produk Amazon mengindeks miliaran produk, melayani miliaran kueri pelanggan setiap harinya, dan merupakan salah satu layanan yang paling banyak digunakan di dunia.

“Saya sangat senang dengan peluncuran GA Inf2. Performa unggul dari Inf2, ditambah dengan kemampuannya untuk menangani model yang lebih besar dengan miliaran parameter, menjadikannya pilihan yang sempurna untuk layanan kami dan memungkinkan kami untuk membuka kemungkinan baru dalam hal kompleksitas dan akurasi model. Dengan kecepatan dan efisiensi biaya yang signifikan yang ditawarkan oleh Inf2, mengintegrasikannya ke dalam infrastruktur layanan Amazon Search dapat membantu memenuhi permintaan pelanggan kami yang terus meningkat. Kami berencana untuk memperkuat pengalaman belanja yang baru kami menggunakan LLM generatif menggunakan Inf2.” 

Trishul Chilimbi, VP, Amazon Search

Memulai

Menggunakan Amazon SageMaker

Lakukan deployment model pada instans Inf2 dengan lebih mudah menggunakan Amazon SageMaker dan secara signifikan mengurangi biaya untuk melakukan deployment model ML dan meningkatkan performa tanpa perlu mengelola infrastruktur. SageMaker adalah layanan yang dikelola sepenuhnya dan terintegrasi dengan alat MLOps. Oleh karena itu, Anda dapat menskalakan deployment model, mengelola model dengan lebih efektif dalam produksi, dan mengurangi beban operasional.

Menggunakan AWS Deep Learning AMI

AWS Deep Learning AMIs (DLAMI) menyediakan infrastruktur dan peralatan bagi praktisi dan peneliti DL untuk mempercepat DL di cloud dalam skala apa pun. Driver AWS Neuron telah dikonfigurasi sebelumnya dalam DLAMI untuk melakukan deployment model DL Anda secara optimal pada instans Inf2.

Menggunakan AWS Deep Learning Container

Sekarang Anda dapat melakukan deployment instans Inf2 di Amazon Elastic Kubernetes Service (Amazon EKS), layanan Kubernetes yang dikelola sepenuhnya, dan di Amazon Elastic Container Service (Amazon ECS), layanan orkestrasi kontainer yang dikelola sepenuhnya. Neuron prainstal juga tersedia di AWS Deep Learning Container. Untuk mempelajari selengkapnya tentang cara menjalankan kontainer di instans Inf2, lihat tutorial kontainer Neuron.

Mendaftar akun AWS

Mendaftar akun AWS

Dapatkan akses secara instan ke AWS Tingkat Gratis.

Pelajari dengan tutorial sederhana

Pelajari dengan tutorial 10 menit

Jelajahi dan pelajari dengan tutorial sederhana.

Mulai membangun dengan EC2 di konsol

Mulai membangun di konsol

Mulai membangun dengan panduan langkah demi langkah untuk membantu Anda meluncurkan proyek AWS.