AWS Neuron, yüksek performans ve büyük dizi uzunlukları sağlayan Flash Attention çekirdeğini kullanıma sunuyor
Bugün AWS, büyük dizi uzunluklarında performanslı LLM model eğitimi ve çıkarımı sağlamak için Flash Attention çekirdeği desteği sunan Neuron 2.19'un kullanıma sunulduğunu duyurdu.
AWS Neuron, üretici yapay zeka için özel olarak oluşturulmuş AWS Inferentia ve Trainium tabanlı bulut sunucularına yönelik bir SDK'dir. Neuron, PyTorch gibi popüler makine öğrenimi çerçeveleri ile entegre edilir. Trn1 ve Inf2 bulut sunucularında yapay zeka modellerinin yüksek performanslı eğitimini ve çıkarımını desteklemek için bir derleyici, çalışma zamanı, araçlar ve kitaplıklar içerir.
Bu sürüm, hem eğitim hem de çıkarım için yeni özellikler ve performans iyileştirmeleri ve PyTorch 2.1 ve PyTorch 1.13 için yeni Ubuntu 22 Neuron DLAMI'leri ekler. Neuron 2.19, büyük dizi uzunlukları (8K'dan büyük veya eşit), Llama3 model eğitimi ve eğitim verimliliğini ve kaynak kullanımını artırmak amacıyla serpiştirilmiş işlem hattı paralelliği için eğitim sağlamak üzere Flash Attention çekirdeği desteği ekler. Çıkarım için, bu sürüm 32.000'e kadar bağlam uzunluklarına yönelik LLM çıkarımını etkinleştirmek üzere Flash Attention çekirdek desteği ekler. Neuron 2.19 ayrıca Llama3 model çıkarımı için destek ve Mistral-7B-v0.2 modelleri ile sürekli toplu işleme için beta desteği ekler. Neuron 2.19, EKS'de Nöron Düğümü Sorun Dedektörü ve Kurtarma eklentisinin yanı sıra Kubernetes'te gelişmiş Nöron ölçümlerini izlemeye olanak tanıyan EKS İçin Neuron İzleyicisi gibi yeni araçları kullanıma sunuyor.
AWS Bölgelerinde İstek Üzerine Bulut Sunucuları, Ayrılmış Bulut Sunucuları, Spot Bulut Sunucuları veya Tasarruf Planı'nın bir parçası olarak bulunan Trn1 ve Inf2 bulut sunucularında modelleri eğitmek ve dağıtmak için AWS Neuron SDK'yi kullanabilirsiniz.
Neuron 2.19'daki özelliklerin listesi için Neuron Sürüm Notları'nı inceleyin. Neuron'u kullanmaya başlamak için şunlara bakın:
AWS Neuron
Inf2 Bulut Sunucuları
Trn1 Bulut Sunucuları