Amazon SageMaker HyperPod ora supporta l'addestramento senza checkpoint

Inserito il: 3 dic 2025

Amazon SageMaker HyperPod ora supporta l'addestramento senza checkpoint, una nuova funzionalità di addestramento dei modelli che riduce la necessità di un riavvio a livello di lavoro basato su checkpoint per il ripristino dei guasti. L'addestramento senza checkpoint mantiene lo slancio dell'addestramento anche in caso di errori, riducendo i tempi di ripristino da ore a minuti. Ciò rappresenta un cambiamento fondamentale rispetto al tradizionale ripristino basato su checkpoint, in cui i guasti richiedono la sospensione dell'intero cluster di formazione, la diagnosi manuale dei problemi e il ripristino dai checkpoint salvati, un processo che può lasciare inattivi costosi acceleratori di intelligenza artificiale per ore, con conseguente spreco di risorse di calcolo per l'organizzazione.

L'addestramento senza checkpoint trasforma questo paradigma preservando lo stato di addestramento del modello in tutto il cluster distribuito, sostituendo automaticamente i nodi di addestramento difettosi al volo e utilizzando il trasferimento di stato peer-to-peer da acceleratori integri per il ripristino dei guasti. Mitigando le dipendenze dai checkpoint durante il ripristino, l'addestramento senza checkpoint può aiutare la tua organizzazione a ridurre i costi degli acceleratori AI inattivi e ad accelerare i tempi. Anche su scale più grandi, l'addestramento senza checkpoint su Amazon SageMaker HyperPod consente di ottenere fino a oltre il 95% di goodput su cluster con migliaia di acceleratori di intelligenza artificiale.

L'addestramento senza checkpoint su SageMaker HyperPod è disponibile in tutte le regioni AWS in cui è attualmente supportato Amazon SageMaker HyperPod. Puoi abilitare l'addestramento senza checkpoint senza modifiche al codice utilizzando le ricette HyperPod per i modelli pubblicamente disponibili più diffusi, come Llama e GPT-OSS. Per le architetture di modelli personalizzate, puoi integrare i componenti dell'addestramento senza checkpoint con modifiche minime nei flussi di lavoro basati su PyTorch, rendendolo accessibile ai tuoi team indipendentemente dal loro livello di competenza nell'addestramento distribuito.

Per iniziare, visita la pagina del prodotto Amazon SageMaker HyperPod e consulta la pagina pagina GitHub di addestramento senza checkpoint per una guida all'implementazione.