Perché l'esecuzione della mia pipeline Amazon SageMaker fallisce?

Ultimo aggiornamento: 17/10/2022

Desidero risolvere i problemi per cui l'esecuzione della mia pipeline Amazon SageMaker non è riuscita.

Risoluzione

Per risolvere i problemi relativi all'esecuzione fallita della pipeline SageMaker, procedi come segue:

Nota: se ricevi un messaggio di errore durante l'esecuzione dei comandi di AWS CLI, assicurati di utilizzare la versione più recente di AWS CLI.

1.    Esegui il comando dell'interfaccia della linea di comando AWS (AWS CLI) list-pipeline-executions.

Nota: usa la console AWS CloudShell se non hai configurato l'interfaccia della linea di comando di AWS sul computer locale.

$ aws sagemaker list-pipeline-executions --pipeline-name test-pipeline-p-wzx9cplzrvdk

Il comando restituisce un elenco di esecuzioni di pipeline per la pipeline simile al seguente:

"PipelineExecutionSummaries": [
        {
            "PipelineExecutionArn": "arn:aws:sagemaker:eu-west-1:1111222233334444:pipeline/test-pipeline-p-wzx9cplzrvdk/execution/lvejn1jl827b",
            "StartTime": "2022-09-27T12:56:44.646000+00:00",
            "PipelineExecutionStatus": "Failed",
            "PipelineExecutionDisplayName": "execution-1664283404791",
            "PipelineExecutionFailureReason": "Step failure: One or multiple steps failed."
        },
        {
            "PipelineExecutionArn": "arn:aws:sagemaker:eu-west-1:1111222233334444:pipeline/test-pipeline-p-wzx9cplzrvdk/execution/acvref9y1f47",
            "StartTime": "2022-09-27T12:13:28.762000+00:00",
            "PipelineExecutionStatus": "Succeeded",
            "PipelineExecutionDisplayName": "execution-1664280808943"
        }
    ]
}

2.    Esegui il comando list-pipeline-executions-steps per visualizzare i passaggi non riusciti:

$ aws sagemaker list-pipeline-execution-steps --pipeline-execution-arn arn:aws:sagemaker:eu-west-1:1111222233334444:pipeline/test-pipeline-p-wzx9cplzrvdk/execution/lvejn1jl827b

Si dovrebbe visualizzare un output simile al seguente:

{
    "PipelineExecutionSteps": [
        {
            "StepName": "TrainAbaloneModel",
            "StartTime": "2022-09-27T13:00:49.235000+00:00",
            "EndTime": "2022-09-27T13:01:50.056000+00:00",
            "StepStatus": "Failed",
            "AttemptCount": 0,
            "FailureReason": "ClientError: ClientError: Please ensure the security group provided is valid",
            "Metadata": {
                "TrainingJob": {
                    "Arn": "arn:aws:sagemaker:eu-west-1:1111222233334444:training-job/pipelines-lvejn1jl827b-trainabalonemodel-u9l9wjassg"
                }
            }
        },
        {
            "StepName": "PreprocessAbaloneData",
            "StartTime": "2022-09-27T12:56:45.595000+00:00",
            "EndTime": "2022-09-27T13:00:48.638000+00:00",
            "StepStatus": "Succeeded",
            "AttemptCount": 0,
            "Metadata": {
                "ProcessingJob": {
                    "Arn": "arn:aws:sagemaker:eu-west-1:1111222233334444:processing-job/pipelines-lvejn1jl827b-preprocessabalonedat-6axq0kthyg"
                }
            }
        }
    ]
}

In questo caso, la fase del processo di formazione non è riuscita perché è stato specificato un gruppo di sicurezza inesistente nell'oggetto VPCConfig del processo.

Se il motivo del fallimento del passaggio non è chiaro, controlla i file di log Amazon CloudWatch per il processo o l'endpoint SageMaker non riuscito per continuare con la risoluzione dei problemi. È possibile visualizzare i log dei processi di formazione nel gruppo di log di CloudWatch /aws/sagemaker/TrainingJobs. Il flusso di log è simile al seguente:

example-training-job-name/algo-example-instance-number-in-cluster-example-epoch-timestamp


Questo articolo è stato utile?


Benötigen Sie Hilfe zur Fakturierung oder technischen Support?