Pourquoi l'exécution de mon pipeline Amazon SageMaker échoue-t-elle ?

Dernière mise à jour : 17-10-2022

Je souhaite identifier les raisons pour lesquelles l'exécution de mon pipeline Amazon SageMaker a échoué.

Solution

Pour résoudre l'échec de l'exécution du pipeline dans SageMaker, procédez comme suit :

Remarque : en cas d'erreurs lors de l'exécution de commandes AWS CLI, vérifiez que vous utilisez la version la plus récente d'AWS CLI.

1.    Exécutez lalist-pipeline-executions de l'interface de ligne de commande AWS (AWS CLI).

Remarque : Utilisez la console AWS CloudShell si l'interface de ligne de commande AWS n'est pas configurée sur votre machine locale.

$ aws sagemaker list-pipeline-executions --pipeline-name test-pipeline-p-wzx9cplzrvdk

La commande renvoie une liste des exécutions de pipeline pour votre pipeline qui ressemble à la suivante :

"PipelineExecutionSummaries": [
        {
            "PipelineExecutionArn": "arn:aws:sagemaker:eu-west-1:1111222233334444:pipeline/test-pipeline-p-wzx9cplzrvdk/execution/lvejn1jl827b",
            "StartTime": "2022-09-27T12:56:44.646000+00:00",
            "PipelineExecutionStatus": "Failed",
            "PipelineExecutionDisplayName": "execution-1664283404791",
            "PipelineExecutionFailureReason": "Step failure: One or multiple steps failed."
        },
        {
            "PipelineExecutionArn": "arn:aws:sagemaker:eu-west-1:1111222233334444:pipeline/test-pipeline-p-wzx9cplzrvdk/execution/acvref9y1f47",
            "StartTime": "2022-09-27T12:13:28.762000+00:00",
            "PipelineExecutionStatus": "Succeeded",
            "PipelineExecutionDisplayName": "execution-1664280808943"
        }
    ]
}

2.    Exécutez la commande list-pipeline-executions-steps pour afficher les étapes qui ont échoué :

$ aws sagemaker list-pipeline-execution-steps --pipeline-execution-arn arn:aws:sagemaker:eu-west-1:1111222233334444:pipeline/test-pipeline-p-wzx9cplzrvdk/execution/lvejn1jl827b

Le résultat est similaire à ce qui suit :

{
    "PipelineExecutionSteps": [
        {
            "StepName": "TrainAbaloneModel",
            "StartTime": "2022-09-27T13:00:49.235000+00:00",
            "EndTime": "2022-09-27T13:01:50.056000+00:00",
            "StepStatus": "Failed",
            "AttemptCount": 0,
            "FailureReason": "ClientError: ClientError: Please ensure the security group provided is valid",
            "Metadata": {
                "TrainingJob": {
                    "Arn": "arn:aws:sagemaker:eu-west-1:1111222233334444:training-job/pipelines-lvejn1jl827b-trainabalonemodel-u9l9wjassg"
                }
            }
        },
        {
            "StepName": "PreprocessAbaloneData",
            "StartTime": "2022-09-27T12:56:45.595000+00:00",
            "EndTime": "2022-09-27T13:00:48.638000+00:00",
            "StepStatus": "Succeeded",
            "AttemptCount": 0,
            "Metadata": {
                "ProcessingJob": {
                    "Arn": "arn:aws:sagemaker:eu-west-1:1111222233334444:processing-job/pipelines-lvejn1jl827b-preprocessabalonedat-6axq0kthyg"
                }
            }
        }
    ]
}

Dans ce cas, l'étape de la tâche de formation a échoué car un groupe de sécurité inexistant a été spécifié dans l'objet VPCConfig de la tâche.

Si la raison de l'échec de l'étape n'est pas claire, consultez les journaux Amazon CloudWatch pour détecter la tâche ou le point de terminaison SageMaker ayant échoué afin de résoudre le problème plus en détail. Vous pouvez consulter les journaux des tâches de formation dans le groupe de journaux CloudWatch /AWS/SageMaker/TrainingJobs. Le flux du journal ressemble à ce qui suit :

example-training-job-nam/algo-example-instance-number-in-cluster-example-epoch-timestamp


Cet article vous a-t-il été utile ?


Besoin d'aide pour une question technique ou de facturation ?