Por que a execução do meu pipeline do Amazon SageMaker falha?

Data da última atualização: 17/10/2022

Quero solucionar por que a execução do meu pipeline do Amazon SageMaker falhou.

Resolução

Para solucionar problemas de falha na execução do pipeline no SageMaker, faça o seguinte:

Observação: se você receber erros ao executar comandos do AWS CLI, certifique-se de estar utilizando a versão mais recente da AWS CLI.

1.    Execute o comando da AWS Command Line Interface (AWS CLI) list-pipeline-executions.

Observação: use o console do AWS CloudShell se você não tiver o AWS CLI configurado em sua máquina local.

$ aws sagemaker list-pipeline-executions --pipeline-name test-pipeline-p-wzx9cplzrvdk

O comando retorna uma lista de execuções de pipeline para seu pipeline que se parece com a seguinte:

"PipelineExecutionSummaries": [
        {
            "PipelineExecutionArn": "arn:aws:sagemaker:eu-west-1:1111222233334444:pipeline/test-pipeline-p-wzx9cplzrvdk/execution/lvejn1jl827b",
            "StartTime": "2022-09-27T12:56:44.646000+00:00",
            "PipelineExecutionStatus": "Failed",
            "PipelineExecutionDisplayName": "execution-1664283404791",
            "PipelineExecutionFailureReason": "Step failure: One or multiple steps failed."
        },
        {
            "PipelineExecutionArn": "arn:aws:sagemaker:eu-west-1:1111222233334444:pipeline/test-pipeline-p-wzx9cplzrvdk/execution/acvref9y1f47",
            "StartTime": "2022-09-27T12:13:28.762000+00:00",
            "PipelineExecutionStatus": "Succeeded",
            "PipelineExecutionDisplayName": "execution-1664280808943"
        }
    ]
}

2.    Execute o comando list-pipeline-executions-steps para ver as etapas que falharam:

$ aws sagemaker list-pipeline-execution-steps --pipeline-execution-arn arn:aws:sagemaker:eu-west-1:1111222233334444:pipeline/test-pipeline-p-wzx9cplzrvdk/execution/lvejn1jl827b

A saída é semelhante à seguinte:

{
    "PipelineExecutionSteps": [
        {
            "StepName": "TrainAbaloneModel",
            "StartTime": "2022-09-27T13:00:49.235000+00:00",
            "EndTime": "2022-09-27T13:01:50.056000+00:00",
            "StepStatus": "Failed",
            "AttemptCount": 0,
            "FailureReason": "ClientError: ClientError: Please ensure the security group provided is valid",
            "Metadata": {
                "TrainingJob": {
                    "Arn": "arn:aws:sagemaker:eu-west-1:1111222233334444:training-job/pipelines-lvejn1jl827b-trainabalonemodel-u9l9wjassg"
                }
            }
        },
        {
            "StepName": "PreprocessAbaloneData",
            "StartTime": "2022-09-27T12:56:45.595000+00:00",
            "EndTime": "2022-09-27T13:00:48.638000+00:00",
            "StepStatus": "Succeeded",
            "AttemptCount": 0,
            "Metadata": {
                "ProcessingJob": {
                    "Arn": "arn:aws:sagemaker:eu-west-1:1111222233334444:processing-job/pipelines-lvejn1jl827b-preprocessabalonedat-6axq0kthyg"
                }
            }
        }
    ]
}

Nesse caso, a etapa do trabalho de treinamento falhou porque um grupo de segurança inexistente foi especificado no objeto do trabalho VpcConfig.

Se a FailureReason da etapa que falhou não estiver clara, verifique os Amazon CloudWatch Logs da tarefa ou do endpoint com falha do SageMaker para solucionar problemas adicionais. Você pode ver os logs dos trabalhos de treinamento no grupo de logs do CloudWatch /aws/sagemaker/TrainingJobs. O fluxo de logs é semelhante ao seguinte:

example-training-job-name/algo-example-instance-number-in-cluster-example-epoch-timestamp


Este artigo foi útil?


Precisa de ajuda com faturamento ou suporte técnico?