如何解決 Amazon EMR 中的錯誤「由於內部錯誤而無法啟動作業流程」?

1 分的閱讀內容
0

我的 Amazon EMR 群集無法啟動,並且收到錯誤訊息「由於內部錯誤而無法啟動作業流程」。

簡短說明

內部錯誤通常可以快速解決。重試您的請求。如果問題仍然存在,請確認叢集的網路和安全性設定已正確設定。

解決方法

開啟 Amazon EMR 主控台,然後嘗試再次啟動叢集。如果仍然收到「因為內部錯誤而無法啟動作業流程」訊息,請確認下列設定。

Amazon EMR 服務角色的權限

對 Amazon Elastic Block Store (Amazon EBS) 根裝置和儲存磁碟區進行加密的安全組態需要相關權限。對於這些組態,請確定 Amazon EMR 服務角色 (EMR\ _DefaultRole) 具有使用指定 AWS Key Management Service (KMS) 金鑰的權限。

服務角色需要下列權限才能成功啟動 EMR 叢集:

{
  "Version": "2012-10-17",
  "Statement": [{
    "Sid": "EmrDiskEncryptionPolicy",
    "Effect": "Allow",
    "Action": [
      "kms:Encrypt",
      "kms:Decrypt",
      "kms:ReEncrypt*",
      "kms:CreateGrant",
      "kms:GenerateDataKeyWithoutPlaintext",
      "kms:DescribeKey"
    ],
    "Resource": [
      "arn:aws:kms:us-west-2:<account-id>:key/<key-id>"
    ]
  }]
}

如果 EMR 叢集執行個體失敗,您可能會看到下列任何錯誤:

2022-10-17 15:59:24,736 attempt 12/1000: http://repo.eu-west-1.amazonaws.com/2018.03/main/mirror.list
2022-10-17 15:59:34,741 exception: [Errno 12] Timeout on http://repo.eu-west-1.amazonaws.com/2018.03/main/mirror.list: (28, 'Connection timed out after 10001 milliseconds')
2022-10-17 15:59:34,741 attempt 13/1000: http://repo.eu-west-1.amazonaws.com/2018.03/main/mirror.list
2022-10-17 15:59:44,749 exception: [Errno 12] Timeout on http://repo.eu-west-1.amazonaws.com/2018.03/main/mirror.list: (28, 'Connection timed out after 10000 milliseconds')

若要對這些錯誤進行疑難排解,請依照下列步驟檢閱系統日誌:

1.    登入 Amazon Elastic Compute Cloud (Amazon EC2) 主控台

2.    選取因叢集故障而終止的 EC2 節點。

        注意: 終止的節點在 EC2 主控台上僅可使用 1-2 小時。

3.    選取動作下拉清單,然後選取監控

4.    選取疑難排解,然後選取取得系統日誌

虛擬私有雲端 (VPC) 子網路路由

請確定已針對叢集使用的資料來源正確設定 VPC 子網路路由。遵循設定 VPC 託管叢集中的步驟。

安全群組

請確認已正確設定子網路的主要和核心/任務安全群組。如需詳細資訊,請參閱使用 Amazon EMR 管理的安全群組

預設 Amazon EMR 角色和執行個體設定檔角色也必須允許 EMR 叢集中的所有必要動作。

設定 VPC 子網路路由、安全群組和角色之後,啟動新叢集。


相關資訊

設定網路

AWS 官方
AWS 官方已更新 1 年前