如何将 Amazon EMR Notebook 链接到 Git 存储库?

上次更新时间:2020 年 9 月 3 日

我想将 Amazon EMR Notebook 链接到 Git 存储库。

解决方法

通过将 Git 存储库与 Amazon EMR Notebooks 相关联,您可以将 Notebooks 保存在版本受控的环境中。最多可以将三个存储库与一个 Notebook 相关联。

要创建新的 EMR Notebook 并将其与现有 Git 存储库相关联,请执行以下操作:

  1. 在 Virtual Private Cloud (VPC) 中创建私有子网
  2. 创建 NAT 网关。 
  3. 更新路由表以指向 NAT 网关
  4. 在私有子网中启动 Amazon EMR 集群。在 Software configuration(软件配置)部分,确保您选择的配置包括 Apache Spark、Apache Hadoop 和 Apache Livy。
  5. 在等候 EMR 集群达到等待状态时,添加 Git 存储库。对于 Git credentials(Git 凭据),选择 Create a new secret(创建新密钥)。请确保 Username(用户名)是 Git 账户的别名,而不是电子邮件地址。有关更多信息,请参阅使用别名
  6. 使用以下两条出站规则创建安全组
    规则 1
    类型:自定义 TCP 规则
    协议:TCP
    端口范围:18888
    目标:ElasticMapReduceEditors-Livy
    规则 2
    类型:HTTPS
    协议:TCP
    端口范围:443
    目标:0.0.0.0/0
    这将允许 Notebook 使用集群访问互联网。有关更多信息,请参阅在将 Notebooks 与 Git 存储库关联时自定义 EMR Notebooks 的 EC2 安全组
  7. 将入站规则添加ElasticMapReduceEditors-Livy 安全组:
    类型:自定义 TCP 规则
    协议:TCP
    端口范围:18888
    目标:输入您在上一步中创建的安全组的名称。
  8. 修改 EMR Notebooks 的服务角色 (EMR_Notebooks_DefaultRole),以允许 secretsmanager:GetSecretValue 操作。
  9. 使用以下安全组设置创建 EMR Notebook
    Security groups(安全组)部分,选择 Choose security groups(选择安全组)
    对于 Security groups for master instance(主实例的安全组),选择 ElasticMapReduceEditors-Livy
    对于 Security groups for notebook instance(Notebook 实例的安全组),选择您在第 6 步中创建的安全组。

Git 存储库状态将变为 Linked(已链接)。您现在可以在 Notebook 中使用 Git 存储库


这篇文章对您有帮助吗?


您是否需要账单或技术支持?