如何在 Amazon EMR 上将 PostgreSQL 数据库用作 Hive 外部元数据仓？

4 分钟阅读

我想在 Amazon EMR 上，使用 Amazon Relational Database Service（Amazon RDS）将 PostgreSQL 数据库实例用作 Apache Hive 的外部元数据仓。

解决方法

在开始之前，请注意以下几点：

此解决方案假定您已经有一个活跃的 PostgreSQL 数据库。
如果您使用的是 Amazon EMR 5.7 版或更低版本，请下载 PostgreSQL JDBC 驱动程序。然后，将该驱动程序添加到 Hive 库路径 (/usr/lib/hive/lib)。Amazon EMR 版本 5.8.0 及更高版本会在 Hive 库路径中附带 PostgreSQL JDBC 驱动程序。

要将 PostgreSQL 数据库实例配置为 Hive 的外部元数据仓，请执行以下操作：

1. 创建 Amazon RDS for PostgreSQL DB 数据库实例并创建数据库。请注意，您可以在 AWS 控制台中从 Amazon RDS 创建数据库实例时执行此操作。您可以在 Additional configuration（其他配置）项下的Initial database name（初始数据库名称）字段中指定数据库名称。或者，您可以连接 PostgreSQL 数据库实例，然后创建数据库。

2. 修改数据库实例安全组，以允许在端口 5432 上连接数据库和 ElasticMapReduce-master 安全组。有关更多信息，请参阅 VPC 安全组。

3. 在没有外部元数据仓的情况下启动 Amazon EMR 集群。在此情况下，Amazon EMR 使用默认的 MySQL 数据库。

4. 使用 SSH 连接到主节点。

5. 替换 Hive 配置的以下属性。
替换示例中的以下值：
mypostgresql.testabcd1111.us-west-2.rds.amazonaws.com 替换为数据库实例的端点
mypgdb 替换为 PostgreSQL 数据库的名称
database_username 替换为数据库实例用户名
database_password 替换为数据库实例密码

[hadoop@ip-X-X-X-X ~]$ sudo vi /etc/hive/conf/hive-site.xml

<property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:postgresql://mypostgresql.testabcd1111.us-west-2.rds.amazonaws.com:5432/mypgdb</value>
    <description>PostgreSQL JDBC driver connection URL</description>
  </property>

  <property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>org.postgresql.Driver</value>
    <description>PostgreSQL metastore driver class name</description>
  </property>

  <property>
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>database_username</value>
    <description>the username for the DB instance</description>
  </property>

  <property>
    <name>javax.jdo.option.ConnectionPassword</name>
    <value>database_password</value>
    <description>the password for the DB instance</description>
  </property>

6. 运行以下命令，创建 PostgreSQL 架构：

[hadoop@ip-X-X-X-X ~]$ cd /usr/lib/hive/bin/
[hadoop@ip-X-X-X-X bin]$ ./schematool -dbType postgres -initSchema  
Metastore connection URL:     jdbc:postgresql://mypostgresql.testabcd1111.us-west-2.rds.amazonaws.com:5432/mypgdb
Metastore Connection Driver :     org.postgresql.Driver
Metastore connection User:     test
Starting metastore schema initialization to 2.3.0
Initialization script hive-schema-2.3.0.postgres.sql
Initialization script completed
schemaTool completed

7. 关闭并启动 Hive 服务，以使新设置生效：

[hadoop@ip-X-X-X-X bin]$ sudo initctl list |grep -i hive
hive-server2 start/running, process 11818
hive-hcatalog-server start/running, process 12708
[hadoop@ip-X-X-X-X9 bin]$ sudo stop hive-server2
hive-server2 stop/waiting
[hadoop@ip-X-X-X-X bin]$ sudo stop hive-hcatalog-server
hive-hcatalog-server stop/waiting
[hadoop@ip-X-X-X-X bin]$ sudo start hive-server2
hive-server2 start/running, process 18798
[hadoop@ip-X-X-X-X bin]$ sudo start hive-hcatalog-server
hive-hcatalog-server start/running, process 19614

您可以选择通过在 EMR 集群中将以下 bash 脚本 (hive_postgres_emr_step.sh) 作为步骤任务运行来自动执行上述过程中的步骤 5 到 7。

## Automated Bash script to update the hive-site.xml and restart Hive

## Parameters
rds_db_instance_endpoint='<rds_db_instance_endpoint>'
rds_db_instance_port='<rds_db_instance_port>'
rds_db_name='<rds_db_name>'
rds_db_instance_username='<rds_db_instance_username>'
rds_db_instance_password='<rds_db_instance_username>'

############################# Copying the original hive-site.xml
sudo cp /etc/hive/conf/hive-site.xml /tmp/hive-site.xml

############################# Changing the JDBC URL
old_jdbc=`grep "javax.jdo.option.ConnectionURL" -A +3 -B 1 /tmp/hive-site.xml | grep "<value>" | xargs`
sudo sed -i "s|$old_jdbc|<value>jdbc:postgresql://$rds_db_instance_endpoint:$rds_db_instance_port/$rds_db_name</value>|g" /tmp/hive-site.xml

############################# Changing the Driver name
old_driver_name=`grep "javax.jdo.option.ConnectionDriverName" -A +3 -B 1 /tmp/hive-site.xml | grep "<value>" | xargs`
sudo sed -i "s|$old_driver_name|<value>org.postgresql.Driver</value>|g" /tmp/hive-site.xml

############################# Changing the database user
old_db_username=`grep "javax.jdo.option.ConnectionUserName"  -A +3 -B 1 /tmp/hive-site.xml | grep "<value>" | xargs`
sudo sed -i "s|$old_db_username|<value>$rds_db_instance_username</value>|g" /tmp/hive-site.xml

############################# Changing the database password and description
connection_password=`grep "javax.jdo.option.ConnectionPassword" -A +3 -B 1 /tmp/hive-site.xml | grep "<value>" | xargs`
sudo sed -i "s|$connection_password|<value>$rds_db_instance_password</value>|g" /tmp/hive-site.xml
old_password_description=`grep "javax.jdo.option.ConnectionPassword" -A +3 -B 1 /tmp/hive-site.xml | grep "<description>" | xargs`
new_password_description='<description>the password for the DB instance</description>'
sudo sed -i "s|$password_description|$new_password_description|g" /tmp/hive-site.xml

############################# Moving hive-site to backup
sudo mv /etc/hive/conf/hive-site.xml /etc/hive/conf/hive-site.xml_bkup
sudo mv /tmp/hive-site.xml /etc/hive/conf/hive-site.xml

############################# Init Schema for Postgres
/usr/lib/hive/bin/schematool -dbType postgres -initSchema

############################# Restart Hive
## Check Amazon Linux version and restart Hive
OS_version=`uname -r`
if [[ "$OS_version" == *"amzn2"* ]]; then
    echo "Amazon Linux 2 instance, restarting Hive..."
    sudo systemctl stop hive-server2
    sudo systemctl stop hive-hcatalog-server
    sudo systemctl start hive-server2
    sudo systemctl start hive-hcatalog-server
elif [[ "$OS_version" == *"amzn1"* ]]; then
    echo "Amazon Linux 1 instance, restarting Hive"
    sudo stop hive-server2
    sudo stop hive-hcatalog-server
    sudo start hive-server2
    sudo start hive-hcatalog-server
else
    echo "ERROR: OS version different from AL1 or AL2."
fi
echo "--------------------COMPLETED--------------------"

请务必在脚本中替换以下值：

rds_db_instance_endpoint 替换为数据库实例的端点
rds_db_instance_port 替换为数据库实例的端口
rds_db_name 替换为 PostgreSQL 数据库的名称
rds_db_instance_username 替换为数据库实例用户名
rds_db_instance_password 替换为数据库实例密码

将脚本上载到 Amazon S3。您可以使用 Amazon EMR 控制台、AWS Command Line Interface（AWS CLI）或 API 将脚本作为步骤任务运行。要使用 Amazon EMR 控制台运行脚本，请执行以下操作：

1. 打开 Amazon EMR 控制台。

2. 在 Cluster List（集群列表）页面上，选择集群的链接。

3. 在Cluster Details（集群详细信息）页面上选择 Steps（步骤）选项卡。

4. 在 Steps（步骤）选项卡上，选择 Add step（添加步骤）。

5. 在 Add step（添加步骤）对话框中，保留 Step type（步骤类型）和 Name（名称）的默认值。

6. 对于 JAR location（JAR 位置），请输入以下内容：

command-runner.jar

7. 对于 Arguments（参数），请输入以下内容：

bash -c "aws s3 cp s3://example_bucket/script/hive_postgres_emr_step.sh .; chmod +x hive_postgres_emr_step.sh; ./hive_postgres_emr_step.sh"

将命令中的 S3 位置替换为您存储脚本的位置。

8. 选择 Add（添加）运行步骤任务。

步骤任务完成后，执行以下操作以验证 Hive 配置更新：

1. 登录 Hive shell 并创建 Hive 表。

注意：请务必将示例中的 test_postgres 替换为 Hive 表的名称。

[hadoop@ip-X-X-X-X bin]$ hive

Logging initialized using configuration in file:/etc/hive/conf.dist/hive-log4j2.properties Async: true
hive> show databases;
OK
default
Time taken: 0.569 seconds, Fetched: 1 row(s)
hive> create table test_postgres(a int,b int);
OK
Time taken: 0.708 seconds

2. 安装 PostgreSQL：

[hadoop@ip-X-X-X-X bin]$ sudo yum install postgresql

3. 使用命令行连接到 PostgreSQL 数据库实例。

替换命令中的以下值：
mypostgresql.testabcd1111.us-west-2.rds.amazonaws.com 替换为数据库实例的终端节点
mypgdb 替换为 PostegreSQL 数据库的名称
database_username 替换为数据库实例用户名

[hadoop@ip-X-X-X-X bin]$ psql --host=mypostgresql.testabcd1111.us-west-2.rds.amazonaws.com --port=5432 --username=database_username --password --dbname=mypgdb

4. 弹出提示时，输入数据库实例密码。

5. 运行以下命令，确认您可以访问之前创建的 Hive 表：

mypgdb=>  select * from "TBLS";

 TBL_ID | CREATE_TIME | DB_ID | LAST_ACCESS_TIME | OWNER  | RETENTION | SD_ID |   TBL_NAME    |   TBL_TYPE    | VIEW_EXPANDED_TEXT | VIEW_ORIGINAL_TEXT | IS_REWRITE_ENABLED 
--------+-------------+-------+------------------+--------+-----------+-------+---------------+---------------+--------------------+--------------------+--------------------
      1 |  1555014961 |     1 |                0 | hadoop |         0 |     1 | test_postgres | MANAGED_TABLE |                    |                    | f
(1 row)

现在，您的 Amazon EMR 集群正在将 PostgreSQL 数据库用作 Hive 的外部元数据仓。

如何在 Amazon EMR 上将 PostgreSQL 数据库用作 Hive 外部元数据仓？

解决方法

相关信息

相关内容