概述
配置 Hive 数据源后,您可以通过 数据融合 > 任务管理 功能将其数据导入至神策数据表或实体中,便于后续在报表、分析模型、智能运营等模块使用。
在配置数据源之前,请参考以下内容确认您的 Hive 数据源是否符合要求:
数据源类型 | 数据源名称 | 版本要求 | 用户权限要求 | 其他要求 |
---|---|---|---|---|
数据库类 | Hive | 3.x 或 2.3.x 版本 | SELECT 权限 | 无 |
注意
- 本功能基于 Hive JDBC 3.1.3 版本实现,由于低版本 Hive 自身协议变动原因,不支持 Hive Server 1.x 及 Hive Server 2.3 以下的版本。
添加 Hive 数据源
- 选择 数据融合 > 通用数据接入 > 数据源管理。
- 点击 全部数据源 Tab 页。
- 点击 Hive 数据源。
- 点击右上角的 创建 按钮。
- 填写 Hive 连接信息。
- 数据源连接名称:由您自定义填写,是该数据源连接在平台内的唯一标识。
- 服务器:数据源连接的 IP 地址。
- 端口号:数据源连接的端口号。
- 数据库名:可选,支持指定具体数据库,如果不指定将获取连接下的所有数据库。
- 登录方式:支持 匿名登录 和 用户名密码登录。
- 认证方式:
- 无认证方式:Hive 的配置文件 hive-site.xml 中,配置项 hive.server2.authentication 为 NONE。使用无认证方式时,匿名用户以 JDBC 方式访问 Hive,要求 Hive 对任意用户必须具有读权限。
- KERBEROS:
- 客户端 Principal:注册过 KDC 的客户端名称。
- Krb5 配置文件:仅支持 krb5.conf 名称及后缀的文件上传。
- Keytab 密钥:仅支持 .keytab 格式文件。
- 数据连接 URL:根据以上信息自动生成。
- 点击 测试连接 按钮。
- 点击 提交 按钮。
管理 Hive 数据源
- 选择 数据融合 > 通用数据接入 > 数据源管理。
- 点击 已添加数据源 Tab 页。
- 点击 Hive 数据源。
- 编辑:支持修改数据连接的所有配置参数。
- 删除:删除当前连接。
如果当前数据连接已被任务使用,修改参数或删除连接会导致任务失败。
数据表字段类型映射规则
从 Hive 数据源将数据导入到神策数据表,字段类型映射错误可能导致内容转换错误或任务执行失败,按以下规则配置字段映射,数据转换是安全的:
原始字段类型 | 神策数据表字段类型 |
---|---|
TINYINT | NUMBER / INT / BIGINT |
SMALLINT | NUMBER / INT / BIGINT |
INT/ INTEGER | NUMBER / INT / BIGINT |
BIGINT | NUMBER / BIGINT |
FLOAT | NUMBER |
DOUBLE | NUMBER |
DECIMAL | NUMBER |
NUMERIC | NUMBER |
STRING | STRING |
VARCHAR | STRING |
CHAR | STRING |
BOOLEAN | BOOLEAN |
TIMESTAMP | TIMESTAMP |
DATE | TIMESTAMP |
说明
- 以上提及类型为目前已支持的 Hive 字段类型;
- 未支持的类型字段配置任务导入后,将导致任务执行失败。