1. 概述

配置 Hive 数据源后,您可以通过 数据融合 > 任务管理 功能将其数据导入至神策数据表或实体中,便于后续在报表、分析模型、智能运营等模块使用。

在配置数据源之前,请参考以下内容确认您的 Hive 数据源是否符合要求:

数据源类型

数据源名称

版本要求

用户权限要求

其他要求

数据库类Hive3.x 或 2.3.x 版本SELECT 权限


注意

  • 本功能基于 Hive JDBC 3.1.3 版本实现,由于低版本 Hive 自身协议变动原因,不支持 Hive Server 1.x 及 Hive Server 2.3 以下的版本。


2. 添加 Hive 数据源

  1. 选择 数据融合 > 通用数据接入 > 数据源管理。
  2. 点击 全部数据源 Tab 页。
  3. 点击 Hive 数据源。
  4. 点击右上角的 创建 按钮。
  5. 填写 Hive 连接信息。
    1. 数据源连接名称:由您自定义填写,是该数据源连接在平台内的唯一标识。
    2. 服务器:数据源连接的 IP 地址。
    3. 端口号:数据源连接的端口号。
    4. 数据库名可选,支持指定具体数据库,如果不指定将获取连接下的所有数据库。
    5. 登录方式支持 匿名登录用户名密码登录
    6. 认证方式:
      1. 无认证方式:Hive 的配置文件 hive-site.xml 中,配置项 hive.server2.authenticationNONE使用无认证方式时,匿名用户以 JDBC 方式访问 Hive,要求 Hive 对任意用户必须具有读权限。
      2. KERBEROS
        1. 客户端 Principal:注册过 KDC 的客户端名称。
        2. Krb5 配置文件:仅支持 krb5.conf 名称及后缀的文件上传。
        3. Keytab 密钥:仅支持 .keytab 格式文件。
    7. 数据连接 URL:根据以上信息自动生成。
  6. 点击 测试连接 按钮。
  7. 点击 提交 按钮。

3. 管理 Hive 数据源

  1. 选择 数据融合 > 通用数据接入 > 数据源管理。
  2. 点击 已添加数据源 Tab 页。
  3. 点击 Hive 数据源。
    1. 编辑:支持修改数据连接的所有配置参数。
    2. 删除:删除当前连接。

如果当前数据连接已被任务使用,修改参数或删除连接会导致任务失败。

4. 数据表字段类型映射规则

从 Hive 数据源将数据导入到神策数据表,字段类型映射错误可能导致内容转换错误或任务执行失败,按以下规则配置字段映射,数据转换是安全的:

原始字段类型神策数据表字段类型
TINYINTNUMBER / INT / BIGINT
SMALLINTNUMBER / INT / BIGINT
INT/ INTEGERNUMBER / INT / BIGINT
BIGINTNUMBER / BIGINT
FLOATNUMBER
DOUBLENUMBER
DECIMALNUMBER
NUMERICNUMBER
STRINGSTRING
VARCHARSTRING
CHARSTRING
BOOLEANBOOLEAN
TIMESTAMPTIMESTAMP
DATETIMESTAMP

说明

  • 以上提及类型为目前已支持的 Hive 字段类型;
  • 未支持的类型字段配置任务导入后,将导致任务执行失败。