1. 概述

数据融合 > 通用数据接入 > 数据同步(原任务管理) 模块主要为通用数据接入场景提供数据同步的配置能力,支持以可视化界面的方式,将外部数据源同步至神策系统内。

1.1. 任务类型

类型说明适用范围
同步任务通过可视化的方式选择所需字段和配置映射关系。使用门槛较低,适用于简单的数据同步任务。
SQL 任务

通过写 SQL 的方式从数据源读取所需数据,然后再配置字段映射和同步策略。

需要掌握基础 SQL 的使用,可通过 SQL 对需要同步的数据进行处理再进行数据同步。

1.2. 任务使用场景

任务管理支持把 外部数据源神策数据表 同步到 神策数据表 或 事件表(events) 用户表(users),可以满足多种场景:


同步路径适用场景
1外部数据源 同步到 神策数据表
  • 将导入的数据表作为维度表,与用户表/事件表进行关联,然后创建虚拟属性使用
  • 将导入的数据表在神策分析的报表模块使用
  • 将已有标签数据导入神策标签后使用
2外部数据源 同步到 事件表(events)或用户表(users)
  • 除埋点上报数据外,也可以通过任务管理,将外部数据源或神策数据表的数据导入到用户表、事件表中

2. 创建任务

2.1. 创建同步任务

  1. 选择 数据接入 > 通用数据接入数据同步。
  2. 点击右上角的 创建任务 按钮,并选择 创建同步任务
  3. 填写 任务基本信息。
    1. 填写 任务名称
    2. 填写 描述。选填。
  4. 设置 数据来源和目标
    1. 设置 数据同步来源
      1. 选择 来源连接。可以选择 外部数据源 或 神策数据表。外部数据源支持 Hive、MySQL、ClickHouse 和 FTP。
      2. 选择 来源数据。
    2. 设置 数据同步目标
      1. 选择 目标类型。
        1. 实体
          1. 主表
          2. 事件表
          3. 明细表
          4. 标签
        2. 已有表:支持主键表和非主键表。
        3. 新建表
          1. 填写 表名
          2. 选择 表类型:支持创建主键表或非主键表。
          3. 选择 主键字段:表类型选择主键表时需要从来源表中选择一个字段作为主键字段。
      2. 选择 目标数据。目标类型选择新建表时,需要填写表名。
  5. 配置 字段映射。目标类型选择新建表时,系统会自动添加所有来源表中的字段,可以手动修改目标表的字段名或者删除不需要的字段。
  6. 配置 任务执行规则
    1. 选择 执行频率
      • 手动执行:在生效周期内,可在 运行记录 模块中,多次手动执行任务。
        1. 抵达生效时间后立即执行一次:设置是否在生效周期开始时自动执行一次任务。
      • 重复执行:支持通过 基础配置表达式配置 方式配置任务的重复执行频率。
    2. 选择 生效周期
    3. 配置 高级设置
      1. 设置 失败重试次数。选填。
      2. 设置 重试间隔。选填。
      3. 设置 执行并发数。选填。
    4. 选择 读取逻辑
    5. 选择 写入逻辑。对于不同类型的同步目标,可选的写入逻辑不同。
      • 写入目标为实体用户表、有主键的数据表时,只支持 更新或插入
      • 写入目标为实体事件表时,只支持 增量写入
      • 写入目标为没有主键的数据表时,支持选择 全量覆盖增量写入。当写入目标为分区表时,需要先选择分区字段,再选择写入逻辑。
    6. 设置 报警监控当数据导入任务遇到运行问题时,支持向运维等人员通过邮件、企业微信、钉钉、飞书进行报警告知的功能,方便及时进行问题排查处理。
      1. 开启/关闭报警:开启报警,需在 平台管理 > 收件箱管理/触达通道管理 完成对应通知渠道的配置,可参考 发件箱设置 和 触达通道管理;需在 平台管理报警管理 完成通知方式配置,可参考 报警管理
      2. 选择 报警条件。支持 任务执行失败 触发报警和 任务超时 触发报警。
      3. 通知方式
  7. 点击 数据预览 按钮。
  8. 点击 提交 按钮。
  • 当你使用神策数据表作为同步来源或目标时,您只能查看和选择拥有 表数据权限 的数据表。
  • 报警记录可前往 平台管理 > 报警管理 > 报警历史记录 查看。

2.2. 创建 SQL 任务

  1. 选择 数据接入 > 通用数据接入 > 数据同步
  2. 点击右上角的 创建任务 按钮,并选择 创建 SQL 任务
  3. 填写 任务基本信息。
    1. 填写 任务名称
    2. 填写 描述。选填。
  4. 设置 读取逻辑。支持同时读取一个数据源下的多个数据库。外部数据源支持 Hive、ClickHouse、MySQL、FTP。
    1. 选择数据源并点击表格右侧的 添加 按钮。
    2. 点击 解析 SQL。解析后,数据同步来源 会自动填充。
    3. 点击 运行 SQL 查看运行结果。
  5. 设置 数据同步目标
    1. 选择 目标类型。
      1. 实体
      2. 已有表:支持主键表和非主键表。
      3. 新建表
        1. 填写 表名
        2. 选择 表类型:支持创建主键表或非主键表。
        3. 选择 主键字段:表类型选择主键表时需要从来源表中选择一个字段作为主键字段。
    2. 选择 目标数据。目标类型选择新建表时,需要填写表名。
  6. 配置 任务执行规则
    1. 选择 执行频率
      • 手动执行:在生效周期内,可在 运行记录 模块中,多次手动执行任务。
        1. 抵达生效时间后立即执行一次:设置是否在生效周期开始时自动执行一次任务。
      • 重复执行:支持通过 基础配置表达式配置 方式配置任务的重复执行频率。
    2. 选择 生效周期
    3. 配置 高级设置
      1. 设置 失败重试次数。选填。
      2. 设置 重试间隔。选填。
      3. 设置 执行并发数。选填。
    4. 选择 读取逻辑
    5. 选择 写入逻辑。对于不同类型的同步目标,可选的写入逻辑不同。
      • 写入目标为实体用户表、有主键的数据表时,只支持 更新或插入
      • 写入目标为实体事件表时,只支持 增量写入
      • 写入目标为没有主键的数据表时,支持选择 全量覆盖增量写入。当写入目标为分区表时,需要先选择分区字段,再选择写入逻辑。
  7. 设置 报警监控当数据导入任务遇到运行问题时,支持向运维等人员通过邮件、企业微信、钉钉、飞书进行报警告知的功能,方便及时进行问题排查处理。
    1. 开启/关闭报警:开启报警,需在 平台管理 > 收件箱管理/触达通道管理 完成对应通知渠道的配置,可参考 发件箱设置 和 触达通道管理;需在 平台管理报警管理 完成通知方式配置,可参考 报警管理
    2. 选择 报警条件。支持 任务执行失败 触发报警和 任务超时 触发报警。
    3. 通知方式
  8. 点击 提交 按钮。

2.3. cron 表达式

创建任务配置 任务执行规则 时,若 执行频率 选择为 重复执行,支持 cron 表达式 配置方式。

cron 表达式是一种广泛应用于描述时间和日期信息的标准表达式。cron 表达式是一个字符串,由 6 个必要的设置组成,同时支持可选的年份设置。通常 cron 表达式设置由空格分开,主要结构为:秒 分 小时 日期 月份 星期 (年,可选)。

当前最多只支持小时级的执行任务。

字段

允许值

允许的特殊字符

是否必须

秒(Seconds)0 - 59的整数不允许
分(Minutes)0 - 59的整数不允许
小时(Hours)0 - 23的整数, - * / 四个字符
日期(DayofMonth)1 - 31的整数(需要考虑当月天数),- * ? / 五个字符
月份(Month)1 - 12的整数或者 JAN - DEC, - * / 四个字符
星期(DayofWeek)1 - 7的整数或者 SUN - SAT(1=SUN), - * ? /五个字符
年(Year)1970 - 2099的整数, - * /四个字符

每一个字段都使用数字,还可出现如下特殊字符,它们的含义是:

  • *:表示匹配任意值。假如在分字段使用 *,即表示每分钟都将执行一次。
  • ?:表示无指定字段,只能用在日期和星期两个字段。
  • -:表示匹配范围。例如在分钟字段使用 5-20,表示在 5 分到 20 分钟之间,每分钟执行一次。
  • /:表示从起始时间开始执行,每隔固定时间执行一次。例如在分钟字段使用 5/20,表示从 5 分开始,每隔 20 分钟执行一次,也即 25 分、45 分各执行一次。
  • ,:表示列出枚举值。例如:在分钟字段使用 5,20,表示在 5 分和 20 分各执行一次。

示例:

表达式

解释

0 0 12 * * ?每天中午 12:00 执行一次
0 15 10 ? * *每天上午 10:15 执行一次,其中 0 15 10 ? * *、0 15 10 * * ?、0 15 10 * * ? * 三个表达式效果相同
0 15 10 * * ? 2020在 2020 年的每天的 10:15 执行一次
0 15 10 ? * MON-FRI每周周一至周五每天上午 10:15 执行一次
0 15 10 15 * ?每个月的第 15 天的上午 10:15 执行一次
0 0 12 1/5 * ?每月1号开始,每隔 5 天每天中午 12:00 执行一次
0 11 11 11 11 ?每年的 11 月 11 日 11:11 执行一次

3. 任务管理

3.1. 任务列表

依此选择 数据接入 > 通用数据接入 > 数据同步 即可查看任务列表。

在列表页,你可以进行如下操作:

  • 运行/暂停任务:可以多次暂停和再次启动任务。
  • 查看运行记录:查看运行记录和日志、补数据。
  • 查看任务:进入任务详情页面。
  • 编辑任务:暂停任务后,所有任务均可以修改任务名称、描述、字段映射、任务执行规则、报警监控。SQL 任务还可以修改 SQL 语句。
  • 删除任务:删除任务后,相关的同步数据表不会一同删除。

3.2. 运行记录

3.2.1. 运行记录详情 

在任务列表中,点击任务右侧的 查看运行记录 可查看任务的基本信息和运行记录。

同时支持以下功能:

  • 立即执行:点击可立即执行一次。
  • 补数据:对于带时间宏参数的任务,可以点击 补数据 按钮选择对应的业务日期进行补数据操作。

3.2.2. 运行日志

在操作列点击 运行日志 按钮,可以查看每个任务实例的具体执行情况。

4. 权限

  • 若有 查看数据同步 的权限,则可进入 数据接入 > 通用数据接入 > 数据同步 页面查看已有任务和运行记录。
  • 若有 管理数据同步 的权限,则可进入 数据接入 > 通用数据接入 > 数据同步 页面进行创建、编辑、删除等一系列管理操作。