菜单

流任务创建和管理

1. 版本适配与开通说明

  • 适用版本:本功能适用于神策 3.0.4 及以上版本。
  • 开通方式:如需开通该功能,请联系客户经理办理。
  • 适用模块:数据接入 > 通用数据接入 > 数据同步 > 流任务

 

2. 文档说明

本文档用于指导用户创建、配置、管理流任务。

流任务适用于实时或准实时数据同步场景,系统会持续从来源端消费数据,完成解析、字段映射和写入后,将数据同步到目标表中。

典型使用场景包括:

  1. 从 Kafka 等流式数据源持续同步用户行为数据。
  2. 将外部业务系统产生的实时数据写入神策实体表、事件表或明细表。
  3. 对持续产生的数据流进行字段解析、映射和入库。

 

3 . 创建流任务

  1. 选择 数据接入 > 通用数据接入数据同步。
  2. 点击右上角的 创建任务 按钮,并选择 创建流步任务
  3. 填写 任务基本信息。
    1. 填写 任务名称
    2. 填写 描述。选填。
  4. 设置 数据来源和目标
    1. 设置 数据同步来源
      1. 选择 来源连接。可以选择 外部数据源外部数据源支持 Kafka 。
      2. 选择 来源数据。
      3. 同步 Schema。半结构化数据源(Kafka)需要同步 Schema 配置。
        1. Schema 的数据类型为 csv、txt、parquet、orc、json 时,需要手动配置数据同步目标和字段映射。
        2. Schema 的数据类型为 神策标准 json 格式时,不需要配置数据同步目标和字段映射,直接配置调度、预警即可。
    2. 设置 数据同步目标。
      1. 目标类型:实体
        1. 主表
        2. 事件表
        3. 明细表
  5. 配置 字段映射。目标类型选择新建表时,系统会自动添加所有来源表中的字段,可以手动修改目标表的字段名或者删除不需要的字段。
  6. 配置 任务执行规则
    1. 执行频率。默认 长期执行 不可修改。
      1. 默认消费监控:支持选择 从最早位置开始消费、从最新位置开始消费。
    2. 生效周期。默认 长期有效 不可修改
    3. 选择 分区规则
      1. 设置 按指定字段 hash。按当前添加的 hash 字段顺序,依次对字段执行 hash 计算(最多添加 10 个字段),以此作为数据分区的依据。
      2. 设置 按并行度绑定。根据任务配置的并行度,自动将数据分配至对应并行任务的分区,每个并行度固定写到一个神策节点。
    4. 设置 并行度。
    5. 选择 是否跳过异常数据。
      1. 是:遇到错误数据任务正常执行,错误数据输出到一个 hdfs 文件中。
      2. 否:遇到错误任务直接挂掉,必须通过调整配置正确后才能继续处理。
    6. 设置 报警监控当数据导入任务遇到运行问题时,支持向运维等人员通过邮件、企业微信、钉钉、飞书进行报警告知的功能,方便及时进行问题排查处理。
      1. 开启/关闭报警:开启报警,需在 平台管理 > 收件箱管理/触达通道管理 完成对应通知渠道的配置,可参考 发件箱设置 和 触达通道管理;需在 平台管理报警管理 完成通知方式配置,可参考 报警管理
      2. 选择 报警条件。支持 任务执行失败 触发报警和 任务超时 触发报警。
      3. 通知方式
  7. 点击 数据预览 按钮。
  8. 点击 提交 按钮。
  • 当你使用神策数据表作为同步来源或目标时,您只能查看和选择拥有 表数据权限 的数据表。
  • 报警记录可前往 平台管理 > 报警管理 > 报警历史记录 查看。

 

4. 任务管理

4.1 任务列表

依此选择 数据接入 > 通用数据接入 > 数据同步 即可查看任务列表。

在列表页,你可以进行如下操作:

  • 运行/暂停任务:可以多次暂停和再次启动任务。
  • 查看任务:进入任务详情页面。
  • 编辑任务:暂停任务后,所有任务均可以修改任务名称、描述、字段映射、任务执行规则、报警监控。
  • 复制任务:复制任务后,所有任务均可以修改任务名称、描述、字段映射、任务执行规则、报警监控。
  • 删除任务:删除任务后,相关的同步数据表不会一同删除。

 

5. 高级参数

通过开启进阶功能,入口见:

参数列表:

参数名 默认值 说明
checkpoint.interval 10000 这个 Flink 任务 checkpoint 的间隔时间,单位 (ms)
semantics EXACTLY_ONCE

流导入任务的一致性语义:

  • AT_LEAST_ONCE:至少一次,数据不丢,但是可能重复。适用于对性能有较高要求的场景。
  • EXACTLY_ONCE:精确一次,数据不丢不重。适用于严格要求数据不丢不重的场景,单并行度 qps 仅能 3000 左右。

6. 权限

  • 若有 查看数据同步 的权限,则可进入 数据接入 > 通用数据接入 > 数据同步 页面查看已有任务和运行记录。
  • 若有 管理数据同步 的权限,则可进入 数据接入 > 通用数据接入 > 数据同步 页面进行创建、编辑、删除等一系列管理操作。

 

上一个
批任务创建和管理
下一个
Schema 配置
最近修改: 2026-06-03