1. 版本适配与开通说明
- 适用版本:本功能适用于神策
3.0.4及以上版本。 - 开通方式:如需开通该功能,请联系客户经理办理。
- 适用模块:
数据接入 > 通用数据接入 > 数据同步 > 流任务。
2. 文档说明
本文档用于指导用户创建、配置、管理流任务。
流任务适用于实时或准实时数据同步场景,系统会持续从来源端消费数据,完成解析、字段映射和写入后,将数据同步到目标表中。
典型使用场景包括:
- 从 Kafka 等流式数据源持续同步用户行为数据。
- 将外部业务系统产生的实时数据写入神策实体表、事件表或明细表。
- 对持续产生的数据流进行字段解析、映射和入库。
3 . 创建流任务
- 选择 数据接入 > 通用数据接入 > 数据同步。
- 点击右上角的 创建任务 按钮,并选择 创建流步任务。
- 填写 任务基本信息。
- 填写 任务名称。
- 填写 描述。选填。
- 设置 数据来源和目标。
- 设置 数据同步来源
- 选择 来源连接。可以选择 外部数据源。外部数据源支持 Kafka 。
- 选择 来源数据。
- 同步 Schema。半结构化数据源(Kafka)需要同步 Schema 配置。
- Schema 的数据类型为 csv、txt、parquet、orc、json 时,需要手动配置数据同步目标和字段映射。
- Schema 的数据类型为 神策标准 json 格式时,不需要配置数据同步目标和字段映射,直接配置调度、预警即可。
- 设置 数据同步目标。
- 目标类型:实体
- 主表
- 事件表
- 明细表
- 目标类型:实体
- 设置 数据同步来源
- 配置 字段映射。目标类型选择新建表时,系统会自动添加所有来源表中的字段,可以手动修改目标表的字段名或者删除不需要的字段。
- 配置 任务执行规则。
- 执行频率。默认 长期执行 不可修改。
- 默认消费监控:支持选择 从最早位置开始消费、从最新位置开始消费。
- 生效周期。默认 长期有效 不可修改
- 选择 分区规则。
- 设置 按指定字段 hash。按当前添加的 hash 字段顺序,依次对字段执行 hash 计算(最多添加 10 个字段),以此作为数据分区的依据。
- 设置 按并行度绑定。根据任务配置的并行度,自动将数据分配至对应并行任务的分区。
- 设置 并行度。
- 选择 是否跳过异常数据。
- 设置 报警监控。当数据导入任务遇到运行问题时,支持向运维等人员通过邮件、企业微信、钉钉、飞书进行报警告知的功能,方便及时进行问题排查处理。
- 执行频率。默认 长期执行 不可修改。
- 点击 数据预览 按钮。
- 点击 提交 按钮。
- 当你使用神策数据表作为同步来源或目标时,您只能查看和选择拥有 表数据权限 的数据表。
- 报警记录可前往 平台管理 > 报警管理 > 报警历史记录 查看。
4. 任务管理
4.1 任务列表
依此选择 数据接入 > 通用数据接入 > 数据同步 即可查看任务列表。
在列表页,你可以进行如下操作:
- 运行/暂停任务:可以多次暂停和再次启动任务。
- 查看任务:进入任务详情页面。
- 编辑任务:暂停任务后,所有任务均可以修改任务名称、描述、字段映射、任务执行规则、报警监控。
- 复制任务:复制任务后,所有任务均可以修改任务名称、描述、字段映射、任务执行规则、报警监控。
- 删除任务:删除任务后,相关的同步数据表不会一同删除。
5. 权限
- 若有 查看数据同步 的权限,则可进入 数据接入 > 通用数据接入 > 数据同步 页面查看已有任务和运行记录。
- 若有 管理数据同步 的权限,则可进入 数据接入 > 通用数据接入 > 数据同步 页面进行创建、编辑、删除等一系列管理操作。