1. 概述
Schema 配置是数据同步场景中实现数据结构标准化的核心支撑,通过统一定义数据源表的字段类型、数据类型,可完成 Schema 配置的全生命周期管理与跨任务灵活复用,既从底层保障数据同步的一致性,又大幅提升配置研发与运维效率。
该能力精准解决多源数据格式不统一、跨平台字段规则不一致、重复配置效率低等核心问题,通过 Schema 配置的集中化管理实现全域复用,有效避免字段匹配偏差、映射规则错误,降低数据同步失败风险;同时依托配置复用大幅减少冗余操作,从流程上提升配置准确性,全方位保障数据同步的精准性与稳定性。
2. 创建 Schema
- 选择 数据接入 > 通用数据接入 > 数据同步。
- 点击右上角的 创建任务 按钮,并选择 创建同步任务。
- 填写 任务基本信息。
- 填写 任务名称。
- 填写 描述。选填。
- 设置 数据来源和目标。
- 设置 数据同步来源
- 选择 来源连接。可以选择 外部数据源 或 神策数据表。外部数据源支持 Hive、MySQL、ClickHouse 和 FTP。
- 选择 来源数据。
- (3.4.0+ 版本支持)同步 Schema。半结构化数据源( FTP、HDFS)需要同步 Schema 配置。
- Schema 的数据类型为 csv、txt、parquet、orc、json 时,需要手动配置数据同步目标和字段映射。
- Schema 的数据类型为 神策标准 json 格式时,不需要配置数据同步目标和字段映射,直接配置调度、预警即可。
- 设置 数据同步目标
- 选择 目标类型。
- 设置 数据同步来源