概述
Schema 配置 用于定义来源数据的字段结构,帮助半结构化数据稳定同步到神策系统,同时减少表结构变更后的维护成本。
当前支持的来源连接类型:
HDFSFTPKafka
当前支持的数据格式:
CSVTXTJSON神策标准 JSONORCParquet
Schema 创建说明
1. 进入 Schema 配置
支持两种入口:
- 全局入口:在
数据源管理页面或同步任务列表页,点击Schema 配置 - 同步任务内入口:创建同步任务时,如果没有可用 Schema,可直接点击
创建 Schema
2. 创建 Schema
创建流程:
进入 Schema 配置 -> 点击创建 -> 配置基本信息 -> 配置表结构 -> 预览并保存
需要填写的信息:
来源连接支持选择通过半结构化数据源创建的数据连接,本期支持HDFS、FTP、Kafka来源数据Schema 名称数据格式
3. 配置基本信息
不同格式支持的基本信息配置项如下:
CSV、TXT支持配置字段分隔符、跳过首行JSON、神策标准 JSON、ORC、Parquet无需额外配置
4. 配置表结构
支持配置以下内容:
来源数据表文件预览可查看来源文件数据,确认数据是否正确字段信息当前支持对TXT、CSV、JSON格式进行字段配置
配置完成后,可点击预览,查看 Schema 字段配置效果。
确认无误后,点击保存,完成创建。
Schema 配置管理说明
已创建的 Schema 支持以下操作:
查看查看 Schema 配置详情编辑编辑 Schema 配置及字段信息删除删除已创建的 Schema
推荐使用流程
可按以下任一方式使用:
创建数据源连接 -> 创建同步任务/选择数据表 -> 配置 Schema -> 保存创建数据源连接 -> 创建 Schema -> 创建同步任务(选择或编辑 Schema)-> 保存
如果同一结构会被多个任务复用,建议先创建 Schema,再创建同步任务。