菜单

配置 FTP 数据源

FTP(File Transfer Protocol)是一种文件传输协议,该协议由两个部分组成:FTP 服务器、FTP 客户端

  • FTP 服务器:用来存储文件,用户可以使用 FTP 客户端通过 FTP 协议访问位于 FTP 服务器上的资源
  • FTP 客户端:用户可以使用 FTP 客户端通过 FTP 协议访问位于 FTP 服务器上的资源

在数据源管理中,可以通过配置 FTP 数据源连接实现外部数据的接入

添加数据源

操作步骤:

  1. 在数据源管理中选择 FTP 数据源

  1. 在 FTP 数据源管理列表中,选择 添加连接

  1. 输入 FTP 连接信息,点击 测试连接 或直接 保存

配置参数如下:

配置参数 配置说明
数据源连接名称 数据源连接名称由您自定义填写,是该数据源连接在平台内的唯一标识
协议类型 分为 FTP 和 SFTP(SFTP 协议是在 FTP 的基础上对数据进行加密,使得传输的数据相对来说更安全)
服务器

数据源连接的 IP 地址;集群场景下,支持输入多个

注意

集群场景下,需要对每台机器的数据文件按天做区分

多台机器上如果包含同一天的数据,系统仅读取轮询到的首台机器的数据

端口号

数据源连接的端口号

基础路径

该路径是根目录的绝对路径,例如:/home/sa_cluster

注意

比如某 FTP 数据集文件夹的完整路径为:/home/sa_cluster/groupFile/dataFile

则基础路径为:/home/sa_cluster

文件类型 读取 数据文件 的类型范围,当前支持 txt、csv;后续同步数据时,仅读取指定类型的数据文件
用户名 数据源连接的有效用户名
密码 对应用户名的有效密码

FTP 数据集配置方法

通过 FTP 数据源接入数据,必须先按以下方法对路径、文件夹、文件进行配置。

路径规则定义

导入数据集时,需按该路径规则进行配置,如:/home/dataGroupFile/dataFile

  • /home:基础路径
  • dataGroupFile:数据集分组文件夹
  • dataFile:数据集文件夹

单个数据集需涉及以下内容

序号 内容名称和必要性 作用 约束 示例文件
01 数据集分组文件夹
必要
类比结构化数据库 DB,起到对数据集分组的作用 无具体名称约束,可以自定义  
02 数据集文件夹
必要
一个文件夹代表一个数据集;该文件夹包含三类文件:元数据文件、数据文件、就绪文件 文件夹命名规则:仅支持字母、数字、下划线的组合,且需要以字母开头;最多 100 个字符  
03 元数据文件
必要
描述当前数据集的数据结构,一个数据集文件夹下只能存放一个元数据文件 文件格式: yml 格式
文件命名规则: 与数据集文件夹名称一致
字段命名规则: 仅支持字母、数字、下划线的组合,且需要以字母开头;最多 100 个字符
tableName.yml
04 数据文件
非必要
存储当前数据集数据的文件;一个数据集文件夹下支持存放多个数据文件。注:数据文件需要严格遵从命名规则,否则将无法被系统读取 文件格式: txt 或 csv 格式
分隔符: 逗号分隔符
字符编码: UTF-8
文件命名规则: {fileName}_{dataTime}
  • fileName:与数据集文件夹名称一致
  • dataTime:代表当前数据的业务时间,格式为{yyyymmddHH};必须写在文件名最后一个下划线的后方
  • 注: 后续增量同步数据时将使用{dataTime}作为增量标识字段,按文件增量读取其中{HH}为 24 小时制;即:00-23
tableName_2022010100.csv
05 就绪文件
含数据文件时:必要
代表某个数据文件已生成就绪;文件内容无具体要求。注:一个数据文件对应一个就绪文件,缺少就绪文件的数据将无法被读取 文件格式: verf 格式
文件命名规则: 与某个数据文件名称一致
tableName_2022010100.verf

以下为当前支持的字段类型以及接入后映射类型。注:字段类型与值不匹配时,将无法导入错误字段的值。若需向已有数据集追加字段,请追加至元数据字段末尾。

字段类型 接入后映射类型
bigint 数值型
decimal 数值型
double 数值型
float 数值型
int 数值型
mediumint 数值型
smallint 数值型
tinyint 数值型
char 文本型
enum 文本型
longtext 文本型
mediumtext 文本型
text 文本型
time 文本型
tinytext 文本型
string 文本型
varchar 文本型
year 文本型
set 文本型
date 日期型
datetime 日期型
timestamp 日期型

管理数据源

操作步骤:

  1. 在数据源管理中选择 FTP 数据源

  1. 在 FTP 数据源管理列表中,进行编辑和删除数据连接的操作
注意:如果当前数据连接中存在表已经被添加的情况,此时不支持对数据连接进行删除。

上一个
配置 Oracle 数据源
下一个
数据表管理
最近修改: 2025-05-19