菜单

配置 FTP 数据源

FTP(File Transfer Protocol)是一种文件传输协议,该协议由两个部分组成:FTP 服务器、FTP 客户端

  • FTP 服务器:用来存储文件,用户可以使用 FTP 客户端通过 FTP 协议访问位于 FTP 服务器上的资源
  • FTP 客户端:用户可以使用 FTP 客户端通过  FTP  协议访问位于 FTP 服务器上的资源

在数据源管理中,可以通过配置 FTP 数据源连接实现外部数据的接入

添加数据源

操作步骤:

第一步

在数据源管理中选择 FTP 数据源

第二步

在 FTP 数据源管理列表中,选择「添加连接」

第三步

输入 FTP 连接信息,点击「测试连接 」或直接「保存」

配置参数如下:

配置参数配置说明
数据源连接名称数据源连接名称由您自定义填写,是该数据源连接在平台内的唯一标识
协议类型分为 FTP 和 SFTP(SFTP 协议是在 FTP 的基础上对数据进行加密,使得传输的数据相对来说更安全
服务器

数据源连接的 IP 地址;集群场景下,支持输入多个

注意

集群场景下,需要对每台机器的数据文件按天做区分

多台机器上如果包含同一天的数据,系统仅读取轮询到的首台机器的数据

端口号

数据源连接的端口号

基础路径

该路径是根目录的绝对路径,例如:/home/sa_cluster

注意

比如某 FTP 数据集文件夹的完整路径为:/home/sa_cluster/groupFile/dataFile

则基础路径为:/home/sa_cluster

文件类型读取「数据文件」的类型范围,当前支持 txt、csv;后续同步数据时,仅读取指定类型的数据文件
用户名数据源连接的有效用户名
密码对应用户名的有效密码

FTP 数据集配置方法

通过 FTP 数据源接入数据,必须先按以下方法对路径,文件夹、文件进行配置

路径规则定义

导入数据集时,需按该路径规则进行配置,如:/home/dataGroupFile/dataFile

  • /home:基础路径
  • dataGroupFile:数据集分组文件夹
  • dataFile:数据集文件夹

单个数据集需涉及以下内容

序号内容名称和必要性作用约束示例文件
01数据集分组文件夹
必要
类比结构化数据库 DB,起到对数据集分组的作用无具体名称约束,可以自定义
02数据集文件夹
必要

一个文件夹代表一个数据集;
该文件夹包含三类文件:元数据文件、数据文件、就绪文件

文件夹命名规则:仅支持字母、数字、下划线的组合,且需要以字母开头;最多 100 个字符


03元数据文件
必要
描述当前数据集的数据结构,一个数据集文件夹下只能存放一个元数据文件

文件格式:yml 格式
文件命名规则:与数据集文件夹名称一致
字段命名规则:仅支持字母、数字、下划线的组合,且需要以字母开头;最多 100 个字符

04数据文件
非必要
存储当前数据集「数据」的文件;一个数据集文件夹下支持存放多个数据文件。
注:数据文件需要严格遵从命名规则,否则将无法被系统读取

文件格式:txt 或 csv 格式
分隔符:逗号分隔符
字符编码:UTF-8
文件命名规则:{fileName}_{dataTime}

  • fileName:与数据集文件夹名称一致
  • dataTime:代表当前数据的业务时间,格式为{yyyymmddHH};必须写在文件名最后一个下划线的后方
  • 注:后续增量同步数据时将使用{dataTime}作为增量标识字段,按文件增量读取
    其中{HH} 为 24 小时制;即:00-23
05就绪文件
含数据文件时:必要

代表某个数据文件已生成就绪;文件内容无具体要求
注:一个数据文件对应一个就绪文件,缺少就绪文件的数据将无法被读取

文件格式:verf 格式
文件命名规则:与某个数据文件名称一致



以下为当前支持的字段类型以及接入后映射类型
注:
字段类型与值不匹配时,将无法导入错误字段的值
若需向已有数据集追加字段,请追加至元数据字段末尾

字段类型接入后映射类型
bigint数值型
decimal数值型
double数值型
float数值型
int数值型
mediumint数值型
smallint数值型
tinyint数值型
char文本型
enum文本型
longtext文本型
mediumtext文本型
text文本型
time文本型
tinytext文本型
string文本型
varchar文本型
year文本型
set文本型
date日期型
datetime日期型
timestamp日期型



管理数据源

操作步骤:

第一步

在数据源管理中选择 FTP 数据源

第二步

在 FTP 数据源管理列表中,进行编辑和删除数据连接的操作

注意:如果当前数据连接中存在表已经被添加的情况;此时,不支持对数据连接进行删除。

上一个
配置 Oracle 数据源
下一个
数据表管理
最近修改: 2024-12-27