FTP(File Transfer Protocol)是一种文件传输协议,该协议由两个部分组成:FTP 服务器、FTP 客户端
- FTP 服务器:用来存储文件,用户可以使用 FTP 客户端通过 FTP 协议访问位于 FTP 服务器上的资源
- FTP 客户端:用户可以使用 FTP 客户端通过 FTP 协议访问位于 FTP 服务器上的资源
在数据源管理中,可以通过配置 FTP 数据源连接实现外部数据的接入
添加数据源
操作步骤:
第一步
在数据源管理中选择 FTP 数据源
第二步
在 FTP 数据源管理列表中,选择「添加连接」
第三步
输入 FTP 连接信息,点击「测试连接 」或直接「保存」
配置参数如下:
配置参数 | 配置说明 |
---|---|
数据源连接名称 | 数据源连接名称由您自定义填写,是该数据源连接在平台内的唯一标识 |
协议类型 | 分为 FTP 和 SFTP(SFTP 协议是在 FTP 的基础上对数据进行加密,使得传输的数据相对来说更安全) |
服务器 | 数据源连接的 IP 地址;集群场景下,支持输入多个
|
端口号 | 数据源连接的端口号 |
基础路径 | 该路径是根目录的绝对路径,例如:/home/sa_cluster
|
文件类型 | 读取「数据文件」的类型范围,当前支持 txt、csv;后续同步数据时,仅读取指定类型的数据文件 |
用户名 | 数据源连接的有效用户名 |
密码 | 对应用户名的有效密码 |
FTP 数据集配置方法
通过 FTP 数据源接入数据,必须先按以下方法对路径,文件夹、文件进行配置
路径规则定义
导入数据集时,需按该路径规则进行配置,如:/home/dataGroupFile/dataFile
- /home:基础路径
- dataGroupFile:数据集分组文件夹
- dataFile:数据集文件夹
单个数据集需涉及以下内容
序号 | 内容名称和必要性 | 作用 | 约束 | 示例文件 |
---|---|---|---|---|
01 | 数据集分组文件夹 必要 | 类比结构化数据库 DB,起到对数据集分组的作用 | 无具体名称约束,可以自定义 | |
02 | 数据集文件夹 必要 | 一个文件夹代表一个数据集; | 文件夹命名规则:仅支持字母、数字、下划线的组合,且需要以字母开头;最多 100 个字符 | |
03 | 元数据文件 必要 | 描述当前数据集的数据结构,一个数据集文件夹下只能存放一个元数据文件 | 文件格式:yml 格式 | |
04 | 数据文件 非必要 | 存储当前数据集「数据」的文件;一个数据集文件夹下支持存放多个数据文件。 注:数据文件需要严格遵从命名规则,否则将无法被系统读取 | 文件格式:txt 或 csv 格式
| |
05 | 就绪文件 含数据文件时:必要 | 代表某个数据文件已生成就绪;文件内容无具体要求 | 文件格式:verf 格式 |
管理数据源
操作步骤:
第一步
在数据源管理中选择 FTP 数据源
第二步
在 FTP 数据源管理列表中,进行编辑和删除数据连接的操作
注意:如果当前数据连接中存在表已经被添加的情况;此时,不支持对数据连接进行删除。