菜单

数据表管理

使用场景

用户可以使用数据表导入数据库表数据和 Excel 文件数据,将数据表设置自定义查询可见后,可直接用于报表分析。

概述

版本要求:

  • SDG:v0.10.0 及以上

数据表管理的功能主要包括有:

  • 添加数据表
  • 管理数据表

支持添加的数据表包括有:

  • 数据库表
  • Excel 数据集

添加数据表

添加数据库表

使用场景:

添加数据库表用于将数据库的数据添加进入数据表

使用建议:

  • 更新频率可配置,最小粒度「小时级」
  • 最大字段数推荐 500 个内,最大可 1000 个

操作步骤:

第一步

在数据表管理中选择 添加表 → 数据库表

第二步

在 添加数据库表页面中,选择要添加的数据库表,并且点击确定进行添加


添加 Excel 数据集

使用场景:

添加 Excel 数据集用于将 Excel 的数据添加进入数据表

操作步骤:

第一步

在数据表管理中选择 添加表 → Excel 数据集

第二步

在 添加 Excel 数据集页面中,上传要添加的 Excel 文件(支持 xls、xlsx、csv 格式文件),并且点击确定进行添加

注意事项:

  1. 表头必须为英文,CSV 文件默认以逗号为分隔符,默认第一行为表头
  2. 支持 Excel 和 CSV 文件,单个 Excel 文件大小限制在 100M 以内,CSV 文件大小不能超过 500M
  3. 请上传有标准行列的一维数据表格(有合并单元格的数据请处理过后再上传)
  4. 日期字段需包含年月日,或年月日时分秒

管理数据表

查看数据表

操作步骤:

第一步

在数据表管理选择对应的数据表,进行查看

第二步

在查看数据表中,可以进行查看和操作

  1. 查看明细数据
  2. 查看表结构
  3. 查看更新信息

设置数仓应用

使用场景:

  • 开启「数仓应用」后,数据表将自动同步至「自定义查询」以及「报表」
    • 在「自定义查询」中,您可以通过 SQL 语句对数据表进行数据勘探和分析。此外,您也可以在「自定义查询」中,将 SQL 查询结果同步至「报表」。
      注:来自数据接入的数据表于 DB「governor_{project_name} 」下展示。
    • 在「报表」中,您可以通过一系列功能对数据表进行可视化分析。

设置入口:

序号开启方式截图
1在数据列表中开启「数仓应用」

2在某个数据表详情页中开启「数仓应用」


管理数据库表的更新机制

版本要求:

  • SDG:v0.10.0.223 及以上

操作步骤:

第一步

在更新配置中,点击编辑,设置对应的更新方式,并保存

更新方式说明
全量覆盖将全部数据进行更新并覆盖数据表中已有的数据
全量追加将全部数据进行更新并追加到数据表中
增量追加根据增量字段判断是否为新增数据,将新增数据更新追加到数据表中
增量追加(滚动覆盖)

根据增量字段和回溯周期将新增数据和部分历史数据更新到数据表中,其中历史数据将会覆盖原数据

(注:FTP 数据源暂不支持此种更新方式)

第二步

设置对应的执行任务,执行任务支持手动触发更新任务和定时任务

点击「立即执行一次」进行手动触发

定时任务支持设置执行频率

执行频率说明截图
只执行一次设置开始时间并且只执行一次

重复执行可以设置重复执行的频率,支持按天、按周、按月

表达式执行可以设置 cron 表达式进行执行

使用建议

为保证系统可以更加稳定的读取您的本地数据;建议数据表更新的定时时间,晚于您本地数据的更新时间

第三步

查看更新记录

更新记录中记录更新方式、更新状态、更新开始时间、更新结束时间等信息

注意

如果数据来源的元数据发生变更,系统将针对不同情况做出如下处理

  • 数据来源部分字段被删除时:不中断同步,且被删除字段的列向系统内传空值
  • 数据来源新增字段时:不中断同步,系统跟随数据来源新增字段
  • 数据来源字段类型发生变更时:中断同步,且更新记录中的最新状态为「更新失败」
  • 数据来源字段长度发生变更时:中断同步,且更新记录中的最新状态为「更新失败」

配置 cron 表达式

cron 表达式是一种广泛应用于描述时间和日期信息的标准表达式。

cron 表达式是一个字符串,由6个必要的设置组成,同时支持可选的年份设置。

通常 cron 表达式设置由空格分开,主要结构为:秒 分 小时 日期 月份 星期 (年,可选)。

当前最多只支持分钟级的执行任务。

字段允许值允许的特殊字符是否必须
秒(Seconds)0 - 59的整数不允许
分(Minutes)0 - 59的整数不允许
小时(Hours)0 - 23的整数, - * / 四个字符
日期(DayofMonth)1 - 31的整数(需要考虑当月天数),- * ? / 五个字符
月份(Month)1 - 12的整数或者 JAN - DEC, - * / 四个字符
星期(DayofWeek)1 - 7的整数或者 SUN - SAT(1=SUN), - * ? /五个字符
年(Year)1970 - 2099的整数, - * /四个字符

每一个字段都使用数字,还可出现如下特殊字符,它们的含义是:

  • *:表示匹配任意值。假如在分字段使用*,即表示每分钟都将执行一次。
  • ?:表示无指定字段,只能用在日期和星期两个字段。
  • -:表示匹配范围。例如在分钟字段使用5-20,表示在5分到20分钟之间,每分钟执行一次 。
  • /:表示从起始时间开始执行,每隔固定时间执行一次。例如在分钟字段使用5/20,表示从5分开始,每隔20分钟执行一次,也即25分、45分各执行一次。
  • ,:表示列出枚举值。例如:在分钟字段使用5,20,表示在5分和20分各执行一次

示例

表达式解释
0 0 12 * * ?每天中午12:00执行一次
0 15 10 ? * *每天上午10:15执行一次,其中0 15 10 ? * *、0 15 10 * * ?、0 15 10 * * ? * 三个表达式效果相同
0 15 10 * * ? 2020在2020年的每天的10:15执行一次
0 15 10 ? * MON-FRI每周周一至周五每天上午10:15执行一次
0 15 10 15 * ?每个月的第15天的上午10:15执行一次
0 0 12 1/5 * ?每月1号开始,每隔5天每天中午12:00执行一次
0 11 11 11 11 ?每年的11月11日11:11执行一次

事件模型配置(Beta)

版本要求:

  • SDG:v0.10.0.35 及以上

概述:

  • 数据表导入到事件模型(事件表、用户表、物品表),可以将数据表的数据应用于事件分析等分析模型进行分析

操作步骤:

第一步

在事件模型配置中点击开启配置

第二步

配置导入策略和目标表

导入策略可以选择只导入一次和定时导入

目标表可以选择 事件表、用户表、物品表

第三步

选择配置数据表和目标表的对应字段,进行保存

保存之前可以先进行数据预览

第四步

查看事件模型的配置

导入策略与支持的目标表说明

由于 Excel 目前不支持追加和覆盖数据,Excel 数据表的导入策略只支持选择:

  • 只导入一次

数据库表的导入策略支持选择:

  • 只导入一次
  • 定时导入(跟随数据表定时更新任务的执行频率

说明

如果数据表进行了手动更新,会不会触发一次目标表的导入呢?

  • 会,对立即执行一次的更新任务,也会触发一次目标表的导入

选择只导入一次时,事件模型的目标表可以任意选择事件表、用户表、物品表

如果选择定时导入,则可以选择的事件模型目标表以及目标表的更新方式与数据表的更新方式存在一定的依赖关系

例如数据表是全量覆盖的更新方式,则事件模型目标表只能选择物品表,并且更新方式只能是全量覆盖,同步周期与中间表的同步周期一致,具体依赖说明如下:

数据库表的更新方式事件模型可以选择的目标表事件模型目标表的更新方式
全量覆盖
  • 物品表
只能是全量覆盖
全量追加
  • 事件表
  • 用户表
  • 物品表
只能是增量追加
增量追加
  • 事件表
  • 用户表
  • 物品表
只能是增量追加
增量追加(滚动覆盖)
  • 用户表
  • 物品表
只能是增量追加(滚动覆盖)

注意:事件表不支持增量追加(滚动覆盖)的更新方式。不支持可变事件的逻辑

删除数据表

操作步骤:

第一步

在数据表管理选择对应的数据表,进行删除

注意:当数据表已经开启「自定义查询可见」时,无法删除。如果需要删除,可以在此之前对其关闭。

FAQ

添加的 Excel 文件支持哪些文件格式?

支持的文件格式包括有:xls、xlsx、csv 

一次可以批量添加的数据表有个数限制嘛?

一次最多只能添加 20 个数据表,可以多次添加

开启自定义查询可见后,还能关闭嘛?

开启自定义查询可见后,支持关闭,关闭后不能再用于自定义查询和查看报表 

为什么有些目标表选择不了?

选择导入策略为定时导入时,可以选择的目标表需要与当前数据表的更新方式匹配



上一个
配置 FTP 数据源
下一个
入库校验规则配置
最近修改: 2024-12-27