本功能支持 SDG 0.11.1 + 版本及以上,并且需要开启数据质量。

导入仅支持使用 formatImporter 导入工具来导入。参考 Formatimporter

1.导入流程说明

  1. 通过「埋点数据查询」功能中的「导出」功能,将下载错误数据文件 file1 到本地
  2. 根据 "$error" 中的信息,手动或写脚本修改 file1 中的错误字段
  3. 将修正后的正确数据文件 file1 用 sa_cluster 用户上传至神策服务器
  4. 使用 sdgadmin data_quality import -t msg -f file1 导入改正后的文件
  5. 开启数据质量后,sdgadmin data_quality import 命令默认不支持导入 profile、item 类型数据。是因为 profile、item 数据导入先后顺序不同对数据有较大影响。
    1. 如果确实需要导入 profile、item 数据时,使用 sdgadmin data_quality enable_import -t property -v true 来开启

2.导入命令说明

2.1 sdgadmin data_quality import 命令

  • sdgadmin data_quality import 提供以下参数和功能

    参数名

    必填

    含义

    样例值

    默认值

    作用

    -t导入数据的类型

    msg:下载时该文件仅包含整条数据被拦截的类型

    property:下载时该文件仅包含属性被拦截的数据

    all:下载时该文件包含整条被拦截和属性被拦截的数据

    \

    客户下载的错误数据有两种类型:拦截属性和拦截整条,要求客户再导入数据时明确指定导入数据类型是 拦截属性的数据、拦截整条的数据、还是全部。

    data_quality import 会根据导入模式来过滤错误数据,并删除 $errors 字段。

    -f

    导入文件名

    import_error_records.txt\定位导入文件位置
    -l数据接收地址http://localhost:8106/sa?project=default\混部环境必须指明数据接收地址
  • sdgadmin data_quality import 命令内部先删除 $errors 字段,再使用了 formatImporter 导入数据
    • formatImporter 是一个 python 包,需要下载并解压,最新 formatImporter 包很小,1.1M
    • sdgadmin data_quality import 依赖 SDG 安装目录下的 format-Importer,在开启数据质量时,就检查 SDG 安装目录,没安装就提示,并提供自动下载功能(需要外网)
      1. 检查 SDG 安装目录($SENSORS_DATA_GOVERNOR_HOME)下是否有 format-importer 目录
      2. 如果未安装,就提示 "SDG 根目录下的 format-importer 不存在,可手动下载安装到 SDG 根目录,如需自动从 github 下载 format-importer(大小约 2 M),请输入【yes】"
    • formatImporter 导入 json 文件的方法,参考 Formatimporter

2.2 sdgadmin data_quliaty enable_import 命令

  • sdgadmin data_quality enable_import 提供以下参数和功能

    参数名

    必填

    含义

    样例值

    默认值

    作用

    -t导入数据的类型

    msg, property, all

    说明同上


    客户下载的错误数据有两种类型:拦截属性和拦截整条,要求客户再导入数据时明确指定导入数据类型是 拦截属性的数据、拦截整条的数据、还是全部。

    data_quality import 会根据导入模式来过滤错误数据,并删除 $errors 字段。

    -v

    是否支持导入

    true, false
    是否支持导入,true 就是支持导入,false 为禁止导入
  • sdgadmin data_quality enable_import 内部实现
    • 在 sdg local 模块的 server config 增加一个键 data_quality_import_types,类型为 list,样例值 ["msg", "property"],缺省时默认值为 msg
    • 支持某个类型=myType 导入时,在 data_quality_import_types 值上 append myType