BatchImporter

未安装 SDF 可进入 /home/sa_cluster/sp/tools/batch_importer 这个路径下使用 bin/sa-importer

如果有 SDF 可在 $SENSORS_DATAFLOW_HOME/tools/batch_importer/ 这个路径下使用 bin/sa-importer

如果不确认您的环境是否安装了 SDF，请咨询您的数据咨询顾问获取一对一的协助。

在使用前，请先阅读数据模型和数据格式的介绍。

概述

批量导入工具用于将历史数据或外部数据导入神策分析进行使用。实时数据导入请使用 LogAgent。

使用批量导入工具导入的数据需要符合数据格式，本文最后附录也有简单格式介绍。

使用方法

运行环境

批量导入工具只能在部署神策分析的单机或集群机器上使用。

使用步骤

本节介绍 BatchImporter 最常见的使用方法，其他功能请参考 工具运行参数详解。

步骤如下：

将数据置于某个路径，比如需要导入的数据在 /home/work/data 下，有 part-001、part-002、part-003（命名可以随意）几个文件（支持 txt、csv、log 等类型文件，且每行一个符合数据格式的 Json）。
切换到 sa_cluster 账户。
```
sudo su - sa_cluster
```

找到 batch_importer。

# 可直接使用 batch_importer
batch_importer --help
# 如果提示上面的命令不存在, 则进入下面的目录使用 bin/sa-importer，如果有 sdf 那就是 /home/sa_cluster/sdf/tools 这个路径下
cd /home/sa_cluster/sp/tools/batch_importer
bin/sa-importer --help

运行批量导入工具，检查数据正确性，但不进行真的数据导入。
注意：path 指向的是数据所在文件夹而不是文件，该文件夹下的所有文件都会被批量导入工具读取。
```
bin/sa-importer --path /home/work/data
或
batch_importer --path /home/work/data
```
运行后会显示统计信息。
```
Import session read 32 valid records, 0 lines can't be parsed, 0 records invalid.
```
这里说明有 32 条有效数据，0 条数据不可解析，0 条可解析但数据无效。若有无效数据，将会在日志里体现。

经过步骤 4 检查数据都没问题以后，进行真正的数据导入。

bin/sa-importer --path /home/work/data --import --session new --project default
或
batch_importer --path /home/work/data --import --session new --project default

当出现如下信息时说明导入结束。

Send 32 records to kafka
Import /home/work/data completed.

注意事项

指定数据导入的项目有两种方法：
- 在数据中添加 project 字段（详见数据格式），使用这种方式可以一次导入多个项目的数据；
- 启动导入时，添加 --project 参数。所有数据无论是否指定 project 字段都将导入到参数设置的项目中。
sa_cluster 需要有数据目录和文件的访问权限，可以切换到 sa_cluster 后 tail 一下数据文件看是否能打开。
导入后清理数据较复杂，请检查好再操作。对同一份数据多次运行导入会导致数据重复。
批量导入工具通过 --path 参数指定要导入的目录，并导入目录下所有的文件。请在启动导入后不要增删、修改目录下的文件，否则无法保证导入结果符合预期。
批量导入工具读取文件的顺序是按照指定文件夹中文件名的字典序。
如果 SensorsAnalytics 有正在运行的实时数据流，请设置限速以免影响实时数据，设置的方法是加参数 --speed_limit <limit>，例如 --speed_limit 300。
不支持修正首日首次，建议不要使用该工具来导入包含有首日首次的数据。

参数	说明
--help	打印使用说明
--type_define	properties 中各字段类型限定
--import	是否执行导入，若不配置该参数，运行只做校验
--speed_limit	导入速度限制，单位是条/秒，默认为不限速
--sample	输出一些样例数据
--path	需要导入数据的路径
--session	本次运行导入的 Session 文件。如果是一次新的导入任务，请设置为 new
--parser	默认 Json，一般请勿使用该参数
--manifest	批量导入工具运行结束后，使用参数值作为路径输出 manifest 文件。若启动时该路径已经有文件，那么启动失败
--project	将数据导入的项目。请注意，若指定该参数，数据中的 project 字段将无效，本次运行的所有数据都将导入到 --project 指定的项目
--expired_record_filter_after_hour	允许导入的数据时间区间截至未来的小时数，默认为 1，即超过未来 1 小时的数据将被过滤
--expired_record_filter_before_hour	允许导入的数据时间区间向前的小时数，默认为 17520，即超过 2 年以前的数据将被过滤

属性名	要求	含义
type	必须字段，值只能是下表中给出的	这条记录的类型
properties	必须字段，JSON 的 k-v 对注意：每个 property 的类型需要保证从始至终都是同一个。如一开始为 NUMBER，之后不能变为 STRING	Event 或 Profile 关联的属性
event	type 为 track 类时为必须字段，profile 类时不需设置。字符串	Event 的名字
distinct_id	必须字段。字符串	用户的固定且唯一标识
original_id	type 为 track_signup 时为必须字段，其他 type 该字段没有用。字符串	注册之前的随机匿名 ID
time	必须字段。unix 时间戳，精确到毫秒!	这条记录对应的时间

Type	解释
track	一个 Event 及关联的 Properties
track_signup	跟踪用户的注册行为，该接口与 track 基本相同，除了多了一个 original_id 参数。
profile_set	直接设置一个用户的 Profile，如果用户或者 Profile 已存在则覆盖，不存在则自动创建。
profile_append	追加一个用户的某个 List 类型的 Profile，如果用户或者 Profile 不存在则自动创建。
profile_increment	增加或减少一个用户的某个 Numeric 类型的 Profile，如果用户不存在则自动创建, Profile 不存在则默认为 0。
profile_delete	删除一个用户。
profile_unset	删除一个用户的某个特定的 Profile。
item_set	直接设置一个 Item，如果 Item 的字段已存在，则覆盖，不存在则自动创建。
item_delete	删除整个 Item 内容。

BatchImporter

概述

使用方法

运行环境

使用步骤

注意事项

工具运行参数详解

调用参数

校验数据模式

导入数据模式

新建导入任务

恢复导入任务

manifest 文件内容解读

常见问题

获取校验失败的数据

恢复中断的导入任务