FormatImporter

概述

FormatImporter 用于将一些常见格式的外部数据导入到神策分析，目前支持读取 CSV 表格、Nginx 日志、MySQL 数据库、Oracle 数据库，以及符合数据格式的 JSON 数据。

使用方法

运行环境

此工具支持在 Linux 环境下运行，也支持在 Windows 环境下运行，需要 Python 3.4 或更高版本。另外，如果需要导入 MySQL、Oracle 数据库中的数据，需要确保机器上包含相关客户端的程序包。

Windows 环境下部署时，需要注意文件编码问题，具体注意事项参考本文的 4.8 。

下载工具

下载请点击此链接，脚本下载后是一个压缩包，解压后即可使用。

获取数据接收地址

获取数据接收地址：

导入 CSV 格式的数据

导入事件

假设有 CSV 文件描述了以下用户行为（参考代码包下 examples/events.csv）：

user_id,action,time,item_id,item_name,item_cate
bug29,view,2018-05-12 13:01:11,13245,男士护耳保暖鸭舌皮帽平顶八角帽头层牛皮帽子时尚休闲,男装
bug29,buy,2018-05-12 13:05:03,13245,男士护耳保暖鸭舌皮帽平顶八角帽头层牛皮帽子时尚休闲,男装
小武,view,2018-05-13 10:20:32,23421,New Order Technique 2CD豪华版 欧版行货 全新未拆,音像
菠菜,view,2018-05-13 20:42:53,3442,NUK安抚奶嘴宝宝防胀气安慰奶嘴乳胶迪士尼安睡型,母婴

将这些数据导入神策系统中，以 user_id 列作为用户 ID，time 列作为事件发生的时间，action 列作为事件名称，只导入 item_id 和 item_name 作为事件属性：

python3 format_importer.py csv_event \
--url 'http://localhost:8106/sa?project=xxx' \ 
--distinct_id_from 'user_id' \
--is_login \ # 标示 distinct_id 为登录 ID，若 distinct_id 为匿名 ID，则去掉 --is_login
--timestamp_from 'time' \
--event_from 'action' \
--filename './examples/events.csv' \
--property_list 'item_id,item_name' \
--debug # 校验数据格式，不会导入数据，正式使用的时候去掉 --debug

注：--url 设置的是数据接收地址，具体的获取方法可以参照本文 2.3 节或数据接入引导。

用户属性

假设有 CSV 文件描述了以下用户属性（参考代码包下 examples/profiles.csv）：

user_id,gender,is_member,score
bug29,男,true,131
小武,女,false,

将这些数据导入神策系统中，以 user_id 列作为用户 ID：

python3 format_importer.py csv_profile \
--url 'http://localhost:8106/sa?project=xxx' \
--distinct_id_from 'user_id' \
--is_login \ # 标示 distinct_id 为登录 ID，若 distinct_id 为匿名 ID，则去掉 --is_login
--filename './examples/profiles.csv' \
--debug # 校验数据格式，不会导入数据，正式使用的时候去掉 --debug

导入物品数据

假设有 CSV 文件描述了以下物品数据（参考代码包下 examples/item.csv）：

item_type,item_id,item_name,item_cate,action
view,13245,男士护耳保暖鸭舌皮帽平顶八角帽头层牛皮帽子时尚休闲,男装,买买买
buy,13245,男士护耳保暖鸭舌皮帽平顶八角帽头层牛皮帽子时尚休闲,男装,缺货
view,23421,New Order Technique 2CD豪华版 欧版行货 全新未拆,音像,缺货
view,3442,NUK安抚奶嘴宝宝防胀气安慰奶嘴乳胶迪士尼安睡型,母婴,买买

将这些数据导入神策系统中，--item_type 和 --item_id 配置分别指定物品数据的 item_type 和 item_id 字段值：

python3 format_importer.py csv_item \
--url 'http://localhost:8106/sa?project=xxx' \
--item_type 'item_type' \
--item_id 'item_id' \
--property_list 'item_name,item_cate,action' \
--filename './examples/item.csv' \
--debug # 校验数据格式，不会导入数据，正式使用的时候去掉 --debug

导入用户关联关系

注意：导入用户关联关系需要 v1.13.5 及以上版本。

假设有 CSV 文件描述了以下用户关联关系（参考代码包下 examples/signup.csv）：

user_id,device_id
小武,ac0eadfb-cd5d-44b6-8a21-079862773c11
菠菜,2903f1d4-e20d-4866-8614-66d9101a3bd3
bug29,0c0c93f5-c747-4c1a-acfc-e75279720da1

将这些数据导入到神策系统中，--login_id_from 和 --anonymous_id_from 配置分别指定用户关联关系的登录 ID 与匿名 ID：

python3 format_importer.py csv_signup \
--url 'http://localhost:8106/sa?project=xxx' \
--login_id_from 'user_id' \
--anonymous_id_from 'device_id' \
--filename './examples/signup.csv' \
--debug # 校验数据格式，不会导入数据，正式使用的时候去掉 --debug

子命令名称	解释
csv_profile	将 CSV 格式文件转化成用户属性导入
csv_event	将 CSV 格式文件转化成事件导入
csv_item	将 CSV 格式文件转化成物品数据导入
csv_signup	将 CSV 格式文件转化成用户关联关系导入
mysql_profile	将 MySQL 数据库中数据转化成用户属性导入
mysql_event	将 MySQL 数据库中数据转化成事件导入
mysql_item	将 MySQL 数据库中数据转化成物品数据导入
mysql_signup	将 MySQL 数据库中数据转化成用户关联关系导入
nginx_profile	将 Nginx 日志转化成用户属性导入
nginx_event	将 Nginx 日志转化成事件导入
nginx_item	将 Nginx 日志转化成物品数据导入
nginx_signup	将 Nginx 日志转化成用户关联关系导入
json	将 JSON 日志导入，注意日志不区分 event、profile、item、signup
oracle_profile	将 Oracle 数据库中数据转化成用户属性导入
oracle_event	将 Oracle 数据库中数据转化成事件导入
oracle_item	将 Oracle 数据库中数据转化成物品数据导入
oracle_signup	将 Oracle 数据库中数据转化成用户关联关系导入

参数名	别名	是否必填	解释
--url	-l	和 output_file 选一个必填	数据接收地址
--output_file	-O	和 url 选一个必填	输出的文件名，输出每行是一个符合格式的 JSON
--project	-j	否	指定的 project 名，默认是 default
--skip_cnt	-c	否	第一次运行请忽略，如果运行失败，可以使用此配置指定跳过开头多少行
--debug	-D	否	如果指定了就是使用 debug 模式，不会导入数据，只在 stdout 显示数据，参见调试模式
--quit_on_error	-Q	否	如果选中，则出现一条错误日志就会退出
--log_level	-lv	否	日志输出最小等级，默认为 DEBUG

参数名	别名	选填 / 必填	解释
--distinct_id_from	-df	必填	指定列作为 distinct_id
--is_login		选填	distinct_id 是否是登录 ID，默认为否
--event_from	-ef	和 event_default 选一个必填	指定列作为事件名
--event_default	-ed	和 event_from 选一个必填	指定固定字符串作为事件名
--timestamp_from	-tf	和 timestamp_default 选一个必填	指定列作为 time
--timestamp_default	-td	和 timestamp_from 选一个必填	指定固定时间字符串作为 time
--timestamp_format	-tf	选填	和 timestamp_from 一起使用，通过此配置指定时间格式。默认是 %Y-%m-%d %H:%M:%S

参数名	别名	选填 / 必填	解释
--distinct_id_from	-df	必填	指定列作为 distinct_id
--is_login		选填	distinct_id 是否是登录 ID，默认为否

参数名	别名	选填 / 必填	解释
--item_type		必填	指定列作为 item_type
--item_id		必填	指定列作为 item_id

参数名	别名	选填 / 必填	解释
--login_id_from		必填	指定列作为登录 ID
--anonymous_id_from		必填	指定列作为匿名 ID

参数名	别名	是否必填	解释
--filename	-f	是	CSV 文件路径。
--property_list	-pl	否	用逗号分割选取的 property，举例 -p name, time 将会将 name 和 time 两列作为 property 导入。如果不填写则表示全部作为 property 导入。
--skip_identify	-i	否	对应的列将不会做自动类型判断，举例配置 --skip_identify name, id 后将会对 name 和 id 不做类型判断，完全作为 string 导入。如果不填写则表示全部的选中列都会自动做类型判断。
--ignore_value		否	指定某些值为空，比如指定 --ignore_value null 则所有的 null 都被认为是空值。
--csv_delimiter		否	CSV 文件的列分隔符，默认为 ','，只接受单字符参数，也可以传 \ + ascii 的数字，比如 \9 表示是 \t。
--csv_quotechar		否	CSV 文件的引用字符，用于指定 CSV 字符串的开始和结尾，默认为 '"'，只接受单字符参数，也可以传 \ + ascii 的数字，比如 \9 表示是 \t。
--csv_prefetch_lines		否	CSV 文件预读行数，预读用于判断列的类型，默认为 -1，即预读整个文件。注意如果数据分布不均（比如前几行某个字段没有但是后面有）不要加这个参数。
--file_encoding		否	设置 CSV 文件编码格式，默认为 utf-8。
--list_type		否	指定属性为 list 用逗号分割选取的属性，举例 --list_type list_a, list_b 将会将 list_a 和 list_b 两列作为 list 格式导入。 list 格式数据需要以 \| 分割，举例: 1\|2\|3

参数名	别名	是否必填	解释
--filename	-f	是	Nginx 日志文件路径。
--log_format	-F	是	Nginx 日志配置，类似 "$remote_addr" "$time_local" "$http_refer" "$status"。
--property_list	-pl	是	用逗号分割选取的 property 举例 --property_list http_refer,status 将会将 http_refer 和 status 两列作为 property 导入。
--skip_identify	-i	否	对应的列将不会做自动类型判断，举例 --skip_identify request_user,status 将会将 request_user, status 不做类型判断，完全作为 string 导入。如果不填写则表示全部的选中列都会自动做类型判断。
--url_fields	-uf	否	对应的列将作为 URL 解析，用逗号分割。解析后会生成 `__<字段名>_<解析内容>` 这样命名的 property，解析内容包括 netloc, path, query, param_<参数名>。举例对于 $my_url 字段值为 http://www.abc.com/path/to/mine?k1=v1&k2=2，会解析为 {"__my_url_netloc": "www.abc.com", "__my_url_path": "/path/to/mine", "__my_url_query": "k1=v1&k2=v", "__my_url_param_k1": "v1", "__my_url_param_k2": 2}。注意可以在 property_list 配置这些字段。默认是 "http_referer"。
--filter_path	-fp	否	过滤对应的 path，可多选。这里的 path 取的是 $request 的 path，支持正则。举例 *--filter_path '.\.gif' --filter_path '/index\.html' 将过滤对 gif 的请求和 index** 的请求。
--ip_from	-if	否	只对 event 有效，哪个字段作为 IP，如果指定，则每条数据对应的 IP 为对应字段的值，默认是 $remote_addr。
--ignore_value		否	指定某些值为空，比如指定 --ignore_value null 则所有的 null 都被认为是空值。
--property_list_cnames		否	用逗号分割 property 的对应名称，需要和 --property_list 一一对应。

参数名	别名	是否必填	解释
--user	-u	是	连接 MySQL 数据库所需的用户名。
--password	-p	是	连接 MySQL 数据库所需的密码。
--host	-i	是	连接 MySQL 数据库所需的地址。
--port	-P	是	连接 MySQL 数据库所需的端口。
--db	-d	是	MySQL 对应的数据库名，一次只能指定一个。
--sql	-q	和 filename 选一个必填	查询语句，建议加 order by 等方式保证多次查询结果顺序一致。
--filename	-f	和 sql 选一个必填	查询语句所在的文件路径，建议加 order by 等方式保证多次查询结果顺序一致。
--bool_property_list	-bp	否	逗号分割的 bool 类型属性列表，会将对应的属性值为 1 的转化为 true，0 转化为 false。
--case_sensitive	-cs	否	导入的属性名是否是大小写敏感，注意如果大小写不敏感会全部转化为大写，默认为 true。

参数名	别名	是否必填	解释
--user	-u	是	连接 Oracle 数据库所需的用户名。
--password	-p	是	连接 Oracle 数据库所需的密码。
--dsn	-dsn	是	连接 Oracle 数据库所需的 dsn。
--sql	-q	和 filename 选一个必填	查询语句，建议加 order by 等方式保证多次查询结果顺序一致。
--filename	-f	和 sql 选一个必填	查询语句所在的文件路径，建议加 order by 等方式保证多次查询结果顺序一致。
--bool_property_list	-bp	否	逗号分割的 bool 类型属性列表，会将对应的属性值为 1 的转化为 true，0 转化为 false。
--case_sensitive	-cs	否	导入的属性名是否是大小写敏感，注意如果大小写不敏感会全部转化为大写，默认为 false。

col1	col2	col3
a	b,c	d

col1	col2	col3
a	b,c,d,e	f

col1	col2	col3
a	"b	c

FormatImporter

概述

使用方法

运行环境

下载工具

获取数据接收地址

导入 CSV 格式的数据

导入事件

用户属性

导入物品数据

导入用户关联关系

导入 Nginx 日志

导入事件

导入用户属性

导入物品属性

导入用户关联关系

导入 MySQL 的数据

导入事件

导入用户属性

导入物品属性

导入用户关联关系

导入 JSON 格式的日志

导入 Oracle 的数据

导入事件

导入用户属性

导入物品数据

导入用户关联关系

从配置文件中导入

注意事项

使用详解

子命令说明

公共参数

子命令公共参数

event 相关子命令

profile 相关子命令

item 相关子命令

signup 相关子命令

导入 CSV 格式的其他参数

导入 Nginx 日志的其他参数

导入 MySQL 数据的其他参数

导入 JSON 日志的其他参数

导入 Oracle 数据的其他参数

常见问题