数据导入常见问题

常见数据报错类型

上报的属性类型需要和系统内原有的属性类型一致，不一致系统会进行强转，强转失败就会报错。例如：datetime 类型的属性，传值空字符串会报错。

原因：App 端的数据，默认认为当前时间 10 天前或 1 小时后的数据为过期数据。报错后该条数据整条不会入库。

解决办法：

如果因延迟上报导致数据时间过期，无法入库的数据量较小，则属于正常情况。无需做相关处理。
如果出现大量数据延迟上报，可以和客户确认下对应 App 的使用场景，如果客户的 App 确实会存在很多数据会超过 10 天才延迟上报，可以让神策运维修改下有效时间窗口期。注意：需要告知客户，窗口期修改之后，会存在查询多天之前的数据时，不同时间查询数据不一致的情况。

App 端设置有效接收窗口期的原因：

保证业务指标统计数据稳定：如果不限制延迟上报数据的时间范围，延迟上报的数据，会导致查询历史数据时，不同时刻查询，数据是不一样的。默认设置接收过去 10 天之内和未来 1 小时的数据，是根据行业经验值得出的。这样既能保证合理时间范围内的数据都能发送到神策系统中，又能保证查询历史数据时，统计的数据是稳定的。
实现上：神策底层存储数据的 HDFS 文件不支持追加写入，只能一次性写入，再追加数据需要添加新文件，如果不限制接收数据的有效期，会导致底层存储经常添加新文件用来存放延迟上报的数据，文件越多查询性能越差。

综上所述，设置数据的有效时间范围更合理。

提示已经有其他除了大小写不一致其他都一致的属性名，需要修改新上报的属性名，可以保持和已存在的完全一样，也可以用一个新的属性。

自定义属性不能带 $，带 $ 开头的自定义属性会被抛弃（在报错的 json 中不提示），并在埋点管理中提示信息错误，其他字段会正常入库。可以看该 json 数据中 error_reason 字段中描述无法创建哪个属性名。

建议每次批量导入都使用不同目录，方便出现问题后重新导入。

可能的原因：

类型不符：使用了与之前不同的数据类型；
数据过长：如字符串最长 255 字节；
非有效类型：使用了数据格式中未定义的数据类型，比如某个 property 是一个 JSON object。若如此，请将此对 JSON object 内含字段单独抽取出来作为 property 使用；
非固有字段加了 $：只有数据格式中定义的固有字段的 key 可以以 $ 开头。

这些都可以到埋点管理内查看是否有报错数据，若报错，会有具体原因。

将不需要的事件隐藏，然后使用新的事件名导入，已经有数据入库的事件无法删除事件名的定义。

track_signup 的用途是关联匿名 id 和登录 id，当且仅当此时 original_id 为必须字段且有意义。
distinct_id 为必须字段，没有该字段会被认为是无效数据。

Super Token	Normal Token	数据 Token	类型原因	数据类型
(空)	(空)	(空)	第三步中“Super Token 值为空”	Super 数据
(空)	(空)	ABC	第三步中“Super Token 值为空”	Super 数据
(空)	123	(空)	第三步中“Super Token 值为空”	Super 数据
(空)	123	ABC	第三步中“Super Token 值为空”	Super 数据
(空)	123	123	第三步中“Super Token 值为空”	Super 数据
XYZ	(空)	(空)	第二步中“Normal Token 值为空”	Normal 数据
XYZ	(空)	ABC	第二步中“Normal Token 值为空”	Normal 数据
XYZ	(空)	XYZ	第三步中“与 Super Token 值相同”	Super 数据
XYZ	123	(空)	第一步中标为无效数据	无效数据
XYZ	123	ABC	第一步中标为无效数据	无效数据
XYZ	123	123	第二步中“Normal Token 值为空”	Normal 数据
XYZ	123	XYZ	第三步中“与 Super Token 值相同”	Super 数据