菜单

导数

概述

业务场景

在很多使用场景下，都有批量导出和导入数据的需求，典型的使用场景：

导出到客户数仓：客户有自建数仓，需要从神策将数据导入到客户数仓。
历史数据迁移：从旧的神策环境迁移至新环境（数据总量≤10 亿条）。
数据备份与分析：数据冷备份。
项目数据清洗：导出项目数据，清洗后重新导入。

保留字段检查

请检查您环境里事件属性、用户属性是否有神策保留字段，如果包含保留字段，请联系神策值班同学处理，否则会出现保留字段入库失败的情况。系统保留字段参考：保留字段

检查字段可见性

为了保证有完整的用户关联标识的完整性，请确保如下字段可以通过 sql 接口查到
$identity_anonymous_id, $identity_login_id, $identity_distinct_id

# 进入 mysql
metadb_cli -usc_dba -Dhorizon_db
 
select project_id,schema_id,name,is_visible from sdh_meta_field where name in ('$identity_login_id','$identity_anonymous_id','$identity_distinct_id') and project_id = 1;

确保 is_visiable 都是 1

如果有值为 0 的，请使用以下 OPEN API 修改

接口：schema/field/update

请求示例：

curl -X POST 'http://{host}:8107/api/v3/horizon/v1/schema/field/update' \
  -H 'Content-Type: application/json' \
  -H 'api-key: xxxxx’ \
  -H 'sensorsdata-project: {projectName}' \
  -d '{
  "schema_name": "users",
  "field": {
    "name": "$identity_anonymous_id",
    "visible": true  
    },
  "update_mask": "visible"
}'

数据导出

数据导出支持的方式：数据导出

数据导入

数据导入支持的方式：数据导入

场景解决方案

跨神策集群迁移数据

方案 1：seatunnel 导出 + 标准神策 JSON 导入（推荐）

1、使用 seatunnel 导出老集群的用户和事件数据到文件

2、将文件拷贝到新集群，并且使用标准神策 JSON 格式数据导入

方案 2：Query API 导出 + 标准神策 JSON 导入

1、使用 Query API 导出老集群的用户和事件数据到文件

2、将文件拷贝到新集群，并且使用标准神策 JSON 格式数据导入

同集群的数据清洗

1、备份用户和事件表

2、创建新的自定义表，保存数据清洗后的用户和事件表

3、使用从神策的 impala 表导入将数据导入到清洗后需要导入的项目

新客户导入历史数据

1、客户提供可访问的 hive，按照从其他外部数据源导入，选择 hive 数据源导入

2、客户只能提供文件，根据文件格式选择标准神策 JSON 格式数据导入或者 parquet 或 csv /text 格式文件导入

附录：常用工具与链接

神策官方文档：
- API 导出指南
- JDBC 使用手册
数据同步工具文档：

- 如何使用数据同步
- 支持的数据源

工具下载：
- SeaTunnel：Apache SeaTunnel 官网
- Hive JDBC 驱动：Maven 中央仓库
技术支持：
- 神策客服：400-819-0906
- 值班技术：通过神策后台 “在线客服” 联系

通过以上步骤，可完整实现神策数据的导出、清洗、导入全流程操作。非技术人员可重点关注 “准备工作”“结果验证” 和 “异常处理” 环节，技术细节部分建议与开发团队或神策技术支持协同完成，确保数据迁移的准确性和稳定性。

最近修改: 2025-07-09

预览

导数

概述