数据采集方案字段说明
|
收藏
1. 事件及事件属性说明
1.1. 事件采集说明
- 在猜你喜欢、相关推荐等基于行为的场景中,推荐结果既依赖于用户行为又依赖于内容本身的信息,所以需要采集能够反映用户偏好的行为,并且需上传物品表
- 若以常用 CTR 为业务目标必须采集内容的展现和点击事件,其他事件可根据业务实际判断是否上报这些属性。例如电商行业中需关注下单率、加购率等指标,可采集支付订单、加入购物车等事件。
1.2. 事件属性采集说明
- 采集推荐所需事件中必须包含:section_id、exp_id、strategy_id、retrieve_id、log_id 、module_sort、weight、is_recommendation、item_type、item_id 属性。
1.3. 事件必传属性字段介绍
属性英文名 | 属性中文名 | 属性值类型 | 说明描述 | 上报方式 |
---|---|---|---|---|
section_id | 栏位 ID | 字符串 | 用于区分应用推荐结果的不同栏位(运营位),如home_recommend(首页feed流)、home_funny(首页搞笑频道)、home_health(首页健康频道)、detailrelated_recommend(物品页相关推荐)等。 | 客户后端请求神策推荐API接口时生成,神策返回推荐结果时带有section_id ,客户后端获取神策返回的推荐结果(包含 section_id )给到前端。前端采集用户行为时上报。 |
exp_id | 实验 ID | 字符串 | 用于区分各个实验,同时采用神策推荐、客户自有推荐时,各个合作机构的实验ID不同。如percent_rec、sensors_rec等。 | 客户后端请求神策推荐API接口时生成,神策返回推荐结果时带有 exp_id ,客户后端获取神策返回的推荐结果(包含 exp_id )给到前端。前端采集用户行为时上报。 |
strategy_id | 策略I D | 字符串 | 用于记录和区分算法工程师使用的不同推荐策略。如baseline、XXX_exp等。 | 神策生成,客户后端研发请求神策推荐API时获取该字段的取值,客户前端从后端获取该值并上报。 |
retrieve_id | 召回来源 ID | 字符串 | 用于记录和区分同一策略下的不同召回来源。如猜你喜欢场景下hot、hmf(行为模型),相关推荐场景下hmf_item_similar、category_consume_topk(行为模型)。 | 神策生成,客户后端研发请求神策推荐API时获取该字段的取值,客户前端从后端获取该值并上报。 |
log_id | 服务追踪 ID | 字符串 | 一个内容可能被多次展现给一个用户,也可能被一个用户多次点击。log_id 用于记录和区分用户的某次点击是对应哪次的展现。如568e556d78454f14aea6245a5d33cfc9、F73A442E-76E9-44B0-88E1-588B6EE0D782等。 | 客户研发生成,客户后端请求神策推荐API接口时生成,神策返回推荐结果时带有 log_id ,客户后端获取神策返回的推荐结果(包含 log_id )给到前端。前端采集用户行为时上报。 |
module_sort | 当前栏位展现位置排序 | 数值 | 记录该物品在栏位下物品列表里的排序。 | |
weight | 物品权重 | 数值 | 用于记录该物品在当前栏位下被设置的曝光权重,某栏位下的设置只生效于该栏位。取值范围为 1~5(数字越大代表权重越高),默认值为1。 | 神策提供,由神策推荐在推荐结果中下发给客户后端,客户后端向前端下发推荐结果中必须带此字段,前端行为上报中将此字段传回。 |
is_recommendation | 是否在推荐栏位下 | BOOL | 标识该内容是否来自于推荐。 | |
item_type | 物品类型 | 字符串 | 如果被推荐内容有视频、文章等多个类型,用于区分物料的类型。 | |
item_id | 物品ID | 字符串 | 物料有且唯一的 ID。 |
1.4. 事件其他属性说明
- 如果内容存在分类情况,需根据推荐需求上报内容一级分类、内容二级分类等属性。
- 有相关推荐场景时,用于相关推荐问题排查必须上报属性「 original_item_id 」、「 original_item_type 」。
2. 物品属性说明
2.1. 物品属性采集说明
- item 表是记录待推荐物品信息的表格,item 属性设计依赖客户的内容数据库现有的信息或能拿到的信息。
- 采集推荐所需物品信息中中必须包含:item_id、item_type、category、title、is_valid、tags、publish_time、weight属性。
2.2. 物品必传属性字段释义
属性英文名 | 属性值类型 | 说明描述 |
---|---|---|
item_id | 字符串 | 内容的唯一标识,实际上传的是视频 ID、文本 ID、商品 ID等的实际取值。只能由英文小写或者数字组成。 |
item_type | 字符串 | 区分内容的具体类型,实际取值是“ video ”、“ text ”、” commodity ”等,只能由英文小写或者数字组成。 |
category | 字符串/LIST | 内容的类别,多分类情况下可用LIST。只能由英文小写或者数字组成,若没有可传空值。 |
title | 字符串 | 内容名称,与内容 ID 对应。 |
$is_valid | BOOL | 算法工程师根据该字段判定内容是否可被推荐,如果为“是”,认为该内容在推荐候选集内。 |
tags | 字符串 | 内容的标签,多个标签用英文逗号分隔。如果没有标签,默认传 default |
publish_time | 时间 | 物品发布时间 |
weight | 数值 | 记录推荐物品曝光权重,可上传取值范围为 1~5 的权重值(数字越大代表权重越高,默认值为 1 ) |
注:本文档内容为神策产品使用和技术细节说明文档,不包含适销类条款;具体企业采购产品和技术服务内容,以商业采购合同为准。