1. 概述

资源管理是基于系统负载管理升级迭代的,其功能一方面是基于系统中的查询明细数据,按照不同维度进行聚合,通过一系列和系统使用情况、资源消耗情况相关的指标按时序、占比进行展示,旨在帮助系统管理员了解系统资源消耗分布,定位异常查询,并可以对不合理查询进行终止、诊断和优化;另一方面通过产品化的数据支撑,系帮助管理员从全局视角了解神策系统的业务资源构成情况以及业务资源的使用情况,为客户降本增效提供数据洞察和动作指引。

查询任务:该部分是基于查询任务的详情信息聚合成的一系列可观测性指标并记录环境中由定时任务发起或者 用户主动发起查询的记录,具体指标如下:

  • 统计维度:按任务一级分类、按登录账号、按项目名称 查看查询数据
  • 指标:查询次数、查询人数、平均耗时、失败率、CPU开销、内存消耗量、文件扫描量、耗时分布

业务资源: 该部分从全局视角提供表数据、标签、分群、概览、书签等多项数据资源的统计和盘点,直观展示神策系统的业务资源构成情况以及业务资源的使用情况,具体指标如下 :

  • 元事件:近30天入库、近30天被引用次数、接收状态、显示状态
  • 事件属性:近30天被引用次数、显示状态
  • 用户属性:近30天被引用次数、显示状态
  • 用户分群:近30天查询次数、近30天被引用次数、更新方式
  • 用户标签:近30天查询次数、近30天被引用次数、更新方式
  • 概览:近30天查询次数、近30天PV、更新状态
  • 书签:近30天查询次数、近30天PV

2. 入口&权限

入口:点击导航右上角的资源管理按钮进入产品界面。

权限:

SBP1.1:该功能仅允许admin账号以及管理员角色账号查看,admin账号能够看到全部项目的查询数据,管理员角色账号只能看到有权限项目的查询数据。

SBP1.4及以上:受权限点「查看资源管理」控制,预制角色:管理员默认可以查看资源管理;其他角色默认不可以查看资源管理。

3. 查询任务

3.1. 查询任务统计

3.1.1. 查询任务概况

该部分基于时间范围、筛选条件、统计维度圈定的查询数据,展示查询次数、查询人数、平均耗时以及失败率,旨在给使用者提供一个资源使用的预览。

  • 当查询时间范围选择一天时,提供日环比和周同比,当鼠标悬停在日环比和周同比时,可显示具体对比的日期。

3.1.2. 查询任务统计

该部分基于时间范围、筛选条件、统计维度圈定的查询数据,展示了任务统计类指标的趋势变化和占比分布。

  • 默认的可观测指标为:查询次数,可以选择切换查询人数、平均耗时和失败率,鼠标悬停在指标上可查看指标的解释说明。
  • 鼠标悬停在趋势图任意点位或者饼图的某部分,即可显示该时间点对应统计指标的实际值。
  • 点击趋势图任意点位或者饼图的某部分,即可展开查询的明细数据,并可以导出该明细数据。

3.1.3. 查询任务系统资源消耗统计

该部分基于时间范围、筛选条件、统计维度圈定的查询数据,展示了任务系统资源消耗统计类指标的趋势变化和占比分布。 

  • 默认的可观测指标为:CPU开销,可以选择切换内存消耗量、文件扫描量,鼠标悬停在指标上可查看指标的解释说明。
  • 鼠标悬停在趋势图任意点位或者饼图的某部分,即可显示该时间点对应统计指标的实际值。
  • 点击趋势图任意点位或者饼图的某部分,即可展开查询的明细数据,并可以导出该明细数据。

3.1.4. 查询任务分布统计

该部分基于时间范围、筛选条件圈定的查询数据,展示了查询任务的耗时分布情况。

  • 鼠标悬停在柱状图,即可显示该时间点对应统计指标的实际值。
  • 点击柱状图,即可展开查询的明细数据,并可以导出该明细数据。
  • 耗时分布刻度默认从小于30秒到大于600秒。

3.2. 查询任务详情

查询任务详情是记录环境中由系统定时任务发起或用户主动发起的所有查询,包括「进行中」和「已完成」的查询。

  • 点击列表表头的「问号」图标,查看列表字段的具体含义。
  • 点击「导出明细」:导出列表筛选条件后的所有内容。
  • 点击单个查询任务的「查看」:侧拉显示诊断报告的详细信息。
  • 点击单个查询任务的「下载」:下载诊断报告。
  • 对于正在运行的任务,点击单个查询任务的「终止运行」按钮:终止正在运行的作业,此功能点SBP1.1仅对admin账号开放,SBP1.4受「终止运行」权限点控制,可以配置允许对所有人发起的查询进行终止,也可以配置仅允许对自己发起的查询进行终止。

3.3. 使用场景

场景1:如何使用「扩展标签」分析查询任务? 

对于用户反馈的“查询慢”,归因众多,很多时候是因为用户发起了不合理查询导致的。 「扩展标签」是对查询任务的特殊标识,旨在帮助系统管理员在对慢查询进行归因分析时,可以关注到这些标签,帮助他们排查定位查询慢的原因,考虑对不合理配置进行优化。 


如何使用「失败率」分析查询任务? 

举例说明: 如下图所示,在一段时间内,查询作业呈规律性、高达100%失败率,点击折线图上异常点位,可以看出是同一个账号的后台任务,可以考虑该定时任务存在查询异常的情况,或存在无用的定时任务浪费系统资源情况,进而可以考虑对该查询进行优化或彻底删除;

场景3:有用户反应某个时段查询慢时,如何来排查异常的查询任务? 

如果是当前时间,可能是运行中的某(几)个不合理大查询占用了较多系统资源,导致查询排队挤压,资源紧张。此时需要: 1)进入<查询任务详情页> - <进行中> tab页 2)综合「任务占比峰值」、「任务耗时」指标终止异常的作业 

如果是历史的时间: 1)进入「查询任务执行统计页」 2)选择一个时间段(时间段范围覆盖查询慢时间节点,比如前后7天) 3)筛选反馈慢的用户的登陆账号 4)查看该用户「平均耗时」指标在查询慢相应时间节点前后的变化趋势 

分析原因: 1)若查询慢的时间节点前后折线图有明显的趋势变化,可以通过点击异常点展开作业明细,通过综合统计维度以及「任务耗时」、「CPU开销」、「内存消耗量」、「速度评估」、「扩展标签」等指标,定位异常作业,考虑是否因当时系统资源紧张,或用户本身发起了不合理查询导致,同时考虑对异常作业进行配置的优化。 2)若查询慢的时间节点前后折线图无明显的趋势变化,则可以判定非查询作业原因导致的系统慢。 

4. 业务资源

业务资源部分分别统计了 事件表、用户表、用户标签、用户分群、书签 和概览的资源使用情况。

其中用户分群、用户标签 需要开通相关license,才能可见此部分统计数据。

4.1. 概况区

该部分展示数据指标,用于帮助使用者判断每个项目下的每个业务资源是否需要进行资源优化和清理。

4.2. 明细数据

该部分展示每个业务资源的详细数据,便于使用者进一步判断具体需要优化和清理的业务资源。

  • 点击「导出明细」:导出列表筛选条件后的所有内容。
  • 鼠标悬停在「问号」图标查看指标含义。
  • 点击单个资源的「查看」:查看资源具体的查询或被引用的明细数据。
  • 点击单个资源的「进入资源页」:进入具体的资源的详情页(仅用户分群、用户标签、概览类型的资源支持)。

4.3. 标记删除

此功能需要满足版本为:SA 2.5.3+ & SBP 1.4.2+,同时仅概览、书签这两类资源拥有此功能,下面以概览为例:

  • 点击单个资源的「标记删除」或者勾选多个资源后点击「批量标记删除」,概览立即被移动至标记删除明细列表,预计彻底删除时间为进入标记删除列表后的第30天,同时概览在概览管理列表以及概览看板中前端不可见。

  • 标记删除明细列表中,点击单个资源的「标记恢复」或者勾选多个资源后点击「批量标记恢复」,概览重新回到到概览明细列表,同时概览在概览管理列表以及概览看板中的前端恢复可见。

5. License

SBP1.5.1 开始,资源管理受 license 控制,开通 license 后方可使用