数据是组织最重要的资产
焦文健|京东:数据指标体系的构建与实践

焦文健|京东:数据指标体系的构建与实践

导读 本文将分享京东在数据指标体系构建方面的理解和实践。

包括以下三个部分:

1.如何理解指标体系

2.如何搭建及应用指标体系

3.指标体系有效落地的关键保障

01

如何理解指标体系

1. 指标和指标体系的基本含义

每个人不管是不是做数据的方向,都对指标有一定的理解,或多或少地能够说出来几个指标。这是因为指标存在于我们每个人的生活当中。

比如体检时,会用各种指标描述身体的客观条件,像身高、体重、血常规等等,它会告诉你正常范围是多少,如果有异常,超出阈值,会给一些提示。相应的指标体系,就是把身体健康相关的各种指标整理起来,建立一个完整、客观、有分类地呈现我们身体健康情况的体系。

在企业中,指标是通过对数据进行采集、分析后得到的一个汇总结果,是将业务单元拆解和量化后的度量值,使得业务目标可描述、可度量、可拆解。通过指标能反映出客观的业务表现。

指标体系是通过客观的指标描述和度量对象的性质、特征、变化等方面的一种体系化的描述工具。全面和完整只是它的基础,更重要的是业务域的理解,对指标的分类、分级和标准化的管理。这个时候就涉及指标体系与下游的数据模型层和上游数据分析层之间的衔接和联动。

2. 指标和和标签的区别

一般谈到指标,大家也会联想到标签。在企业中,基本上是通过指标和标签来搭建数据的底层基础。指标和标签有一些明显的区别,清晰地了解两者之间的差异,才能更好地规划指标体系和标签体系的搭建和应用。

指标与标签的区别,包括三个方面:

①基本含义

指标是对业务过程和业务效果的度量。当对指标做分类、归属的时候,一般会按照不同的主题进行划分。比如在电商领域,会划分成流量、交易、用户、以及供应链等业务主题。一般是结合企业的实际业务过程来划分。

标签是对实体对象的全面刻画。如用户标签、商品标签以及在线上场景中各种场域的标签,分别用来刻画用户、商品及各场景的特性。

②加工方式

指标,以统计开发为主,基于采集的数据,通过一定的处理逻辑计算出来。

标签,存在多种加工方式:

  • 统计开发:用来加工统计类标签。如 RFM,客观地统计用户的购买频次、上一次购买时间、购买金额,以此来描述用户的粘性和购买力。
  • 人工打标和提报:用来加工事实类标签。如商品标签,如商品的属性、口味、适用人群、尺寸等信息,大部分是来自于商家或运营同学的提报和描述,也常常在使用企业相关工具时,用户自己填报。
  • 算法预测:用来加工预测类标签。如,用户的购买力、品类偏好标签,常常通过一些人工智能算法来实现。

③应用方向

指标,主要应用在分析业务过程。如监控考核、业务的下钻分析、诊断归因等方面。标签,更多帮助运营实体对象。如用户标签用来做用户精细化运营;商品标签辅助进行盘货选品。

3. 理解指标体系在数据链路中的位置和作用

指标体系并不能孤立地发挥作用,需要理解它在数据链路中的定位。先把整个数据流串起来,然后再进行数据挖掘、数据分析、数据科学等工作。

根据大数据应用的不同层次链路来抽象,可以把数据分为金字塔型一样的四层,自下而上分别是:

  • Data 数据层:整合数据并加以理解;
  • Information 信息层:从众多数据中发现信息;
  • Knowledge 知识层:将多维信息提炼为知识;
  • Wisdom 洞见层:通过分析,将知识转化为洞见,结合业务对数据洞察的结果,辅助业务运营。

指标体系对应信息层,在数据驱动业务提升中,起到承上启下的作用。它向下牵引底层的数据采集和建模,向上支撑甚至是驱动业务的分析体系。

指标体系向下,和数据层联动,能反推数仓模型体系的建设,提高数据资产的质量。指标体系向上,设计来自于对业务的深入理解,通过划分业务域、主题域来搭建主题模型。

当理解一个指标的口径时,既需要理解上层业务应用流程,也需要理解底层的数据采集逻辑。在此基础上,才能够清晰了解一个数据指标是怎么来的,当它有一些波动的时候,才能够理解其背后的原因。

指标体系建立后,可以客观地监控业务的目标和 KPI 是否达成,差距多少。通过大数据平台和可视化平台的产品矩阵,实现数据采集与洞察分析,然后进行业务归因与诊断,分析目标达成情况、判断差距的原因,并提出改进建议。这就是指标体系对业务的推动作用。

4. 流量指标体系

业务同学,对指标有一些初步的认知,但是往往容易把维度跟指标搞混。以广告流量场景为例,有很多指标,包括曝光量、点击量、PV、 UV、访问量、订单量、跳出率、转化率、退出率、加载效率等,以及 CPC、 CPM 等广告效果分析相关指标。维度用来说明分析对象或分析范围,比如流量来源、产品大类等,以广告领域的是否付费、广告形式、点位形式等。搭建指标体系需要明确维度和指标的区别,针对指标口径和维度口径,分别进行标准化管理。

在流量场景中,数据是非常繁杂的,上图呈现的只是其中的部分内容,也还没有形成指标体系。建立指标体系,首先要对重要指标进行分类、分级,明确当前业务中最核心的指标。确定后,做报表或监控等应用时,建议报告中的指标不要超过 10 个,每个指标需明确背后的业务目标。

对于流量指标,从指标定义上分,可以分成原子指标和衍生指标。原子指标就是PV、UV、跳出次数等,从底层数据源中直接汇总计算得来的。衍生指标,是依赖原子指标进行了一些加减乘除等计算形成的,如跳出率、转化率等。

从指标功能上分,包括数量指标,如 PV、UV、访次等,从规模或数量角度上描述业务的指标。质量指标,如跳出率、平均访问深度、平均停留时间、页面加载时间等描述一个页面的表现好坏的业务质量指标。最关键的是转化类指标,包括引入订单量、转化率等电商网站关注的效果类指标。

建立整个指标体系,有几个原则:

  • 科学性。指标的设计要严谨、有效,测量结果要具有客观性和稳定性。
  • 完整性。指标体系要能完整地覆盖整个业务过程。比如流量场景中,从数量、质量和转化三个环节进行分类,这是一个整体的分析链路,覆盖完整,且能支持从上到下的可拆解、可追溯。结合维度管理,通过维度间的上下层级关系,可以向上聚合,也可以向下拆解,从而适应不同粒度的管理单元和经营单元。
  • 导向性。指标体系在落地时,要能够支撑业务目标和方向,能够辅助业务做决策,判断重点关注点以及下一步的工作计划。

符合这三个原则的指标体系,才是一个比较好的指标体系。

在流量场景,对于移动端的场景,指标内容更多更复杂。指标可以从用户分析、用户使用行为、运营分析、应用质量以及搜索等业务场景进行定义。指标体系落地和产生价值,需要对应到不同维度上,如内容页面、用户、终端等维度,这些维度可以进一步细分,如用户可以从会员级别、新老访客、地域等不同维度细分。

5. 指标体系如何向上支撑业务应用

指标体系要向上支撑业务应用,进行数据分析时,不能只是单纯看指标的数字和看板,还需要结合主题场景综合分析。

上图是综合分析的几个例子。

  • 左上图表现了在流量场景中,某个页面的用户来源和下游去向。它的上一级页面是从哪些地方来的,哪些页面引流较多,往下走有哪些去向。
  • 右上图通过热力图的方式,直观地呈现出每一个页面上区域或元素的关键指标,比如,某模块的引入订单量、点击转化率。基于热力图,可以判断这个页面里哪些位置热度好,哪些位置有问题,如何及时调整、优化。
  • 下面的图是常见的漏斗分析,用户从业务链路上串联下来。

这些是搭建完指标体系之后,为了进一步支撑业务应用需要具备的一些分析能力和模型。

指标体系,不能直接只看指标本身,还要从业务层去思考,如何更好地指导业务做运营。

营销场景中 AIPL 模型是指标体系支撑精准运营的典型方法论,它是 70 年代营销管理学提出的。将用户对于品牌认知的过程,划分成认知阶段、兴趣阶段、购买阶段和忠诚用户四个阶段。最终目标,是用户尽量多地到达忠诚阶段。在认知阶段,可以统计人群覆盖多少用户,分析如何 push 用户转变成兴趣人群;针对兴趣人群,分析如何让用户购买,进而转化为购买用户;针对购买用户,分析如何让他更拥护我们的品牌,转化为忠诚用户。

在大数据时代,可以对 AIPL 模型的各个阶段进行客观量化,并基于这套模型,支撑业务进行用户运营,完成业务动作。

认知阶段。对于有浏览行为,但是还没有搜索购买过的用户,作为认知阶段的人群。可以通过品牌曝光或品牌广告,面向这些人群进行投放。

兴趣阶段。统计有关注行为或搜索行为,甚至是加购行为,但是没有购买的用户,作为兴趣人群。这些用户转化概率较高,可以通过投放定向优惠券,或传递品牌价值,来促进转化。

购买阶段。针对有购买行为的用户,分析如何对他做影响,使他们重复购买,或者分享产品。

6. 理解指标体系背后的数据加工逻辑

除了向上支撑业务应用外,还需要向下深挖,理解指标背后的数据加工和采集逻辑,在此基础上,才能进一步明确指标的口径和含义。当数据出现波动时,才可以快速确认,是数据本身的问题,还是业务某个环节的问题。

以流量场景为例,流量采集的流程如上图所示,一个网站会有一段前端 JS 代码,当这个页面被浏览器打开时,会向服务器端发送一个请求,这个前端服务器会把当前页面上用户的一些信息(谁,什么时间进入这个页面,在这个页面停留了多长时间,以及其它一些描述当前访客的信息)记录下来,发回后端的日志。有些企业业务系统中,会进一步解析日志,用业务数据库来记录相关信息,并进一步加工流量类的数据指标。下图是一个具体页面的例子,打开页面,里有一段发往后端服务器的经过加密处理的编码,解码后,再进一步的通过$解析,拆分出各个字段,如 PIN(用户登录账号)、用户的 UUID。

如何计算用户数和 UV 呢?对于没有登录的用户,浏览器也会根据规则生成一个 UID;对于登录用户,可以直接使用账号来计算。在日志中,还会记录很多其它信息,清洗、解析后变成一张大宽表,可进行结构化表示,如请求时间、访问 ID、URL、会话编号等。在有了基础数据的大宽表后,就可以进一步地加工指标。如下图所示,包括 UV、PV、访次、跳出率等。其中,UV 表示去重后的用户访问次数,PV 是指页面访问次数。

02

如何搭建和应用指标体系

为了更好地构建良好的数据指标,需要理解数据指标体系的基本含义,需要理解指标体系如何对上层业务做支撑与下层数据采集、数据建模串联。对数据链路有了完整清晰的认识后,下面介绍如何搭建和应用数据指标体系。

1. 指标体系建设方法- OSM 模型

指标体系的建设要先从业务的目标出发,聚焦业务的目标是什么,业务过程是怎样的,实现该目标需要采取的业务策略有哪些,然后再定义通过哪些指标和客观的度量来支撑业务目标和业务策略,完成业务过程。

我们通常使用 OSM 模型来指导指标体系的设计。它不仅要求从数据的角度,定义指标的类型、口径、看板等;更要求从业务的角度,结合实际业务现状、所处环节,以及业务的目标、策略,通过业务过程的拆解,进行指标体系的设计。

2. 提炼能够描述产品目标的北极星指标

首先,要提炼能够描述产品目标的北极星指标。北极星指标的选择有以下几个原则:

  • 能反映用户从产品中获得核心的价值;
  • 能反映用户的活跃程度;
  • 直观、可拆解;
  • 能够为产品或者业务的长期的目标奠定基础。

比如,彭蕾在支付宝启动时,确定的北极星指标“两亿三次”,表示一年之内达到2亿用户,并且用户平均使用次数要超过三次。这是一个非常有牵引性的,面向长期目标的指标。

这个指标,既考虑了用户覆盖维度,又考虑了支付场景的特点。对于支付场景,用户在支付过一次甚至是两次以后,用户习惯才能养成。这样复合性的指标,考察了规模和质量两个维度,可以避免单一规模或质量的 KPI 指标使大家从单一维度上去推进业务,采用短期手段达成目标而忽略长期影响的情况。这是北极星指标和 KPI 的区别。北极星指标的维度一般在1-3个,超过3个则太多了,也不利于优化。

3.基于 OSM 将指标体系与业务策略结合

基于 OSM 模型将指标体系与业务策略结合。我们需要思考为保证业务在某方面实现高质量增长和提升的业务目标,具体的方式和策略是什么?业务的工作流是什么?如在京东物流终端揽收场景中,重点关注运营的效率和体验,进一步可以拆解工作流,然后在此基础上,围绕着业务目标、工作流,再搭建数据流。数据流可以支撑和反应工作流,如指标可以分为效率类指标和体验类指标两大维度。对于揽收业务,指标包应揽收量、揽收及时率、取消率、催收率等效率指标,分别对应揽收工作流各个环节上的表现。在派送业务中,关注的效率手续费标是到货量、妥投及时率等。相应的,也可以关注整体上的体验如何。结合起来,就构成了京东物流在运输和配送业务中的指标体系。

当需要去分析某业务场景时,不是直接从指标入手,有哪些指标,用哪些指标。而是从业务的目标和流程出发,一步步得到指标体系。

不同的业务流程的目标,对应的岗位和角色都不太一样。可以通过不同的策略来实现业务目标。在每个环节,都有对应的分析方法,也有各自核心的影响因子。在这些基础上,可以定义每个环节的关键指标,形成指标体系。

4. 杜邦分析进行业务目标拆解

对业务的核心目标做改进,可以对目标做杜邦分析进行拆解。如毛利,可以进行如上图所示的公式化拆解。

毛利=销售额*毛利率-营销费用;

销售额=订单量*客单价

毛利率=单价/成本-1

订单量=转化率*访次,或转化率*uv

转化率可以拆解成类目转化率、搜索转化率、促销转化率等。不同的转化率决定了业务运营的不同方向。

整个指标体系可以匹配到实际的业务运营流程和操作上。对于 UV 或者是客单价这个维度,涉及一些用户细分、运营的策略;对于单价和成本维度,对应到成本控制上,在采购的环节应该怎么去做。如果需要降营销费用来提升毛利,就要从渠道及站内资源位,以及优惠券的使用,来进行优化。

上面讲了从业务目标,到各个环节,再到指标,通过杜邦分析作牵引,建立分析体系的过程。

另一个经常应用杜邦分解的场景是用户运营场景,如下图所示。业务的最终目标是提升 GMV 成交金额。

成交金额=购买用户数*ARPU 值

购买用户数=商品详情页 UV * UV 转化率

ARPU 值=用户的购买频次*客单价

购买频次可以进一步分为用户买过1次、2次的、3次及以上的。客单价可以分成连带率和件单价。

购买用户数可以分为老用户、站内新用户和站外新用户。

这构成了用户运营的黄金公式。运营的操作或聚焦在提升频次上,或聚焦在提升购买用户数上,或提升客单价上。

提升频次,要分析购买1次的用户有多少,比例是多少,如何转化成2次。

提升用户数,要分析如何做拉新、复购;流量端如何进一步拆解,提升UV或转化率。

通过对目标的层层拆解,可以将业务过程拆解成一些过程性目标,并指导具体的运营策略。

03

指标体系有效落地的关键保障

数据指标的定义标准和数据的开发标准为指标体系有效落地提供了保障。

1. 指标定义标准

指标数据口径不一致,是企业里做指标面临的一大挑战。

以有效金额为例,大家都觉得很清晰,指成交的钱数,应该没什么歧义。但统计时,会面临很多实际问题。如统计时点,如何区分订单类型,如果有下单后取消的情况该如何处理,优惠的情况如何处理,以及其它特定的业务场景是否需要剔除等等。

再比如,成交金额和有效金额,虽然都是金额类指标,应用场景不同,含义也会不同,就需要定义清楚口径。如果它们是同样含义,就需要统一语言。保证不同指标名称代表不同含义。

因此,针对指标应用的场景,需要对它做细致梳理和标准化定义及管理。清晰地定义好口径的基础上,再去考虑它如何在有效落地。

京东在实践过程中,总结了一套指标定义标准,以便更加清楚地定义指标的基本含义。

对于原子指标定义,由业务过程 What + 主体 Who + 度量 How much 三部分组成。

以出库金额和出库订单数量为例,业务过程为出库(fin_ob),主体为订单(order),度量分别为金额(amt_sum)和去重数量(cnt),对应的指标名就为 fin_ob_order_amt 和 fin_ob_order_cnt。

当我们要获取指标的时候,定义就会复杂一些,图中写作“衍生指标获取”可能让大家有点歧义,跟“衍生指标”混淆,这里的含义,主要是细化了在指标消费场景下,需要进一步明确的标准化信息,就是还需要在【业务过程 What +主体 Who +度量 How much】外,增加了【数据范围 Where】,以及【支持的维度组合 Dim】和【时间范围 When】,即我们所说的 4W1H 加维度定义法。

以 3C 业务的出库金额为例, 3C 就是数据范围,Dim 可支持范围包括省区、品类、品牌、SKU 等维度,以及时间范围。

通过 4W1H 加维度的标准化定义,可以更加高效的定义数据计算逻辑,优化数据模型汇总表的建设,形成标准化的开发模式,从而有效地提升开发效率。

2. 指标开发标准

在指标口径标准化定义和管理基础上,我们也制定了指标开发标准,沉淀了数据规范管理体系,定义了业务域和主题域的定义和划分方式,制定了派生词、派生指标等原子级规范。

通过京东物流 Udata 自助式数据分析平台,对于不会写代码的业务人员,可以通过低代码实现指标的定义即开发、所见即所得,配置化地生成指标的口径和逻辑。在此基础上进行数据分析或 API 调用,保证指标口径的统一和效率提升。

文章来源:数据学堂微信公众号

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注