数据资产管理最佳实践案例ㅣ杭州银行:算子血缘分析技术在数据资产管理平台中的应用

数据资产管理最佳实践案例ㅣ杭州银行:算子血缘分析技术在数据资产管理平台中的应用

*本案例荣获沙丘社区「2024 中国数据资产管理最佳实践案例」,以下为案例实践详情。

杭州银行数据治理团队实现了贯穿企业生产到应用端的“全链路算子血缘图谱”,基于主动元数据分析技术,让数据落标和资产盘点等方案从“手动”到“自动”,从依赖人工保障数据变更风险到重点链路变更自动化协同,丰富了数据治理手段,提升了治理方案落地效果和效率。本案例创新性体现在:

  • 全域元数据资产采集和主动保鲜:配置化采集企业多类型数据库元数据及相关数据资产脚本,包括报表、看板及指标类资产类型及资产扩展属性信息。元数据变更自动感知并更新到资产看板和血缘结果中;
  • 跨平台血缘连通、精准溯源和影响面分析:数据资产管理平台对全域元数据进行统一采集和管理,支持跨平台血缘连通,配合智能裁剪血缘分析能力,实现精准的溯源和影响面分析;
  • 高精准血缘解析和长效保持:处理复杂 SQL 脚本血缘解析,血缘准确率 99 %。白盒化血缘解析问题,错误自动归因,构建长效改进和运营能力;
  • 创新智能数据资产管理方案:在列算子血缘图谱基础上,支持灵活可扩展的数据标准和安全标签打标扩散能力,实现业务数据知识的沉淀和元数据语义知识补充;用户可以自助完成数仓链路盘点和加工口径的分析,表级、字段级和任务内血缘链路丝滑探索,减少找数据过程中对数据开发人员的咨询量,提升数据理解和信任效率;
  • 重点链路风险主动防控:基于链路精准打标扩散能力形成重点场景基线,对基线上的资产变更主动保鲜,数据质量风险自动通知预警;
  • 反向元数据输出,赋能多平台元数据智能:提供统一的数据血缘图谱分析能力,提供多种血缘分析服务输出,支持灵活的数据管理应用场景创新和现有平台能力升级。

杭州银行数据资产管理平台建设起步于 2021 年,核心是将行内的资产进行整合管理,助力数字化转型,实现基于数据驱动的数据资产管理。

杭州银行数据资产管理平台日均访问量近 5000 次,资产详情页包含血缘模块,每日约一半用户会打开血缘页面。2024 年初,数据资产管理平台以 Aloudata BIG 的列算子血缘为底座,实现全域数据资产统一采集和连接,目前已经纳管数十万个元数据实体,包括 PostgreSQL、Hive、SparkSQL、Impala、Oracle、MySQL 等方言编写的 SQL 脚本、表和视图,端到端连通从业务源端数据库到应用端报表的列算子血缘图谱。

“十四五”规划中提出,稳妥发展金融科技,加快金融机构数字化转型,近年来,国家及银行业高度重视银行数字化转型过程中数据资产的有效及合规管理发展,陆续出台政策文件,为金融机构数据资产管理提供重要指示和系统指导,进一步明确数字转型创新过程中数据资产管理的必要性和具体要求。

随着杭州银行数字化转型逐步进入深水区,在数据资产管理侧面临如下挑战及痛点:

第一, 缺乏高效的数据资产梳理手段,看全、厘清企业数据家底的成本高,用户找数、理解数据的成本高。

随着业务对数据使用需求的日益旺盛,需要将分散在不同的系统和部门的数据统一索引,构建“企业数据资产一张图”,进一步挖掘数据价值,或者发现“暗数据”,进行成本和风险治理。

在构建企业数据资产图谱的过程中,数据和数据的“关系”是最关键的信息,否则难以追溯数据的来源和流向,无法精准快速地进行资产的盘点、理解及应用。

数据关系的盘点可以依赖人工上报和维护,而更有效的手段是通过数据血缘分析自动得出。之前行内已经建设了部分数据平台内部的表血缘,缺乏从业务源系统到行内湖仓再连接到应用侧的跨平台血缘,无法分析从生产到消费的全链路数据关系,制约了数据价值评估、数据风险防控等场景落地效果。并且,表血缘关系太泛化,分析结果还需要投入大量人力进行二次甄别,无法满足数据管理和协作过程中对精细化溯源和影响分析的要求,用户反馈“血缘不好用、不敢用”,影响了我行数字转型创新的业务用数效率。

第二,数据治理成果依赖专家经验驱动,效果复制难,规模效益差。

数据治理推进主要依赖行政管理手段和运动式项目,缺乏有效的长效运营机制和能力。例如,在数据标准落标、个人信息分类分级、隐私合规风险治理等工作中,大量依赖专家经验进行人工标注,使得管理工作难做实,资产标注覆盖面不完整,推广效率低。在冗余成本治理上,依赖人工梳理或者基于文字相似性进行重复资产识别,使得效果不可控、协作过程中摩擦成本高,往往造成“治了又乱、乱了又治”,管理者也缺乏主动的基于数据驱动资产管理的最优路径和实践。

第三, 全链路数据质量风险难识别,数据变更上下游协同难,事前防控手段少,数据资损影响大。

数据质量治理多为问题导向、被动式应对,难以进行数据质量问题的主动前置预警,例如上游系统切库,下游往往是事后通过业务反馈或者监控报警才能感知,如果数据资损已经发生,则无可挽回。对重点业务使用的数据范围甄别依赖人工梳理和打标,容易造成错漏;链路梳理结果也是静态,如果有数据上下线的变更,资产保障范围无法进行自动保鲜,容易导致决策延误,或者投入大量人力重新进行确认。

上述数据资产管理工作面临的挑战,很大原因是因为元数据技术能力存在瓶颈,特别是在构建“企业数据资产一张图”的过程中,血缘解析能力、元数据挖掘分析能力不足,导致数据管理无法从“手动”提升到“自动”,从依赖人工盘点到实现元数据知识深度挖掘。

为此,杭州银行决定升级血缘技术能力,构建企业全域元数据知识图谱,利用智能血缘分析能力,将企业的数据资产进行归纳提炼,让企业数据资产从信息阶段进阶到知识阶段,并赋予数据管理工作长效化和智能化能力。

为应对上述管理挑战,解决元数据技术能力瓶颈,杭州银行与 Aloudata 大应科技合作,借助 Aloudata BIG 主动元数据平台和列算子血缘解析能力,对数据资产管理平台进行升级,实现全域数据资产统一采集和连接,端到端连通从业务源端数据库到应用端报表的列算子血缘图谱。

利用列算子血缘分析技术,实现了让数据落标和资产盘点等方案从“手动”提升到“自动”,从依赖人工盘点到自动化挖掘元数据知识,丰富了数据治理手段,提升了治理方案落地效果和效率。

  • 血缘端到端精准连通,一张图、主动更新
  • 重点链路数据质量主动保障、高效协同
  • 智能化元数据打标和挖掘,促进企业数据知识沉淀

先前由于业务源、数据湖、数据仓库和业务应用割裂,各系统内元数据采集覆盖度和血缘解析准确度参差不齐,跨集群、跨平台、跨部门的血缘一直无法实现,无法以企业视角去发现和挖掘数据价值。元数据采集和血缘解析工作偏向需求驱动,没有形成系统化解决方案;新元数据源的接入费时费力,旧元数据源的更新需要排期解决,整体元数据体系的建设效率低,跟不上业务对元数据智能化的要求。

为构建“企业数据资产一张图”,杭州银行首先标准化了元数据采集方案和元数据模型,通过自动化采集一切与数据资产相关的元数据,尤其是表、视图、任务、代码、指标、报表等核心数据资产,将企业中异构分散的元数据汇集到一处进行统一建模和管理,实现企业统一的元数据管理和服务。

在血缘精细度上,杭州银行将表级血缘升级到了列算子血缘。列算子血缘是一种比字段血缘更细致、应用场景更丰富的血缘解析和应用技术。Aloudata 利用 SQL 编译器的 AST(虚拟语法树)技术,将 ETL 任务脚本或者执行日志中的 SQL 代码解析成“算子对象”,精准地抽取出字段的“直接加工逻辑“和过滤汇总等“间接影响关系”,实现更精细的血缘关系刻画、更准确的溯源和影响面分析。

借助“算子对象”这样精细粒度的血缘分析能力,以往需要大量人力和专家经验才能做好的数据管理工作,现在可以通过程序化实现,例如自动化变更影响分析、全链路数据质量影响分析、“同义不同名”的指标溯源判重、业务元数据语义挖掘、数据标准自动打标扩散等方案都能在我行落地,这也是传统血缘无法做到的应用场景。

在血缘准确度上将使用量化指标来监控整体血缘可用性水位,目前杭州银行已经达到了血缘解析准确率 99+% 的成果,可以支持各项数据管理方案的“放心”使用。每日解析报错会进行白盒化问题展示并自动错误归因,配合按业务规则定制的血缘自检方案,主动发现血缘图谱中的 bad-case,不断改进和维持血缘高准确率。

目前,杭州银行数据资产管理平台已经纳管数十万个元数据实体,包括 PostgreSQL、Hive、SparkSQL、Impala、Oracle、MySQL 等方言编写的 SQL 脚本、表和视图,端到端连通从业务源端数据库到应用端报表的算子血缘图谱。

通过相互关联的数据血缘图谱和数据语义图谱,数据资产管理平台实现了主动保鲜、智能驱动、开放集成的元数据管理能力,让每一个人都能快速发现和理解数据,并实现主动持续的数据资产治理及优化。

该重点业务的数据质量保障解决方案可以概述为:一个数据基础+三个场景方案。“一个数据基础”是指前面提到的构建端到端打通、高准确度的列算子血缘图谱,这是保障工作的基础依赖。“三个场景方案”包括:

(1)主动感知:重点链路精准识别、链路变化动态保鲜

利用 Aloudata BIG 产品能力,杭州银行数据资产管理平台提供元数据标签自动化扩散功能,可以从应用场景端的种子资产表或者字段,向上游链路按照规则传播场景标签,从而将某个场景使用到的上游表或者字段都识别出来;或者是将入仓表的系统来源标签,按照规则向下游扩散,辅助进行系统溯源。这些标签会出现在资产表或者字段上,辅助用户理解数据。也可以将标签资产纳入“重点链路基线”,制定差异化的基线保障策略。

(2)主动分析:变更内容主动识别、元数据版本可回溯

元数据内容若有变更则会被自动识别,例如上游系统切库造成的表、字段下线或者更名,用户修改任务代码导致的字段口径变更等。这些变更信息会以“元数据版本”形式保存下来,方便用户理解资产变化历史,也用于下游排查异常根因。

(3)主动预警:重点链路变更通知、异常预警能力开放

在全链路的知识图谱基础上,借助于图推理及算子级血缘分析算法,实现杭州银行重点数据链路的主动保障、主动分析的高效协同。对于数据变更事件、任务调度异常、质量校验异常事件,数据资产管理平台通过拉取异常事件消息队列,判断是否重点链路上的资产,若是则启动对下游的影响面分析并推送风险提示消息,主动提升风险协同效率

这种异常分析结果,还可以通过 API 形式被异常事件上报方主动调用。例如调度系统、质量校验平台发现资产有异常状态时,调用链路影响面分析 API,触发获取影响评估结果。

我行基于国家标准《信息安全技术个人信息去标识化效果评估指南 – GB/T42460-2023》、《信息技术大数据数据分类指南 – GB/T38667-2020》、《资源管理-数据资产管理指南 – T/NSSQ023-2022》等要求,需要针对数据资产进行分类分级标注

数据资产管理平台集成了个人信息常用分类分级标准算法,实现基于策略的标注及全域相关资产标注广播,提供多场景扩散、多策略配置以及便捷的产品化实施,能够针对链路流转变化进行标注的主动更新。这种能力让我们具备持续沉淀和丰富我行数据资产标注信息,同时也高效支持了数据的合规流转及安全管理。

项目落地后,杭州银行构建全链路算子血缘图谱,将列算子血缘分析技术应用到数据资产管理平台中,项目收益体现在:

  • 构建“全域数据资产一张图”,赋能各平台元数据智能

建设杭州银行全域数据资产知识图谱,覆盖杭州银行三类数据湖仓平台,纳管共计近百万张数据资产表,数十万个数据处理任务脚本,上百个分析应用,打通从“业务源 -> 交换同步平台 -> 大数据平台和多种数据仓库 -> 指标/报表/业务系统”的跨平台血缘链路。

在基于国内最先进的 Aloudata BIG 列算子血缘解析技术和应用算法基础上,挖掘和丰富元数据资产,帮助业务和开发人员精准快速地理解数据,帮助管理人员持续发现企业的“暗数据”和评估数据价值,用“主动元数据”赋能数据研发平台、数据质量管控平台、数据调度运维平台等提升工作效率和改进工作流程

  • 资产管理“算法+经验”自动化方案落地

基于 Aloudata BIG 高精准的列算子血缘,提供数据管理的多种自动化算法策略,例如数据智能化打标及全链路精准扩散,可实现资产标注准确率 90%,提升数倍资产盘点及溯源分析效率,实现可持续输出到标准落标、个人信息数据标注、数据审批及合规监管等业务场景中,沉淀数据标准及规则,实现基于数据驱动资产管理的最优路径和实践。

  • 重点业务数据质量保障,全链路异常主动预警和高效协同

链路变更主动预警及影响面分析,问题根因分析提效 40%,影响面分析人天成本降低 40%,将数据质量保障能力赋能到每个开发运维人员,并能让业务负责人清晰了解数据链路风险以及数据质量水位,确保数据高质量流转,防止资损和舆情,为业务提供“确定性”的高质量数据。

杭州银行数据资产管理实践以 Aloudata BIG 列算子血缘为底座,实现全域数据资产统一采集和连接,端到端连通从业务源端数据库到应用端报表的列算子血缘图谱,从依赖人工盘点到自动化挖掘元数据知识,丰富了数据治理手段,提升了治理方案落地效果和效率,能够较好地解决现代企业所面临的数据治理通病和难题。

对于其他企业来说,本项目可参考如下经验:

第一,实用性:数据资产管理平台对全域元数据进行统一采集和管理,支持跨平台血缘连通,配合智能裁剪血缘分析能力,可以实现精准的溯源和影响面分析;多维度的资产标签标注及扩散,沉淀资产知识图谱,实现资产的精细多维刻画,甄别行内高优资产,冗余资产;加速资产的理解。

第二,价值性:用户可以在数据资产管理平台上,主动发起评估源端数据库的变化影响并穿透式直达到 10 层以上末端资产,下游指标也可以一次性溯源到业务系统。平台用户可以自助完成数仓链路盘点和加工口径的分析,表级、字段级和任务内血缘链路丝滑探索,减少找数据过程中对数据开发人员的咨询量,提升数据理解和信任效率;数据管理员可以从任意种子表/字段对上下游加工链路进行精准打标扩散,形成重点场景基线,基线上资产变更保鲜,数据质量风险自动通知预警。

第三,创新性:基于图探索策略及 AI 算法的引入,让资产刻画标注融入血缘链路,在列算子血缘图谱基础上,支持灵活可扩展的数据标准和安全标签打标扩散能力,实现业务数据知识的沉淀,构建企业元数据语义知识图谱,用新技术解决企业数据管理的“老大难问题”,创新提升质量保障、标准落标等解决方案落地效果和效率,提升用户找数、理解数据的效率和效果。

文章来源:“数据工匠俱乐部”微信公众号

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注