作者:中国工商银行软件开发中心
国家加速培育数据要素市场并密集出台多项政策和立法。例如2020年4月国务院发布的《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》确定了数据这一新型生产要素为国家基础性战略资源;2022年6月22日,中央在《关于构建数据基础制度更好发挥数据要素作用的意见》中提出,建设规范的数据交易市场,为逐步构建全国数据交易市场体系提供基本遵循和行动指南。数据作为一种新型生产力,蕴藏着巨大的商业价值和社会价值。当下各行业都在着力提升数据要素价值、抢抓数字经济发展机遇。数据要素价值的充分发挥在于其有效流通共享。数据要素流通所依赖的数据资产价值评估与定价已成为一个热点与难点话题,其中数据质量作为影响数据要素价值发挥的重要因素,做好数据质量评价对于数据资产价值评估具有重大意义。商业银行拥有极其丰富的数据资产,在数据资产质量评价探索与研究方面,具有天然环境优势。工商银行积极探索与实践数据质量评价体系,促进数据资源化向数据资产化迈进,助力激活数据要素市场,激发数据资源价值创新潜能。
一、 数据质量评价现状与挑战
1 数据质量评价现状
数据质量评价是对数据进行科学和统计的评估过程,以确定数据是否满足项目或业务流程所需的质量。企业需要选择合适的数据质量评价指标和评估方法。数据质量评价指标是数据质量的评估标准,用于衡量数据在某一方面的性质。不同机构、企业和用户对数据质量维度的标准不尽相同,判断数据质量的标准取决于数据使用者的需求和目标,需要根据实际的业务流程和用户需求来选择合适的数据质量评价指标。《GB/T 36344-2018信息技术 数据质量评价指标》国家标准中已明确质量评价指标与定义如下:
一是规范性,数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度。
二是完整性,按照数据规则要求,数据元素被赋予数值的程度。
三是准确性,数据准确表示其所描述的真实实体真实值的程度。
四是一致性,数据与其他特定上下文中使用的数据无矛盾的程度。
五是可访问性,数据能被访问的程度。
六是时效性,数据在时间变化中的正确程度。
数据质量评价方法主要分为:定性方法、定量方法和综合方法[1]。其中,定性方法主要依靠评判者的主观判断,通常可划分为用户反馈法、专家评议法和第三方评测法;定量评价方法是指按照数量分析方法,从客观量化角度进行优选与评价,结果更加直观、具体;综合方法则将定性方法与定量方法结合,发挥两者的优势,常用的综合评估方法包括层次分析法、模糊综合评价法、缺陷扣分法等[1]。
2 数据质量评价所面临挑战
(1)数据治理涉及多部门协同,治理制度和机制设计尤为重要
数据质量治理通常涉及范围广,牵涉不同的业务部门、信息部门,如何协调好各方关系,使各方统一目标,通力协作,来保障数据质量管理工作的有效性和持续性,离不开数据质量管理制度的保障。数据质量管理治理制度包括管理规定、工作手册、评价办法、实施细则、技术规范等一系列文件,明确组织岗位分工和职责,支持人、流程和技术的协调,从而打通数据质量治理可能会遇到的屏障。若企业的数据质量管理制度未能打通这些屏障,当遇到部门墙、条线墙、系统墙等数据质量治理阻力时,沟通成本将大幅提升,各部门、条线及系统无法保障在数据质量治理资源的持续投入,以数据质量评价模型推动数据治理的效果将很难显现。
(2)数据治理治标不治本,评价效果难以落到实处
大数据与人工智能技术的快速发展激发出许多数据应用创新场景思路。数据应用是数据价值体现的环节,也是数据质量集中暴露的环节。引起数据应用过程中数据质量的原因多种多样,如输入场控制缺失、数据源不完整、格式不规范、历史数据错误、加工逻辑错误等问题,其中以数据源问题对企业的影响最大。若数据使用方只关注本系统数据质量的好坏,而不关心源头数据质量的好坏,为治而治的数据质量评价将变得毫无意义。中国银保监会在《银行金融机构数据治理指引》中也强调数据源头管理要求,对任何数据质量问题,在根因分析之后,需要落实数据源问题溯源治理。数据治理不可能独善其身,数据治理参与者必须要有全局意识。
(3)数据质量评价不够全面,难以促进主动治理氛围
数据质量评价作为数据治理的指挥棒,其目的为:一方面发现数据质量治理薄弱处,及时采取改进措施;另一方面引导企业内部形成良好的数据治理文化,培育数据质量人人有责的治理意识。在实际数据质量评价中,往往会关注对数据质量本身的评价,而忽略数据治理工作参与情况。预防问题、发现问题、提出问题与治理问题同样重要。如果数据质量评价机制缺乏对预防或主动治理的引导,其结果评价也将失真。兼顾数据治理过程与结果的评价机制,才能推进形成数据质量治理良性循环。
二、商业银行数据质量综合评价
解决方案探索
1 数据质量综合评价模型
数据质量综合评价模型(如图1所示)包括防范广度、防范强度、数据准确、问题治理四个维度。其中,基于缺陷扣分法原理实现从数据准确方面对数据质量的客观呈现进行评价;同时从扩充防范广度、防范强度、问题治理三方面,对数据质量的主动守护进行评价,进而实现数据质量综合评价。
图1 数据质量治理综合评价模型
一是防范广度:对数据资产的数据质量监测覆盖度进行量化打分。对于重点业务领域数据资产(如监管报送)的数据质量监测覆盖度支持权重设置。
二是防范强度:对数据资产的数据质量监测强度进行量化打分。对于重点业务领域数据资产的数据质量监测强度支持权重设置。
三是问题治理:对数据资产的问题闭环率、问题处理时效进行量化打分。对于遵守数据质量管理制度所要求治理时效的问题治理支持权重设置。数据质量问题需溯源到源系统。
四是数据准确:对各项数据资产的数据准确度进行量化打分,进而汇总计算系统数据准确度得分。
五是数据质量综合评价:结合企业当前数据质量治理工作推进所处阶段以及所发现的薄弱处,对防范广度、防范强度、问题治理、数据准确进行权重设置,引导加强相关治理工作。
2 建立数据质量治理成长卡机制,培育质量治理文化
日常数据质量治理任务通常独立于项目之外,为保证数据质量,需要大量人力投入守护,需要在数据质量评价模型基础上,配套建立数据质量治理成长卡,记录各方在数据治理工作中所留下的每一个印记,包括对本系统数据、他系统数据的质量检查情况,以及数据质量问题治理及时性情况等,根据每个治理操作赋予其对应的治理经验值,再根据经验值授予其对应的治理头衔,通过成长卡机制,激励数据生产者、数据搬运者、数据使用者履行数据治理责任。
三、工商银行数据质量评价
实践与应用
工商银行结合上述数据质量综合评价解决方案,配套建立数据治理保障机制,在企业内部深入开展数据质量评价应用与实践,取得较为显著的应用效果。该实践方案在数据治理领域具有一定的通用性,对商业银行探索大数据质量治理具有较强的参考价值。
1 重视数据治理体系建设,打通跨部门数据治理任督二脉
工商银行成立了“自上而下、协调一致”的数据治理体系,由数据治理委员会负责全行研究、审议和决定数据治理重大事项。围绕数据治理组织架构建立敏捷治理组织,设立跨部门数据治理团队,洞察内外部数据质量需求,协同开展专项治理工作。同时,建立健全数据质量管理办法、绩效考核与技术规范,明确数据全生命周期包括需求调研、研发测试、生产运营等各环节所需重点守护的质量标准,以及各部门间相互协作、有效制衡的运行机制,确保数据治理资源配置,全面提升数据质量,推行数据治理文化,实现数据要素资源的效益最大化。
2 坚持溯源治理原则,依托数据湖建立数据质量治理三道防线
溯源治理可以最快速度、最小成本、最大收益提升整体数据质量。金融机构在数字化转型的浪潮中,纷纷开展数据湖建设,为数据质量溯源治理提供了绝佳的时机。工商银行坚持溯源治理,构建多层次数据质量治理机制。通过支持数据源、数据中转方、数据使用方从多角度监测数据湖的数据质量,构建数据质量治理三道防线(如图2所示)。依托数据湖,上游系统、数据湖、下游系统从数据完整性、准确性、一致性等方面部署质量检查规则,所发现的数据质量问题均作根因分析,对于源头质量问题由数据源制定治理方案与治理计划。
图2 数据质量治理三道防线
3 建立数据质量评价模型,形成“以数治数”新模式
工商银行通过建立数据质量评价模型,实时监测入湖数据的质量评分,及时发现质量短板,持续提升改善,形成以数治数良性循环,实现对源系统数据质量评分与评价,快速定位其质量薄弱环节,为质量提升寻求突破口,形成数据质量治理以数治数的闭环管理方式。
同时,为引导数据源方、数据中转方、数据使用方发挥数据治理的主观能动性,工商银行采取基于数据质量评价模型,配套形成数据治理成长机制。比如,建立系统数据质量档案,记录各系统的数据质量综合评价,及其作为数据源方、数据中转方、数据使用方等角色参与数据治理的工作历程。根据数据质量检查和问题治理等数据治理参与情况,赋予该系统相应的经验值,进而根据数据治理经验值赋予该系统相应的治理头衔,如新手级、持之以恒、治理能手等,配套激励措施,促进企业内部数据质量治理意识从“被动治理”向“主动治理”的转变。
4 持续打磨数据质量管理平台,助力数据质量自动化评价
随着信息化银行向智慧银行建设的持续演进,工商银行构建了数据管理体系,期间不断丰富完善数据质量管理平台,其中包括质量分析、质量监控、问题治理以及质量评价,形成数据质量治理线上闭环管理流程。数据质量治理流程线上化为质量评价的自动化采集基础数据与量化评分奠定基础。历经多年的持续打磨,目前平台已支持200多个数据源、数据中转方、数据使用方基于数据湖在线部署8万多条质量检查规则,综合评级结果为优秀的源系统数占比提升了68个百分点,实现通过数字化运营方式推动重点难点问题解决,提升数据质量管理水平与治理效率。
四、未来展望
随着数据要素流通机制的不断完善,数据流通需求日益旺盛,金融机构如何对数据资产价值合理评估与定价,已是金融机构数据管理领域需要深入研究的重大课题。数据质量作为数据资产价值的重要组成部分,对数据质量评价的完整性、准确性、合理性提出更高的要求,比如数据要素市场对数据质量保障需求的不确定性、外部监管对数据治理要求的持续加强、非结构化数据质量评估尚不完备等,后续金融机构数据治理领域在治理方法论、治理技术方面都将进入深水区,需要不断研究探索影响数据质量的关键因素,完善数据质量评价模型,并将自然语言理解、知识图谱或图像识别等技术,应用于数据质量治理场景中,以数治数,从而持续提升数据管理水平。
参考文献:
【1】蔡莉 朱扬勇.大数据质量[M].上海:上海科学技术出版社,2018:137-152.
文章来源:“ BanTech智库”微信公众号