一、数据治理简介
数据治理是一门将数据视为一项企业资产的学科。它涉及到以企业资产的形式对数据进行优化、保护和利用的决策权利。它涉及到对组织内的人员、流程、技术和策略的编排,以从企业数据获取最优的价值。从一开始,数据治理就在协调不同的、孤立的且常常冲突的策略(可能导致数据异常)的过程中扮演着重要角色。
以下是组织可通过治理其数据而获得的一些收益:
●改进用户对报告的信任级别
●确保数据在来自组织不同部分的多个报告上的一致性
●确保恰当地保护企业信息,以满足审计者和监管者的需求
●改进客户的洞察水平,推动营销计划的实施
●直接影响组织最关注的 3 个因素:提高收入、降低成本和减少风险
以下是如今最重大的数据治理挑战:
●不一致的数据治理可能导致业务目标与 IT 计划之间脱节。
●治理策略未链接到结构化的需求收集和报告。
●未从生命周期角度解决常见的数据存储库、策略、标准和计算流程中的风险。
●元数据和业务术语库未用于弥合全球化企业中多个应用程序之间的语义区别。
●如今很少存在能链接安全、隐私和合规性的数据资产价值评估技术。
●控件和架构在建模长期后果之前就已部署。
●跨不同数据领域和组织边界的治理可能难以实现。
●需要治理的准确内容常常不明确。
●数据治理包含战略和战术元素,它们常常未明确定义。
二、IBM 数据治理统一流程
每个组织应该执行一些步骤来治理自己的数据。IBM 数据治理统一流程有 14 个主要步骤(10 个必需步骤和 4 个可选专题),以及支持有效的数据治理计划的相关IBM 软件工具和最佳实践。
10 个必需步骤是为有效的企业治理计划奠定基础所不可或缺的。企业然后将选择从 4 个可选专题(也就是主数据治理、分析治理、安全和隐私,以及信息生命周期治理)中选择一个或多个。最后,需要定期度量数据治理统一流程,将结果传送给管理层支持者。
让我们更详细地分析一下步骤:
1.定义业务问题。
数据治理计划失败的主要原因是,它们无法识别实际的业务问题。组织亟需围绕一个特定的业务问题(比如失败的审计、数据破坏或出于风险管理用途对改进的数据质量的需要)定义数据治理计划的初始范围。一旦数据治理计划开始解决已识别的问题,业务职能部门将支持它将范围扩展到更多区域。
2.获取高层支持。
得到关键 IT 和业务高层对数据治理计划的支持很重要。获得此支持的最佳方式是以业务案例和“快捷区域”的形式建立价值。例如, 业务案例可以专注于一家人和名称匹配,改进数据的质量以支持客户中心性计划。
与任何重要的计划一样,组织需要任命数据治理的整体负责人。组织在过去将首席信息安全官视为数据治理的负责人。但是,今天, 数据治理的责任常常在 CIO 的办公室内履行,在商业智能或数据架构区域。数据治理领导职责可能属于首席风险官,尤其是在银行。越来越多的企业正在以全职形式安排数据治理角色,使用“数据管理员”(表明将数据视为企业资产的重要性)等头衔。无论头衔是什么分配给此角色的职责必须在高层评分中足够高,以确保数据治理计划能促进有意义的变化。
3.执行成熟度评估。
每个组织需要对其数据治理成熟度执行一项评估,最好每年执行一 次。IBM 数据治理委员会基于 11 种类别(比如“数据风险管理和合规性”、“价值创建”和“管理”)开发了一种成熟度模型。数据治理组织需要评估组织当前的成熟度水平(当前状态)和想要的未来成熟度水平(未来状态),这通常在 12 到 18 个月后。这段时间必须长到足够生成结果,短到确保关键利益相关者的持续支持。
4.创建路线图。
数据治理组织需要开发一个路线图来填补 11 个数据治理成熟度类别的当前状态与想要的未来状态之间的空白。例如,数据治理组织可以检查“管理”的成熟度空白,确定企业需要任命数据管理员来专门负责目标主题区域,比如客户、供应商和产品。数据治理计划也需要包含“快捷区域”——计划可带来近期业务价值的区域。
5.建立组织蓝图。
数据治理组织需要建立一种章程来治理其操作,确保它拥有足够的成熟度来在关键形势下担当决胜者。数据治理组织最好在一种 3 层格式下操作。顶层是数据治理委员会,它由依靠数据作为企业资产的关键职能和业务领导组成。中间层是数据治理工作组,它由经常会面的中层经理组成。最后一层由数据管理社区组成,它负责每天的数据质量。
6.创建数据字典。
业务词汇的有效管理可帮助确保相同的描述性语言适用于整个组织。数据字典或业务术语库是一个存储库,包含关键词汇的定义。它用于在组织的技术和业务端之间实现一致性和达成一致。例如,“客户” 的定义是什么?客户是某个进行购买的人还是某个考虑购买的人?前员工是否仍然分类为“员工”?词汇“合作伙伴”和“经销商”是否同义?这些问题可通过创建一个通用的数据字典来回答。一旦实现, 数据字典可应用到整个组织,确保业务词汇通过元数据与技术词汇相关联,而且组织拥有单一、共同的理解。
7.理解数据。
有人曾经说过,“您无法控制您还未理解的东西。”如今很少有应用程序是独立存在的。它们由系统和“系统的系统”组成,包含散落在企业各个角落但整合或至少相互关联的应用程序和数据库。关系数据库模型实际上使情况更糟了,它使业务实体的存储分散化。但是所有一切是如何关联的?数据治理团队需要发现整个企业中关键的数据关系。数据查询可能包括简单但难以发现的关系,以及企业 IT 系统内的敏感数据的位置。
8.创建元数据存储库。
元数据是关于数据的数据。它是有关任何数据工件(比如其技术名称、业务名称、位置、被认为的重要性和与企业中其他数据工件的关系)的特征的信息。在查询阶段,数据治理计划将从数据字典生成大量业务元数据和大量技术元数据。此元数据需要存储在一个存储库中,所以它可以在多个项目之间共享和利用。
9.定义度量指标。
数据治理需要拥有可靠的度量指标来度量和跟踪进度。数据治理团队必须认识到当您度量某个东西时,性能就会改进。因此,数据治理团队必须挑选一些关键性能指标 (KPI) 来度量计划的持续性能。例如, 一家银行将希望评估行业的整体信贷风险。在这种情况下,数据治理计划可以选择空的标准行业分类(SIC) 代码的百分比作为KPI,跟踪风险管理信息的质量。
这些是前 9 个必需的步骤。最后一个必需步骤将在本章后面介绍。企业还需要在 4 个可选的数据治理专题(主数据治理、分析治理、安全和隐私, 以及信息生命周期治理)中至少选择一个。让我们选择主数据治理可选专题,分析一下它的必需子步骤的应用。一家组织需要确保业务问题(比如客户中心性)得到了明确传达,确定了业务和 IT 部门中的高层支持者。组织将执行一个简短的数据治理成熟度评估并定义一个路线图。需要有某种级别的数据治理组织来协调业务和 IT,确保近期收益。“客户”等业务词汇需要明确定义,尤其是如果“客户”是一个主数据领域。数据治理组织需要理解现有的数据源和关键的数据元素。业务定义和来自查询过程的技术元数据需要捕获到元数据存储库中。最后,数据治理组织需要建立 KPIs,
10.治理主数据。
企业内最有价值的信息(与客户、产品、材料、供应商和帐户相关的关键业务数据)统称为主数据。尽管它很重要,主数据常常是重复的并分散在整个企业的各种业务流程、系统和应用程序中。治理主数据是一种持续的实践,其中业务领导为实现业务目标而定义准则、策略、流程、业务规则和度量指标,管理他们的主数据的质 量。
与主数据相关的挑战可能困扰着大部分组织,但并不总是可以轻松获得合适的业务支持水平来修复问题的根源。因此,论证对主数据计划的投资的合理性很重要,例如,考虑一个类似银行的组织,它将多封邮件发送到同一个家庭。此银行可以通过清理其客户数据来创建“家庭”单一视图,从而建立快速的投资回报。基本而言,大部分数据治理计划会处理围绕数据管理、数据质量、主数据和合规性的问题。
11.治理分析。
企业已投入了巨额资金建立数据仓库来获取竞争洞察。但是,这些投资并不总是得到了结果,导致企业越来越多地审查其对分析的投资。我们将“分析治理”专题定义为设置更好地协调业务用户与对分析基础架构的投资的策略和过程。数据治理组织需要询问以下问题:
❏我们的数据在每个业务区域有多少用户?
❏我们在每个业务区域创建了多少份报告?
❏用户是否从这些报告获得了价值?
❏我们每月执行了多少报告?
❏生成一份新报告需要多长时间?
❏生成一份新报告有哪些成本?
❏我们能否培训用户来生成他们自己的报告?
许多组织将希望设立一个商业智能能力中心 (BICC) 来培训用户,传播商业智能,以及开发报告。
12.管理安全和隐私。
数据治理领导,尤其是向首席信息安全官报告的领导,常常必须处理围绕数据安全和隐私的问题。一些常见的数据安全和隐私挑战包括:
❏我们的敏感数据位于何处?
❏组织是否已在非生产环境(开发、测试和培训环境)中屏蔽了它的敏感数据以符合隐私制度?
❏是否已有数据库审计控件来阻止特权用户(比如 DBA)访问隐私数据,比如员工工资和客户名单?
13.治理信息生命周期。
非结构化内容占典型企业中的数据的 80% 以上。随着组织从数据治理转向信息治理,他们开始考虑这种非结构化内容的治理。
信息的生命周期始于数据创建,结束于它从生产环境删除和不复存在。数据治理组织必须处理以下与信息生命周期相关的问题:
❏我们与数字化纸张文档相关的策略是什么?
❏我们针对纸张文档、电子文档和电子邮件的记录管理策略是什么?
(换句话说,我们将哪些文档保留为记录?保留多长时间?)
❏我们如何归档结构化数据以减少存储成本和改善性能?
❏我们如何将结构化和非结构化数据结合到一个通用的策略和管理框架下?
在这些可选的专题之后,在数据治理统一流程的末尾还有一个必须步骤:
14.度量结果。
数据治理组织必须通过不断监控度量指标来确保持续改进。在第 9 步中,数据治理团队设置度量指标。在此步骤中,数据治理团队依据这些度量指标向来自 IT 和业务部门的高层利益相关者报告进度。
整个数据治理统一流程需要以持续循环的形式操作。该流程需要度量结果并循环回到高层支持者,以获得数据治理计划的持续支持。
数据治理统一流程中的步骤和子步骤
1.定义业务问题
2.获取高层支持
2.1创建虚拟数据治理工作组
2.2获取 IT 和业务部门内高级管理人员的支持
2.3识别数据治理的负责人
3.执行成熟度评估
3.1定义评估的组织范围
3.2定义想要的数据治理未来状态的时间范围
3.3定义要评估的数据治理类别
3.4确定业务和 IT 部门中正确的研讨会参与者
3.5执行数据治理成熟度评估研讨会
3.6与高层管理人员沟通评估结果
4.创建路线图
4.1总结数据治理成熟度评估的结果
4.2列出填补评估中强调的差距所需的关键人员、流程和技术计划
4.3基于关键计划的优先级创建路线图
5.建立组织蓝图
5.1定义数据治理章程
5.2定义数据治理的组织结构
5.3建立数据治理委员会
5.4建立数据治理工作组
5.5确定数据监管人
5.6举行数据治理委员会和工作组定期会议
6.创建数据字典
6.1选择一个数据领域
6.2安排数据管理员来维护关键业务词汇
6.3识别关键数据元素
6.4从现有的词汇术语表创建数据字典
6.5填充数据字典
6.6链接业务词汇与技术工件
6.7支持数据治理审计、报告和日志需求
6.8整合数据字典与应用程序环境
7.理解数据
7.1理解范围内的每个数据源
7.1.1执行列和表级别分析
7.1.2通过逆向工程主-外键关系查询遗留模式
7.1.3识别每个来源中的关键数据元素的位置
7.1.4识别每个来源中的敏感数据的位置
7.2理解来源之间的关系
7.2.1理解关键数据元素在各个数据源之间的数据重叠情况
7.2.2发现来源之间的数据连接和复杂转换逻辑
7.2.3发现数据不一致性和异常
8.创建元数据存储库
8.1合并来自数据字典的业务元数据和来自发现流程的技术元数据
8.2确保合适的数据血统
8.3执行影响分析
8.4管理操作元数据
9.定义度量指标
9.1理解业务的整体关键绩效指标(KPI)
9.2定义数据治理的业务驱动KPI
9.3定义数据治理的技术KPI
9.4建立数据治理成熟度评估的仪表板
10.可选专题:主数据治理
10.1任命数据管理员
10.1.1任命首席数据管理员
10.1.2确定数据管理计划的配置
(比如由 IT 系统、组织或主题区域执行)
10.1.3确定每个数据领域的高层支持者
10.1.4招聘每个数据领域的数据管理员
10.1.5授权数据治理委员会监督数据管理计划
10.2管理数据质量
10.2.1建立数据质量策略,包括高价值数据属性的识别
10.2.2设置数据质量基准
10.2.3创建业务案例
10.2.4清理数据
10.2.5持续监控数据质量
10.3实现主数据管理
10.3.1识别业务问题
10.3.2定义主数据主题区域
10.3.3识别使用数据的系统和业务流程
10.3.4识别当前的数据源
10.3.5定义记录系统的数据属性
10.3.6为每个记录系统任命数据管理员
10.3.7建立主数据治理策略
10.3.8为手动干预和监控实现数据管理控制台
10.3.9管理潜在的重叠任务
10.3.10匹配来自相同来源或多个来源的可疑重复内容,创建一个新主记录
10.3.11链接来自多个来源的相关记录
10.3.12检查唯一标识符是否重复
10.3.13管理关系
10.3.14管理层次结构
10.3.15管理分组
10.3.16构建主数据管理解决方案
11.可选专题:治理分析
11.1定义 BICC 的目标
11.2准备 BICC 的业务案例
11.3确定 BICC 的组织结构
11.4协商 BICC 的关键功能
12.可选专题:管理安全和隐私
12.1与关键利益相关者协调一致
12.2收集企业安全架构蓝图
12.3加强数据库变更控制
12.4自动化合规性工作流程
12.5定义敏感数据
12.6发现敏感数据
12.7分类和标记敏感数据
12.8加密敏感数据
12.9保护非生产环境中的敏感数据
12.10监控应用程序中的欺诈
12.11预防计算机攻击
12.12编校非结构化文档中的敏感信息。
13.可选专题:治理生命周期信息
13.1建立信息架构
13.3发现业务对象
13.4分类数据和定义服务水平
13.5归档数据和非结构化内容
13.6建立管理测试数据的策略
13.7定义电子文档法律查询策略
13.8分析内容
14.度量结果
文章来源:工业互联网洞察