导读:元数据作为“关于数据的数据”,蕴含了大量企业的知识,元数据管理的真实目的也是企业知识的管理,希望关于组织数据的方方面面信息都能集中保持和展示在一个平台上,方便大家一致地了解和使用这些信息。
传统的元数据收集依靠人工收集,元数据的完整性和准确性一致是一个难题,设计态和实现态不一致,导致元数据平台价值不高。“主动”的元数据平台,通过元数据的自动采集确保用户看到的都是实现态的最准确的元数据。当然“主动的”元数据平台不仅仅是自动采集元数据。本文总结“主动”的元数据平台应具有五大特点,对元数据管理平台选型很有指导意义:
- 元数据湖
- 可编程智能机器人
- 嵌入式协作插件
- 数据流程自动化
- 反向元数据
——–以下正文——–
主动元数据平台的剖析
主动元数据是Gartner提及的最新类别分类,它也是当今增强数据目录的一次变革性飞跃。
Gartner取消了元数据管理解决方案魔力象限,取而代之的是主动元数据市场指南,这一改变对元数据管理产生了巨大的影响。这会有什么不同吗?由于这一变化,Gartner 将主动元数据作为未来的一个新方向类别。
与出现在数据生态系统中的任何新类别一样,这一通告伴随着大量的支持声、一些善意的怀疑声以及大量的问题。
- 主动元数据的准确描述是什么?
- 主动元数据与我们以前见过的增强数据目录以及其他技术有什么不同?
- 主动元数据平台看起来是什么样的?
我之前写过篇什么是主动的元数据平台及其关键特征的文章。今天,我想从这个抽象的讨论中更进一步,同时描绘出一个主动元数据平台的样子,剖析关键的组成部分,并给出一些主动元数据的实际使用案例。
主动元数据平台是什么样子的?
一种主动元数据平台的架构(图片来自Atlan)
在我看来,主动元数据平台有5个关键组成部分:
- 元数据湖:一个统一的存储库,以原始和处理过的格式存储各种元数据,构建在开放的API之上并由知识图谱进行驱动。
- 可编程智能机器人:一个允许团队创建可定制的机器学习或数据科学算法来驱动智能化的框架。
- 嵌入式协作插件:由共享元数据层统一提供的一个集合,将数据工具与每个数据团队的日常工作流程无缝集成。
- 数据流程自动化:一种通过模仿人类的决策过程来管理数据生态系统的方式,提供构建、部署和管理工作流程自动化机器人。
- 反向元数据:相比于独立的数据目录,可以通过编排使相关的元数据随时随地提供给需要的最终用户。
1. 元数据湖:单一的元数据中央存储
几个季度前,我写过一篇关于元数据湖的概念的文章:一个统一的存储库,以原始和深度处理的各类形式存储各种各样的元数据,可用来指导我们已知的场景和未知的场景。
主动元数据建立在主动查找、丰富、清点和使用所有元数据的前提下,使传统“被动”技术变成真正的行动导向。
元数据湖作为任何主动元数据平台的基石,有两个关键特征:
- 开放式API和接口:元数据湖通过开放式API需要具备易于访问能力,而不仅仅是作为一个数据存储。这使得在现代数据堆栈的每个阶段都可以非常容易地利用单个元数据存储来驱动各种场景,例如发现、可观察性和血缘关系。
- 由知识图谱提供动力:当数据资产之间的所有连接都活跃起来时,元数据的真正潜力就会被释放。知识图谱架构是最有希望使元数据连接变得生动的候选者–它已经为世界上大型的互联网公司提供助力,如谷歌、Facebook和Uber。
2. 可编程智能机器人
我们正在快速接近一个元数据本身正在成为大数据的世界,理解这些元数据是创建现代数据管理生态系统的关键。
元数据智能有可能影响数据生命周期的各个方面。它可以通过解析SQL查询日志,自动创建列级别血缘。它可以自动识别PII(个人识别信息)数据以保护个人信息。它可以通过自动检测数据异常值和异常,捕捉到我们之前捕捉到不良数据。在过去几年中,元数据在这方面出现了一些创新,“增强型”数据目录变得越来越流行。
然而,在所有的炒作中,我相信如何把智能应用于数据管理,到目前为止,有一点是错误的—任何事情上没有银弹。
每个公司都是独一无二的。每个行业都是独一无二的。每个团队的数据都是独一无二的。
在最近与一位数据负责人的通话中,他检讨其数据质量异常检测的工具:“有时,这个工具会向我们发送有效的关于架构变化和质量问题的告警。而有的时候,它无法进行有效的告警,这真的让我们的数据工程团队感到沮丧。”
我并不是怪罪这个工具。事实上,每个机器学习算法的输出都是输入的训练数据的函数。没有任何一种算法能够实现神奇地创建上下文、识别异常并实现智能数据管理的愿望–并且在每个行业、每个公司和每个场景中100%地取得成功。虽然我希望有,但世上没有银弹。
这就是为什么我相信,主动元数据平台智能化的未来不是一个能神奇地解决我们所有问题的单一算法。相反,它是一个允许团队创建可编程的智能机器人框架,可以轻松地根据不同的上下文和场景进行定制。
以下是可编程智能机器人的几个例子:
- 随着安全和合规性要求成为主流,公司将不得不遵循更多的规则–例如针对医疗保健数据的HIPAA和针对银行业务的BCBS 239等行业特定规则,或欧洲GDPR和加利福尼亚CCPA等特定区域规则。机器人可根据每家公司的法规来识别和标记敏感列。
- 对数据集有特定命名习惯的公司可以创建机器人并根据预设规则自动组织、分类和标记它的数据生态系统。
- 公司可以采用开箱即用的可观察性和数据质量算法,并根据他们的数据生态系统和场景进行定制。
可编程智能的用例是无穷无尽的,我对未来的发展感到非常兴奋!
3. 嵌入式协作插件
如今,数据团队比以往任何时候都更加多样化。他们由数据工程师、分析师、分析工程师、数据科学家、产品经理、业务分析师、公民数据科学家等组成。
这些多样化的数据团队使用同样多样化的数据工具,从 SQL、Looker 和 Jupyter 到 Python、Tableau、dbt 和 R。添加大量的协作工具(如 Slack、JIRA 和电子邮件),这让数据专业人士的生活成了一场噩梦。
由于数据团队的基础多样性,数据工具需要被设计成与每个团队的日常工作流程无缝融合。
这正是嵌入式协作的想法变得活跃起来的原因。嵌入协作不是从一个工具跳到另一个工具,而是无论数据团队成员生活在什么地方,工作都能正常进行并减少摩擦和上下文切换。
嵌入协作可能是什么样子的(图片来自Atlan)
以下是嵌入式协作的几个例子:
- 如果你可以通过获得链接时请求访问数据资产,就像谷歌文档一样,所有者可以在Slack上获得请求,并立即批准或拒绝它,那会怎么样?
- 如果在检查数据资产并需要报告问题时,你可以触发一个与工程团队的JIRA工作流程完美结合的支持请求,那会怎么样?
主动元数据平台中的操作层将使嵌入式协作最终活跃起来。我将此层视为现代数据堆栈的Zapier–由共享元数据层统一,并允许团队为自己独特的工作流程定制应用程序。
4. 数据处理自动化
几年前,一种名为机器人过程自动化(RPA)的新工具类别席卷了企业界。从UiPath来看,RPA是“一种软件技术,可以轻松构建、部署和管理软件机器人,模拟与数字系统和软件交互的人类行为”。
随着数据编织、数据网格和DataOps等概念成为我们思考数据平台的主流方式,它们将引发对数据流程自动化(DPA)的需求–这是一种使构建、部署和管理工作流自动化简单化的机器人,它将模拟人类决策过程或行动来管理数据生态系统。
你是否曾因周一早上的仪表盘加载速度而感到沮丧?或者更糟糕的是,在月末被AWS的高额账单吓到?
有了主动元数据平台,不难想象这两种情况都不会再发生。一个真正的主动元数据平台可以向相邻的数据管理工具推荐参数化指令,用于资源分配和作业管理等操作。
例如:通过利用各种来源的元数据–比如顶级BI仪表盘以及BI工具的峰值使用时间、数据管道工具的历史数据管道运行统计数据,以及仓库的计算性能–你可以想象一个场景,在这个场景中,主动元数据平台不仅推荐用于扩展Snowflake仓库的参数,也会实际上利用DPA来分配仓库资源。
5. 反向元数据
我相信过去几年最伟大的事情之一是真正的“现代数据栈”公司和创业者的崛起,他们相信惊人的用户体验胜过一切。
虽然旧时代都是关于“价值捕获”,但新一代创业者专注于“价值创造”– 最终用户体验是第一位的。现代数据栈公司越来越有兴趣真正地相互合作,以整合其产品路线图,创造更好的用户体验。
主动元数据是真正解锁这些合作关系的关键,而我认为“反向元数据”将改变游戏。
反向元数据可以让最终用户随时随地都能使用相关的元数据,以帮助他们更好地完成工作。
例如:在Atlan,我们与Looker的反向元数据集成直接在Looker中显示“上下文”(比如谁拥有仪表板、度量定义和文档等等)。
Looker中的反向元数据 (GIF来自Atlan)
主动元数据平台可以帮助在现代数据堆栈中编排有用的元数据,使堆栈中的所有各种工具更加有用–无需关注于每个工具之间的自定义集成。
总结
在我看来,Gartner报告中最具预言性的一句话是:“独立的元数据管理平台将从增强型的数据目录管理平台转向‘随处可见’的元数据编排平台。”我们对主动元数据的研究才刚刚开始,我们共同努力找出它在当今和未来的数据生态系统中可能扮演的角色。我希望这篇文章能给未来带来一些启示,让它从抽象变成更真实的东西。
Prukalpa Sankar,作者 Atlan的联合创始人,福布斯30位30岁以下的创业者,财富40位40岁以下的商业精英,TED演讲者。
赵一鸣,主译者,现在就职于亚信科技,研发总监,负责大数据基础设施平台相关的解决方案和研发工作。关注大数据和数据治理相关方法论和技术。
马欢,校对,DAMA会员,DAMA数据管理专家《DAMA-DMBOK数据管理知识体系(第1&2版)》、《首席数据官管理手册》等专著中文版主译者,CDMP Master。