数据是组织最重要的资产
刘林 | 浅谈2023年数据管理发展趋势

刘林 | 浅谈2023年数据管理发展趋势

不得不说,国内外数据管理工作正处在欣欣向荣阶段,行业内外也均对数据管理的未来走向充满期待。从长期来看,2022年9月,“2035数字议程”发布了《数据治理》报告,研究探讨了未来数据治理的发展方向和趋势。总结起来,数据治理工作的目标和蓝图规划主要锚定在数据生态化、数据市场化、数据全球化方面。从中期来看,2022年,各家央企陆续公布了其数字化转型战略方案和路线图,内容主要聚焦于数据与业务的智能化协同。

那如果从短期来看,2023年数据管理工作又会有哪些发展趋势值得关注呢?笔者主要整理了一些国内外公司机构高层领导的观点,希望能从新的、外部视角给到一个启发。总结起来,以下几大趋势是共识程度较高的,且笔者认为的确是数据管理发展到目前阶段需要直面的。

  一 企业需数据来抵消经济不确定性

部分观点认为,无论是面对经济进入衰退周期、还是未来的各种利好,数据都将是企业应对这种不确定性的重要利器。Alation(美国的一家数据编录服务提供商)首席执行官兼联合创始人Satyen Sangani和首席技术官John Wills认为,在公司应对充满挑战的经济格局时,寻找、理解和使用可靠的数据将成为重要的竞争优势。Denodo公司则更加精准地提到了,企业将未来寻求优化基础设施成本,以应对经济低潮,由此带来两个影响,一是云端迁移,以减少数据存储和计算成本;二是以现代化的方式实现对数据的综合管理,进而降低数据成本。通过数据来帮助企业进行降本增效,是未来短时间内继续值得数据工作者重点关注的事项,毕竟通过数据来为企业创收,绝大部分企业并不具备相关条件。

  二 面向数据编织的数据架构转型

新的数据架构是未来数据管理工作者需要关注的。Denodo公司认为,在过去二十年间,数据管理经历了集中化与分散化的循环,但过去几年已经证明,对于大多数组织而言,数据更加分散而非集中。为了更好地管理和访问分布式数据,两种数据架构方法(数据编织和数据网格)的采用速度明显加快。

数据编织(Data Fabric)与数据网格(Data Mesh)的最大区别在于,数据编织是在分布式数据之上构建一个统一的虚拟管理层,而数据网格则是基于一些共同规则,分布式构建和管理数据网络。

轻松访问数据并确保其受到治理和安全保护,对于每个数据相关者来说都很重要。Komprise(美国的一家分析驱动型数据管理初创公司)首席执行官兼联合创始人Kumar Goswami指出,数据编织可以弥合数据孤岛并提供更高的可移植性、可见性和治理便捷性。尤其是针对企业中的“暗数据”——非结构化数据,企业需要将非结构化数据整合到其数据架构中,这其中的关键点在于连接和分析,而数据编织技术为此提供了可能。可以说,数据编织技术是适配未来数据湖架构的。TopQuadrant(美国的一家基于知识图谱提供各类数据解决方案公司)首席技术官Ralph Hodgson指出,利用元数据去关联企业中的核心数据,是满足业务出现新情况的基础。

Gartner高级研究总监简儁芬认为,数据管理的未来发展趋势可从三个维度来看——架构的改变、技术的转变以及组织的衍化。其中,架构的改变层面,首先强调了数据仓库举足轻重的地位,其次便讲到了未来,数据目录会被广泛使用。以往“数据目录”主要用于帮助企业机构了解数据的定义和来源,但现在的趋势是数据目录可以帮助企业机构了解数据的特性、使用者以及使用场景。而基于数据编织技术的数据目录,恰恰就是面向数据应用场景的一种数据目录构建方式。技术的转变层面,未来的数据管理和集成将会变得更加“关联”,更少“采集”,这同样是数据编织的架构思想。

  三 大众化数据应用

越来越多的数据专家意识到,今天许多的数据平台都是为具备数据素养的人而构建的,对数据有需求的人和懂得操作数据的人存在相当大的差距,企业需要关注的一点是,需要让更多的员工在日常工作中使用数据,则必须降低数据使用门槛。Alation的Satyen Sangani和John Wills认为,需要为非技术数据用户构建平台,以便所有用户都可以协作查找、理解和使用数据,不执行这种数据大众化的平台将变得过时。Mactores联合创始人兼首席顾问Nandan Umarj认为,2023年更多的公司转向自动化数据分析,以减少人工干预,降低人工成本。DocuWare(德国一家数字文档管理公司)公司认为,必须通过数据团队去获取数据是一件耗时且繁琐的过程,如果具有不同专业知识的员工可以轻松快速地访问数据,则使公司能够发现新的业务见解并获得竞争优势。希捷公司发布的《2023年数据市场趋势预测》认为,面对经济不确定性,企业领导者比以往任何时候都更加倚重他们的团队。为团队提供数据访问权限有助于员工充分利用深度数据分析提供的丰富洞察力。若能够为企业中的每一个人提供相应权限的数据,更好地解决自己的痛点,那么企业就可以大幅提高客户的满意度和忠诚度。

大众化数据应用,本质上涉及到两个问题,一是数据权限的管理与开放问题;二是数据的理解和便捷使用问题。权限管理在此不做过多讨论,主要是使用权的进一步细分,包括查询权、导出权、修改权、调用权等。这里重点讨论下数据如何方便理解和便捷使用。注入人工智能的自助式数据分析技术,被越来越多的数据专家寄予厚望。市场研究公司Omdia认为,自助服务数据和分析将在2023年继续快速发展,而人工智能将继续在传统的商业智能和分析解决方案中占据主导地位。Gartner的简儁芬更是提出了,在未来增强式的数据管理的环境中,自动发掘数据、透过机器自动意识识别数据中的价值、认定有价值的数据、分析数据、自动采用适合数据的安全措施、分享数据、优化数据,最终实现在最短时间内将精准的数据发送给对的人,对于企业机构至关重要。因此说,智能化自助式数据分析工具将是未来解决大众化数据应用的重要手段。

  四 专注与增强的数据治理

市场研究公司Omdia提出了“对整个企业的数据进行优先排序”的观点,企业需要基于客户服务、产品开发和运营活动三个角度,思考数据资产的识别与建设。而Komprise的Kumar Goswami则认为,大数据正在创造难以被利用的“数据沼泽”,精确地找到正确的数据是数据分析、数据应用的未来趋势。针对“正确数据”的分析,而不是“大数据”,这种数据精准化的观点也同样适用于数据治理工作。Denodo认为,很多组织将开始关注对业务而言最重要的数据,通过设置治理工作级别来实现对不同数据的不同粒度管理。因此,数据治理比以往更加专注,专注于企业高价值数据,而不是对所有数据做管理;换句话说,企业中不是所有的数据都是有价值的,这里面同样存在“二八法则”。因此,需要将主要精力集中在企业核心数据资产上面,以实现“小投入、大回报”的最终结果。

此外,基于人工智能的增强数据治理也是被看好的未来趋势之一。SAS公司数据科学家Marinela Profi认为,未来AI将长期投入到数据管理领域以实现自动化,进而将处理数据的时间转化为建模和分析数据的时间。Denodo认为,2023年,随着组织使用数据的速度不断提高,数据治理、数据质量和元数据管理的公司地位也会逐渐变得更加至关重要。然而,数据量的增大带来的是数据管理的成本增加,正因如此,采用增强型数据管理方法,通过使用AI,众多企业能够自动完成很多数据管理任务。将AI/ML融入数据管理工作的每个阶段,以实现数据管理自动化,进而大大降低日常管理人工成本,而剩余的精力,则可投入到数据资产应用当中。

  五 对非结构化数据的关注点迁移

非结构化数据管理与分析这一观点提出了很多年,但是笔者认为这里面存在两个问题:

1.无法统一的技术栈:不同的非结构化数据对应的数据处理技术完全不同,唯一相同的,只有数据存储技术。例如,针对图像的图像识别、针对声音的声音识别、针对文本的文本识别等,这些都是独立的技术栈,因此,将非结构化数据管理与分析做统一,只能是内容模型层面的统一,而非技术层面的统一。所谓内容模型层面的统一,笔者认为是非结构化数据管理与分析的发展重点,本质上,就是基于非结构化数据的元数据构建知识模型,将非结构化数据中的价值信息转化为结构化数据,采用类似档案管理的手段进行管理。

2.无法估计的价值量:虽然很多观点提到了90%的数据都是非结构化数据,但这里忽略了一个事实,就是非结构化数据本身就要比结构化数据体量大,一个视频的大小要抵得上多少个二维表。这里值得讨论的问题,就是非结构化数据的价值含量、或者说价值密度了。对其进行分析的投入是否能够匹配上价值产出,这是每个企业需要根据实际情况进行进一步研究和论证的。但无论如何,技术的发展都给了非结构化数据管理与分析越来越成熟的基础条件。Infosys执行副总裁Balakrishna指出,AI在文本、语音和视觉方向的继续投入将成为2023年的主流。Komprise的Kumar Goswami认为,在数据湖架构中实现非结构化数据管理与分析,未来对于企业来说至关重要。ZL Technologies(美国一家信息管理领域公司)总监Ryan Splain认为非结构化数据中的时间、空间、关系等元素将在员工分析上大展身手,有助于企业了解员工的绩效和生产力等情况。

Zilliz(一家中国的专注于AI非结构化数据处理的公司)创始人兼首席执行官谢国强则对非结构化数据提出了三个预测:

1.矢量数据库将为大规模人工智能应用提供动力;

2.可将处理传统结构化数据的现有解决方案,通过插件的方式扩展到处理非结构化数据;

3.异构计算将增强性能,通过将任务的不同方面分配给不同的处理器,应用程序可以显著提高性能。

  六 更关注数据文化、数据伦理建设

Alation的Satyen Sangani和John Wills认为,提高企业员工数据素养已经是首席数据官职责的重要组成部分,在各个层面建立数据文化将有助于克服其他挑战,同时确保业务人员可以更好地利用数据创新。而从决策层的视角来看,数据文化则体现在做出决策之前审查相关数据报告。Mactores的Nandan Umarj提出了通过使组织内每个人的数据访问大众化来鼓励和扩展数据文化,同时增加员工在专业数据管理和分析方面的培训。可见,一款智能化、自助式数据分析工具是打造全企业数据文化的重要利器。此外,数据文化与数据大众化也紧密相连。Collibra(美国一家数据管理解决方案公司)联合创始人Stijn Christiaens指出,拥抱数据文化建设,提高员工数据素养,未来将向去中心化和大众化数据环境迈进。

此外,数据伦理、AI伦理建设也是数据专家们越来越关注的一项工作。Denodo认为,组织需要能够遵守包括关于隐私和数据治理、算法透明、公平和无歧视、问责制及可审核性的相关法律法规,符合伦理要求的AI在未来一年必将变得比以往任何时候都更加重要。中国信通院的杨婕认为,数据伦理问题主要表现为数据滥用侵犯用户隐私、数字身份盗用陷入困境、数据霸权催生数据垄断、数据叠加算法支配个人、数字鸿沟加剧社会不公、数据作假引发信任危机。要解决上述问题,中国传媒大学新闻学院教授沈浩认为,企业需要基于以下共识构建数据伦理体系:

1.数据管理及大数据算法应是无偏、向善、公平的,要注意数据使用中的算法歧视、算法偏见及大数据杀熟等问题。

2.数据管理和大数据算法应该明确其目标及边界,防止数据运营主体无限制地获取消费者和用户的数据,防止数据霸权。

3.需要保障大数据分析与处理技术的可靠性,保障算法的安全且不保留后门,流程与思路清晰合理,防止数据受到威胁和篡改。

4.需要保护并尊重用户和消费者对数据所享有的相关权利,消费者作为其主体,需要明确数据的相关使用与处理策略。

5.涉及用户的相关大数据应受到合理的保护,并考虑大众的公共权益,杜绝危害国家和社会的现象,并重视相关公益数据的隐私保护。

以上六点趋势就是笔者整理的2023年数据管理工作需要重点关注的地方。总结来看,数据在企业中的重要性会越来越高,这会引发两个反应:一是非数据人士对数据相关的期望值提升,进而导致数据管理的思路、流程、工具做进一步升级,如数据编织技术、非结构化数据分析等;二是非数据人士会越来越期望参与到企业数据工作的某一环当中,进而导致数据工作的大众化、智能化,以及相关数据文化的建设。如果您当前正在做本年度的数据工作战略规划,那么不妨参考此文,在这些领域进行布局。

附、参考材料

  1. https://www.spiceworks.com/tech/big-data/guest-article/key-data-management-and-intelligence-predictions/
  2. https://www.spiceworks.com/tech/data-management/guest-article/data-management-trends/
  3. https://www.spiceworks.com/tech/data-management/guest-article/data-management-trends-to-keep-an-eye-on/
  4. http://www.qianjia.com/html/2022-12/06_397268.html
  5. https://www.wokahui.cn/hangyezixun/713.html
  6. http://www.cww.net.cn/article?id=572695
  7. https://www.51cto.com/article/742331.html
  8. https://www.spiceworks.com/tech/big-data/guest-article/predictions-for-data-analytics-data-management-and-devops/
  9. https://www.spiceworks.com/tech/data-management/guest-article/unstructured-datas-moment-has-arrived-key-predictions/
  10. https://www.spiceworks.com/tech/artificial-intelligence/guest-article/top-ai-trends-to-look-out-for/
  11. https://solutionsreview.com/data-management/data-management-predictions-from-experts-for-2023/
  12. http://www.chinabanker.net/News/Info?id=537

作者介绍刘林 京东物流数据治理专家、高级数据架构师,北京交通大学计算机科学与技术专业硕士,毕业后一直从事数据相关工作,熟悉各类数据治理方法论体系,擅长主数据规划与建设、数据仓库搭建、数据标准管理、数据资产建设与应用等领域。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注