数据是组织最重要的资产
张向宏教授解读国家数据基础设施(NDI)

张向宏教授解读国家数据基础设施(NDI)

11月25日,2023全球数商大会在上海举办。北京交通大学信息管理理论与技术国际研究中心(ICIR)特聘教授张向宏受邀作为主论坛嘉宾发表题为《构建新一代数据基础设施,激活数据要素价值潜能》的演讲。张向宏教授从国家数据基础设施(NDI)的历史演变、内涵、构成、特点以及障碍等五个方面对国家数据基础设施进行了全面解读。以下为演讲完整视频及文字版记录。

各位领导,各位嘉宾,大家下午好!今天非常荣幸能参加2023全球数商大会。其实我今天跟大家分享这个题目,是受上海市在上个月19号发布了上海新基建的启发,上海提出了5大新基建:第一个是新网络,第二是新算力,第三个是新数据,第四个是新设施,第五个是新终端。那么上海市在基础设施,无论是传统基础设施还是新型基础设施的新基建,应该说走在了全国的前列,为全国树立了示范。上海确实在数字经济在数据要素化发展这个阶段,应该说为全国树立了典型和示范。所以我就说要跟大家分享我们团队在新一代数据基础设施方面的一些研究成果。

那么今天来到这里又听到了,尤其是听到了江小涓教授讲到了数据的交易和数据的交互,她提到,数据的交易和数据的交互是数据开发利用数据流通的两种主要方式,其中交互是更重要的方式,而交易其实跟交互相比较起来,它反倒居于次要的地位。原因是江教授上午跟大家分享到,很多的客户对于数据的诉求并不是要把数据拿出去去换钱,而是希望把数据从它全产业的链条上,从采集、汇聚、共享、开放、开发、交易、生产、流通、治理,从各个整个全链条打通。那么其实江教授提出的从实践中观察到的现象,或者说我们现在就要是要支持从数据采集到数据交易流通的整个全生命周期的环节,其实我想到它是需要一个数据基础设施的。

前天,刘烈宏局长在杭州刚刚发布国家数据局将推动数据基础设施的四大设施和六大能力。那么,我今天正好结合我们这个研究,将刘烈宏局长的数据基础设施建设做一个简单的解读。

第一部分:从信息基础设施(NII)到数据基础设施(NDI)

1.  新阶段

过去30多年来,全球经济社会已从信息化阶段全面转向数字化阶段,当前又从数字化阶段向数据要素化阶段进一步演化升级。

2.  新空间

全球网络空间也从信息网络空间升级为数字网络空间,当前又从数字网络空间向数据网络空间迭代升级。

3.  新特点

而网络空间的核心也已发生了从“以通道为中心”向“以计算为中心”转变,当前正在从“以计算为中心”向“以数据为中心”的进一步转型。

4.  新设施

相应地,各不同发展阶段的基础设施已从信息基础设施发展为数字基础设施,当前又从数字基础设施向数据基础设施转型升级。

第二部分:国家数据基础设施(NDI)的内涵

1.  基本含义

国家数据基础设施(NDI)是经济社会进入数据要素化发展新阶段,支撑数据要素基础制度实施,支持数据资源开发利用落地,全面促进数字中国、数字经济、数字社会高质量发展的平台和载体。国家数据基础设施(NDI)纵向上从顶到底分别是国家数据空间、国家软基础设施、国家硬基础设施、国家数据安全基础设施等四层架构,横向上覆盖数据采存算管用全生命周期各环节,包括数据采集平台、数据汇聚平台、数据加工平台、数据共享平台、数据开放平台、数据运营平台、数据交易平台和数据存储平台等。

2.  基本特点

一是“是经济社会进入数据要素化发展新阶段”的基础设施。二是“支撑数据要素基础制度实施,支持数据资源开发利用落地,全面促进数字中国、数字经济、数字社会高质量发展”的平台和载体

3.  纵向结构

国家数据空间、国家软基础设施、国家硬基础设施、国家数据安全基础设施等四层架构

4.  横向结构

数据采集平台、数据汇聚平台、数据加工平台、数据共享平台、数据开放平台、数据运营平台、数据交易平台和数据存储平台

第三部分:国家数据基础设施(NDI)的构成

国家数据基础设施(NDI)在基础设施形态、数据全生命周期、行业和区域空间三个维度相互融合、相互支撑,形成支持数据全生命周期不同环节、不同行业、不同区域数据要素化的统分结合架构。

图:国家数据基础设施(NDI)参考模型

(一)国家数据基础设施纵向架构

1.国家数据空间

国家数据空间由国家公共数据基础空间、国家行业数据空间、国家区域数据节点空间组成。能够为数据持有者、数据提供者、数据生产者、数据消费者、数据应用程序提供者、数据平台提供者、数据市场提供者、身份提供者等多种主体,提供自主操作、公平共享和交换、可信管理和认证、以及互操作等可信安全操作。国家公共数据基础空间是以“1+32+N”的全国一体化政务服务平台和国家数据共享交换平台为基础,覆盖国务院部门、31个省(自治区、直辖市)和新疆生产建设兵团的全国一体化公共数据资源汇聚共享、统一开放、开发服务基础平台。国家行业数据空间是以数据规模大、数据质量高、应用场景多的N个行业,如金融、能源、水利、交通、铁路、民航、气象、通信、卫生健康、社保、文化文物、市场监管、生态环境等行业,形成的行业公共数据有序开放、互联互通、深度应用的可信安全生产交易流通空间。国家区域数据空间是以上海、北京、武汉、深圳、成都、西安、沈阳等覆盖M个大区的中心城市为主节点,以区块链、数据编织、隐私计算、大规模多源异构数据管理、大规模图计算、智能数据工程等前沿数据技术为支撑,重点从产业数据枢纽、特色数据空间、数据共享开放运营应用、数据流通交易环境等方面,构建安全可信的数据生产流通平台,包括各省(自治区、直辖市)建成的省级一体化公共数据平台,以及经此为依托建立的数据共享交换平台、数据开放平台、数据授权运营平台、数据交易流通平台等,构建数据跨层级、跨地域、跨系统、跨部门、跨业务可信安全流通的区域数据空间。

国家数据空间是国家数据基础设施(NDI)的核心。应尽快确定1+32+N”的全国一体化政务服务平台作为国家公共数据基础空间的基础,尽快确定首批参加国家行业数据空间的行业领域,尽快确定首批参加国家区域数据空间的节点城市,尽快启动国家数据空间建设。

2.国家软基础设施

国家软基础设施包括两部分内容,一是接入数据空间的各类主体、工具和数据的各种标准、协议、身份认证器和授权连接器;二是各种标准化和智能化的通用算法、模型和工具。数据持有者操作工具指确保数据持有者能便捷修改数据的工具,包括数据授予、撤销、更改访问权限、指定新的数据访问和使用条件等操作。身份管理工具指确保参与者能确认数据共享的对象。产品认证工具指确保数据空间中的软件连接器可以被信任。智能合约工具指确保数据仅被以特定的方式利用。数据互操作性协议和标准指确保平台上各主体间可以用相同方式进行交互。数据连接器为提供各类主体提供数据访问和交换接口,确保数据在不同系统和设备之间无缝流动,确保验证参与者的身份和授权并建立安全连接,确保数据的完整性和机密性,确保数据的使用控制。构建通用算法模型和控件库,包括集成自然语言处理、视频图像解析、智能问答、机器翻译、数据挖掘分析、数据可视化、数据融合计算等功能的各种模型、工具和构件,提供标准化、智能化数据服务。

国家软基础设施是国家数据基础设施(NDI)的关键。应当尽快组织国家重大科技攻关计划和国家重大工程产业化项目,广泛集聚网络、通信、软件、计算、存储、标准、人工智能、区块链等数据产业相关领域专家,拟建设国家行业数据空间的各部委信息中心领导专家,拟建设国家地区数据空间节点的各地方专家,组成数据接器、数据认证器、智能合约标准、数据产品认证工具、数据主体认证工具等科技和工程攻关团队,在短期内实现国家软基础设施技术和产品突破。

3.国家硬基础设施

国家硬基础设施主要是在信息化和数字化发展阶段形成和不断升级的基础设施,包括国家信息基础设施和国家数字基础设施,国家数字基础设施又包括算力基础设施建设和融合基础设施等。信息基础设施主要包括新一代高速固定宽带网、移动通信网、卫星互联网等空天地海一体化信息网络。算力基础设施主要包括数据中心、超算中心和边缘计算节点、量子通信、智算中心等。融合基础设施主要包括交通、铁路、电力、能源、水利、生态、市政等领域传统基础设施数字化改造和智能化升级。

国家硬基础设施是国家数据基础设施(NDI)的基础。应当遵循统筹布局、集约建设、资源共享、保障安全、适度超前、世界领先的原则,构建高速泛在、天地一体、云网融合、智能敏捷、绿色低碳、安全可控的国家硬基础设施。应合理利用全国一体化大数据中心协同创新体系,强化国家算力基础设施和融合基础设施的“底座”支撑能力,基于“两地三中心”模式建立本地、异地双容灾备份中心。

4.国家数据安全基础设施

国家数据安全基础设施纵向贯通国家硬基础设施、国家软基础设施、国家数据空间全层级,横向覆盖数据采存算管用全生命周期各环节的全国一体化数据安全监管平台,包括全国一体化数据安全信息收集、分析和通报平台,数据安全监测预警平台,数据安全应急处置平台和数据安全监督管理平台。

国家数据安全基础设施是国家数据基础设施(NDI)的保障。应当同步建设“国家数据安全态势感知平台”,挖掘感知各类威胁事件,实现高危操作及时阻断,变被动防御为主动防御,提高风险防范能力,优化安全技术应用模式,提升安全防护监测水平,为国家数据基础设施保驾护航。

(二)国家数据基础设施横向架构

1.数据采集平台

以政务数据采集为基础,建立健全以数据库采集、系统日志采集、网络数据采集、感知设备数据采集等数据采集技术为基础的标准化和智能化数据采集平台,并鼓励实现与其他公共数据采集平台和企业数据采集平台对接。

2.数据汇聚平台

依托全国一体化政务服务平台建立全国公共数据服务平台。继续支持各省级政务服务平台的建设和完善,实现与国家政务服务平台互联互通。鼓励水电气暖公交等行业的公共数据,以及平台企业和其他领域的社会数据,与全国公共数据服务平台对接并实现数据汇聚。

3. 数据加工平台

依托全国公共数据服务平台,建立健全集成自然语言处理、视频图像解析、智能问答、机器翻译、数据挖掘分析、数据可视化、数据融合计算等功能的构建通用算法模型、工具和构件,将人工智能技术深度应用于数据标注、数据分析、数据挖掘等数据加工生产流程中,形提供标准化、智能化数据服务和数据智能计算。

4.数据共享平台

进一步建立完善现有国家数据共享交换平台,实现政务数据在全国各政务机关跨地区、跨部门、跨层级共享和交换。探索水电气暖公交等行业的公共数据,以及平台企业和其他领域的社会数据,与国家数据共享交换平台对接并实现政务数据、公共数据和社会数据之间的多方共享。

5.数据开放平台

进一步建立完善现有国家数据开放平台,不断增加公共数据开放数量,持续提高公共数据开放质量。探索水电气暖公交等行业的公共数据,以及平台企业和其他领域的社会数据,与国家数据开放平台对接并实现政务数据、公共数据和社会数据多方融合和免费开放。

6.数据运营平台

充分利用数据目录、数据集成、数据迁移、数据访问、数据传输等各种数据管理技术,以及区块链技术和各种隐私技术,依托全国一体化政务服务平台建立各地区各部门公共数据运营平台,推动公共数据授权运营、特许开发和融合应用开发等不同数据运营方式。

7.数据交易平台

依托上海、北京和深圳等数据交易所已建立起来的数据交易平台,通过机器学习、隐私计算、区块链等先进技术,聚焦数据核验、可信操作、智能合约、跨链协同等功能,建设“上海+北京+深圳”等数据交易所全面联通的全国数据交易平台,提供全国范围的数据产品交易、数据资产凭证服务、数据流通交易合规监管等数据交易全过程服务,实现“一方备案,全链共享;一地挂牌,全链流通;一站交易,全链可溯;一证颁发,全链互认”。

8.数据存储平台

充分利用结构化数据存储、列式数据库、文档数据库、图数据库、搜索数据存储、非结构化数据存储、数据湖、蓝光存储等数据存储技术,建立“一地三中心”的本地、异地双容灾备份的国家数据存储中心。

第四部分:国家数据基础设施(NDI)的三个特点

国家数据基础设施(NDI)作为数据要素化发展新阶段的新型基础设施,具有对既有基础设施的全面继承性、适应新时期发展的鲜明创新性、以及对数据全生命周期各环节广泛覆盖性等三方面特点:

1.全面继承性

国家数据基础设施是数据要素化发展阶段的新型基础设施,是在以前信息化阶段的信息基础设施和数字化阶段的数字基础设施基础上发展起来的。国家数据基础设施对传统信息基础设施和数字基础设施具有全面继承性,信息基础设施和数字基础设施构成了国家数据基础设施的硬基础设施。

2.鲜明创新性

国家数据基础设施不仅全面继承了信息化和数字化发展阶段已形成的国家硬基础设施和国家数据安全基础设施,而且在数据要素化发展新阶段,创新发展出国家软基础设施和国家数据空间等基础设施等新型基础设施。国家数据空间、国家软基础设施等创新性基础设施,与国家硬基础设施、国家数据安全基础设施等继承性基础设施,共同构成了国家数据基础设施。

3.广泛覆盖性

国家数据基础设施横向上覆盖数据采存算管用数据全生命周期各环节,对数据采集、汇聚、加工、共享、开放、运营、交易、存储等业务形成全面支撑,并形成国家数据资源平台、国家政务数据共享交换平台、国家公共数据开放平台、国家公共数据授权运营平台、国家数据资源统一登记平台、国家级数据交易平台、国家级数据跨境交易平台等新型国家数据基础设施。

第五部分:国家数据基础设施(NDI)的三个障碍

1.互操作性障碍

将不同行业、不同地区、甚至不同国家种类繁多的各种数据主体、数据产品、数据工具置于一个统一的数据基础设施平台和空间上,遇到的最大障碍就是相互间的互操作性。包括三个层次的互操作性障碍:

第一个层次是在同一环节的互操作。即在同一个行业、地区或国家范围内的各种数据主体、数据产品、数据工具,通过一定规则在特定平台上实现采存算管用某一特定环节的互操作。目前各地区各行业出现的各种数据采集平台、数据汇聚平台、数据共享平台、数据开放平台、数据运营平台、数据交易平台等数据基础设施,都是在特定行业或区域的特定数据流通环节,实现了数据主体、数据产品、数据工具等的相互认证和互操作。

第二个层次是在多个环节的互操作。即在同一个行业、地区或国家范围内的各种数据主体、数据产品、数据工具,通过一定规则在特定平台上实现采存算管用等多环节相互贯通的互操作。如某些地方和部门在公共数据统一平台上,构建的公共数据共享平台、开放平台和运营平台,甚至有些数据交易平台也是构建在公共数据统一平台之上,这些地方和部门实现了在采集、汇聚、共享、开放、运营、交易等不同环节的互操作。

第三个层次是跨行业跨区域跨国别的互操作。即在不同行业、不同地区、甚至不同国家之间,不同的数据主体、数据产品和数据工具能实现在采集、汇聚、共享、开放、运营、交易等不同环节,跨行业、跨区域和跨国别的互操作。

2.场景规模化障碍 

数据基础设施支撑的数据应用规模越大,数据应用场景越多,在数据基础设施平台上吸引的数据主体、数据种类和数据工具就越丰富,数据要素的价值潜能就能得到更大程度发挥,数据基础设施的平台和载体作用就越重要。数据基础设施需突破三方面场景规模化障碍:

一是数据全生命周期场景规模化。数据基础设施目前仅在数据交易平台环节投资较大,应用较多,而在数据采集、汇聚、共享、开放、运营和存储等其他环节还未形成集中化、规模化应用。应将数据基础设施场景应用拓展到数据全生命周期的各环节。

二是更多的行业和地区场景规模化。数据基础设施目前仅在部分政务部门建立了政务数据汇聚、共享、开放、运营和存储等基础设施平台,还没有覆盖到各行业各地区。应将数据基础设施从支撑政务应用向支撑行业和地区应用拓展,将数据基础设施在政务领域的应用规模化地被复制应用到多个行业多个地方场景中。

三是大众日常工作生活场景规模化。数据基础设施仅在政务应用和部分2B场景有所应用,还没有覆盖到广大的商用和民用领域,特别是还没有覆盖到众多的互联网数据平台。应将数据基础设施建设重点转向对规模化、海量化的民用领域,必须覆盖所有人民群众所有生活生产领域。

3.技术成熟度障碍

数据基础设施建设既要充分利用已有的区块链技术、云计算技术、大数据技术、人工智能技术,也要创新应用联邦计算、去标识化、同态加密、零知识证明、合成数据、可信执行环境等隐私计算技术。数据基础设施的有效性在很大程度上取决于各种隐私计算的技术成熟度和隐私计算技术与传统技术的融合程度。数据基础设施主要的技术障碍主要表现在以下三方面:

一是隐私计算技术的成熟度和公认度。目前在实践中得到应用的隐私计算技术还远未成熟,主要表现在两方面,一是隐私计算技术种类众多,但还没有一项成熟的技术。不同机构、不同产品使用了联邦计算、去标识化、同态加密、零知识证明、合成数据、可信执行环境等不同隐私计算技术;二是隐私计算技术路线多样化,还没有一条得到市场公认,相互间不兼容、不可互操作。应加快培育1-2种隐私技术,通过国家数据基础设施大量应用形成市场优势,并不断发展成熟最终得到市场公认。

二是隐私技术的云计算、大数据和区块链等技术的融合。目前云计算、大数据和区块链等技术在信息网络基础设施和算力基础设施已实现融合,随着数据基础设施不断发展完善,各种隐私技术也将与云计算、大数据和区块链等技术不断融合,实现创新发展。

三是以隐私技术为核心的数据连接器和数据认证器的部署。在现有云计算架构下,数据连接器和数据认证器的部署形态是以公有云和私有云方式部署的。随着数据基础设施继续深化发展,数据连接器和数据认证器将以一体机形态在各行业各地区数据空间部署。

今天我给大家汇报的内容就是这5个方面,虽然对结构的描述比较清楚,但面临的问题也比较多.对于国家数据基础设施(NDI),我们团队也研究了很多年,那么我们今年在做这件事,我们觉得信心非常的足,我们认为这件事情肯定能做好的一个很重要的原因,国家数据局成立了,国家在举全国之力在做这件事情,所以我们非常有幸赶上了一个时代,一个历史转折的关头。所以我们希望跟上海数据交易所、上海的各位同仁以及全国的各位同仁携起手来。如果大家在数据基础设施的方面的有什么样的需要我们帮助的,可以跟我们联系,谢谢大家!

文章来源:“交大评论”微信公众号

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注