近年来人们关于数据的讨论,大多都涉及带有“数据”的复合名词,如“数据经济”“数据金融”“智能数据”“数据资产”“数据安全”“数据治理”“数据质量”“数据要素”等,但人们却很少讨论数据究竟是什么。如果对数据究竟是什么没有进一步的了解和认识,那么这会影响到我们对上述复合名词所代表的概念的准确理解,以及对它们更高质量的交流和讨论,包括与人类经济行为有关的各种数据的定义和分类。
世界银行原首席技术官、国际数据管理协会中国分会主席胡本立在《北大金融评论》上撰文指出,应从人与数据互动的基本科学机制和过程这一角度来定义“数据”,数据是人能感知的物理信号。人不但产生大量数据,同时也有意识和无意识地受到各种数据的影响,这是数据需要治理的基础性原因。
人与数据的互动关系
经济学家一直很重视人与经济的关系。例如,罗纳德·哈里·科斯(Ronald H. Coase)在他晚年的时候很希望能够对人与经济学之间的关系做出更多研讨;罗伯特·蒙代尔(Robert A. Mundell)也为此专门写过一本书——《人类与经济学》;清华大学经济管理学院第四任院长、中国教育三十人论坛成员钱颖一在《理解现代经济学》中提到,“我们把最近半个世纪以来发展起来的、在当今世界上被认可为主流的经济学称为现代经济学。经济学是一门研究人类经济行为和现象的社会科学。”
在自然界和社会规律中,都会存在其各自的数据表示。各领域的科学家通过收集、管理和分析他们感兴趣的数据来发现隐藏在数据后面的各种科学规律。经济学家关注和希望通过人的经济行为所表现出或产生的数据来发现人类经济行为的规律。随着学科间的交叉发展,经济学需要的数据也越来越与研究自然界的、尤其是与人有关的自然科学数据发生交叉。
在讨论数据管理的交流中,我常遇到每天都在与数据打交道的一些专家,但他们并不认为自己在做数据和数据管理,而是认为数据是一门技术,由技术部门负责。另外,近年来人们关于数据的讨论,大多都涉及带有“数据”的复合名词,如“数据经济”“数据金融”“智能数据”“数据资产”“数据安全”“数据治理”“数据质量”“数据要素”等,但人们却很少讨论数据究竟是什么。
如果对数据究竟是什么没有进一步的了解和认识,那么这会影响到我们对上述复合名词所代表的概念的准确理解,以及对它们更高质量的交流和讨论,包括与人类经济行为有关的各种数据的定义和分类。
要对数据究竟是什么有进一步的理解,一是需要考虑人与数据的相互作用,二是基本理解这是怎样的科学过程。人与数据是一个不断循环的关系:人在产生大量数据的同时实际上也在被数据所影响。虽然我们还尚未了解人与数据互动中的全部细节,尤其是脑内认知过程的部分,但对互动的基本过程还是较为清晰的。
经济学家对一些主要经济概念的观点好像从未完全一致过,例如弗里德里希·奥古斯特·冯·哈耶克(Friedrich Augustvon Hayek)与约翰·凯恩斯(John M. Keynes)关于货币、资本和资产方面的争论,尤金·法玛(Eugene Fama)与罗伯特·希勒(Robert J. Shiller)关于“市场有效假说”与“非理性繁荣”的争论等,但从人与数据的角度看这些是挺自然的。如果他们理解了其分歧点可能和人与数据的互动有关,那么是否会得到一个不同的辩论呢?虽然我们对大脑的认知过程还有很多不清楚的地方,但是可以理解为,不同的人与不同的数据互动一定会有不同的结果。
对数据的理解和定义
“在每一个时刻,当你看到、思考、感受和驾驭你周围的世界时,你对这些事物的感知是由三个要素构成的:一个是我们从外部世界接收到的信号,称为感知数据……第二个要素是来自身体内部事件的感知数据……第三个要素是过去的经验。”(摘自《大脑如何让你思考》,《麻省理工科技评论》,2021年8月25日)
国际欧亚科学院院士、北京大学教授邬伦在关于数字孪生的讨论中提到,“人怎样才算智慧呢?首先要能够眼观六路、耳听八方,如果一个人什么都感觉不到,显然算不上智慧;第二,人能感受到的信息是海量的,人身上不仅有五官,还有皮肤等遍布全身的各种感知器官,通过各种感知就形成了大数据,之后再需要经过大脑加工处理。”
北京大学光华管理学院教授张国有在有关经济活动和数字技术的讨论中也提到,“经济活动是以人为本的在信息指导下谋取生存的活动,人类开始时就有现实活动与人脑影像的实体与虚拟的转换。”
与上述相似的理解和表达还有很多。在许多情况下,信息化、数字化、数据化往往可以互换使用。但我认为,信息是对数据加工后的概念,它存在于脑中,而存在于脑外的则是数据。
对“数据”下定义的版本有很多,我认为应从人与数据互动的基本科学机制和过程这一角度来定义“数据”。本文对数据的定义是人能感知的物理信号。对于那些不能被人直接感知的物理信号或数据,可以通过人类设计的特殊仪器来“感知”。即使对如黑洞、引力波等很抽象的概念,最后还是可以通过能被人类形象感知的图片或声音数据来配合理解和验证。
只有在了解了人在数据产生、处理和使用全过程中的作用,才能理解为何现在所提及的“数据偏见”,以及人们对跨学科数据的不同理解,都是很自然的现象。
我常自问,把人能感知的物理信号作为对数据的定义是否太过于泛化?读完本文后,读者可以反思这种对于数据的定义能否更科学、更根本地理解和解决目前的一系列关于数据的深层次问题,如数据主权、隐私泄露、数据偏见、数据安全、数据跨界等。
人与数据:数据在“三个世界”中的循环和闭环
图1展示了数据产生、处理和使用的循环过程。从图1中可以看到,所有的数据(包括自然界和人产生的数据)在循环过程中都是要通过人来加工的,并且我们每个人都处于这一过程中,不管身处在哪个领域。图1可以帮助我们理解自己处于某个数据循环中的哪个阶段,进而有助于打通自己与别人之间的数据衔接。另外,图1也说明,人不但产生大量数据,同时也有意识和无意识地受到各种数据的影响,这是数据需要治理的基础性原因。
下面从数据的角度来看“三个世界”。如图2所示,有一个男孩和一个女孩,左边有两条狗,一条是狼狗,一条是对人友好的狗。在整个过程中,这两个小孩学会怎么用词汇表达这两条不同的狗。实际上如果狗有被接触或有感觉看见它时,人对狗的概念已经形成了,但狗应该叫“狗”还是叫“犬”这个概念还没有形成。人在感知到“狗”之后,信号传递到人脑之中,脑根据狗的基本特征达成共识,从而从感官中的“狗”形成了狗的概念。最后,右上角有一个老人开始教他,男孩和女孩就明白了这个就是狗。所以基于这三个事件,我们可以得到“三个世界”:左边的是客观存在的世界;中间是以概念为主的主观世界,概念只有在人脑中才有;右边是大量数据构成的表示世界。这三个世界应该如何打通?图2实际上反映了这个循环和“三个世界”的关联,但关联的程度不一定完全一样。例如,男孩和女孩可能对狗的基本特征不会有不同的意见,但是如果男孩是被狗咬过的,女孩没有被狗咬过,那么他们对狗的感觉和理解是不一样的,当然这种不同不一定表示出来,看所在讨论的场景。
跨学科交流与相关挑战
第一节中我们讨论了即使在同一学科内,各学派对同一概念也会有不同的观点和看法。同时,我们又越来越需要更多跨学科的交流和共识。人与数据互动的过程是最基础或底层的,我们需要理解这一过程如何促使或帮助了学科间的交流和交叉。
经济学是研究人类经济行为的学科,它与其它研究与人有关的自然科学类学科,如认知心理学、医学科学、脑科学、生物学等,都会有许多交叉。对于经济学,席勒认为,“经济学不再是独立的”,并表示他希望经济学家能够对神经科学和认知心理学有更多的了解,“举办一场神经系统科学家和经济学家联合的会议,讨论如何收集或整合神经系统科学的数据。”
杨振宁在《20世纪数学与物理的分与合》一文指出,不同学科“它们有各自的目标和截然不同的价值观与传统。在基础概念的层面,它们令人惊讶地共享着某些概念,但即使如此,每个学科仍旧按着自身的脉络生长着。”他举了个例子,指出交叉和借鉴不是简单的共享和套用,“1975年吴大峻和我合写了一篇文章,用物理学的语言,解释电磁学与数学家们的纤维丛理论的关系。文章中我们列出了一个表,是一个‘字典’。表中左边是电磁学(即规范理论)名词,右边是对应的纤维丛名词。”
关于学科交叉,我想引用美国科学家、控制论的创始人诺伯特·维纳(Norbert Wiener)在《人有人的用处》一书中的一段话,“科学的边界交叉区域为合格的研究人员提供了最丰富的机会”,但“这些专门化的领域在不断增长,并且侵入新的疆土……大家都来探险、命名和立法,弄得乱七八糟,纠缠不清……在这样的领域里,一些重要的工作被各方面重复地做了三四遍;可是却有另一些重要工作,它们在一个领域里由于得不到结果而拖延下来,但在邻近的领域里却早已成为经典的工作。”
在交叉的过程中,各学科的术语和研究目标对象不会完全一样,有的是同一术语、含义不同,有的是不同术语、有同样的含义,在跨界交流讨论时就能发现这些问题,找出相通的部分和相关数据,避免简单套用或发明不需要的新术语。
……
胡本立:世界银行前首席技术官,DAMA CHINA主席
本文完整版刊登于《北大金融评论》第9期