Hannu JAAKKOLAa,1 and Bernhard THALHEIMb,2
aTampere University, P.O.Box 300, FI-28101 Pori, Finland
bChristian-Albrechts-University Kiel, Computer Science Institute, 24098 Kiel, Germany
摘要:数据(概念、数据、信息、知识)建模仍然是一种工匠的工作,即在最好的情况下通过人类的智慧来创造的艺术,因为它需要人类的智慧。数据建模是信息系统(Information System,IS)设计的重要组成部分,具体说明如何将数据作为信息系统的一部分来实施。数据建模的原则遵循信息系统开发范式的演变,并且这些原则也遵循了计算技术变革的进程。尽管从1950年代到现在近70年的商业计算机使用时期技术发生了很大变化,但数据建模仍然基于数十年前的基本原则。但事实真的如此吗?找到这个问题的答案是开始撰写本文的主要动机。由于未来比过去更有趣,我们将研究问题定为“未来数据建模面临哪些挑战?”。原因是我们看到了未来数据建模领域将出现一些我们希望对其进行研究的重要变化。然而,未来是过去的延续。不了解过去就无法完全理解未来。人类也也倾向于忘记过去的细节。实际上过去最显著的创新已经成为新的常态的一部分。因此,在本文开始时,我们简要回顾了商业计算时代的数据建模进展。我们的重点是不远的过去,并着眼于在数据建模中起关键作用的技术变化,即触发因素和推动因素。为了找到我们的研究问题的答案,我们检索了一些近期关于未来数据建模的研究,并分析了这些来源中存在的挑战。本文的结论是一些未来的范式。总体而言,总的来说,最大的变化似乎是人工智能(AI)和机器学习(ML)作为其燃料的重要性越来越大。AI不仅执行基于算法规则的常规程序,还具有学习能力,使其更加智能和适应性更强,即使在数据管理任务中也能够与人类智力竞争。
关键词:数据建模、信息建模、信息系统建模、信息系统设计、数据库
1.引言
数据建模定义了与信息系统相关的数据模型(物理、逻辑、概念等)创建原则。它涵盖了定义和确定目标组织的数据需求,以及使用数据的目标。数据建模是信息系统设计的重要组成部分,为整个开发生命周期奠定了基础。自20世纪50年代计算机商业化的早期阶段以来,信息系统开发的模式和技术发生了根本性的变化。数据建模的原则也同样发生了根本性的变化。
概念建模、数据建模、信息建模等各种术语用于从不同的角度和抽象层次描述信息系统设计的相同基本要素。在我们的论文中,我们采用了“数据建模”这个术语来涵盖在信息系统开发生命周期的不同部分中建模技术的使用情况;因此,它是一个统称,涵盖了在信息系统设计中所有抽象级别上的概念建模以及与数据相关方面的建模。该模型的发展反映了开发范式的原则。在开发生命周期中经过多次修改后,概念模型的最终表现可以在应用程序的数据结构(数据库、软件数据结构)和功能中看到。
本文的目标是分析数据(概念、信息等)建模在几十年间的变化,主要目的是研究当前情况和未来发展趋势。我们回顾了1990年代末的一篇论文,这篇论文的第二作者是本文的作者之一(Chen, Thalheim & Wong于1999年合著)[3]。如果我们研究数据库及其相关的概念建模,会发现这篇论文是在数据库管理系统的增长时代(技术正朝着越来越多地使用关系数据库的方向成熟)撰写的。本文的第2节对该论文进行简要回顾,以便比较“1999年如何看待未来”,“实际发展如何”,以及我们如今对未来的看法。
在过去几十年里,数据建模取得了怎样的进展?Foote在2017年的论文[7]回答了这个问题,并根据作者的主观解释稍作修改。该论文将系统化数据建模的历程分为四个(有重叠的)阶段,涵盖了从1960年代到2020年的时期。以下段落对这四个阶段进行简要介绍。
数据库管理系统(DBMS)的发展(大致从1960年代到1999年)。在这个时期,存在着多种实现架构:层次结构、倒排表结构、网络结构,并在该时期末期出现了面向对象数据库管理系统的概念。最后一种提及的技术与面向对象编程范式和Smalltalk编程语言同时出现的。第一个商业数据库系统是由Charles Bachman于1964年推出的集成数据存储系统(IDS)。大多数面向对象数据库管理系统都是在现有架构的基础上实现的,并没有纯粹的面向对象模型的特性;这些扩展在后来的关系型数据库时期也是典型的。
关系数据库管理系统(RDBMS)的诞生(始于1980年代末,1990年代初)。埃德加·弗兰克·科德在1969-1970年提出了基于关系运算的数据模型。一开始,它引起了广泛的研究人员关注,并且很快进行了第一批实验性的实现。虽然第一个“商业”实现(Multics)在1970年代末已经问世,但直到1990年代才真正被广泛应用于商业用途。除了数据库的逻辑结构外,它还提供了用户友好的方法来定义数据库内容并在其中实现查询,这就是结构化查询语言(SEQUEL),后来缩写为更常见的SQL。这也产生了这个时代常用的名字:SQL数据库。在信息系统行业的实践中,这个时代正在继续,但越来越多地与提供附加功能的数据处理方法相结合。
专业数据库管理系统(DBMS)及其在数据分析中的应用(始于1990年代,以不同形式持续发展)。Foote将这个时代称为联机分析处理(OLAP),但实际上它涵盖了多种形式将托管数据应用于商业智能、数据挖掘以及各种大数据分析中。OLAP本身是一种允许多维数据处理的方法。为了实现强大的处理能力,数据必须进行组织以支持这种多维数据处理方法。在实践中,这些是关系型和非关系型数据库的不同应用。目前,前沿技术支持在大数据分析中有效处理混合结构化和非结构化数据。目前的前沿技术之一是Apache Hadoop,它由数据存储部分(分布式文件系统(HDFS))和支持并行数据处理的处理部分(MapReduce编程模型)组成。尽管它被认为是专业数据处理新时代的开始,但我们认为这是从更简单的“智能”数据分析开始的连续进步。
NoSQL(起源于2000年末)。得益于对大数据分析日益增长的需求,加快了NoSQL数据模型的进展。NoSQL提供了一种不再遵循关系数据库结构的处理数据的机制。这类数据的来源可能是大量的文档和实时互联网应用程序的数据流管道。在这种背景下,数据建模的角色面临新的挑战;传统上,数据模型是基于结构的,组件之间的关系在选定的框架中呈现。在NoSQL数据建模中,对于这种数据存储,模型被嵌入在代码中,而不是传统的数据模型中。
在本文的接下来部分,我们将继续对当前状况和未来进行探讨。数据建模的目的和角色在上述历史时期有所不同。模型、信息系统开发范式以及在不同生命周期阶段使用的工具之间存在明确的联系。编程语言的演变对于塑造使用这些语言的实践以及构建信息系统模型的工具都产生了强烈的影响。另一个值得注意的方面是计算环境的能力。处理能力、计算机存储容量、大容量存储的结构和容量等通常是延迟采用新技术的典型原因。为什么在其理论基础提出约20年后,关系数据库管理系统(RDBMS)才在商业上取得成功?Jaakkola等人在2017年的论文提出计算机性能(内存、处理能力)、大容量存储器和网络(技术、速度)是采用新范式和技术的推动因素[15]。存储和处理数据以及数据建模的进步都受到相同的变革推动因素的影响。
本文的目标是考虑数据建模在过去几十年间的变化,并将重点放在未来。前文已经涉及了其进展的历史和路径。接下来,在第2节中,我们将通过对1999年的观察来反映当前情况。第3节报告了我们的发现,这些发现与基于“文献映射”研究的数据建模的未来有关。第4节讨论了两个未来的“范式”。第5节对论文进行了总结。
本文的研究问题可以概括为:未来数据建模面临哪些挑战?
2.1999年人们如何看待未来?
2.1从过去看未来
在1999年,Chen、Thalheim和Wong的工作[3]总结和摘要了一份以后续论文形式发表的1997年研讨会的论文。该论文集中的论文主要来自概念建模社区的多位研究人员,尤其是ER会议的参与者。我们重新审视的这篇论文总结了整个后续论文集,后续又由不同作者进行了编译,例如Embley和Thalheim在2011年[6]以及Thalheim在2000年[25]的编译工作。然而,在这里,我们将使用1999年的摘要,并与现今的技术水平进行讨论。
这篇论文对未来和重要方向进行了以下分析:
• 主动建模:建模应该成为一个持续的过程。一旦模型在系统中实施,改进系统和数据库代码应该伴随着对模型的修订。由于应用程序的变化、技术的变化、系统的集成、数据库成功应用到新的场景、使用中数据的质量、数据库管理系统的现代化以及代码和模型的规模扩展,模型需要持续改进。
• 自然语言与概念建模之间的关系:自然语言的符号学对于改进建模语言具有很大的潜力。同时,类似于文字的复杂方法将提高建模水平。建模语言应该变得像自然语言一样强大。
• 可共享信息服务的概念框架:技术可能促进全球信息服务的发展,这些服务可以在各种交换设施和协议中调用。信息爆炸必须通过提供小型而有效的服务来满足用户需求。
• 现实世界与软件世界的关系:从普通用户的角度来看,计算机系统主要是软件系统,因为硬件已经通过软件进行封装和接口化。对软件世界及其活动的模型可以让我们根据现实世界的需求适当地处理、理解和发展它。这些模型还应该支持软件世界和信息系统世界的交叉融合。
• 概念模型作为互操作性的基础:系统应该过渡为协调一致、不停顿运行的系统,而不是采用“耦合”的方法。模型和概念模型可能是一个自上而下的解决方案。
• 概念建模作为应用工程的第一步:系统在不断发展。新用户需要他们自己的界面,这些界面应该基于对整个元数据的正确理解。建模应该成为一个持续的活动,包括管理变化、扩展范围以及利用和整合到现有基础设施中。
• 全球通信:当全球数据共享即将发生时,共享知识和高质量信息仍然是一个关键问题。信息和知识管理方面也必须被纳入考虑。
• 人类知识的整合:人类知识可以从规范性、情境性和存在性三个角度理解。其整合是信息技术发展的最终目标。这样的系统必须支持推理、论证、问题延伸和根据人类个体的特点产生答案。
• 概念建模的实践:建模语言应该扩展到允许在高质量水平上开发概念数据模型。同时,它们应该与改进的对象关系数据库管理系统相对应。
这份列表在当时还是不完整的,虽然没有提供详尽的列表。然而,它是对1999年看到的大多数主要趋势的调查。
2.21999年以来的一些趋势
信息系统的架构演变成分为前端系统和后端系统。前端系统可以使用多种数据模型范式。后端系统通常构建为面向对象的关系系统。在1999年左右,系统遵循了一个全局设计的方法,为后端提供了全局数据模型,并在该全局模型上为后端定义了可派生视图。随着前端系统的复杂化,特别是针对Web架构和分布式数据库,这个决策已经被修正。数据模型随后成为了模型套件(由Thalheim在2008年提出)[26]。这种模型套件的方法还允许将数据模型与业务过程模型一起进行协同设计。
随着经典应用的成熟,所获得的经验已被总结、概括和抽象成参考模型。这些参考模型可以作为新项目的起点。通用应用程序使用这种概括的数据模型来生成特定的模型。
随着网络基础设施的出现,信息系统成为数据密集型应用程序的核心。这些系统是分布式的并且集成了许多视点。它们使用各种数据模型,并不断进行修订和现代化。编程的两个主要分支(小型和大型)具有由仅部分遵循共同策略的合作伙伴扩展到网络编程。网络中的典型编程不受任何专家的支配。项目在没有紧密协调、一体化或统一的情况下共同发展。
数据建模已经成为几乎所有科学和工程学科的一个问题。在过去,数据库是由专业人员开发的,但现在非专业人员也成为系统开发者。同时,开发和研究变得更加跨学科。但使用共享数据的合作伙伴目前还没有通过相应数据库的共同开发得到支持。
在某些情况下,数据库已经变得非常庞大。同时,数据模型变得更加复杂。大型数据库高度分布且并行运行。数据复制使得控制冗余成为可能。
2.3与1999年相比的技术现状分析
现在,让我们将我们在许多项目中观察到的趋势和经验归结为三组:已经取得几乎完成的研究方向,仍然是研究任务但可以实现的方向,以及被证明无法实现的方向:
(1) 成功的研究:
• 模型的语言基础已经成为数据建模的通用框架。
• 建模方法学已经达到了ISO 33001的2级或3级成熟度。
• 分布式和联邦数据库系统已经得到了建模的良好支持。
• 本体论可以用于协调业务用户的观点。
• 服务架构和规定已成为标准。
• 问答形式与投入产出形式相结合为全球通信问题提供了一个初始的解决方案。
(2) 继续研究的问题:
• 数据建模仍然是一门艺术,并没有成为一种文化。每个研究和开发团队都遵循自己的方法。各种方法的整合和协调阻碍了在这些合作项目中实现数据整合。
• 模型转换和主动建模还没有成为最新技术。
• 现如今,数据库系统和模型的共同演进通过”模型即程序”的方式得到解决。
• 建立在变化上的持续建模仍然是一个主要的缺陷。
(3) 没有继续的任务:
• 建模语言无法达到自然语言的表达力。
• 建模的语法并没有得到用户的普遍接纳。
• 面向对象数据库系统的研究成为了实体-关系系统技术的来源。
• 数据密集型系统和应用程序的互操作性只在新建应用程序条件下得到支持,而在迁移和演进场景中支持效果不佳。
• 数据库系统内部的知识和信息管理没有得到支持。
我们将在接下来的部分对这些主题进行一定程度的探讨。
- 2020年对未来的展望
3.1数据建模在当前形势下面临的挑战
当前,我们知道有二十多种数据建模语言。例如,在Embley和Thalheim于2011年的《概念建模手册》[6]中,讨论了将近十几种语言。其中这些语言中的一半已经在实践中得到了应用,最为突出的是UML类图和各种扩展的实体关系建模语言。基于这些语言的数据建模面临着几个挑战:
• 忽视基础的挑战:大多数语言纯粹是在语法上定义的。其中一些只存在于图形化语言中。UML类图有几种解释。数据建模语言主要为给定文化和组织中的单词提供一个词汇意义的概念,例如,“Person_Name”这个术语有许多不同的含义。因此,增强数据模型与概念空间中的概念是基础的一部分。构造的语法导向性将语义限制在每个构造的局部语义,数据模型的完整语义是不可推导的。
• 模型用途超越描述目的的挑战:到目前为止,数据建模已经退化为描述性建模。数据模型通常被认为是数据库系统开发人员的灵感模型。模型不会被用于开发的指导,因为许多需要用于开发的关键元素可以以多种方式解释或模型本身缺失。该模型将成为系统文档的历史性文档,这些文档不能也不会根据更改进行维护或更新。
• 实践不一致的挑战:在45年的学术会议、国际机构和专题研究的调查中,概念数据建模社区尚未就概念数据模型的共同概念达成一致。Thalheim于2018年发表文章中提出有三十多种不同的概念[27]。在2017年、2018年和2019年的三次ER会议中,都举办了关于发展公认概念模型的研讨会。
• 语言简单性的挑战:目前广泛使用的实体关系模型采用了相当简单的语言结构。主要的句子构造遵循SPO范式,即两个或更多种对象通过关系类型关联。英语有25种句型,因此要丰富得多。ER语言并不是认知完备的。它只允许表示六个认知维度中的三个,ER建模语言的高级扩展在第六维度上举步维艰。
• 语法和语义的逻辑分离的挑战:自然语言使用具有语法、语义和语用学的措辞。词汇领域结合了所有三个符号维度。计算机科学采用严格的分层和压缩策略:先是语法,后来是基于语法的语义,而语用学并不重要。这种分层导致了水平模型,即构造没有内在结构和内在语义的模型,例如,具有特定性质的“Person_Name”。
• 数据抽象层面的挑战:数据通常来自不同来源,具有不同的质量,即微观数据、经过清洗的中观数据和聚合的宏观数据。联机分析处理数据集市应用表明,从较抽象的数据向较不抽象的数据下钻,或从精细粒度的数据向较粗粒度的数据上卷可能是必要的。Molnar和halheim 在2007年提出,数据在抽象层面移动需要理解数据含义及其在抽象层面特性[22]。
• 结构-行为分离的挑战:数据模型的一个共同理解是,数据模型定义了“数据结构、数据操作等,这些共同构成了用户与之交互的抽象装置”[5]。因此,数据模型集中于数据结构、对这些结构定义的约束以及在这些结构上支持计算的高阶函数的操作。然而,结构和约束可能是动态的[25]。此外,性能支持需要辅助结构、应用程序管理的数据和结构。对于根据性能和行为进行数据重组的范式理论现在已经过时。
• M0-M1-M2分层的挑战:自然语言允许在同一语言中定义和构建复杂的项目。它们在某种程度上是“扁平”的。它们在某种程度上是“扁平的”。OMG建议将M0层的事物与M1层(称为模型层)的表示分离,将表示与语言层(M2,称为“元”模型层)分离,并将语言层与基础层(M3,称为“元”“元”层)分离。这导致了对层次结构与类分类法(例如“学生是人的一部分”,“学生类是人类的子集”)难以处理。这通常是不合适的,例如,各种不同的Is-A和Is-Instance关联的差异不清楚,并且多层数据建模[8]跨越这些层次。
• 全局设计的挑战:数据建模假设在概念层和实现层(逻辑层和物理层)上明确了全局模式。外部层集中于定义代表业务用户的视角的视图。这种三层架构对于主机系统来说是合适的。局部视角必须通过视图来表示。由于业务流程是基于本地设计范式的,使得数据和业务流程的协同设计变得非常困难。这导致了两种极端建模策略之间的阻抗不匹配。
不仅面临这些挑战,数据建模仍然存在许多其他不足之处,未探索的科学问题和隐藏的文化问题。
3.2从过去到现在的第一步
在本文的第一节末尾,我们定义了研究问题:“数据建模在未来面临的挑战是什么?”我们还得出结论,数据建模原则与信息系统开发的一般趋势密不可分,而信息系统开发环境(包括建模和实现工具)又会影响信息系统开发环境的发展。我们还强调,工具和环境的进步在很大程度上取决于触发技术的进步。那么,定义信息系统开发趋势的主导技术是什么?这里列举了一些主要的技术,参考了多种来源:虚拟化和云技术,XaaS(即服务),使用并行(基于集群的)处理的机会,系统互操作性和常用的开放接口解决方案(例如REST API),将(大)数据分析整合到遗留信息系统中,从计划驱动的开发过渡到敏捷开发过程,分布式开发和DevOps,开发平台上的经济设备(移动终端)的应用程序开发日益重要,信息系统的可扩展性以在不同平台上使用,将互联网作为交付机制,新的收入逻辑(从许可证到按需付费),将客户替换为无面孔的用户(宽松的供应商-客户关系),公开可用组件和(子)解决方案的重要性,(外部)数据的增值, “每个产品都是软件产品” – 物联网和嵌入式软件的时代。这些进展在2019年Yrjönkoski等人的论文中从软件业务的角度进行了研究[29]。
回顾历史,概念建模(例如ER模型)的基本原则是在非常传统的信息系统开发时期发展起来的,当时基于瀑布式生命周期、强调客户-用户界面,以及在客户管理的操作环境中使用信息系统。随着信息系统特性和开发过程的变化,建模的进展逐渐适应了这些变化。朝着ICT行业真正需求迈出的一个显著步骤是在1990年代中期引入统一建模语言(UML)[6]。与此密切相关的是,为取代传统的瀑布模型,引入了迭代式软件开发过程 – 有理统一过程(RUP)[7]。在采用UML方面的重要一步是由Kruchten引入的4+1视图软件架构模型[8]。它整合了五种信息系统模型的视图(基于UML),并强调在信息系统开发的整个生命周期中模型的多重(一致)性原则。传统的ER建模关注信息系统的静态结构(概念及其关系),将其动态(行为)的建模单独完成,而UML强调并支持将信息系统的动态作为整体的一部分进行建模。UML用一组集成的建模语言取代了分散的模型集合,并将信息系统开发从结构化开发时代转变为面向对象(OO)时代。
自2010年以来,分析ER会议论文集,我们观察到越来越多的论文通过为当前技术开发增强功能来解决一些现代应用问题。提出的数据模型本质上是传统数据模型的扩展。典型的数据建模示例是针对应用挑战的提议,包括以下方面:(大)数据分析、数据仓库和数据集市、分布式系统之间的数据交换、异构数据集合、弱结构的海量数据、不断演进和迁移的系统、搜索客户端、基于Web的系统、从需求开始的整个开发周期的支持、基于图的计算、对高级系统的支持,如地理信息系统、XML表示、基因组学和生命科学等具有挑战性的应用、企业数据集成、服务系统、研究合作、支持模型驱动方法、隐私保护、非仅SQL(NoSQL)系统以及系统的集成和协作。与此同时,本体论作为一种建模技术已被广泛接受。
3.3当前趋势——为未来需求做好准备
我们通过进行简单的文献研究并实施了一个互联网搜索来探讨这个主题,这个研究的方法是Pettersen在2008年提出的文献映射研究法[23]。从结果中我们选择了十几篇文章进行了进一步研究。这项研究证实了我们的猜想:这个主题在科学论文中没有被广泛涉及,而更多的是由知名的分析公司如Gartner、Forbes、McKinsey等在他们的研究中进行探讨。反过来,这些研究又被许多文章进行了引用分析,最终我们选择了这些文章作为我们总结分析的来源。这些分析是以批判性的方式以及结合了演绎、推断和主观意见进行的。
根据Ghosh在2019年的文章[13]提出人工智能(AI)和机器学习(ML)是当前动态数据建模中的关键因素。她列举了一些显著的变化,这些变化将在以下段落中讨论。
数据科学。工作职责的划分将发生显著变化。Ghosh引用了Gartner在2019年的研究[12],预测数据科学中的增强型分析任务将实现40%的自动化。模型分析减少了人为错误的几率,提高了模型的质量,另外自动模型生成减少了人的工作量。数据分析任务和主数据管理、元数据管理和数据治理中的一般性工作可以通过人工智能和机器学习实现自动化。公民数据科学家将会拥有更多权力来进行商业数据建模,且分析工作将由自动化的机器学习模型驱动。这将需要两种类型的数据模型(同一数据的不同视图),一种用于专业人士和一个在即插即用的基础上为普通用户执行快速解决方案类型的任务。
非结构化数据和流式管道驱动的数据集成。非结构化数据的重要性不断增长,新的数据库技术包括NoSQL数据库、数据湖正在成为信息系统的一部分。在应用中,数据不再像传统的ETL(提取、转换、加载)基础上处理,而是以流式管道的方式从多种来源(物联网、社交网络数据流等)连续传输,这在传统的信息系统中并不常见。
传统的数据库技术并没有消失,而是以混合的技术存在。尽管非关系型数据库正在兴起,但数据库技术的混合技术仍保持在传统数据建模中的重要性,作为数据基础设施的一部分,其作用将比以往更为重要。尽管“算法智能、自解释数据格式和标准化模型”减少了数据建模的一部分工作,但新的数据库技术为数据建模者带来了全新的挑战。
机器人流程自动化(RPA):机器人流程自动化的崛起使得业务流程建模扮演着越来越重要的角色。综合了SaaS(软件即服务)和MLaaS(机器学习即服务)的解决方案给仍然留存在组织的外部的数据治理问题带来了挑战。
从具体问题解决方案向问题领域解决方案的转变。在数据建模中存在从特定问题到特定问题领域的转变手段。这类似于信息系统的发展,它们不再是单一的系统,而是复杂的系统集合[1]。在概念层面上,我们还可以将其类比为向概念系统而非概念本身的转变,并形成一种层次结构。互操作性相关的要求必然会朝着常用标准化的数据结构和模型发展。现代系统越来越多地借助现有框架、平台和生态系统的指导来构建,从而导致模型的更高抽象化。生态系统所有者的角色可能会形成与组织个体不完全受控的连接和依赖关系。建模的性能预期正在扩展到新的领域,例如能够管理复杂的信息系统网络结构、它们的接口和交互。由于基于云的(XaaS)解决方案的增加,出现了越来越多未知的数据治理问题,使得数据治理变得更加棘手。云计算主导的市场也影响了数据架构体系,并需要复杂的数据管理生态系统的支持。
总的来说,可以很容易地看出模型复杂性的增加,数据建模相关任务从专业人员转移到终端用户和转移到AI支持的人类工作。从基本层面上看,数据建模保持了其一贯的特性,但在实践中出现了许多新的挑战。
Knight在2020年的论文[21]强调,在未来以及现在: “建模需要使用更少的资源更快地完成更多的工作”。更快指的是速度,更多是指数据量和复杂性的增长,更少表示降低成本的需要。信息必须更快地处理,处理的数据量更大,并且数据来自于众多系统,同时还要具备快速应不断变化的需求的准备。人工智能将在自动化业务任务方面扮演日益重要的角色,甚至在数据管理领域也是如此。数据建模人员的工作将转向在短时间内解决越来越少的复杂业务问题。公司的目标是优化数据建模活动,以降低成本,这包括采用人工智能及机器学习的应用。Knight强调2020年数据建模的四个重要趋势:即时数据建模,更好的自动化和机器学习,数据建模的更广泛使用,以及更专注的数据建模。接下来简要解释这些趋势。
即时数据建模。这指的是信息系统开发过程。在敏捷开发中,敏捷数据建模也是必要的。因为敏捷哲学是建立在最小且充分的设计上的,甚至建模活动也是基于即时原则。即时数据建模可以很好地处理各种混合的数据结构,包括关系型、非关系型、数据仓库、主数据、图数据库等。数据建模人员的基本工作仍然是记录关系结构。因为云计算具有易扩展性、可用性和低成本性,因此这项工作将在云中进行。这也将鼓励使用更大更复杂的应用程序。由于数据传输加速,可收集广泛的系统的更大量的数据,并且相关利益相关者可以从任何地方轻松访问数据模型,数据建模变得方便。
更好的自动化和机器学习。Knight继续研究了与Ghosh在一年前相同的主题。许多任务将基于工具和开发环境中内置的人工智能和机器学习算法实现自动化。遵循预定义流程的任务将被RPA类型的解决方案替代和支持,将人类的日常工作转移到机器上。因此,数据科学家和数据建模人员的职责将转移到更复杂的任务上。
数据建模的更广泛使用。这证实了上面已讨论过的趋势。简而言之,由于插拔式分析和建模工具的更高智能性,公民数据科学家的角色正在增长。
专注的数据建模。数据建模将变得更加专注,这是因为与混合数据库架构和数据流一起使用时,不再需要那么全面的通用数据模型。数据模型的范围将涵盖更大量的企业知识和技术细节。根据IDC的研究和预测,到2025年,非结构化数据将占企业知识的80%。数据管理的重点将转向更高级别的抽象层次,即知识管理。这些模型将被越来越多的利益相关者使用,并且必须根据特定目的的需求进行定制。数据模型必须按照涵盖业务层次、逻辑层次和实现层次的多级关注点进行组织,在某些情况下还需提供额外的视角。
相关的其他论文似乎在上文所涉及的主题上有所重复。这证明了在文献研究中渗透的证据(作为文献研究中的一条停止规则)。因此,我们将在以下段落中简要述评这些论文和文章,并突出一些新的发现。
Frisendal(2020年)[10]。这篇论文强调了语义图形建模技术和图数据库作为NoSQL数据库的重要类别的重要性。语义图允许对概念之间的语义关系进行建模。ISO/IEC JTC1 SC32 WG3数据库语言委员会已决定在SQL中添加对属性图查询的支持。图数据库将数据及其关系表示为一组节点,这种“语义网络”支持数据分析类型的任务。Frisendal还提到传统的“语义网”技术,如RDF、OWL等,它们支持知识图谱的理念,并已被一些供应商采用。
Cagle(2018年)[2]。这篇文章关注大规模企业模型和大量词汇的管理。他提供了RDF(资源描述框架)作为这种企业级建模的工具。
Roussopoulos和Karagiannis(2009年)[24]。这篇论文对概念建模的进展提供了一个有趣的历史视角。论文的最后一部分重点介绍了未来。概念建模被视为一个持续的过程,网络环境被视为一个不断变化的环境。用户必须有机会调整概念模式,并跟踪他在Web和面向服务架构(SOA)中的交互。这种方法被称为“瞬时模型”,其中概念建模的过程与数据库中的操作处于连续状态。模型的维护需要一个用户友好的交互语言工具,用于终端用户的概念建模。这种方法与公民数据分析师的重要性日益增长相一致,其中公民数据分析师的重要性日益增长是因为越来越多的责任正在从专业人员转移到终端用户。
Harper(2019年)[14]。这篇文章强调了从关系数据库向异构数据源的转变,这些数据源是为实时使用而构建的。尤其是在包含不同数据来源的情况下,自适应的数据建模实践可以加速建模过程。它基于支持无代码模型和可视化模型构建的工具,可用于协作数据管理,特别是当数据来自各种不同的来源时,自适应建模实践能更好的发挥作用。
Wells(2016年)[28]。这篇文章提供了有关数据管道的有趣观点,这些管道导致逆向数据建模。传统模型是从上到下构建的,首先是概念建模,其次是逻辑设计,最后是物理模型,以此获得存储数据的结构。在基于管道的数据源中,数据已经存在并且在没有机会更改其物理结构的情况下存储。然后通过逆向建模过程从字段开始,然后试图推断它们描述的实体,最后推断这些实体之间的关系来推导逻辑模型。ER模型无法处理许多典型的NoSQL数据库构造,其中包括多对多关系,多值属性,嵌套数组以及没有外键关系实现的关联关系。
Guess(2020年)[11]。这篇文章讨论了低代码编程的作用。尽管这种现象略微超出了关于数据建模的讨论范围,但它印证了工作从专业人员转移到终端用户的情况,就像上面讨论的“公民数据分析师”和“无代码”数据建模一样。低代码开发是通过提供一个环境供程序员使用图形用户界面来开发应用程序的平台。该平台通常支持面向应用领域的开发,并可能需要为特殊情况进行额外的编码。适合低代码开发的典型应用包括数据库、业务流程自动化、用户界面和Web应用程序。
David(2017年)[4]。这篇论文基本上采用了我们在本文开头采用的方法。它列出了在信息系统开发中具有高重要性的里程碑,其中也包括与数据建模相关的方面。文章中包含的所有方面在上面的讨论中已经涵盖。
Kiyoki等人[20]在他们的论文中处理了语义建模。它基于“数学语义模型”在该模型中创建了一个正交多维语义空间,并用于语义关联搜索。检索候选项和查询被建模和映射到语义空间,并且通过计算检索语义空间的相关性来执行语义关联搜索。该方法被应用于用于环境分析的多光谱图像,在分析和建模中涵盖了空间、时间和语义轴[20]。
我们分析了一系列涉及数据建模以及范围稍宽的信息系统建模的文章和论文。结论是,在当前已经可见的情况下,建模工作的未来面临着许多新型数据源带来的挑战。一方面,自动化有助于工作,但另一方面,剩下的工作需要新的技能。终端用户在信息系统开发和数据源使用中的作用将不断扩大。数据的本质正在向知识的内在语义和特征转变。
3.4总结调查结果——讨论
我们将技术变革的分类方法引入到数据建模的变化分类中,该分类方法由弗里曼和佩雷斯于1988年提出[9],并由Jaakkola等人于2017年详细讨论[16,17]。这些变化被分为四类:
• 渐进性变化:不断地出现在现有产品和服务中,加速了现有趋势中的现有变化。
• 根本性变化:当新的研究成果应用于产品中,将其性能或性能转移到新的步骤或周期时出现。在某一时刻,由于创新引起了上升趋势的突变。
• 技术系统的变化:由于社会和组织系统中多个渐进性和根本性创新的结合而引起。这些变化为早期采用者提供了提高竞争力和快速增长生产力的手段。
• 范式变化:是一种革命性的变化,它在讨论的目标系统中产生普遍影响。它指示了社会系统、日常运营方式和商业模式的永久性变化,以取代旧的模式。
虽然弗里曼和佩雷斯的思想是为了分析社会中的技术变革,但这个原则也可以应用于单一技术,例如数据建模(作为信息系统设计中的一种技术)。在我们的分析中,我们还添加了一类额外的分类 – 触发和支持技术。这些变化与数据建模本身没有直接联系,但作为促使变化或使变化成为可能的推动因素。
在技术分析中值得注意的是,情况并不保持稳定。随着时间的推移,新的变化驱动创新技术往往会成为新的常态。这已经发生在UML和面向对象方法上。它们在出现时是革命性的(根本性变化、系统变化、范式变化),但现在不再引起任何重大变化。
在3.1小节中,我们讨论了与数据建模实践和使用的语言相关的挑战。挑战的根源在于建模工具(语言)的表达能力,它们通常是半正式的。它们具有高(但有限)的表达能力,但缺乏精确性,这为解释留下了空间。有益的方面是从异构利益相关群体的角度来看高(视觉、图形)的可读性。这些挑战有解决方案,这些解决方案是渐进的,最多也是根本性的。
在第3.2小节中,我们主要关注了近期的现象,主要具有触发和支持技术以及根本性变化的特征。信息系统(IS)正在迅速而有力地转向基于云的实现和服务体系结构(XaaS、SOA)。这导致了数据建模方面的显著变化。建模任务被”外包”到云数据管理的责任,并且一个组织在越来越大的程度上必须采用”外部”数据模型的主导地位,并在其中调整自己的解决方案。我们列举了以下趋势,它们属于技术系统变化的范畴:
• 系统互操作性和接口的日益重要性 (API),
• 从计划驱动转向敏捷开发过程,
• 使用分布式协作 (并发) 开发环境 (Devops),
• 转向平台和生态系统主导地位,以及
• 由物联网(IoT)和其他各种外部来源产生的外部(非可建模、非结构化)数据的价值日益增长。
我们还失去了直接供应商与客户之间的沟通权力,这被不断增长的面向服务的系统需求、基于网络和生态系统主导应用程序的使用以及公开可用的组件所替代,这使得信息系统(IS)的需求工程和需求获取更加具有挑战性。
在第3.3小节中,我们关注了数据建模的”未来”。未来部分已经成为了当前向更成熟的未来解决方案模型和技术的连续体。这些都是数据建模的长期变化。因此,我们将它们包括在系统变化的类别中。我们分析的几乎所有论文都强调了人工智能 (AI) 和机器学习 (ML) 作为数据建模的关键变化因素。毫无疑问,这些具有触发/支持技术的特征。我们不想将它们与应用背景分开,因为它们单独来看并不重要,但与各种应用背景相结合后,它们变得重要。AI支持数据分析师的工作,部分自动化。部分工作也转移到其他角色的利益相关者身上,例如公民数据科学家、低代码程序员、最终用户等。数据建模必须支持所有这些群体的异质需求——过渡到覆盖各种抽象级别的多层次问题是现实。需要适应性模式、适应性数据建模和可视化模型构建,以支持最终用户的需求。此外,敏捷开发过程需要即时型建模。信息系统的复杂性正在增加。因此,模型也在增长,并且必须关注多个系统而不仅仅是一个系统。数据管理解决复杂的业务问题,而不仅仅是较简单的信息系统问题。在数据建模中,外部数据 (基于管道的,源自物联网节点、传感器和各种数据流) 的作用不断增强。在一个应用程序中管理混合 (混合) 数据格式的挑战使得数据建模变得复杂。外部管道数据需要反向建模,而无法影响其结构。基于平台和生态系统的信息系统开发支持从特定数据模型向不那么全面、针对特定问题领域的通用数据模型的过渡,从而支持独立系统之间的互操作性。RPA将建模的重点从信息系统层面转移到业务流程建模。
在第 4 节中,我们将通过提出关于范式的想法来构建对未来的看法数据建模的变化。
4.数据建模的未来范式
4.1数据建模将成为数据库编程
数据模型广泛应用于大多数数据密集型应用程序中。数据模型可以简化为数据库系统的构建。有时候,数据模型还可以在其他场景中使用:沟通和协商,描述和概念化,文档编制,应用程序的说明和发现,知识发现和经验传播,以及系统的说明和发现。
对于系统构建,我们可以看到第一代数据建模:模型被用作数据库实现、应用程序中数据描述、协商等的中介和蓝图。它们允许在数据库系统上进行推理,即基于模型的开发和推理。这一代可以被描述为能够进行数据编程的数据建模。
Jaakkola和Thalheim在2020年[18]还展望了第二代数据建模:模型开发和建模基础设施已经成熟,允许从数据模型或数据模型套件中推导数据库结构和支持程序(或其关键部分)。模型因此成为可执行程序的源代码。我们将这一代称为数据建模即数据编程。
下一代数据建模可以被描述为数据模型即数据库程序。数据模型可以直接转换为数据库字典和数据库程序,即数据库编程几乎完全可以通过建模完成。第三代数据建模实际上是真正的第五代数据库编程,它从根本上解放了数据库开发人员,不再需要使用第三代或第四代编程语言编写数据库程序和主机程序。每个能够详细描述数据库模型的人,包括数据库外行,都可以成为数据库程序员。数据模型将变成模型套件。
4.2数据建模必须随着应用程序的变化和技术的发展而改变
现代数据库应用程序变得更加的庞大,拥有更快的速度,使用各种各样的模型,常常受到数据质量和真实性的影响,变得更具可行性,必须应对多样性,使用高度异构的数据,受到可行性的挑战,并且必须提供有形的增值。目前尚未找到合适的技术。在一定程度上,大数据机器可以解决部分问题。然而,传统技术也必须进行修订。已经非常庞大的数据集让我们感到恐惧,并导致避免超出n∙log(n)复杂性的复杂操作。大数据应该由操作远远低于数据大小(即n)复杂性的技术支持。目前正在研究能够应对这些挑战的适当数据建模方法。到目前为止,建模研究尚未带来令人信服的方法。
传统的数据库系统基于联机事务处理-Web前端(OLTP, On-Line Transaction Processing,OLTP-web_frontend)、分布式数据库、联机事务处理-联机分析处理(On-Line Analysis Processing,OLTP-OLAP)、联机事务处理-数据仓库-数据集市(OLTP-data_warehouse-data_mart),或微观数据-宏观数据-分析数据分层数据库架构。它们导致数据大小和计算问题的增加。我们已经知道通过模型套件进行建模的解决方案,即一组相互关联的模型,每个数据模型反映了这些架构中的某些方面。Kiyoki&Thalheim在2013年[19]年对大数据应用程序进行了分层架构的修订,将其变为高度分布式的数据网络,具有一些数据协作样式和模式,例如发布-订阅模式或主从模式。该网络中的每个节点都可以使用其自己的数据模型。在给定的情况下,每个节点使用一个内部数据模型、一个导入数据模型和一个导出数据模型,其中后两者本质上是第一个模型的视图。
现代应用程序世界将带来许多快速变化,包括数据建模和现代系统的能力。所有这些变化都将引发数据建模的修订和现代化。让我们考虑其中一些:
• 无信息损失的灵活模型转换(Flexible model transformation without information loss):模型代表特定的应用视角,与其他应用领域中的更多视角并存。同时,合作伙伴实际上是使用相同的数据。因此,我们需要能够相互转换的数据模型,而不会丢失数据和结构信息。”信息态射”的概念是一个起点。
• 大型数据模型(Large data models):已经遗留(或称为传承)的应用程序使用了由几代开发人员开发的模型,并且变得”呆板和僵硬”。随着数据库技术的广泛应用,数据模型变得越来越庞大。它们的管理正成为应用程序的障碍。
• 弱结构化数据(Weakly structured data):数据可能是弱结构化的,并且可以在后期通过精细的结构化进行增强。数据模型必须足够稳健,以应对这种演变或完全现代化。
• 反映来源和质量的数据模型(Data models reflecting provenance and quality):数据很少是100%正确的。这一观点在1999年已经成立,如今,这样的数据被广泛使用。我们使用部分经过修正、清洗以及需要改进的数据。数据也可能被改变特别是当质量下降有偏见的使用的情况下。工程学已经学会如何在不改变系统的情况下处理内部的错误。此类内部质量纠正的数据模型将变得稳健。
• 强化的数据模型(Toughening the data model):数据模型可能作为一个在使用过程中不断改进的起点。该模型在应用程序的质量组合中具有较高的质量。经典的”有异味的代码”修复方法将被模型和数据的共同进化所取代。
• 有适应能力和自适应的数据模型(Adaptable and self-adapting data models):数据结构和应用程序不断演变。这种演变可以被真正的工匠所掌握。将演进策略和适应策略整合到数据模型中要好得多。
• 遗产提取模型(Heritage extraction models):许多应用程序都经历过随着时间的推移数据模型的演变。这个过程往往缺乏文档记录,并受到特殊的实现问题的影响。如果我们无法以能够捕获当前数据状态的形式恢复模型,我们将陷入Excel宏陷阱。
• 即时数据模型(Just-in-time data models):数据模型将在应用程序中的任何地方开发。初始数据模型通常是专有的,并且与现有模型不协调。典型情况是大型研究群集(例如:德国卓越计划内)没有受控的数据集成。
• 反映存储的数据模型与支持计算的数据模型分离(Data models reflecting storage are separated from data models supporting computation):没有必要将所有数据与数据处理设施放在一起。相反,我们可以使用一个通用数据存储,将所有数据与与本地应用程序完全对应的本地数据存储一起使用。绑定机制可以是复杂的导出/导入视图管理。
• 专用任务的专用数据模型(Special data models for special tasks):数据挖掘和分析还针对数据中的模式探测。这些模式是解释模型的核心。所使用的数据是经验数据,因此常常具有问题质量。我们可以使用反映这种挖掘和分析框架的数据模型流水线。同样,许多应用程序需要其特定领域的建模语言,该语言可以很好地嵌入到应用程序领域中。因此,企业数据模型必须与社交数据模型不同。
• 外行数据模型(Layman data models):数据模型经常由没有足够经验和建模知识的用户开发。模型反映了他们的学科、教育和商业背景,但并没有明确说明。模型是本地的。只有在了解完整上下文的情况下,才能进行整合。
• 数据建模语言与计算特性的协调(Harmonization of data modelling languages with computation features):大数据挑战了当前技术,并将迫使我们重新开发当前的数据库技术。我们预计,只有那些在特定架构和特定应用世界中表现良好的操作将在系统中实现。与过去我们用自己的数据结构共同开发算法时类似,我们需要支持具有挑战性的数据量的高性能计算的数据建模语言。
这个清单最多只是一个起点。为了应对上述挑战,应该通过上述趋势来加强这一点。其中实现更好的数据模型的一个解决方案路径是标准化。我们可以从高质量的模型作为组件开始。模型组合遵循经过验证的组合方法。机械工程和工业化广泛使用了这种方法。另一个解决方案是通过通用模型的开发。这些模型支持精细化策略和改进策略。在工程学中,通用模型也被广泛用于生产模具或形式。
5.结论
在本文的开头,我们提出了我们的研究问题:“未来数据建模的挑战是什么?”。我们没有以研究问题的形式对其进行剖析,而是遵循了一条系统的道路,从分析数据建模的进展路径开始,涵盖了从商业计算早期到今天的几十年。之后,我们通过对1999年——20多年前——的未来预测进行基准测试,做出了“对过去的预测”。它为我们提供了一个机会,使我们能够将当今的艺术状态与预期的进展进行比较。如果不了解过去,就不可能了解未来——从过去到今天,再到未来,一切都是一个连续体。论文的未来分析是基于“文献”的研究。我们收集了多个来源的专家意见,关于数据建模的未来愿景。然后对这些调查结果进行了分类和分析。虽然不能定义明确的未来路径,但可以汇集出一系列主要的影响因素 – 模型的复杂性不断增加,工具的智能性不断提高,外部(不可建模)数据的重要性不断增加,模型中利益相关者的异质性,以及技术作为变革的驱动因素 – 这仅仅是一些研究结果的例子。本文最后给出了两个未来的范式。
参考文献
[1] Boehm, B. (2006). A view of 20th and 21st Century Software Engineering. Paper presented at the Proceedings of the 28th International Conference on Software Engineering (ICSE), Shanghai, China.
[2] Cagle, Kurt (2018). Why Data Modelling is Important (and Why It’s Not). Retrieved from https://www.forbes.com/sites/cognitiveworld/2018/11/05/why-data-modeling-is important-and-whyits-not/#1e9cc98e50cb on January 31st, 2020.
[3] Chen, P. P., Thalheim, B., & Wong, L. Y. (1999). Future Directions of Conceptual Modeling. In G. Goos,J. Hartmanis, J. van Leeuwen, P. P. Chen, J. Akoka, H.Kangassalu, & B. Thalheim (Eds.), Conceptual Modeling: Current Issues and Future Directions (pp. 287-301). Berlin, Heidelberg: Springer Berlin Heidelberg. Available also from https://www.researchgate.net/publication/2847577_Future_Directions_of_Conceptual_Modeling on January 31st, 2020.
[4] David, Amos (2017). Current trend in data modeling and information systems. International Conference on Applied Information and Communication Technology. Lead City University, Ibadan, Nigeria.Retrieved from https://www.researchgate.net/publication/327120249_Current_trend_in_data_modeling_and_information_systems on January 31st,2020.
[5] Date C.J. (2005). Database in depth: Relational theory for practitioners. O’Reilly, Sebastopol.
[6] Embley D. and B. Thalheim, editors (2011). The Handbook of Conceptual Modeling: Its Usage and Its Challenges. Springer.
[7] Foote, Keith D. (2017). A Brief History of Data Modeling. Retrieved from https://www.dataversity.net/brief-history-data-modeling/ on January 29th, 2020.
[8] Frank U. (2014). Multilevel modeling – toward a new paradigm of conceptual modeling and information systems design. Business & Information Systems Engineering,6(6):319–337, 2014
[9] Freeman C., Perez C. (1988). Structural Crises of Adjustment, Business Cycles and Investment Behavior.In Dodi G., Freeman C., Nelson R., Silverberg G. and L. Soete L. (Eds), Technical Change and Economic Theory. Pinter Publishers, London.
[10] Frisendal, Thomas (2020), Ten 2020 Visions for Data Modelers. Retrieved from https://www.dataversity.net/ten-2020-visions-for-data-modelers/ on January 31st, 2020.
[11] Guess A.R. (2020). Low-Code 20/20: A Clear Vision for Solving the Software Crisis. Retrieved from
[12] Gartner (2019). To 10 Strategic Technology Trends for 2019. Retrieved from https://datavizblog.com/2018/11/18/gartner-top-10-strategic-technology-trends-for-2019/ on January 29th, 2020.
[13] Ghosh, Paramita. (2019). Data Modeling Trends in 2019. Retrieved from https://www.dataversity.net/data-modeling-trends-in-2019/ on January 29th, 2020.
[14] Harper, Jelani (2019). 2019 Trends in Data Modeling: Real-Time Integration for Cognitive Computing.Retrieved from https://aibusiness.com/2019-trends-data-modeling/ on January 31st, 2020.
[15] Jaakkola, H., Henno, J., & Mäkelä, J. (2017). Technology and the Reincarnation Cycles of Software. In Z. Budimac (Ed.), SQAMIA 2017 – Proceedings of the Sixth Workshop on Software Quality Analysis,Monitoring, Improvement, and Applications. Belgrade, Serbia, September 11-13, 2017. (Vol. Vol-1938,pp. 5:1-10). Belgrade, Serbia:CEUR Workshop Proceedings.
[16] Jaakkola, H., Henno, J., Mäkelä, J., & Thalheim, B. (2017a). Today is the Future of Yesterday, What is the Future of Today? In P. Biljanović (Ed.), MIPRO 2017 -Proceedings of the 40th Jubilee International Convention. May 22-26, 2017, Opatija, Croatia. (pp. 741-749). Opatija, Croatia: Mipro and IEEE.
[17] Jaakkola, H., Henno, J., Thalheim, B., & Mäkelä, J. (2017b). The educators’ telescope to the future of technology. In P. Biljanović (Ed.), MIPRO 2017 – Proceedings of the 40th Jubilee International Convention. May 22-26, 2017, Opatija, Croatia. (pp. 766-771). Opatija, Croatia: Mipro and IEEE.
[18] Jaakkola H. and Thalheim, B. (2020). Model-based fifth generation programming. In Information Modelling and Knowledge Bases Vol. XXXI, Frontiers in Artificial Intelligence and Applications, 312, pp. 377–396. IOS Press.
[19] Kiyoki Y. and Thalheim, B. (2013). Analysis-driven data collection, integration and preparation for visualisation. In Information Modelling and Knowledge Bases,volume XXIV, pp. 142–160. IOS Press.
[20] Kiyoki, Y., Chen, X., Sasaki, S. and Koppåipat, C., Multi-Dimensional Semantic Computing with Spatial-Temporal and Semantic Axes for Multi-spectrum Images in Environment Analysis. In Welzer,T., Jaakkola, H., Thalheim, B., Kiyoki, Y., Yoshida, N. (Eds.), Information Modelling and Knowledge Bases XXVII. IOS Press, 2016, pp. 14-31.
[21] Knight, Michelle (2020). Data Modeling Trends in 2020: A Year of Optimization. Retrieved from https://www.dataversity.net/data-modeling-trends-in-2020-a-year-of-optimization/ on January 31, 2020.
[22] Molnar A. and B. Thalheim (2007). Conceptual development of OLAP applications. In Business Intelligence: Methods and Applications, pp. 27 – 38. Klöden-Verlag, 2007.
[23] Pettersson F., Ivarsson M., Gorschek T., Öhman P. (2008). A practitioner’s guide to lightweight software process assessment and improvement planning. Journal of Systems and Software 81, 6 (June 2008), 972–995. DOI:https://doi.org/10.1016/j.jss.2007.08.032.
[24] Roussopoulos N., Karagiannis D. (2009). Conceptual Modeling: Past, Present and the Continuum of the Future. In: Borgida A.T., Chaudhri V.K., Giorgini P., Yu E.S.(eds) Conceptual Modeling: Foundations and Applications. Lecture Notes in Computer Science, vol 5600. Springer, Berlin, Heidelberg
[25] Thalheim B. (2000) Entity-relationship modeling – Foundations of database technology. Springer, Berlin
[26] Thalheim, B. (2008). Model suites. In H. Jaakkola, editor, Selected Topics on Distributed Disaster Management: Towards Collaborative Knowledge Clusters., pp. 108 – 128. Tampere University Press,Pori unit.
[27] Thalheim B. (2018) Conceptual model notions – a matter of controversy; conceptual modelling and its lacunas. EMISA International Journal on Conceptual Modeling,February, pp. 9–27.
[28] Wells, Dave (2016). Big Changes in the World of Data Modeling. Retrieved from https://tdan.com/bigchanges-in-the-world-of-data-modeling/19578 on January 31st,2020.
[29] Yrjönkoski, K., Jaakkola, H., Mikkonen, T., Systa, K., & Henno, J. (2019). SQAMIA: Software business:a short history and trends for the future. In Z. Budimac & B. Koteska (Eds.), 8th Workshop on Software Quality Analysis, Monitoring, Improvement and Applications, SQAMIA 2019 Proceedings (Vol. Vol2508, pp. 18:11-18:18): CEUR Workshop Proceedings.