数据是组织最重要的资产
张雷 | 图数据库赋能数字保险

张雷 | 图数据库赋能数字保险

导读:依据国家“十四五”规划纲要,加大数据开发利用,让数据创造价值,深化大数据赋能,拓展场景化应用,已成为保险行业的重点课题。近年来,图数据库技术逐步成熟,为发挥其在处理和分析复杂数据方面的优势,保险企业不断探索创新,带有保险行业特色的图数据库应用实践应运而生。本文基于中国人寿保险股份有限公司(以下简称“中国人寿寿险公司”)自身的实践,总结了三类可在保险行业推广的典型图数据库应用:一是使用大数据图库以实体—关系—事件的结构存储保险业务知识图谱;二是利用可视化工具进行实时关联查询,赋能企业金融风险查证;三是与人工智能技术相结合,构建图模型,实现可疑风险团体的挖掘和分类。通过上述实践案例,主要阐明保险行业图数据库“存什么”和“怎么用”的问题,并指出其中的技术要点和困难,适当给出建议。最后,展望了保险行业图数据库应用的未来目标和方向,期待保险企业的数据分析和经营决策在图数据库和人工智能技术的加持下取得质的飞跃。


保险业图数据库应用概述

随着大数据、人工智能等技术的蓬勃发展,保险行业数字化、智能化转型速度不断加快,保险公司数据资产化、资产知识化的趋势开始显现,企业数据库建设不仅需要支持日常交易业务的运转,并且要满足日益增多的数据处理和数据分析需求,以助力公司经营管理和决策。新时代背景下,保险业数据丰富度提高,关联性增多,由于图数据库在海量多维数据关联查询和分析方面具有性能优势,中国人寿寿险公司于2019年开始运用知识图谱、数据可视化、图计算模型等方法,逐步探索图数据库应用,建立了面向用户、面向业务、面向场景的大数据知识图谱和综合分析能力。图数据库技术的引入,拓宽了保险企业的管理视角,由点及面,将企业数据编织成巨大的网络图,透过细节,总揽全局,企业管理思维得以跃迁。

图数据库以点、边和属性的形式来表示和存储数据,互联网企业通常利用图数据库存储语义知识图谱,通过关联查询赋予系统语义推理能力,应用于搜索引擎、智能客服等场景。大型保险公司拥有海量客户历史交易数据,增量数据极速积累,亟需提高关联实体和交易的分析能力,充分发挥数据价值。所以,结合保险行业交易特点和规律,中国人寿寿险公司的图数据库应用体现在三个层面:一是面向业务,以公司业务数据为主体构建领域级知识图谱,使用图数据库存储和分析数据;二是面向用户,提供可视化实时查询功能,更直观地展现图数据结构;三是面向场景,通过社群分析、图神经网络等AI算法批量训练,深度挖掘实体关系间的隐藏特征。总的来说,图数据库被更多地应用于公司经营数据分析和决策类项目,尤其在反洗钱、防范非法集资、反欺诈等金融风控领域应用效果显著,提升企业管理质效,赋能保险行业高质量发展。

基于保险业数据构建知识图谱

知识图谱是人工智能领域的一项重要技术,其应用往往成为一个企业人工智能应用水平的标志性事件。这是一种基于图的数据结构,由顶点和边组成,顶点表示的是现实世界中存在的“实体”,边表示实体与实体之间的“关系”、发生的“事件”,实体和关系本身又有表征自身的“属性”。实体、关系/事件、属性是构成知识图谱的核心要素。知识图谱非常适合描述真实世界中存在的各种实体及其关系与事件,从而构成一张巨大的网络,进一步可以发现数据间的联系,挖掘数据的价值。基于知识图谱的交互探索分析,可以模拟人的思考过程去发现、求证、推理。

中国人寿寿险公司的保险业务知识图谱是将传统的保险业务主数据、交易数据抽象定义为实体、关系与事件。针对保单全生命周期的交易行为,从公司主数据和关键生产要素出发,构建了多种实体,例如客户、保单、赔案、账户、销售人员、产品、投诉件、联系电话、机构等。其次,在这些实体间建立了近百种关系,例如客户与客户间的家族关系,客户与保单间的投保、被保险、受益、退保关系,保单与赔案间的理赔、拒赔关系,保单与账户间的资金操作关系,客户与账户间的所属关系,销售人员与客户间的营销服务关系等基本关系。并且,在基本关系的基础上,为了特定场景需要,挖掘构建了衍生关系,例如反洗钱场景下,增加客户与账户间的资金流转关系。与传统知识图谱不同的是,由于保险业务交易具有时效性,中国人寿寿险公司的保险业务知识图谱将交易抽象成事件,以实体为主键存入图数据库中,事件是具有时间属性的数据,事件聚合可以用来建立实体间的关系,例如客户通过销售人员购买多个保险产品,以客户为索引建立其购买保单的多个事件,按时间排序,以明细列表的形式存储,将事件聚合后,此客户与销售人员之间的营销关系成立,该关系的属性包括保单数量、累计保费等。中国人寿寿险公司保险业务知识图谱包含的事件不仅限于保险交易,如投退保、借还款,还有销售人员入职、升职、离职,客户出险理赔等事件,以支持不同业务场景下对时间序列数据的关联分析。实体、关系、事件上的属性用来存储基本要素信息(如姓名、性别、职业、证件类型、证件号码等)和标签信息(如黑名单标识、失效标识等)。综上所述,中国人寿寿险公司以实体—关系—事件重组保险业务数据的知识图谱是保险行业图数据库应用的重大成果。

鉴于保险业务交易数据量超大,图数据库作为保险业务知识图谱的存储载体,需要具备高性能、易管理、安全可靠等特性。中国人寿寿险公司在构建保险业务知识图谱过程中面临的最大挑战在于提升图数据库在亿量级数据场景下的处理性能,包括数据新增、删除、修改和查询。与传统关系型数据库不同,图数据库通常需要同时承担OLAP和OLTP的职责,所以兼顾和权衡图数据库批量分析与实时查询的性能,成为技术上的要点。经实践,读写分离、优化索引等手段可以有效提升图数据库的性能。

通过图谱可视化实现关联查证

在建成图结构存储的保险业务数据库之后,第二步是知识图谱的应用模式和场景落地。由于图数据库可以基于一个起点简单快捷地实现“多表多度关联”数据查询,进而发现实体间的深层隐藏关系,以高维视角对业务数据进行全面感知。这一特点与保险行业金融风险查证业务十分契合。因此中国人寿寿险公司率先在保险反洗钱业务中,利用图数据库的可视化工具,以关键信息检索的实体为起点,建成了反洗钱可疑查证系统和非法集资风险分析平台,取得了非常好的应用效果。知识图谱风控查证平台成为保险行业图数据库应用的卓越案例。

通过保险业务知识图谱风险查证平台,中国人寿寿险公司的风险管理人员可以查看实体的基本要素信息、高风险特性、黑名单特性等静态信息;也可以自由扩展查看客户的投保保单和账户发生的资金流入流出操作,包括操作次数和操作金额,是否存在第三方账户等动态信息;扩展和查看客户发生过何种交易,是否存在和高风险客户间的交易等一系列的可疑线索信息。用户不仅可以查证统计信息,也可以查看明细信息,包括交易的合计次数,合计金额以及各合计信息相应的明细信息,例如借款的次数,借款的合计金额,以及借款的明细信息。更多地,知识图谱查证可以将复杂隐蔽的客户间关系、客户行为关联、账户间关系等信息串联起来以图的形式展示,直观便捷地发现客户行为(例如借款频度)、客户关系方面(例如第三方)、资金流向(例如第三方账户)等的异常。

图数据库关联查证是非常好的应用方向,业务人员在点边深度关联的过程中,不断扩大查证视角,串联和发现关键线索。然而自由扩展查证需要用户具备专业领域的先验知识,使用门槛较高,难以推广。为突破其应用局限性,中国人寿寿险公司将业务专家的经验固化为分析模式,开发了场景集成化一键查证模型。结合不同风险场景和交易规律,分主题定义图的局部展开方式,内置在查证平台,让用户直接展开图谱子网络,省去了人工查找和筛选点边的过程,快速锁定可疑交易。对于洗钱风险,子网络图主要以客户实体作为中心点,典型查证模式包括资金流向模式、第三方交易模式、黑名单模式、频繁投退保模式等。对于非法集资风险,子网络图从销售人员实体开始展开,典型查证模式包括高比例退保模式、大额退保模式、借款未还失效模式等。主题风险一键查证模式的开创,不仅让用户减少频繁操作,提高查证效率,而且令风控领域的专家知识借由图谱可视化技术得以传承和推广,真正达到信息操作一站实现、常规查证一键完成、隐性关系一目了然、专家模式一查到底,成为保险企业图数据库最佳实践之一。

图  图谱可视化用于保险风险查证

利用图计算模型挖掘可疑团体

图数据库应用的发展得益于人工智能技术的突破。图数据库的实时查询功能助力符号主义学派实现知识推理,同时,图数据库的批量分析能力帮助连接主义学派构建基于图的AI模型,如中心性算法、标签传播、路径分析、图神经网络等,不断开辟新的应用场景。中国人寿寿险公司经过探索和实践发现,图模型适合应用在可疑欺诈团伙识别场景,这也是图数据库与人工智能技术相结合的产物。人工智能算法可分为两类,无监督式模型和有监督式模型。在保险行业团伙欺诈场景中,无监督式模型用于社群聚类和标签传导,有监督式模型用来分类和识别可疑团体。

一方面,中国人寿寿险公司基于保险业务知识图谱,将实体和关系构成的巨大网络看作社交网络,采用Louvain算法将网络划分成相互独立的社区,然后通过个别重点可疑的实体进行标签的传导和染色,从而发现高风险团伙。Louvain是一种基于模块度的启发式群体挖掘算法,原理是以最大化模块增益度为目标,不断迭代融合社区直至收敛,找到社区的最佳划分。该算法运用的关键是定义社区的关系及其权重,这需要根据欺诈风险行为特点,对保险业务知识图谱进行筛选和赋权,进而提升聚类的效果。此外,该模型最终的准确率也依赖于已标可疑实体的标签可信度。这种方法的优势在于挖掘出的团体与已标实体具有强相关性,经核查绝大多数团体被认定为可疑。然而,其劣势在于过度依赖既有的实体标签,很难跳出历史案件或实体找到新的作案团体。

另一方面,中国人寿寿险公司以保单实体作为分类和识别对象,根据已标数据,在保险业务知识图谱上建立图注意力(KBGAT)模型,通过监督式神经网络识别欺诈风险。图注意力模型原理是将可疑标签作为实体的属性之一,以保单实体为中心构造子图,然后将子图输入至预训练好的图注意力分类模型,模型输入信息包括:实体类型、属性、子图邻接表、关系类型等。模型给子图的点边分配不同权重,利用该权重对实体特征加权求和,经过多层图注意力模型传播后,得到最终的语义表示向量,最后将该向量输入至全连接层进行分类,对子图进行智能预测。影响此模型效果的关键因素同样是子图的定义和剪枝方式。这种算法的优势在于突破了传统图模型对标签和路径的依赖,是一种融合实体描述信息和邻居节点特征的知识表示学习方法,以训练—预测的方式挖掘可疑团体。但是,其劣势在于全量子图特征抽取和计算的开销很大,可能面临训练性能的问题。

保险业图数据库应用前景与展望

经过不断实践和积累,中国人寿寿险公司的图数据库应用取得阶段性成果,发展前景广阔。第一,保险业务知识图谱的使用场景不只局限在风险管理,也可以拓展至更多企业经营管理和决策的环节中,比如智能客服、营销推荐、审计内控等。针对不同场景,细化专家知识,精进图设计方法论,构建子领域知识图谱是必然趋势。第二,图数据库可视化工具趋于成熟,以后的发展方向将聚焦在提升数据展现的性能上。第三,图数据库与人工智能技术相互促进发展,以图卷积神经网络(GCN)和图注意力网络(GAT)为代表的图深度学习模型的应用已经在金融风控领域崭露头角。融合保险行业知识,提取和表达图特征、定义和度量图距离,将是未来金融科技领域探讨的热门话题。相信在经历了知识驱动时代和数据驱动时代后,知识、数据、算法和算力相融合的第三代人工智能即将到来。

作者 / 中国人寿保险股份有限公司研发中心  张雷  王鹏宇  刘勇  向玲

本文来源: 金融电子化

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注