客服热线:400-090-1199   客服邮箱:callcenter@creditharmony.cn
预约客户经理    关注我们:微信 微博

You are here

分享到:

无图谱不AI 大咖齐聚畅谈金融知识图谱

       2017年11月7日,金融知识图谱培训及项目中期汇报如期举行,这次培训邀请了中国科学院大学大数据分析技术实验室主任赵亚伟和北京知因智慧数据科技有限公司金融知识图谱项目经理王澍轩做主题报告。

       赵老师从知识图谱概念、基于文本数据的知识图谱构建和知识图谱的应用三个方面和信和研究院做前沿技术交流。

       ——知识图谱概念 知识图谱源于人工智能的知识表示方法之一语义网,2012年5月由Google在搜索页面中首次引入“知识图谱”,用户除了搜索网页链接外,还可以看到与查询词有关的更加智能化的答案。目前,知识图谱还没有统一的定义,但谷歌原高级副总裁艾米特.辛格博士指出知识图谱的重要意义:构成这个世界的是实体,而非字符串。知识图谱还为人们提供了从另外一种视角看待问题的方法,可以从全局出发看待问题。又指出现实世界中,具有网络结构的事物之间也是相互影响的,也即蝴蝶效应,并以淘宝村为例,指出销售风险(或机会)在商铺图谱中具有传播效应,商铺的加入和撤出都会对整个网络产生影响。最后谈到图谱分为同构模式图谱和异构模式图谱,大多数图算法都是针对同构模式图谱设计的。

       ——基于文本数据的知识图谱构建 图谱包括结构和语义两个基本要素,结构要素指的是节点和边,语义要素指属性。图谱构建的目标就是找这两类要素。基于结构化的数据构建图谱相对简单,而基于文本数据的图谱构建相对较难。研究基于文本数据的图谱构建的原因在于目前很多业务转到线上,互联网上的数据多以文本为主,还有为了更快地发现风险信号、商业机会和欺诈行为等。讲座中给出了基于文本构建知识图谱的两类主要方法:统计语言模型和深度学习方法。

       统计语言模型认为,文本中的每个词都与其上下文有关,若将其上下文所有词都考虑进来,会导致数据稀疏和参数空间过大,导致实际中无法得到应用。所以实际中采用一种错误但很实用的假设,即马尔科夫假设。构建图谱过程会涉及分词技术、断句技术、TF-IDF算法、语言模型、评分函数、实体对齐和语义消歧等等。

       赵老师从卷积神经网络(CNN)出发,阐述了文本向量化,介绍了实际中对文本进行实体和关系的抽取所采用网络模型——循环神经网络(RNN),而实际中使用的是改造的RNN——长短期记忆网络(LSTM)。LSTM规避了标准RNN中梯度爆炸和梯度消失的问题,使构建图谱的效率更高效果更好。

       统计语言模型和深度学习模型最终解决了实体和关系的问题,但是语义要素-属性还没有解决,如何补齐实体的属性呢?赵老师谈到可从通过远程抽取、域内外数据抽取等方式加以解决。

       ——知识图谱的应用 赵老师谈到,凡是与关联相关的业务问题均可以考虑通过图谱计算进行解决,例如社团发现、核心节点发现、价值传播、集团客户风险预警、电商销量预测和城市道路网络的优化等等。

       最后赵老师从四个方面介绍了图谱可能的应用场景:

       网络传播:风险传播、价值传播、利好传播等,可分析因内部(或外界)的节点属性变化而对其他节点属性的影响。可用于风险传播分析、价值传播分析等,为规避风险或放大利好提供决策支持;

       网络演化:加入时间因素,通过时序方式发现网络的演化模式,参考外部因素影响,发现模式,优化网络结构。可用于优化客户结构、营销预测、获客效率等;

       链路预测:图谱中不存在但可能存在或将来可能连接的边。可用于潜在欺诈分析、发现潜在关联、获客分析等业务;

       场分析:某个节点按照某种分布随机赋予相空间的一个值之后,其全体情况。可用于仿真分析核心企业、核心社团、欺诈团伙的核心等业务。

       赵老师用通俗易懂的语言让大家对知识图谱有了更加深入的了解,人们可以使用另一个视角看问题。接下来,北京知因智慧数据科技有限公司的项目经理王澍轩结合项目进展情况,给大家重点介绍知识图谱在信和体系中的应用,以及本期的落地架构和下一步的规划。

       知识图谱的构建体系分为6大主要模块,分别为:知识建模、知识获取、知识融合、知识存储、知识计算和知识应用。

       知识建模是利用图谱思维对数据进行抽象建模。比如实体抽取与合并、属性映射与归并、关系抽取、动态事件描述等。本项目是以个人为实体。个人的基础信息,如名字、年龄、性别等为属性,未来数据源丰富以后,也可增加设备ip、网络ip等。实体与属性通过关系关联,如配偶关系、担保关系、亲属关系、同事关系等。有了这些,图谱模型基本已经成形,如果再想让它高级和复杂一些,可以引入事件机制来描述客观世界中的动态发展,比如可以定义一个个人实体逾期了,也可以定义N个个人实体团伙欺诈了,这些事件和行为都会在现实中发生传播和影响,这时候我们就能利用图谱去分析、刻画、预测这些影响的范围和大小。

       知识获取就是指知识建模里的实体、属性、关系通过3种模式得到。对结构化数据的Data to Relationship,对半结构化数据的包装器技术,以及纯非结构化的自然语言处理技术。其中最难的就是自然语言处理。比如说不规则没规律的字符串的匹配、相似度、数据对齐,这里包括手填的地址、机构名称、备注批注、概要、短语词组,我们可以用编辑距离、分词向量余弦距离、中文音型意编码等算法来实现,在我们的项目中,处理地址信息时就在用编辑距离法和关键字对齐法。

       知识融合是指我们得到了实体的信息之后,需要统一和合并的工作。比如我们在项目中抽取个人实体节点的时候,一定是先从身份证号下手,认为身份证相同的人一定是同一个人,哪怕手机号变了,名字换了不一样,甚至性别换了,那两个实体都应该是同一个人,一定会把他们合并起来。但除了主借款人、配偶、担保人,其他关联人往往是不填身份证号了,所以可以用名字+手机号来作为这个借款单下的他和那个借款单下的他是同一个人的合并依据。

       知识存储的存储方式主要有两种:RDF存储和图数据库存储。在选择存储方式以及具体的用哪一种数据库和如何构建库结构的时候,主要考虑三件事情,需要完成的基本数据存储,存储方式的选用指标,还有能够支持上层应用。我们现在用的RDF存储方式。

       知识计算包含图挖掘计算、本体推理和基于规则的推理。图挖掘计算,基于图论的基本算法,实现对图谱全局信息的探索和挖掘。如,我现在比较关注有没有形成担保环链的问题,我担保你你担保他他担保我,此时要做的就是,扔掉同事、亲属等关系,只留担保人关系,看看这张图里有没有形成闭环。本体推理主要是指利用推理我们已有的认知发现冲突点,比如之前经常提到的配偶的配偶不是本人,爸爸的爸爸是同学,在数据准确的情况下,这种冲突暴露出了可疑情况,能够给我们信贷业务中的调查人员提供调查方向。而基于规则的推理是本体推理的进化,就是把业务规则要求加入到本体推理中,比如咱们政策要求夫妻不能同时借贷,那么在图中,借款人的配偶线连接的还是一个借款人,那么就有问题了。

       知识应用包含个人社交网络、企业与控制人网络、反欺诈场景、失联修复等。通过以上所讲的5个步骤,把现有的数据重构成知识图谱数据形成人际关系网络,直观呈现复杂的人际关系网,在图中可以看到多层多度的人际关系,而且还可以引入合适的个人实体属性数据到图中,比如人法、失信、法海数据结构化后提炼出的个人属性以标签形式呈现出来。

       结合项目实际情况,对知识图谱的构建有了一定的认知后,又展示了整体的项目设计流程,及现阶段的图谱demo展示。下一步希望引入更多的域外数据,比如企业数据、地图坐标API等。同时也需挖掘更多的关联关系,如IP地址关联、客户企业关联等。通过挖掘到的关联进行推理,标记不合常理的地方。

       最后,信和研究院的王总对本次培训做了总结。从数据、模型、引擎等角度对项目做了阐述。临近会议结束,信和汇诚的郑总提出,如何可以通过图谱快速发掘疑似点。赵老师指出可以通过训练模型达到该效果。项目经理王澍轩指出可以通过整合信息的方式,简化问题,如触发了人法信息,可以简化为触发了3次等。研究院王总表示,简单的规则可以在后台通过程序配置,同时可以做模型去优化,但要求较高。

预约客户经理