(12)发明专利申请
(10)申请公布号 CN 108596439 A(43)申请公布日 2018.09.28
(21)申请号 201810271489.4(22)申请日 2018.03.29
(71)申请人 北京中兴通网络科技股份有限公司
地址 100094 北京市海淀区西北旺东路10
号院东区10号楼3层3-12(72)发明人 李鹏飞 徐俊刚 董航
(74)专利代理机构 北京君尚知识产权代理事务
所(普通合伙) 11200
代理人 司立彬(51)Int.Cl.
G06Q 10/06(2012.01)G06F 17/30(2006.01)
权利要求书2页 说明书8页 附图3页
(54)发明名称
一种基于知识图谱的企业风险预测方法及系统
(57)摘要
本发明公开了一种基于知识图谱的企业风险预测方法及系统,本方法步骤包括:1)构建企业知识图谱的实体并建立实体与实体间的关系,从各设定数据源中进行知识提取,形成企业知识图谱;2)对各类与企业及与之相关实体的新闻信息进行抓取,并基于企业知识图谱对抓取的新闻信息进行处理,标注相关实体与事件的关系;将标注信息存储到结构化的知识库中,形成企业新闻资讯知识图谱;3)基于企业知识图谱与企业新闻资讯知识图谱进行企业风险预测。本发明填补了目前知识图谱在企业风险分析领域的空白,构建的企业知识图谱和企业新闻资讯知识图谱具有较高实用性。
CN 108596439 ACN 108596439 A
权 利 要 求 书
1/2页
1.一种基于知识图谱的企业风险预测方法,其步骤包括:1)构建企业知识图谱的实体并建立实体与实体间的关系,从各设定数据源中进行知识提取,形成企业知识图谱;
2)对各类与企业及与之相关实体的新闻信息进行抓取,并基于企业知识图谱对抓取的新闻信息进行处理,标注相关实体与事件的关系;将标注信息存储到结构化的知识库中,形成企业新闻资讯知识图谱;
3)基于企业知识图谱与企业新闻资讯知识图谱进行企业风险预测。2.如权利要求1所述的方法,其特征在于,形成所述企业新闻资讯知识图谱的方法为:首先对各类新闻信息进行采集和存储,并构建文本数据表;然后通过自然语言处理方法对该文本数据表中的信息进行分词和标注,通过管道模型和深度学习结合的方法形成相应的实体/关系序列,并对实体进行向量化表示,然后通过向量计算将得到实体/关系序列中的实体向量值与企业知识图谱的实体向量值比对,从而筛选出向量值相等或向量值之差小于设定值的实体对,然后再对筛选出的实体对进行比对,确定出相同的两个实体对并将对应实体作为构建企业新闻资讯知识图谱的标注实体,以结构化的知识库的形式对标注实体进行存储,形成实时的企业新闻资讯知识图谱。
3.如权利要求1或2所述的方法,其特征在于,所述实体包括企业、人、专利、产品;所述企业知识图谱中,每一实体具有自己的属性图,实体之间通过设定属性构成相互之间的关系图。
4.如权利要求1所述的方法,其特征在于,所述企业风险预测为企业纳税风险预测,其方法为:结合企业往年的纳税情况在企业知识图谱中的存储,以及对现阶段企业的纳税情况在企业知识图谱中的存储进行知识图谱关联分析,如果现阶段的纳税项目及金额与往年的纳税项目及金额的差异大于设定阈值,则生成企业纳税风险警示信息。
5.如权利要求1所述的方法,其特征在于,所述企业风险预测为招投标企业资质评级预测,其方法为:根据招投标信息,在企业知识图谱中查找与招标企业A有关联的若干关联企业,并且通过企业知识图谱得到这些关联企业在经营管理方面的信息,确定出关联企业中自身存在风险的投标企业进行预警。
6.如权利要求1所述的方法,其特征在于,所述企业风险预测为关联企业交互风险预测,其方法为:基于企业知识图谱生成目标企业的企业社交图谱;根据该企业社交图谱查询企业之间的最短关系路径,确定各企业之间的联系密切度,对关联企业交互风险进行预测。
7.如权利要求1所述的方法,其特征在于,所述企业风险预测为异常投资风险预测,其方法为:基于企业知识图谱中的投融资事件发生的时间顺序,记录企业的融资发展历程;然后根据融资发展历程对企业的异常投资风险进行预警分析,基于预警分析结果对企业进行异常投资风险预测。
8.如权利要求1所述的方法,其特征在于,所述企业风险预测为企业的采购企业风险预测,其方法为:根据知识图谱中企业与企业之间的上下游关系,确定出企业A的采购企业B;通过企业知识图谱与企业新闻资讯知识图谱的关联得到企业B自身不良影响信息或者与企业B相关且会对企业B造成不良影响的新闻信息,根据得到的信息对企业A进行预测。
9.如权利要求1所述的方法,其特征在于,采用RDF三元组存储格式对实体、实体之间的关系以及提取的知识进行存储,生成所述企业知识图谱;所述企业知识图谱中的信息包括
2
CN 108596439 A
权 利 要 求 书
2/2页
企业概要信息、企业背景信息、企业发展信息、司法风险信息、经营风险信息、经营状况信息、知识产权信息、上市信息工商信息。
10.一种基于知识图谱的企业风险预测系统,其特征在于,包括企业知识图谱生成模块、企业新闻资讯知识图谱生成模块和企业风险预测模块;其中,
所述企业知识图谱生成模块,用于构建企业知识图谱的实体并建立实体与实体间的关系,从各设定数据源中进行知识提取,形成企业知识图谱;
所述企业新闻资讯知识图谱生成模块,用于对各类与企业及与之相关实体的新闻信息进行抓取,并基于企业知识图谱对抓取的新闻信息进行处理,标注相关实体与事件的关系;将标注信息存储到结构化的知识库中,形成企业新闻资讯知识图谱;
所述企业风险预测模块,用于基于企业知识图谱与企业新闻资讯知识图谱进行企业风险预测。
3
CN 108596439 A
说 明 书
一种基于知识图谱的企业风险预测方法及系统
1/8页
技术领域
[0001]本发明涉及知识图谱在企业风险预警分析领域的应用,具体是通过知识图谱对企业内部经营数据以及实时事件进行抽取和分析的一种自身及关联企业风险发现和预警分析的方法。
背景技术
[0002]随着人工智能(Artificial Intelligence,AI)技术的不断发展,数据作为AI的基础越来越被企业所重视,通过算法挖掘分析可以使得数据形成可观价值,而AI的核心是研究怎样用计算机易于处理的方式表示各种各样的知识,这就导致了自2017年开始“知识”或者“知识图谱”的吸引力已经大大超过了“数据”本身。[0003]知识图谱(Knowledge Graph)又称为科学知识图谱,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
[0004]知识图谱的概念演化经过了语义网络、本体论、Web、语义网、链接数据等阶段,并由Google在2012年提出的,Google希望通过知识图谱构建下一代的搜索引擎,从而优化搜索结果。在通用意义上,知识图谱主要的目标是用来描述真实世界中存在的各种实体和概念,以及它们之间的关联关系。然而,知识图谱并不是一个全新的东西,而是在以前的技术或者理论基础上进行的一个重新定义。知识图谱可以看成是在本体的基础上做了一个丰富和扩充,本体描述了知识图谱的数据模式,本体的动态特性赋予了知识图谱动态数据模式支持的能力。知识图谱得益于Web的发展,有着来源于知识表示、自然语言处理、Web、AI多个方面的基因。知识图谱是人工智能的基石,理论上来说每一个AI场景都是知识图谱的场景,包括搜索、聊天机器人、问答、决策支持、穿戴设备等。知识图谱不是一门单一的学科,而是包括知识抽取、知识表示、知识融合、知识众包、知识推理、知识链接、可视化、语义搜索、知识问答等相关技术的综合体。知识图谱在数据与人工智能之间起到了桥梁的作用,可以更好的将各类数据(文本数据、结构化数据、多媒体数据、传感器数据、众包数据等)通过知识融合形成机器可以理解的知识,从而使得人工智能更加智能。[0005]目前,企业已经成为了国家经济的重要支柱,成为了推动国家发展的强大力量。国家对于各个行业的产业结构的改革和优化政策在不断更新,企业在响应和配合实施这些政策的同时,需要根据企业自身的发展及时发现新的政策可能带来的机遇和风险,因为安全、高效的进行生产收益是每一家企业的基础。但是由于企业规模、性质、所处行业等方面的不同,企业自身都会存在一些风险问题,而国家政策和相关规定更新较快,这就使得企业在处理相关问题时会有一定的漏洞和误差,而这些漏洞和误差很可能对企业的正常经营造成不良甚至恶劣的影响,这对于企业自身和国家都是不想发生的。企业风险主要依托于企业自身相关数据及其关联数据,而这些数据具有一定的特殊性和专业性,只有依靠专业的理论和实践知识才能对这些数据进行处理,从而及时发现企业可能存在风险,这就需要及时掌握企业原始数据、行业数据及政策规定等信息,而这对于企业管理人员来说较为困难,同时
4
CN 108596439 A
说 明 书
2/8页
也使得企业自身的成本会大大提高,这对于一些创业公司或者中小企业来说是较为困难的。但是能够高效的实现企业风险的预警分析对于企业自身运营有着较高的意义,这对于企业的健康发展起到了一定的保护作用。[0006]由于专业知识欠缺、企业数据维度高以及企业数据量大等问题,目前还没有较好的方法实现对企业风险进行有效的预测分析,对于企业自身、企业关联企业存在的潜在风险无法提前预警,企业无法做到有效风险规避,这可能会造成企业的不良发展。[0007]由于知识图谱相关技术体系提出时间不长,整个技术体系也尚未完善,而企业风险预测分析对于企业和国家发展已经越来越重要,包括Google、百度、阿里等公司都在致力于通过知识图谱技术对企业提供更好的服务。然而,随着企业数据规模的快速增长,其在实际应用中的一些急需解决的问题也随之暴露,其中在企业风险预测分析方面的需求最为显著,通过利用知识图谱对企业风险进行预测分析,业界几乎还是空白。因此通过构建企业知识图谱并对企业风险进行预测分析就显得尤为迫切。
发明内容
[0008]针对现有技术缺陷以及知识图谱在企业风险预测分析方面的应用空白,本发明的目的在于提供一种基于知识图谱的企业风险预测预测方法及系统。从而解决企业风险预测分析的高成本、低效率、高门槛以及低时效性的问题。[0009]本发明的技术方案为:
[0010]一种基于知识图谱的企业风险预测方法,其步骤包括:[0011]1)构建企业知识图谱的实体并建立实体与实体间的关系,从各设定数据源中进行知识提取,形成企业知识图谱;
[0012]2)对各类与企业及与之相关实体的新闻信息进行抓取,并基于企业知识图谱对抓取的新闻信息进行处理,标注相关实体与事件的关系;将标注信息存储到结构化的知识库中,形成企业新闻资讯知识图谱;
[0013]3)基于企业知识图谱与企业新闻资讯知识图谱进行企业风险预测。[0014]进一步的,形成所述企业新闻资讯知识图谱的方法为:首先对各类新闻信息进行采集和存储,并构建文本数据表;然后通过自然语言处理方法对该文本数据表中的信息进行分词和标注,通过管道模型和深度学习结合的方法形成相应的实体/关系序列,并对实体进行向量化表示,然后通过向量计算将得到实体/关系序列中的实体向量值与企业知识图谱的实体向量值比对,从而筛选出向量值相等或向量值之差小于设定值的实体对,然后再对筛选出的实体对进行比对,确定出相同的两个实体对并将对应实体作为构建企业新闻资讯知识图谱的标注实体,以结构化的知识库的形式对标注实体进行存储,形成实时的企业新闻资讯知识图谱。[0015]进一步的,所述实体包括企业、人、专利、产品;所述企业知识图谱中,每一实体具有自己的属性图,实体之间通过设定属性构成相互之间的关系图。[0016]进一步的,所述企业风险预测为企业纳税风险预测,其方法为:结合企业往年的纳税情况在企业知识图谱中的存储,以及对现阶段企业的纳税情况在企业知识图谱中的存储进行知识图谱关联分析,如果现阶段的纳税项目及金额与往年的纳税项目及金额的差异大于设定阈值,则生成企业纳税风险警示信息。
5
CN 108596439 A[0017]
说 明 书
3/8页
进一步的,所述企业风险预测为招投标企业资质评级预测,其方法为:根据招投标
信息,在企业知识图谱中查找与招标企业A有关联的若干关联企业,并且通过企业知识图谱得到这些关联企业在经营管理方面的信息,确定出关联企业中自身存在风险的投标企业进行预警。
[0018]进一步的,所述企业风险预测为关联企业交互风险预测,其方法为:基于企业知识图谱生成目标企业的企业社交图谱;根据该企业社交图谱查询企业之间的最短关系路径,确定各企业之间的联系密切度,对关联企业交互风险进行预测。[0019]进一步的,所述企业风险预测为异常投资风险预测,其方法为:基于企业知识图谱中的投融资事件发生的时间顺序,记录企业的融资发展历程;然后根据融资发展历程对企业的异常投资风险进行预警分析,基于预警分析结果对企业进行异常投资风险预测。[0020]进一步的,所述企业风险预测为企业的采购企业风险预测,其方法为:根据知识图谱中企业与企业之间的上下游关系,确定出企业A的采购企业B;通过企业知识图谱与企业新闻资讯知识图谱的关联得到企业B自身不良影响信息或者与企业B相关且会对企业B造成不良影响的新闻信息,根据得到的信息对企业A进行预测。[0021]进一步的,采用RDF三元组存储格式对实体、实体之间的关系以及提取的知识进行存储,生成所述企业知识图谱。[0022]进一步的,所述企业知识图谱中的信息包括企业概要信息、企业背景信息、企业发展信息、司法风险信息、经营风险信息、经营状况信息、知识产权信息、上市信息工商信息。[0023]一种基于知识图谱的企业风险预测系统,其特征在于,包括企业知识图谱生成模块、企业新闻资讯知识图谱生成模块和企业风险预测模块;其中,[0024]所述企业知识图谱生成模块,用于构建企业知识图谱的实体并建立实体与实体间的关系,从各设定数据源中进行知识提取,形成企业知识图谱;[0025]所述企业新闻资讯知识图谱生成模块,用于对各类与企业及与之相关实体的新闻信息进行抓取,并基于企业知识图谱对抓取的新闻信息进行处理,标注相关实体与事件的关系;将标注信息存储到结构化的知识库中,形成企业新闻资讯知识图谱;[0026]所述企业风险预测模块,用于基于企业知识图谱与企业新闻资讯知识图谱进行企业风险预测。
[0027]本发明首先针对企业构建相应的企业知识图谱。通过对企业的基础信息、投诉信息、诉讼、失信等多维度关联数据进行整合,实现企业知识图谱的知识抽取和存储。然后通过知识图谱对企业相关数据进行关联分析,最后通过知识图谱构建企业自身以及关联信息的展示,实现对实时信息的关联分析,从而发现可能存在的风险因素,给出风险预测分析结果,并最终通过图计算等方法构建科学、严谨的企业风险体系,有效规避潜在的经营风险、资金风险等风险。
[0028]本发明深入研究了企业知识图谱的构建过程。首先,构建企业知识图谱实体,包括企业、人、专利、产品等相关实体,随后,构建实体与实体间的关系,在后期进行关联分析、关系挖掘、风险预警等方面都会根据这些实体与实体之间的关系迭代进行,例如企业与企业之间存在的上下游关系、股东关系、投资被投资关系等,企业与人之间存在股东关系、法人关系、主管关系等,人与人之间存在亲属关系等,企业与专利之间存在的所属关系等,这些实体与实体之间的关系将在进行企业之间最短路径发现、企业关联分析以及企业实际控制
6
CN 108596439 A
说 明 书
4/8页
人时利用。最后,通过对不同来源、不同结构的数据中进行知识提取,其中数据来源包括工商数据、税务数据、法律公文数据、舆情数据等,数据结构主要包括结构化数据(包括链接数据、企业数据库数据)、半结构化数据(包括表格数据、列表数据、具有一定格式的数据等)、纯文本数据,对这些数据分别通过图映射、D2R(Database to RDF)转换、包装器、信息抽取等现有成熟技术实现知识抽取,并形成知识存入到企业知识图谱中,在企业知识图谱中用现有的RDF(Resource Description Framework)三元组存储格式进行存储。最终形成了包括企业概要信息、企业背景信息(包括基本信息、企业关系、主要人员、股东信息、对外投资、分支机构等)、企业发展信息(融资历史、核心团队、企业业务、投资事件等)、司法风险信息(法律诉讼、法律公告、失信人、被执行人、开庭公告等)、经营风险信息(经营异常、行政处罚、严重违法、股权出质、动产抵押、欠税公告、司法拍卖等)、经营状况信息(招投标、债券信息、购地信息、招聘信息、税务评级、抽检检查、产品信息、进出口信用、资质证书等)、知识产权信息(商标信息、专利、软件著作权、作品著作权、网站备案等)、上市信息工商信息(股票行情、参股控股、上市公告、十大股东、股权结构、股本变动、分红情况等)等信息在内的企业知识图谱,如图1所示。[0029]其次,本发明深入研究了企业新闻事件图谱的构建过程。所谓事件是指发生的事情,通常具有时间、地点、参与者等属性,事件的发生可能因为一个动作的产生或者系统状态的改变。事件抽取就是从自然语言形式(即人可以理解的语言,形式包括语音、文字等,内容包含事件新闻)的事件新闻中抽取出用户感兴趣的事件信息,并以结构化的形式呈现出来。在本发明中,通过对各类新闻财经网站、企业官网、政府网站、工商税务网站、专利网、法律文书相关网站的实时监控,对各类与企业及与之相关实体的新闻信息进行抓取,并采用Pipeline与深度学习相结合的方法在企业知识图谱的基础上对抓取的新闻信息进行相关处理,并最终将处理后的新闻信息存储到结构化的知识库中,从而形成实时的企业新闻资讯知识图谱,具体如下:首先对各类新闻信息进行采集和存储,并构建文本数据表,通过自然语言处理方法进行分词和标注,并通过Pipeline和深度学习结合的方法形成相应的实体/关系序列,并对实体进行向量化表示,然后通过向量计算将得到实体/关系序列中的实体向量值与企业知识图谱的实体向量值比对,从而筛选出向量值相等或接近(比如向量值之差小于设定值)的实体对,然后再对筛选出的实体对进行比对,从而将与无效或低效信息排除,最终确定相同的两个实体对并返回,并将对应实体作为构建企业新闻资讯知识图谱的标注实体,完成对准确性高的信息以结构化的知识库的形式对标注实体进行存储,最终形成实时的企业新闻资讯知识图谱,并且通过该实体可以达到企业知识图谱与企业新闻资讯知识图谱相互关联的目的。其过程如图2所示。[0030]最后,本发明研究了基于企业知识图谱与企业新闻资讯知识图谱的企业风险预测分析方法。知识图谱是实体及其相互关系的图模型结构,它能够更加直观的表现实体与实体之间的关系,并且通过关系传递可以发现实体与实体之间的潜在关系。在本发明中,通过建立企业知识图谱和企业新闻资讯知识图谱,在企业知识图谱中,企业、人、专利等具有自己的属性图,而企业与企业(或与人、专利等)之间通过某一属性构成了相互之间的关系图。基于企业知识图谱和企业新闻资讯知识图谱可以进行企业风险预测,其基本思路:企业知识图谱与企业新闻资讯知识图谱通过实体属性进行关联,在企业有直接(企业自身)或者间接(与企业相关的企业或个人)新闻事件发生时,会通过实体关联触发企业知识图谱中的相
7
CN 108596439 A
说 明 书
5/8页
关实体,在企业知识图谱中,通过企业知识图谱的实体的属性值进行直接分析,在发现新闻描述中的与企业知识图谱的属性图中的值有差异时,就会根据实际业务分析该类值的差异是否会对企业造成风险,如果会就进行风险预测,如果没有,则会进行后续的间接分析,通过实体的属性值以及实体关系图进行关联分析,从而实现对所有与之关联的实体进行风险预测。通过企业知识图谱中的属性图并结合相应关联分析规则可以通过单一属性或者组合属性进行分析,例如,企业的涉诉信息可能会影响企业的经营状况,在涉诉信息有更新时,需要通过分析判定其是否会对企业的经营造成不良的影响;又例如,企业的工商信息、税务信息、资产信息需要与企业的基本信息相统一,如果前几种信息中的某一种或多种在发生变化时,需要对企业的基本信息进行分析,判定其是否符合企业的基本信息,如果与企业的基本信息有冲突,则需要对基本信息进行更新或者对企业的工商信息、税务信息和资产信息进行核实,避免企业有不合法的行为发生;再者,企业的专利信息可能会对企业的多种信息造成影响,如果企业的科研成果信息发生变化,其可能会对企业的融资情况、股票价格以及产品销售情况造成影响,这个单一属性的变化可能由其它属性造成,包括科研投入、人员投入等,但是它同样造成了多种属性的变化。通过关系图可以通过企业的某一属性或者组合属性的变化对其它关联实体(企业、个人、专利等)进行分析,例如,企业的涉诉信息在更新时,可能会对其上下游经销商及股东企业或者个人造成一定的影响,通过关系图可以很快的找到这些企业或者个人,然后对其造成分析;又例如,企业的股东信息或者股权结构信息变更,可能会对其合作企业或者个人造成一定的影响,股东因素可能会影响企业与企业(个人)之间的合作关系,这就需要通过关系图找到与企业该股东相关的企业或者个人,既需要企业自身做到经营风险防范,同时对于合作企业或者个人也需要及时了解该项信息,以判断是否继续要该企业合作;再者,企业的产品、专利、软件著作权等信息的变动,同样会影响其关联企业或者个人,尤其是对于投资该企业的企业或者个人,这些信息的变更会让投资企业或者个人了解该企业是否良性发展,对其投资是否合理有益,甚至关系到是否需要增加投资等。通过企业知识图谱和企业新闻资讯知识图谱的结合,并利用图计算等方法,结合专业的知识结构构建科学、严谨的企业风险评估体系,有效规避潜在的经营风险与资金风险。具体包括但不限于:[0031](1)企业纳税风险预测:结合企业往年的纳税情况在企业知识图谱中的存储,以及对现阶段企业的纳税情况在企业知识图谱中的存储进行知识图谱关联分析,如果现阶段的纳税项目及金额与往年的纳税项目及金额的差异大于设定阈值,则企业可能存在税务风险,对企业和税务机关进行风险警示,从而避免因误操作而导致的不合理纳税情况的发生;[0032](2)企业的采购企业风险审核:通过企业与企业之间的上下游关系在知识图谱中的体现,如果在企业知识图谱中发现企业A的采购企业B,而且通过企业知识图谱与企业新闻资讯知识图谱的关联发现企业B自身或者其它与企业B相关新闻信息对企业B可能造成在资金、经营、法律等方面的不良影响,则通过企业A与企业B在企业知识图谱中的关联关系,可以使得企业A可以及时了解具体情况,如果企业B自身确实存在经营或者资金风险(例如企业B自身资金链断裂,则其无法继续采购生产所用的原材料,即产品将停产,如果企业A向企业B进行产品采购,则企业B在理论上是无法进行产品交付的,这会对企业A的工作造成延误或者直接损失),则企业A需要考虑该类风险是否会对自身造成不良影响,从而实现对企业B的风险审核;
8
CN 108596439 A[0033]
说 明 书
6/8页
(3)招投标企业资质评级:通过企业与企业之间的招投标信息,招标企业A可以在
企业知识图谱中实现与企业B、企业C、企业D等投标企业的关联,并且通过企业知识图谱的实时分析这些企业在经营管理方面的具体情况,及时发现这些企业中自身存在风险的投标企业进行预警,避免招标企业造成不必要的损失;[0034](4)客户资源分类管理:在企业知识图谱,企业A可以对其所有的上下游企业、招投标企业、投资企业、行业相关企业进行资源管理和潜在客户探寻,帮助企业A提前发现潜在的客户及不良客户,避免资金流失;[0035](5)企业社交图谱查询:基于投资、任职、专利、招投标、涉诉关系以目标企业为核心向外层层扩散,形成一个网络关系图,直观立体展现企业与企业、企业与人员之间的关联关系;[0036](6)企业最终控制人查询:具有股权投资关系寻找持股比例最大的股东,最终追溯至自然人或国有资产管理部门,确定企业最终控制人,辅助对企业风险进行预测分析;[0037](7)企业之间路径发现:基于股权、任职、专利、招投标、涉诉等关系形成的网络关系中,查询企业之间的最短关系路径,衡量企业之间的联系密切度,对关联企业交互风险进行预测分析,可以帮助税务部门查处偷税漏税、非法资金转移等情况;[0038](8)初创企业融资发展历程:基于企业知识图谱中的投融资事件发生的时间顺序,记录企业的融资发展历程,帮助企业更好的展示自身发展过程,同样帮助其他投资企业直观查看企业的发展历程,对异常投资(例如企业A在前期已经拥有多轮融资,但是并没有获得明显的成绩以及利润,则证明企业A自身在经营或者管理方面是有问题的,这对后续的投资会有较大的风险)进行预警分析;,基于预警分析结果对企业进行异常投资风险预测;[0039](9)上市企业股价预警分析:基于企业知识图谱以及企业新闻资讯知识图谱对上市企业的新闻数据进行关联分析,对其股票股价的异常进行预警分析。[0040]本发明执行过程如下,如图3所示:[0041](1)构建企业知识图谱实体模型,标注各类实体之间存在的关系。[0042](2)通过企业税务报表、工商报表、涉诉公告、新闻事件文本等开源资源对这些企业相关的结构化数据、半结构化数据、文本数据的知识抽取实现实体模型、关系模型的实例化,形成企业知识图谱,并以RDF三元组的形式进行存储。[0043](3)构建爬虫实时抓取各类企业网站,对新闻信息进行抓取,存储到关系数据库中。[0044](4)采用Pipeline(管道模型)与深度学习相结合的方法对抓取的新闻信息进行处理,提取相关的事件信息形成企业新闻资讯知识图谱,并以RDF三元组的形式进行存储,同时通过实体的唯一标识(如企业名称或社会信用统一代码、人的身份证号)将其与企业知识图谱进行关联,标注相关实体与事件的关系;将标注信息存储到结构化的知识库中,形成企业新闻资讯知识图谱。[0045](5)对企业知识图谱内的各类关系进行分析,包括企业与企业之间的股权关系、上下游关系等、企业与人之间的投资关系、实际控制人、雇佣关系等、企业与知识产权之间的所属关系、人与知识产权之间的所属关系等各类关系,结合各类应用模型对实体之间的关联关系进行重复迭代分析,并通过分析结果实现关系的传递、验证和存储,为后期的企业关系图谱分析、企业新闻资讯知识图谱分析以及风险预测分析等提供数据支持。
9
CN 108596439 A[0046]
说 明 书
7/8页
(6)对企业新闻资讯知识图谱进行分析,并结合与之关联的企业知识图谱,根据企
业知识图谱内的各类关系的分析结果,关联企业与企业之间、企业与人以及企业与其它实体之间的相互关系,进行深层次的迭代分析,并最终将可能存在的企业风险进行预警。[0047](7)将各类数据、模型和风险预测分析情况通过Web浏览器进行展示。[0048]与现有技术相比,本发明具有以下优势:[0049](1)高创新性。本发明是知识图谱在企业风险预测分析领域的具体应用,填补了目前知识图谱在企业风险分析领域的空白,构建的企业知识图谱和企业新闻资讯知识图谱具有较高的实用性,对于企业知识图谱的模型构建和分析工作既结合了目前知识图谱领域的先进技术,同时也更好的结合企业数据的特殊性和专业性对企业风险预测分析模型进行了多维度的分析验证,具有一定的创新性。[0050](2)低门槛。由于本发明所述的基于知识图谱的企业风险预测分析方法对最终用户的使用来说是黑盒的,终端用户无需关心企业知识图谱的构建过程,只需要根据具体需要结合企业知识图谱和企业新闻资讯知识图谱进行关联分析即可得到相应的分析结果,此外,已经构建了大量的分析模型,基本能够满足用户的需要。同时本发明通过Web界面,将各类模型的分析结果通过数据与可视化相结合的手段提供给用户,便于用户直观的查看分析结果,大大降低了用户的使用门槛。[0051](3)具有针对性,准确性高。本发明不同于现阶段通过人工手段对企业风险进行预测分析的方式,其数据规模和数据准确性更高、更有针对性。通过大数据与深度学习的方法,对模型中的各类方法进行训练,形成成熟的评判模型,并通过图计算的方法对知识图谱中的各类知识进行挖掘分析,主动发现一些潜在关系,能够比人工手段更快、更深入的发现可能存在的风险,对数据知识的处理也更加迅速直接,并且以可视化与数据相结合的方式展示给终端用户,可以更加直观的体现企业所面临的风险预测分析结果,最大程度的避免人为因素造成的性能瓶颈,使得分析性能与准确性最大化。[0052](4)运行稳定,可扩展。本方法是基于知识图谱技术实现的,而知识图谱具有高扩展性,结合各类知识抽取和知识融合技术,能够使得知识图谱规模越来越大,基于RDF三元组的存储方式可以支持跨平台的方式,可以在Spark平台下稳定运行,并可以通过Spark平台下的GraphX实现对知识图谱的图挖掘和分析,效率更好。而且RDF三元组的方式支持多种形式的扩展,在不影响现有知识图谱的情况下,可以更好的对新知识进行增加,也能够对当前知识图谱的更新。
附图说明
[0053]图1为本发明的知识类型图;
[0054]图2为本发明的新闻事件抽取流程图;[0055]图3为本发明的整体流程图。
具体实施方式
[0056]下面结合附图和具体实施案例,进一步阐明本发明,应理解这些实施案例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
10
CN 108596439 A[0057]
说 明 书
8/8页
如图3所示,本发明首先进行企业知识图谱的模型构建,包括实体模型以及关系模
型,随后通过信息采集对实体模型和关系模型进行实例化,采集的信息包括企业概要信息、企业背景信息(包括基本信息、企业关系、主要人员、股东信息、对外投资、分支机构等)、企业发展信息(融资历史、核心团队、企业业务、投资事件等)、司法风险信息(法律诉讼、法律公告、失信人、被执行人、开庭公告等)、经营风险信息(经营异常、行政处罚、严重违法、股权出质、动产抵押、欠税公告、司法拍卖等)、经营状况信息(招投标、债券信息、购地信息、招聘信息、税务评级、抽检检查、产品信息、进出口信用、资质证书等)、知识产权信息(商标信息、专利、软件著作权、作品著作权、网站备案等)、上市信息工商信息(股票行情、参股控股、上市公告、十大股东、股权结构、股本变动、分红情况等)等,具体如图2所示。[0058]其次,通过对各类新闻财经网站、企业官网、政府网站、工商税务网站、专利网、法律文书相关网站的实时监控,抓取各类新闻事件,并结合企业知识图谱,构建企业新闻资讯知识图谱;[0059]第三,对企业知识图谱与企业新闻资讯知识图谱进行实体关联;[0060]最后,通过对企业知识图谱的图挖掘分析以及企业新闻资讯知识图谱的图挖掘分析实现对基础模型的关联分析,对各类实体事件的关系展示,对由企业新闻资讯知识图谱触发的事件进行关联分析,对可能存在的风险进行预测分析,并将各类分析结果反馈给用户。
[0061]以上实施仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。
11
CN 108596439 A
说 明 书 附 图
图1
12
1/3页
CN 108596439 A
说 明 书 附 图
2/3页
图2
13
CN 108596439 A
说 明 书 附 图
3/3页
图3
14
因篇幅问题不能全部显示,请点此查看更多更全内容