一种基于法律知识图谱的裁判文书相似性判断方法及系统

实用新型 · 2020-04-24
申请号:CN202010004494.6 申请日:20200103 公开号:CN110795926A 公开日:20200214 授权公告号:CN110795926B 授权公告日:20200407 申请人地址:610000 四川省成都市武侯区一环路南一段24号 国家/省市:90(成都) 代理机构:51220 主分类号:G06F40/194 代理人:熊曦 申请人:四川大学;成都星云律例科技有限责任公司 当前权利人:四川大学;成都星云律例科技有限责任公司 发明人:翁洋;王竹;李鑫;其他发明人请求不公开姓名 分类号:G06F40/194;G06F16/36 范畴分类:40B; 简要说明:本发明公开了一种基于法律知识图谱的裁判文书相似性判断方法及系统,所述方法包括:获得裁判文书A和裁判文书B;分别构建裁判文书A的案由对应的法律知识图谱A'和裁判文书B的案由对应的法律知识图谱B';分别将法律知识图谱A'转换为向量A'',将法律知识图谱B'转换为向量B'';比较向量A''和向量B'',得到裁判文书A和裁判文书B之间的相似性判断结果;本发明方法和系统通过知识嵌入算法将原有的法律知识图谱由不易计算的图状结构转换为数学向量表示,支撑裁判文书基于语义相似性的两两对比,便于更加准确和高效地判断裁判文书之间相似性。 主权利要求:1.一种基于法律知识图谱的裁判文书相似性判断方法,其特征在于,所述方法包括:步骤1:获得裁判文书A和裁判文书B;步骤2:分别构建裁判文书A的案由对应的法律知识图谱A'和裁判文书B的案由对应的法律知识图谱B';步骤3:分别将法律知识图谱A'转换为向量A'',将法律知识图谱B'转换为向量B'',步骤4:比较向量A''和向量B'',得到裁判文书A和裁判文书B的相似性判断结果;所述步骤2还包括:采集样本数据,样本数据包括若干个裁判文书,将样本数据中所有裁判文书对应的法律知识图谱中的三元组均进行泛化,将案由的人物角色定义为原告、被告和第三方;统计样本数据中所有的实体个数与关系个数,并将统计个数列入新建的实体字典和关系字典,id编号以0为开头,实际个数为结尾;实体字典和关系字典格式均为两列,以id编号一一对应实体或关系进行存储,分别建立第一数据集和第二数据集;将法律知识图谱中的三元组(h、r、t)用第一数据集和第二数据集中的编号一一替换,并以(h、t、r)结构保存至第三数据集;将第三数据集划分为训练集、验证集和测试集;利用训练集训练知识嵌入算法,利用验证集验证知识嵌入算法,利用测试集测试知识嵌入算法。 当前状态:1 代理机构:成都行之专利代理事务所(普通合伙) 51220 引用专利:CN 110489751 A,20191122;CN 110598006 A,20191220;CN 108073673 A,20180525;CN 108733798 A,20181102;CN 107908671 A,20180413;CN 110147450 A,20190820 权利要求,1.一种基于法律知识图谱的裁判文书相似性判断方法,其特征在于,所述方法包括:步骤1:获得裁判文书A和裁判文书B;步骤2:分别构建裁判文书A的案由对应的法律知识图谱A'和裁判文书B的案由对应的法律知识图谱B';步骤3:分别将法律知识图谱A'转换为向量A'',将法律知识图谱B'转换为向量B'',步骤4:比较向量A''和向量B'',得到裁判文书A和裁判文书B的相似性判断结果;所述步骤2还包括:采集样本数据,样本数据包括若干个裁判文书,将样本数据中所有裁判文书对应的法律知识图谱中的三元组均进行泛化,将案由的人物角色定义为原告、被告和第三方;统计样本数据中所有的实体个数与关系个数,并将统计个数列入新建的实体字典和关系字典,id编号以0为开头,实际个数为结尾;实体字典和关系字典格式均为两列,以id编号一一对应实体或关系进行存储,分别建立第一数据集和第二数据集;将法律知识图谱中的三元组(h、r、t)用第一数据集和第二数据集中的编号一一替换,并以(h、t、r)结构保存至第三数据集;将第三数据集划分为训练集、验证集和测试集;利用训练集训练知识嵌入算法,利用验证集验证知识嵌入算法,利用测试集测试知识嵌入算法。2.根据权利要求1所述的一种基于法律知识图谱的裁判文书相似性判断方法,其特征在于,所述步骤3采用知识嵌入算法将法律知识图谱代表的三元组用向量表示。3.根据权利要求2所述的一种基于法律知识图谱的裁判文书相似性判断方法,其特征在于,知识嵌入算法包括:TransE算法、TransH算法、TransR算法、TransG算法、DistMult算法和HoLE算法。4.根据权利要求1所述的一种基于法律知识图谱的裁判文书相似性判断方法,其特征在于,所述步骤3还包括利用训练集训练知识嵌入算法,利用验证集验证知识嵌入算法,利用测试集测试知识嵌入算法。5.根据权利要求4所述的一种基于法律知识图谱的裁判文书相似性判断方法,其特征在于,法律知识图谱包括若干组三元组(h、r、t),h代表头实体,r代表关系,t代表尾实体。6.根据权利要求1所述的一种基于法律知识图谱的裁判文书相似性判断方法,其特征在于,基于通过测试的知识嵌入算法,通过设置相关维度参数,得到样本数据中每个实体和关系的向量表示。7.根据权利要求6所述的一种基于法律知识图谱的裁判文书相似性判断方法,其特征在于,将每篇裁判文书的法律知识图谱中的每个三元组中的实体和关系均采用通过测试的知识嵌入算法转换为相应的向量并求平均值,得到裁判文书的法律知识图谱的多维向量表示。 说明书, 一种基于法律知识图谱的裁判文书相似性判断方法及系统 技术领域 本发明涉及自然语言处理领域,具体地,涉及一种基于法律知识图谱的裁判文书相似性判断方法及系统。 背景技术 近年来,知识图谱应用是大数据时代的一个标志。知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。知识图谱的每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效表示方式。知识图谱的核心要点在于通过搜集一系列大数量级的结构化数据或非结构化数据,基于领域专业性知识对数据进行分析建模,并通过机器计算从中找出规律——通常是该领域的规律,最后机器可以识别该规律并学习,生成相关数据的计算规则。 目前构建知识图谱的方法有很多,通常是以爬虫爬取、日志搜索(query log)或基于Bootstrapping的多类别协同模式学习等方式构建,这类方法当前主要应用于优化现有的搜索引擎。全世界的所有数据,高达80%是非结构化数据,而大多数现有技术无法识别和分析这些数据。 在法律领域,裁判文书为非结构化数据,现有技术无法直接通过裁判文书对应的法律知识图谱来判断裁判文书之间的相似性。 发明内容 现有技术无法将TransE、TransH、TransR、TransG、DistMult、HoLE等知识嵌入方法应用于司法人工智能知识图谱,本发明方法和系统通过知识嵌入办法可以将原有的法律知识图谱由不易计算的图状结构转换为数学向量表示,支撑裁判文书间基于语义相似性的两两对比,便于更加准确和高效地判断裁判文书之间的相似性。 为实现上述发明目的,本发明一方面提供了一种基于法律知识图谱的裁判文书相似性判断方法,所述方法包括: 步骤1:获得裁判文书A和裁判文书B; 步骤2:分别构建裁判文书A的案由对应的法律知识图谱A'和裁判文书B的案由对应的法律知识图谱B'; 步骤3:分别将法律知识图谱A'转换为向量A'',将法律知识图谱B'转换为向量B'', 步骤4:计算向量A''和向量B''的余弦相似度,得到裁判文书A和裁判文书B的相似性判断结果。 其中,从整体上看,本发明的技术方案为:首先构建了基于案情事实的法律知识图谱,然后采用知识嵌入方法(TransE、TransH、TransR、TransG、DistMult、HoLE等)将法律知识图谱代表的三元组(实体1、关系、实体2)用向量表示,并计算得到每篇裁判文书基于案情事实的法律知识图谱的向量表示,支撑裁判文书两两相似性对比,以解决裁判文书间基于语义相似性的对比问题。 其中,在本发明中,构建裁判文书的案由对应的法律知识图谱可以有多种方式,目前构建知识图谱的方法有很多,通常是以爬虫爬取、日志搜索(query log)或基于Bootstrapping的多类别协同模式学习等方式构建,也可以采用公开专利文献CN201710339258.8 中的方式进行构建。 优选的,所述步骤3采用知识嵌入算法将法律知识图谱代表的三元组用向量表示。 优选的,知识嵌入算法包括但不限于:TransE算法、TransH算法、TransR算法、TransG算法、DistMult算法和HoLE算法。 优选的,所述步骤3还包括利用训练集训练知识嵌入算法,利用验证集验证知识嵌入算法,利用测试集测试知识嵌入算法。 优选的,法律知识图谱包括若干组三元组(h、r、t),h代表头实体,r代表关系,t代表尾实体。 优选的,所述步骤2还包括:采集样本数据,样本数据包括若干个裁判文书,将样本数据所有裁判文书对应的法律知识图谱的三元组均进行泛化,将案由的人物角色定义为原告、被告和第三方。 优选的,统计样本数据中所有的实体个数与关系个数,并将统计个数列入新建的实体字典和关系字典,id编号以0为开头,实体个数为结尾;实体字典和关系字典格式均为两列,以id编号一一对应实体或关系进行存储,分别建立第一数据集和第二数据集; 将法律知识图谱的三元组(h、r、t)用第一数据集和第二数据集的编号一一替换,并以(h、t、r)结构保存至第三数据集; 将第三数据集划分为训练集、验证集和测试集; 利用训练集训练知识嵌入算法,利用验证集验证知识嵌入算法,利用测试集测试知识嵌入算法。 优选的,基于通过测试的知识嵌入算法,通过设置相关维度参数,得到样本数据每个实体和关系的向量表示。 优选的,将每篇裁判文书的法律知识图谱的每个三元组的实体和关系均采用通过测试的知识嵌入算法替换为相应的向量并求平均值,得到裁判文书的法律知识图谱的多维向量表示。 另一方面,本发明还提供了一种基于法律知识图谱的裁判文书相似性判断系统,所述系统包括: 裁判文书获得单元,用于获得裁判文书A和裁判文书B; 法律知识图谱构建单元,用于分别构建裁判文书A的案由对应的法律知识图谱A'和裁判文书B的案由对应的法律知识图谱B'; 向量转换单元,用于分别将法律知识图谱A'转换为向量A'',将法律知识图谱B'转换为向量B'', 裁判文书相似性判断单元,用于计算向量A''和向量B''的余弦相似度,得到裁判文书A和裁判文书B的相似性判断结果。 本发明提供的一个或多个技术方案,至少具有如下技术效果或优点: 基于案情事实的法律知识图谱的知识表示,实现了案件事实的图谱表示,区别于传统的关键词检索,基于案情事实的法律知识图谱知识表示将每一案件的案情完整呈现,并体现各实体间的关系,既包括事实关系(例如张某驾驶车辆),也包括法律关系(比如a与b形成借贷关系)。通过案情的完整呈现,在对比海量案件的相似性时避免了目前的关键词匹配的弊端(如无法区分否定描述、无法描述完整案情等),实现了实质意义上的案情匹配;能够支撑裁判文书间基于语义相似性的两两对比,便于更加准确和高效地判断裁判文书之间的相似性。 附图说明 此处所说明的附图用来提供对本发明实施例的进一步理解,构成本发明的一部分,并不构成对本发明实施例的限定; 图1是本发明中一种基于法律知识图谱的裁判文书相似性判断方法的流程示意图; 图2是本发明中一种基于法律知识图谱的裁判文书相似性判断系统的组成示意图; 图3是本发明中本方法的具体实施流程示意图。 具体实施方式 为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在相互不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。 在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述范围内的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。 首先构建基于案情事实的各类案由(道路交通、离婚、劳动争议等)的法律知识图谱,本发明的目标在于将构建的特定案由的法律知识图谱转换为向量表示,以实现用数学向量表示知识图谱内部实体与关系的内在结构,从而支撑裁判文书之间基于语义相似性的两两对比。 请参考图1,本发明实施例提供了一种基于法律知识图谱的裁判文书相似性判断方法,所述方法包括: 步骤1:获得裁判文书A和裁判文书B; 步骤2:分别构建裁判文书A的案由对应的法律知识图谱A'和裁判文书B的案由对应的法律知识图谱B'; 步骤3:分别将法律知识图谱A'转换为向量A'',将法律知识图谱B'转换为向量B'', 步骤4:比较向量A''和向量B'',得到裁判文书A和裁判文书B的相似性判断结果。 请参考图2,本发明实施例提供了一种基于法律知识图谱的裁判文书相似性判断系统,所述系统包括: 裁判文书获得单元,用于获得裁判文书A和裁判文书B; 法律知识图谱构建单元,用于分别构建裁判文书A的案由对应的法律知识图谱A'和裁判文书B的案由对应的法律知识图谱B'; 向量转换单元,用于分别将法律知识图谱A'转换为向量A'',将法律知识图谱B'转换为向量B'', 裁判文书相似性判断单元,用于比较向量A''和向量B'',得到裁判文书A和裁判文书B的相似性判断结果。 其中,请参考图3,本方法的具体实施步骤包括: 1.知识图谱由一个个三元组(h、r、t)表示,h代表头实体,r代表关系,t代表尾实体,基于案情事实的知识图谱是由多个三元组组成,即使用多组(h、r、t)来表示一个案件的知识图谱; 2.本发明将所有的三元组进行泛化、将人物角色定义为原告、被告和第三方; 3.统计所有的实体个数与关系个数,并列入新建的实体字典和关系字典,id编号以0为开头,以实体个数为结尾。字典格式均为两列,以id编号一一对应实体或者关系名称的方式存储,分别建立entity2id 和relation2id的数据集; 4.将案情知识图谱的三元组(h、r、t)用entity2id和relation2id里的编号一一替换,并以(h、t、r)结构保存。例如三元组最终替换成(2,1,3)的方式,2代表entity2id词典的第二位,1代表entity2id词典的第一位,3代表relation2id词典的第三位,并保存至新的数据集; 5.将上述新的数据集以比例6:2:2划分为训练集train2id,验证集valid2id和测试集test2id; 6.采用TransE、TransH、TransR、TransG、DistMult、HoLE 等类型知识嵌入算法,利用train2id的数据进行训练,valid2id的数据进行验证,test2id的数据进行测试; 7.根据以上知识嵌入算法,通过设置相关维度参数(例如100维、200维),最终得到关于上述每个实体和关系的向量表示,例如设置为100维,则每个实体由100维向量表示; 8.将每篇裁判文书的法律知识图谱的每个三元组的实体和关系替换为训练好的向量并求平均值,例如如果此前算法设置实体和关系得到的向量维度为100维,则由(h、r、t)组成的向量维度为300维,最终每篇裁判文书的法律知识图谱由一个300维的向量表示; 9.本发明将每篇裁判文书转换为一个向量,从而支撑两两裁判文书间基于知识图谱向量表示的相似性对比。 尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。 显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

文章推荐:

一种基于生物技术的多级发酵装置

智能笔记本

陶瓷茶杯(一辈子顺杯)

一种基于法律知识图谱的裁判文书相似性判断方法及系统

一种风光热电力互补系统

发表评论