专利 一种基于法律要素的类案检索方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210156179.4 (22)申请日 2022.02.21 (71)申请人山东大学地址 250199 山东省济南市历城区山大南路27号申请人中国社会科学院社会学研究所 (72)发明人李玉军　胡伟凤　贲晛烨　崔岩　赵思文　胡喜风　赵强　郭润东　 (74)专利代理机构济南金迪知识产权代理有限公司 37219 专利代理师杨树云 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/194(2020.01)G06F 40/211(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06Q 50/18(2012.01) (54)发明名称一种基于法律要素的类案检索方法及系统 (57)摘要本发明涉及一种基于法律要素的类案检索方法及系统，包括：步骤1：语义编码；先划分为短的段落，对查询段落和候选段落进行语义编码表示；步骤2：主题分布编码；分别获得查询文档段落集与每篇候选文档段落集的主题概率分布交互矩阵；步骤3：法律实体编码；从文书中抽取法律要素，对两个案件段落间的相似度进行计算；步骤4：编码聚合及相似度计算；将语义编码、主题分布编码及法律实体编码三部分进行编码聚合并对查询 ‑候选对进行相似度计算，选取相似度较大的前几个对应的候选文档作为类案。本发明利用BERT强大的语义学习能力，解决了法律案例的长文本编码问题，精准挖掘了法律案件中的法律要素，更适用于法律场景。权利要求书3页说明书12页附图3页 CN 114547245 A 2022.05.27 CN 114547245 A 1.一种基于法律要素的类案检索方法，其特征在于，包括步骤如下：步骤1：语义编码；是指：先将长文本按案件描述顺序划分为短的段落，再通过基于BERT 的文本编码方法对查询段落和候选段落进行语义编码表示；步骤2：主题分布编码；是指：基于LDA模型文档生成的逆过程，分别获得查询文档段落集与每篇候选文档段落集的主题概率分布交互矩阵；步骤3：法律实体编码；是指：从文书中抽取法律要素，并对每一个案件中所包含的法律要素进行同义词扩展，最终对两个案件段落间的相似度进行计算；步骤4：编码聚合及相似度计算；是指：将语义编码、主题分布编码及法律实体编码三部分进行编码聚合并对查询 ‑候选对进行相似度计算，选取相似度较大的前几个对应的候选文档作为类案。 2.根据权利要求1所述的一种基于法律要素的类案检索方法，其特征在于，步骤1的具体实现过程如下：步骤1.1：形式化地描述，对于一个查询文档q和任一候选文档dk分别表示为q＝(pq1, pq2,…,pqi…,pqN)， dk＝(pk1,pk2,…,pkj…,pkM)；其中， N和M分别为查询文档q和候选文档dk 的总段落数；对于查询文档q和候选文档dk中的每个段落，构造一个查询 ‑候选段落对(pqi, pkj)，其中， 1≤i≤N和1≤j≤ M；步骤1.2：将段落对(pqi,pkj)连同保留的标记即[CLS]和[SEP]一起输入BERT模型；第一个令牌[CLS]的最终隐藏层向量输出作为查询 ‑候选段落对(pqi,pkj)的语义聚合表示，具体如式(1)所示： Cij＝BERT(pqi,pkj) (1) 这样，得到所有查询‑候选段落对的交互矩阵，每个查询 ‑候选段落对(pqi,pkj)的语义表示为Cij,Cij∈RHB；步骤1.3：对于查询文档的每一段落，使用maxpooling候选文档的最强匹配段落，从而得到一个向量序列，表示为p'qk＝[p'qk1,p'qk2,...,p’qki...,p'qkN]； p’qki如式(2)所示：步骤1.4：通过GRU模型对p'qki进行进一步的编码，得到语义编码结果hqk＝[hqk1, hqk2,…,hqki…,hqkN],hqki∈RHR。 3.根据权利要求1所述的一种基于法律要素的类案检索方法，其特征在于，步骤2 的具体实现过程如下：步骤2.1：利用生成的文档推断其隐藏的主题的过程即LDA模型文档生成的逆过程，只有文档d中单词w是被观察到的，主题z是隐藏的，根据大量已知的文档 ‑词项信息即文档d中单词w，计算得到每个文档上主题的后验分布，如式(3)所示：其中，是主题分布，是的狄利克雷分布，是主题分布的先验分布参数，构成文档m的主题数向量，是确定的主题，通过Gibbs Sampling方法求解出主题的后验分布权　利　要　求　书 1/3 页 2 CN 114547245 A 2步骤2.2：根据公式(3)得到段落Pqi， Pkj的主题的后验分布分别为ZPqi＝[ZPqi‑1, ZPqi‑2,...,ZPqi‑v]和ZPkj＝[ZPkj‑1,Zkj‑2,...,ZPkj‑v]，计算得到查询文档段落集与候选文档段落集的主题概率分布交互矩阵Tqik，查询文档段落集、候选文档段落集分别是指在查询文档q＝(pq1,pq2,…,pqi…,pqN)、任一候选文档dk ＝(pk1,pk2,…,pkj…,pkM)的所有段落组成的集合，其中， N和M分别为查询文档q和候选文档 dk的总段落数；如式(4)所示：其中， v为主题个数超参数，每个元素用Tqik表示。 4.根据权利要求1所述的一种基于法律要素的类案检索方法，其特征在于，步骤3的具体实现过程如下：步骤3.1:采用正则表达式的方式从文书中抽取法律要素，法律要素包括罪名ccg、犯罪行为co、人物类型ct、犯罪后果cc、补偿行为cb、和解情况r；进而对每一个案件中所包含的法律要素进行同义词扩展；步骤3.2:对于两个案件段落间的相似度进行计算，分两部分进行：罪名或补偿行为的相似度计算公式方式如式(5)所示：其中， entityName1代表段落提取的罪名或补偿行为集合；犯罪行为co、人物类型ct、犯罪后果c c或和解情况r的相似度计算方式如式(6)所示：其中， entityName2代表段落分别提取的犯罪行为co、人物类型ct、犯罪后果cc或和解情况r；基于所有法律要素的段落间相似度sim_e(Eqi,Ekj)计算方式如式(7)所示：其中， μ1, μ2, μ3分别为权重参数， sim_e(Eqi,Ekj)是指基于法律要素的段落间相似度， Eqi 和Ekj代表查询段落和候选段落的实体集合；这样，对于查询段落集和候选段落集，得到一个相似度矩阵LEqk＝[LEq1k,LEq2k,…,LEqik…,LEq1k],LEqik＝sim_e(Eqi,Ekj)。 5.根据权利要求1所述的一种基于法律要素的类案检索方法，其特征在于，步骤4的具体实现过程如下：将语义编码、主题分布编码及法律实体编码三部分进行编码聚合并对查询 ‑候选对进行相似度计算，计算公式如式(8)所示：权　利　要　求　书 2/3 页 3 CN 114547245 A 3

专利 一种基于法律要素的类案检索方法及系统

专利一种基于法律要素的类案检索方法及系统