(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210156179.4
(22)申请日 2022.02.21
(71)申请人 山东大学
地址 250199 山东省济南市历城区山大南
路27号
申请人 中国社会科 学院社会学研究所
(72)发明人 李玉军 胡伟凤 贲晛烨 崔岩
赵思文 胡喜风 赵强 郭润东
(74)专利代理 机构 济南金迪知识产权代理有限
公司 37219
专利代理师 杨树云
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/35(2019.01)
G06F 40/194(2020.01)G06F 40/211(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06Q 50/18(2012.01)
(54)发明名称
一种基于法律要素的类 案检索方法及系统
(57)摘要
本发明涉及一种基于法律要素的类案检索
方法及系统, 包括: 步骤1: 语义编码; 先划分为 短
的段落, 对查询段落和候选段落进行语义编码表
示; 步骤2: 主题分布编码; 分别获得查询文档段
落集与每篇候选文档段落集的主题概率分布交
互矩阵; 步骤3: 法律实体编码; 从文书中抽取法
律要素, 对两个案件段落间的相似度进行计算;
步骤4: 编码聚合及相似度计算; 将语义编码、 主
题分布编码及法律实体编码三部分进行编码聚
合并对查询 ‑候选对进行相似度计算, 选取相似
度较大的前几个对应的候选文档作为类案。 本发
明利用BERT强大的语义学习能力, 解决了法律案
例的长文本编码问题, 精准挖掘了法律案件中的
法律要素, 更适用于法律场景。
权利要求书3页 说明书12页 附图3页
CN 114547245 A
2022.05.27
CN 114547245 A
1.一种基于法律要素的类案检索方法, 其特 征在于, 包括 步骤如下:
步骤1: 语义编码; 是指: 先将长文本按案件描述顺序划分为短的段落, 再通过基于BERT
的文本编码方法对查询段落和候选段落进行语义编码表示;
步骤2: 主题分布编码; 是指: 基于LDA模型文档生成的逆过程, 分别获得查询文档段落
集与每篇 候选文档段落 集的主题概 率分布交 互矩阵;
步骤3: 法律实体编码; 是指: 从文书中抽取法律要素, 并对每一个案件中所包含的法律
要素进行同义词扩展, 最终对两个案件段落间的相似度进行计算;
步骤4: 编码聚合及相似度计算; 是指: 将语义编码、 主题分布编码及 法律实体编码三部
分进行编码聚合并对查询 ‑候选对进行相似度计算, 选取相似度较大 的前几个对应的候选
文档作为类案 。
2.根据权利要求1所述的一种基于法律要素的类案检索方法, 其特征在于, 步骤1的具
体实现过程如下:
步骤1.1: 形式化地描述, 对于一个查询文档q和任一候选文档dk分别表示为q=(pq1,
pq2,…,pqi…,pqN), dk=(pk1,pk2,…,pkj…,pkM); 其中, N和M分别为查询文档q和候选文档dk
的总段落数; 对于查询 文档q和候选文档dk中的每个段落, 构造一个查询 ‑候选段落对(pqi,
pkj), 其中, 1≤i≤N和1≤j≤ M;
步骤1.2: 将段落对(pqi,pkj)连同保留的标记即[CLS]和[SEP]一起输入BERT模型; 第一
个令牌[CLS]的最终隐藏层向量输出作为查询 ‑候选段落对(pqi,pkj)的语义聚合表示, 具体
如式(1)所示:
Cij=BERT(pqi,pkj) (1)
这样, 得到 所有查询‑候选段落对的交互矩阵, 每个查询 ‑候选段落对(pqi,pkj)的语义表
示为Cij,Cij∈RHB;
步骤1.3: 对于查询文档的每一段落, 使用maxpooling候选文档的最强匹配段落, 从而
得到一个向量序列, 表示 为p'qk=[p'qk1,p'qk2,...,p’qki...,p'qkN]; p’qki如式(2)所示:
步骤1.4: 通过GRU模型对p'qki进行进一步的编码, 得到语义编码结果hqk=[hqk1,
hqk2,…,hqki…,hqkN],hqki∈RHR。
3.根据权利要求1所述的一种基于法律要素的类案检索方法, 其特征在于, 步骤2 的具
体实现过程如下:
步骤2.1: 利用生成的文档推断其隐藏的主题的过程即LDA模型文档生成的逆过程, 只
有文档d中单词w是被观察到的, 主题z是隐藏的, 根据大量已知的文档 ‑词项信息即文档d中
单词w, 计算得到每 个文档上主题的后验分布, 如式(3)所示:
其中,
是主题分布,
是
的狄利克雷分布,
是主题分布的先验分布
参数,
构成文档m的主题数向量,
是确定的主题, 通过Gibbs Sampling方法求解出主题
的后验分布
权 利 要 求 书 1/3 页
2
CN 114547245 A
2步骤2.2: 根据公式(3)得到段落Pqi, Pkj的主题的后验分布分别为ZPqi=[ZPqi‑1,
ZPqi‑2,...,ZPqi‑v]和ZPkj=[ZPkj‑1,Zkj‑2,...,ZPkj‑v],
计算得到查询文档段落集与候选文档段落集的主题概率分布交互矩阵Tqik, 查询文档
段落集、 候选文档段落集分别是指在查询文档q=(pq1,pq2,…,pqi…,pqN)、 任一候选文档dk
=(pk1,pk2,…,pkj…,pkM)的所有段落组成的集合, 其 中, N和M分别为查询文档q和候选文档
dk的总段落数; 如式(4)所示:
其中, v为主题个数超参数, 每 个元素用Tqik表示。
4.根据权利要求1所述的一种基于法律要素的类案检索方法, 其特征在于, 步骤3的具
体实现过程如下:
步骤3.1:采用正则表达式的方式从文书中抽取法律要素, 法律要素包括罪名ccg、 犯罪
行为co、 人物类型ct、 犯罪后果cc、 补偿行为cb、 和解情况r; 进而对每一个案件中所包含的
法律要素进行同义词扩展;
步骤3.2:对于 两个案件段落间的相似度进行计算, 分两 部分进行:
罪名或补偿行为的相似度计算公式方式如式(5)所示:
其中, entityName1代 表段落提取的罪名或补偿行为 集合;
犯罪行为co、 人物类型ct、 犯罪后果c c或和解情况r的相似度计算方式如式(6)所示:
其中, entityName2代表段落分别提取的犯罪行为co、 人物类型ct、 犯罪后果cc或和解
情况r;
基于所有法律要素的段落间相似度sim_e(Eqi,Ekj)计算方式如式(7)所示:
其中, μ1, μ2, μ3分别为权重参数, sim_e(Eqi,Ekj)是指基于法律要素的段落 间相似度, Eqi
和Ekj代表查询段落和候选段落的实体 集合; 这样, 对 于查询段落集和候选段落集, 得到 一个
相似度矩阵LEqk=[LEq1k,LEq2k,…,LEqik…,LEq1k],LEqik=sim_e(Eqi,Ekj)。
5.根据权利要求1所述的一种基于法律要素的类案检索方法, 其特征在于, 步骤4的具
体实现过程如下:
将语义编码、 主题分布编码及法律实体编码三部分进行编码聚合并对查询 ‑候选对进
行相似度计算, 计算公式如式(8)所示:权 利 要 求 书 2/3 页
3
CN 114547245 A
3
专利 一种基于法律要素的类案检索方法及系统
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:31上传分享