(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210171624.4
(22)申请日 2022.02.24
(71)申请人 山东大学
地址 250199 山东省济南市历城区山大南
路27号
(72)发明人 贲晛烨 冯晓炜 李玉军 周莹
孙浩 谢霆轩
(74)专利代理 机构 济南金迪知识产权代理有限
公司 37219
专利代理师 杨树云
(51)Int.Cl.
G06F 16/31(2019.01)
G06F 16/35(2019.01)
G06F 16/34(2019.01)
G06F 40/295(2020.01)G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06Q 50/18(2012.01)
(54)发明名称
一种智能行政执法案例信息抽取和案由认
定方法
(57)摘要
本发明涉及一种智能行政执法案例信息抽
取和案由认 定方法, 包括: A、 数据集的构建; B、 语
料转换: C、 抽取数据预处理及向量化: D、 基于
DGCNN的抽取模型的训练: E、 基于U niLM的短文本
生成, 训练生成模型; F、 输入执法文书文本进行
预测: 将需要转化的行政执法文书通过步骤A至
步骤C处理后, 将得到的处理结果输入训练后的
抽取模型, 生成抽取结果并保存, 抽取结果进一
步输入训练后的生成模型, 得到适合下游其他任
务分析的短文本。 本发明通过采用DGCNN作为抽
取模型, 利用其非序列化的神经网络结构特点进
行文本数据的信息抽取, 大大减少了所耗费的时
间资源和计算资源, 提升 了抽取的准确性。
权利要求书3页 说明书12页 附图4页
CN 114547230 A
2022.05.27
CN 114547230 A
1.一种智能行政执法案例信息抽取和案由认定方法, 其特 征在于, 包括 步骤如下:
A、 数据集的构建: 爬取行政处罚决定书, 提取其中的文本内容, 对文本内容中的短文本
进行标注;
B、 语料转换:
将行政执法文 书中所有长句按照标点符号分割为短句;
将步骤A数据集中标注的短文本根据标点符号进行分句;
在短文本中找到最长的短句, 把这个最长的短句作为标准, 从行政处罚文书中找出与
这个最长的短句相似的句 子, 提取并保存, 递归执行直到短文本中所有的语句都被执行过
一次;
C、 抽取数据预处 理及向量 化:
步骤B在行政执法文 书中抽出了与标签即 短文本相似的语句;
对抽取出的文本进行过滤, 将文本转换成以空格分割的句子序列; 将句子序列编码索
引;
对得到的文本数据进行全局平均池化之后再引入全词Mask的BERT预训练中文模型, 补
充平均池化, 把分割的句子序列转换为句子向量;
D、 基于DGCN N的抽取模型的训练:
将步骤B中在行政执法文书中抽出的与标签即短文本的句子向量当作标签, 将行政执
法文书整个文本生成的句子向量作为输入, 训练抽取模型;
E、 基于Un iLM的短文本生成:
将通过训练后的抽取模型抽取出来的行政执法文书的关键语句作为输入, 人工标注的
短文本作为标签, 训练生成模型;
F、 输入执法文 书文本进行 预测:
将需要转化的行政执法文书通过步骤A至步骤C处理后, 将得到的处理结果输入训练后
的抽取模 型, 生成抽取结果并保存, 抽取结果进一步输入训练后的生 成模型, 得到适合下游
其他任务分析的短文本, 最终得到抽取 结果和适 合下游其 他任务分析的短文本 。
2.根据权利要求1所述的一种智能行政执法案例信息抽取和案由认定方法, 其特征在
于, 步骤A中, 对文本内容进行标注, 是指: 从行政执法文书中提取所有需要的关键字段, 并
根据语义重新组合成新的一段仅包括关键目的信息的短文本; 在行政处罚文书中对这些短
文本进行 标注。
3.根据权利要求1所述的一种智能行政执法案例信息抽取和案由认定方法, 其特征在
于, 步骤B中,
将行政执法文书中所有长句按照标点符号分割为短句, 具体是指: 采用jieba分词将行
政执法文 书文本根据标点符号分割成句子格式, 并保存为列表中的元 素;
将步骤A数据集中标注的短文本根据标点符号进行分句, 具体是指: 采用jieba分词将
标注的短文本分割成短句格式, 并保存为数组格式;
提取数组中的最长的短句, 在列表中的行政执法文书中进行匹配, 提取列表中的行政
执法文书中和 最长的短句最相似的句 子并保存, 递归地执行此步骤, 直到将数组中所有的
句子都匹配一遍。
4.根据权利要求3所述的一种智能行政执法案例信息抽取和案由认定方法, 其特征在权 利 要 求 书 1/3 页
2
CN 114547230 A
2于, 提取列表中的行政执法文 书中和最长的短句最相似的句子, 具体实现过程如下:
假设x1是标注短文本序列X=[x1,x2,...xn]中的一个句子, ym是行政执法文书序列Y=
[y1,y2,...ym]中的一个句子, 则Flcs如式(1)所示:
式(1)中,
RLCS是指召回率, 是抽取 出的文本与短文本中相同字的个数, 与人工
标签即短文本中字的个数的比值; PLCS是指准确率, 是指抽取出的文本与短文本中相同字的
个数, 与抽取 出字的总个数的比值; FLCS就是ROUGE ‑L;
针对将标注短文本序列X中的一个句子xn与行政执法文书序列中的所有句子yj, j=1,
2...m; 计算FLCS, 取使得FLCS分数最高的行政执法文书序列中的句子yk作为最相似语句并保
存, 递归地进行此步骤, 直到标注短文本序列X中所有句子都匹配完成, 将抽取结果保存为
R, 即为最相似的句子 。
5.根据权利要求1所述的一种智能行政执法案例信息抽取和案由认定方法, 其特征在
于, 步骤C的具体实现过程如下:
首先, 利用tensorflow中的Tokenizer工具包去除文本中的标点符号、 换行符号进行文
本预处理;
然后, 利用Tokenizer工具包的Fit_on_texts方法学习出文本的字典, Word_index就是
对应的单词和数字的映射关系Dict, 通过这个Dict将每个句子中的每个词转成数字, 即
Texts_to_sequences;
再次, 通过Padding的方法补成同样长度; 在用Keras中自带的embedding层进行一个向
量化;
最后, 引入全词Mask的BERT预训 练中文模型即Chinese_roberta_wwm_ext_L ‑12_H‑
768_A‑12预训练模型来补充平均池化。
6.根据权利要求1所述的一种智能行政执法案例信息抽取和案由认定方法, 其特征在
于, 步骤D的具体实现过程如下:
将步骤C得到的行政执法文书文本对应的句子向量当作抽取模型的输入, 通过一层的
DGCNN提取特征, 将提取的特征输入Attention层来完成对序列信息的整合, 包括将行政执
法文书的句子向量序列编 码为一个总的行政执法文书文本向量, 将标注短文本的句子向量
编码为一个总的标注短文本向量, A ttention层如式(2)所示:
式(2)中, α,W都为可训练参数, 而Act()为激活函数, 取tanch; xi是编码前 的序列, x是
编码完成后的向量, λi是计算时的权重, softmaxi()是激活函数函数, 又称归一化指数函
数;
之后, 把步骤C得到的总的行政执法文书文本对应的句子向量X作为输入, 将抽取出的权 利 要 求 书 2/3 页
3
CN 114547230 A
3
专利 一种智能行政执法案例信息抽取和案由认定方法
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:27上传分享