专利 一种智能行政执法案例信息抽取和案由认定方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210171624.4 (22)申请日 2022.02.24 (71)申请人山东大学地址 250199 山东省济南市历城区山大南路27号 (72)发明人贲晛烨　冯晓炜　李玉军　周莹　孙浩　谢霆轩　 (74)专利代理机构济南金迪知识产权代理有限公司 37219 专利代理师杨树云 (51)Int.Cl. G06F 16/31(2019.01) G06F 16/35(2019.01) G06F 16/34(2019.01) G06F 40/295(2020.01)G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06Q 50/18(2012.01) (54)发明名称一种智能行政执法案例信息抽取和案由认定方法 (57)摘要本发明涉及一种智能行政执法案例信息抽取和案由认定方法，包括： A、数据集的构建； B、语料转换： C、抽取数据预处理及向量化： D、基于 DGCNN的抽取模型的训练： E、基于U niLM的短文本生成，训练生成模型； F、输入执法文书文本进行预测：将需要转化的行政执法文书通过步骤A至步骤C处理后，将得到的处理结果输入训练后的抽取模型，生成抽取结果并保存，抽取结果进一步输入训练后的生成模型，得到适合下游其他任务分析的短文本。本发明通过采用DGCNN作为抽取模型，利用其非序列化的神经网络结构特点进行文本数据的信息抽取，大大减少了所耗费的时间资源和计算资源，提升了抽取的准确性。权利要求书3页说明书12页附图4页 CN 114547230 A 2022.05.27 CN 114547230 A 1.一种智能行政执法案例信息抽取和案由认定方法，其特征在于，包括步骤如下： A、数据集的构建：爬取行政处罚决定书，提取其中的文本内容，对文本内容中的短文本进行标注； B、语料转换：将行政执法文书中所有长句按照标点符号分割为短句；将步骤A数据集中标注的短文本根据标点符号进行分句；在短文本中找到最长的短句，把这个最长的短句作为标准，从行政处罚文书中找出与这个最长的短句相似的句子，提取并保存，递归执行直到短文本中所有的语句都被执行过一次； C、抽取数据预处理及向量化：步骤B在行政执法文书中抽出了与标签即短文本相似的语句；对抽取出的文本进行过滤，将文本转换成以空格分割的句子序列；将句子序列编码索引；对得到的文本数据进行全局平均池化之后再引入全词Mask的BERT预训练中文模型，补充平均池化，把分割的句子序列转换为句子向量； D、基于DGCN N的抽取模型的训练：将步骤B中在行政执法文书中抽出的与标签即短文本的句子向量当作标签，将行政执法文书整个文本生成的句子向量作为输入，训练抽取模型； E、基于Un iLM的短文本生成：将通过训练后的抽取模型抽取出来的行政执法文书的关键语句作为输入，人工标注的短文本作为标签，训练生成模型； F、输入执法文书文本进行预测：将需要转化的行政执法文书通过步骤A至步骤C处理后，将得到的处理结果输入训练后的抽取模型，生成抽取结果并保存，抽取结果进一步输入训练后的生成模型，得到适合下游其他任务分析的短文本，最终得到抽取结果和适合下游其他任务分析的短文本。 2.根据权利要求1所述的一种智能行政执法案例信息抽取和案由认定方法，其特征在于，步骤A中，对文本内容进行标注，是指：从行政执法文书中提取所有需要的关键字段，并根据语义重新组合成新的一段仅包括关键目的信息的短文本；在行政处罚文书中对这些短文本进行标注。 3.根据权利要求1所述的一种智能行政执法案例信息抽取和案由认定方法，其特征在于，步骤B中，将行政执法文书中所有长句按照标点符号分割为短句，具体是指：采用jieba分词将行政执法文书文本根据标点符号分割成句子格式，并保存为列表中的元素；将步骤A数据集中标注的短文本根据标点符号进行分句，具体是指：采用jieba分词将标注的短文本分割成短句格式，并保存为数组格式；提取数组中的最长的短句，在列表中的行政执法文书中进行匹配，提取列表中的行政执法文书中和最长的短句最相似的句子并保存，递归地执行此步骤，直到将数组中所有的句子都匹配一遍。 4.根据权利要求3所述的一种智能行政执法案例信息抽取和案由认定方法，其特征在权　利　要　求　书 1/3 页 2 CN 114547230 A 2于，提取列表中的行政执法文书中和最长的短句最相似的句子，具体实现过程如下：假设x1是标注短文本序列X＝[x1,x2,...xn]中的一个句子， ym是行政执法文书序列Y＝ [y1,y2,...ym]中的一个句子，则Flcs如式(1)所示：式(1)中， RLCS是指召回率，是抽取出的文本与短文本中相同字的个数，与人工标签即短文本中字的个数的比值； PLCS是指准确率，是指抽取出的文本与短文本中相同字的个数，与抽取出字的总个数的比值； FLCS就是ROUGE ‑L；针对将标注短文本序列X中的一个句子xn与行政执法文书序列中的所有句子yj， j＝1, 2...m；计算FLCS，取使得FLCS分数最高的行政执法文书序列中的句子yk作为最相似语句并保存，递归地进行此步骤，直到标注短文本序列X中所有句子都匹配完成，将抽取结果保存为 R，即为最相似的句子。 5.根据权利要求1所述的一种智能行政执法案例信息抽取和案由认定方法，其特征在于，步骤C的具体实现过程如下：首先，利用tensorflow中的Tokenizer工具包去除文本中的标点符号、换行符号进行文本预处理；然后，利用Tokenizer工具包的Fit_on_texts方法学习出文本的字典， Word_index就是对应的单词和数字的映射关系Dict，通过这个Dict将每个句子中的每个词转成数字，即 Texts_to_sequences；再次，通过Padding的方法补成同样长度；在用Keras中自带的embedding层进行一个向量化；最后，引入全词Mask的BERT预训练中文模型即Chinese_roberta_wwm_ext_L ‑12_H‑ 768_A‑12预训练模型来补充平均池化。 6.根据权利要求1所述的一种智能行政执法案例信息抽取和案由认定方法，其特征在于，步骤D的具体实现过程如下：将步骤C得到的行政执法文书文本对应的句子向量当作抽取模型的输入，通过一层的 DGCNN提取特征，将提取的特征输入Attention层来完成对序列信息的整合，包括将行政执法文书的句子向量序列编码为一个总的行政执法文书文本向量，将标注短文本的句子向量编码为一个总的标注短文本向量， A ttention层如式(2)所示：式(2)中， α,W都为可训练参数，而Act()为激活函数，取tanch； xi是编码前的序列， x是编码完成后的向量， λi是计算时的权重， softmaxi()是激活函数函数，又称归一化指数函数；之后，把步骤C得到的总的行政执法文书文本对应的句子向量X作为输入，将抽取出的权　利　要　求　书 2/3 页 3 CN 114547230 A 3

专利 一种智能行政执法案例信息抽取和案由认定方法

专利一种智能行政执法案例信息抽取和案由认定方法