全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211002539.1 (22)申请日 2022.08.22 (71)申请人 山东省计算中心 (国家超 级计算济 南中心) 地址 250000 山东省济南市经十路东首 科 学院路19号 (72)发明人 高永超 张单  (74)专利代理 机构 山东恒果知识产权代理有限 公司 37347 专利代理师 张绍磊 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/36(2019.01) G06K 9/62(2022.01) (54)发明名称 一种面向政府热线的可信知识语料自动标 注方法 (57)摘要 本发明涉及数据处理技术领域, 公开了一种 面向政府热线的可信 知识语料自动标注方法, 包 括以下步骤: S1、 政策文件准备S2、 政策文件结构 化处理; S3、 知识信息收集; S4、 信息数据处理; S5、 用户评分处理; S6、 用户评论情感分析处理; S7、 手动小样本标注; S8、 可信分类器模型训练; S9、 模型调优; S10、 自动标注生成。 本发明通过只 需少量人工手动判断作为训练数据集, 作为模型 训练的数据, 可实现对海量知识进行高效率地自 动化标注可信 度; 效率更高, 出错率更低, 解放手 动标注的繁杂工作, 提升知识 语料可信评估精确 度; 可以对没有用户评价的知识进行评估, 对评 估对象的限制较少; 可应用于任何政府热线系统 中, 适应范围大。 权利要求书2页 说明书6页 附图1页 CN 115309902 A 2022.11.08 CN 115309902 A 1.一种面向政 府热线的可信知识语料自动标注方法, 其特 征在于, 包括以下步骤: S1、 政策文件准备: 针对政府热线所提供的公共服务信息咨询, 准备现行的政策法规、 部门职责、 业 务事项及其 他公共服 务信息; S2、 政策文件结构化处理: 按照文件名称、 发布日期、 执行期截止日、 颁布部门、 作用辖 区、 文件正文六个部分, 对文件进行 结构化处 理; S3、 知识信 息收集: 收集政府热线的知识图谱和知识库系统中每条知识的生成时间、 修 订次数、 被访问次数、 用户评价及评分; S4、 信息数据处理: 对每条知识的生成时间、 修订次数以及被访问次数进行归一化处 理; S5、 用户评分处 理: 对每条知识的用户评分计算平均分并做归一 化处理; S6、 用户评论情感分析处理: 针对具有用户评论的知识语料, 默认录入评论的前100个 汉字作为情感分析语料, 若评论不足100汉字则全部录入; 基于知网HowNet的情感分析词 库, 对每条评论进行情感分析, 得到情感得分, 并对情感得分进行处 理; S7、 手动小样本标注: 从政府热线系 统中, 随机抽取500条知识语料进行人工可信评估 标注, 其中, 人工可信评估结果为可信时, 标注为1, 人工可信评估结果为不可信时, 标注为 0; 核查知识语料中引用的文件名是否正确、 知识是否处于文件发布与执行截止日期区间 内、 知识中涉及的相关部门是否与文件内容相符、 知识作用辖区是否与文件内容相符、 知识 在服务列表中的分类是否正确、 知识是否泄漏个人隐私或其他机密信息、 知识逻辑是否与 文件正文内容相符; 若以上核查内容有错 误, 可信评估标注为0; S8、 可信分类器模型训 练: 通过逻辑回归算法将S4、 S5和S6步骤中每条知识的生成时 间、 修订次数、 被访问次数、 用户评价及评分的归一化处理结果, 作为逻辑回归算法模型 的 输入张量, 并配合人工标注的标签进行 可信分类 器模型训练; S9、 模型调优: 通过对逻辑回归算法模型中的sigmoid激活函数进行优化, 以调整正则 化系数, 从而优化可信分类 器模型训练中出现的混淆矩阵的显示结果; S10、 自动标注生成: 将收集并处理后的所有知识的生成时间、 修订次数、 被访问次数、 用户评价及评 分的归一化值作为张量输入至可信分类器模型中, 可信分类器模型自动推理 出知识的可信度值, 实现对知识语料进行 可信自动标注, 可信度值区间为[0,  1]。 2.根据权利要求1所述的一种面向政府热线的可信知识语料自动标注方法, 其特征在 于, 所述S4 步骤中归一 化处理的公式如下: 上式 (1) 中, 为归一化后数值, 为归一化前数值, 和 分别为每类 数据中的最小 值和最大值; 若本条知识无相关数据, 则 默认为0。 3.根据权利要求1所述的一种面向政府热线的可信知识语料自动标注方法, 其特征在 于, 所述S5步骤中归一 化处理的公式如下: 权 利 要 求 书 1/2 页 2 CN 115309902 A 2其中 为某条知识的所有用户评分均值 的归一化后数值, 为第 个用户的评分值, 为所有用户评分总次数, 为评分的满分数值; 若本条知识无用户评分, 则 默认为0。 4.根据权利要求1所述的一种面向政府热线的可信知识语料自动标注方法, 其特征在 于, 所述S6步骤中情感分析的公式如下: 上式 (3) 中, 为情感得分, 得分大于0时, 用户评论为正向褒义评价; 得分等于0时, 用户 评论为中性评价; 得分小于0时, 用户评论为负面贬 义评价; 为第 个汉字在情感分析词库 中的情感得分, 当此汉字在情感分析词 库中的情感分类为 “好”或“乐”时得分为 1, 情感分类 为“惊”时得分为0, 其 余情感分类时得分为 ‑1; 为录入汉字数; 且S6步骤中情感得分处 理的公式如下: 上式 (4) 中, 为用户评论的情感分析归一 化后数值, 为情感得分。 5.根据权利要求1所述的一种面向政府热线的可信知识语料自动标注方法, 其特征在 于, 所述S7步骤中的人工可信评估标注根据已经完成文件结构化的现行的政策法规、 行政 职能职责、 办事流 程及其他公共服 务信息。 6.根据权利要求1所述的一种面向政府热线的可信知识语料自动标注方法, 其特征在 于, 所述S9步骤中sigmo id激活函数优化方法如下: S91、 创建正则化系数列表[0.1,  0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9]; S92、 将列表中的系数分别用于模型训练, 并查看召回率高的系数; S93、 选择召回率 最高的系数作为逻辑回归算法模型的最优参数。权 利 要 求 书 2/2 页 3 CN 115309902 A 3

.PDF文档 专利 一种面向政府热线的可信知识语料自动标注方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向政府热线的可信知识语料自动标注方法 第 1 页 专利 一种面向政府热线的可信知识语料自动标注方法 第 2 页 专利 一种面向政府热线的可信知识语料自动标注方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:41:29上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。