说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210179810.2 (22)申请日 2022.02.25 (71)申请人 安阳师范学院 地址 455000 河南省安阳市开发区弦歌大 道436号 (72)发明人 杜丙新 汪向征  (74)专利代理 机构 深圳青年人专利商标代理有 限公司 4 4350 专利代理师 吴桂华 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/211(2020.01) G06F 40/30(2020.01) (54)发明名称 一种文本标注推荐方法、 装置、 设备及存储 介质 (57)摘要 本发明适用计算机技术领域, 提供了一种文 本标注推荐方法、 装置、 设备及存储介质, 所述方 法包括: 获取待标注文本, 对待标注文本进行预 处理, 以得到词语集合, 基于词语集合通过预训 练模型获取表 示待标注文本的词语特征集, 根据 词语特征集, 获取表示待 标注文本每个句子的句 子特征, 利用预设的聚类算法对句子特征进行聚 类, 以生成各个类别对应的伪标签, 对各个类别 进行主题词挖掘, 为每个类别确定实际类别标签 和对应的主题词集合, 根据每个句子的实际类别 标签和对应的主题词集合生成待标注文本的标 注建议, 从而提高文本标注的准确性。 权利要求书2页 说明书7页 附图3页 CN 114661900 A 2022.06.24 CN 114661900 A 1.一种文本标注推荐方法, 其特 征在于, 所述方法包括: 获取待标注文本, 对所述待标注文本进行 预处理, 以得到词语集 合; 基于所述词语集合, 通过预训练模型获取表示所述待标注文本的词语特征集, 根据所 述词语特 征集, 获取表示所述待标注文本每 个句子的句子特 征; 利用预设的聚类算法对所述句子特 征进行聚类, 以生成各个 类别对应的伪标签; 对所述各个类别进行主题词挖掘, 为每个类别确定实际类别标签和对应的主题词集 合; 根据每个句子的实际类别标签和对应的主题词集 合生成所述待标注文本的标注建议。 2.如权利要求1所述的文本标注推荐方法, 其特征在于, 对所述各个类别进行主题词挖 掘, 为每个类别确定实际类别标签和对应的主题词集合的步骤之后, 根据每个句 子的实际 类别标签和对应的主题词集 合生成所述待标注文本的标注建议的步骤之前, 包括: 接收领域专家对所述实际类别标签的修改和/或合并请求, 基于所述修改和/或合并请 求, 对相应类别的实际类别标签进 行修改、 和/或对相应类别的实际类别标签以及 对应的主 题词集合进行合并, 以得到更新的实际类别标签和对应的主题词集 合。 3.如权利要求2所述的文本标注推荐方法, 其特征在于, 对相应类别的实际类别标签进 行修改、 和/或对相应类别的实际类别标签以及对应的主题词集合进 行合并的步骤之后, 还 包括: 将所述更新的实际类别标签和对应的主题词集合输入到所述预训练模型, 以使所述预 训练模型根据所述更新的实际类别标签和对应的主题词集合进行训练, 以更新所述预训练 模型。 4.如权利要求1所述的文本标注推荐方法, 其特征在于, 对所述各个类别进行主题词挖 掘, 为每个类别确定实际类别标签和对应的主题词集合的步骤之后, 根据每个句 子的实际 类别标签和对应的主题词集 合生成所述待标注文本的标注建议的步骤之前, 还 包括: 将为每个类别确定的实际类别标签和对应的主题词集合存储到预先设置的类别 ‑主题 词数据库中。 5.如权利要求4所述的文本标注推荐方法, 其特征在于, 根据每个句子的类别标签和对 应的主题词集 合生成所述待标注文本的标注建议的步骤之后, 包括: 根据标注员输入的标注结果对所述类别 ‑主题词数据库中相应类别标签和主题词集合 进行更新; 将所述类别 ‑主题词数据库中更新的类别标签和主题词集合输入到所述预训练模型, 以使所述预训练模型根据所述更新的类别标签和主题词集合进行训练, 以更新所述预训练 模型。 6.如权利要求1所述的文本标注推荐方法, 其特征在于, 所述预训练模型采取无监督学 习方式训练得到 。 7.一种文本标注推荐装置, 其特 征在于, 所述装置包括: 预处理单元, 用于获取待标注文本, 对所述待标注文本进行 预处理, 以得到词语集 合; 特征转换单元, 用于基于所述词语集合, 通过预训练模型获取表示所述待标注文本的 词语特征集, 根据所述词语特 征集, 获取表示所述待标注文本每 个句子的句子特 征; 聚类单元, 用于利用预设的聚类算法对所述句子特征进行聚类, 以生成各个类别对应权 利 要 求 书 1/2 页 2 CN 114661900 A 2的伪标签; 主题词挖掘单元, 用于对所述各个类别进行主题词挖掘, 为每个类别确定实 际类别标 签和对应的主题词集 合; 以及 标注建议生成单元, 用于根据每个句子的实际类别标签和对应的主题词集合生成所述 待标注文本的标注建议。 8.如权利要求7 所述的文本标注推荐装置, 其特 征在于, 还 包括: 优化单元, 用于接收领域专家对所述实际类别标签的修改和/或合并请求, 基于所述修 改和/或合并请求, 对相应类别的实际类别标签进行修改、 和/或对相应类别的实际类别标 签以及对应的主题词集 合进行合并, 以得到更新的实际类别标签和对应的主题词集 合。 9.一种计算机设备, 包括存储器、 处理器以及存储在所述存储器中并可在所述处理器 上运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求 1至 6任一项所述文本标注推荐方法的步骤。 10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在 于, 所述计算机程序被处理器执行时实现如权利要求 1至6任一项 所述文本标注推荐方法的 步骤。权 利 要 求 书 2/2 页 3 CN 114661900 A 3

PDF文档 专利 一种文本标注推荐方法、装置、设备及存储介质

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本标注推荐方法、装置、设备及存储介质 第 1 页 专利 一种文本标注推荐方法、装置、设备及存储介质 第 2 页 专利 一种文本标注推荐方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:26上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。