全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210436585.6 (22)申请日 2022.04.21 (71)申请人 平安科技 (深圳) 有限公司 地址 518000 广东省深圳市福田区福田街 道福安社区益田路5033号平 安金融中 心23楼 (72)发明人 刘羲 舒畅 陈又新  (74)专利代理 机构 深圳市沃德知识产权代理事 务所(普通 合伙) 44347 专利代理师 高杰 于志光 (51)Int.Cl. G06F 40/284(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称 关键词提取方法、 装置、 电子设备及存储介 质 (57)摘要 本发明涉及人工智能领域, 揭露一种关键词 提取方法, 包括: 将样本集中每个样本的第一词 语集合拆分为关键词集合和非关键词集合; 将样 本集输入关键词提取模型, 得到关键词集合中每 个词语作为 关键词的第一预测值, 和非关键词集 合中每个词语作为关键词的第二预测值; 基于第 一预测值及第二预测值的大小关系确定目标损 失函数, 通过最小化目标损失函数训练关键词提 取模型; 将目标文本输入训练好的关键词提取模 型, 得到关键词提取结果。 本发明还提供一种关 键词提取装置、 电子设备及存储介质。 本发明提 升了模型泛化能力, 并提高了关键词提取准确 性。 权利要求书3页 说明书11页 附图2页 CN 114818685 A 2022.07.29 CN 114818685 A 1.一种关键词提取 方法, 其特 征在于, 所述方法包括: 获取携带关键词信息的样本集, 对所述样本集中每个样本进行分词处理, 得到所述样 本集中每个样本对应的第一词语集合, 基于所述关键词信息将所述样本集中每个样本的第 一词语集 合拆分为关键词集 合和非关键词集 合; 将所述样本集输入关键词提取模型, 得到所述样本集中每个样本对应的关键词集合中 每个词语作为关键词的第一预测值, 和非关键词集合中每个词语作为关键词的第二预测 值; 基于所述第 一预测值及第 二预测值的大小关系确定目标损失函数, 通过最小化所述目 标损失函数以确定所述关键词提取模型的结构参数, 得到训练好的关键词提取模型; 响应用户基于客户端发出的针对目标文本的关键词提取请求, 确定所述目标文本待提 取的关键词 数量, 将所述 目标文本输入所述训练好的关键词提取模型, 得到所述 目标文本 中每个词语作为关键词的第三预测值, 基于所述关键词数量及第三预测值确定 关键词提取 结果。 2.如权利要求1所述的关键词提取方法, 其特征在于, 所述基于所述第 一预测值及第 二 预测值的大小关系确定目标损失函数, 包括: 为实现所述样本集中每个样本对应的关键词集合中任一词语的第一预测值大于其非 关键词集 合中任一词语的第二预测值的目标, 生成初始损失函数; 根据所述样本集中样本的标注误差, 修 正所述初始损失函数, 得到目标损失函数。 3.如权利要求1所述的关键词提取方法, 其特征在于, 所述将所述样本集输入关键词提 取模型, 得到所述样本集中每个样本对应的关键词集合中每个词语作为关键词的第一预测 值, 和非关键词集 合中每个词语作为关键词的第二预测值, 包括: 将所述样本集输入所述关键词提取模型的词向量转换网络执行词向量转换处理, 得到 所述样本集中每 个样本对应的关键词集 合和非关键词集 合中每个词语的词向量; 将所述词向量输入所述关键词提取模型的句向量提取网络执行句向量提取处理, 得到 所述样本集中每 个样本对应的句向量; 拼接所述句向量及词向量, 得到所述样本集中每个样本对应的关键词集合和非关键词 集合中每个词语的融合特 征; 将所述融合特征输入所述关键词提取模型的关键词识别网络执行关键词识别处理, 得 到所述样本集中每个样本对应的关键词集合中每个词语作为关键词的第一预测值, 和非关 键词集合中每个词语作为关键词的第二预测值。 4.如权利要求1所述的关键词提取方法, 其特征在于, 所述确定所述目标文本待提取的 关键词数量, 包括: 计算所述目标文本的语义丰富度; 获取预先确定的语义丰富度与关键词数量之间的映射关系, 基于所述映射关系及目标 文本的语义丰富度确定所述目标文本待提取的关键词数量。 5.如权利要求4所述的关键词提取方法, 其特征在于, 所述计算所述目标文本的语义丰 富度, 包括: 对所述目标文本执 行分词处 理, 得到第二词语集 合; 剔除所述第二词语集 合中预设类型的词语, 得到所述目标文本对应的重要词语集 合;权 利 要 求 书 1/3 页 2 CN 114818685 A 2根据所述重要词语集 合中词语的数量及长度计算所述目标文本的语义丰富度。 6.如权利要求1所述的关键词提取方法, 其特征在于, 所述基于所述关键词数量及第 三 预测值确定关键词提取 结果, 包括: 将所述目标文本 中每个词语按照第 三预测值从大到小的顺序排序, 得到所述目标文本 对应的词语序列; 将所述词语序列中靠前的所述关键词数量的词语作为所述目标文本的关键词。 7.如权利要求1所述的关键词提取 方法, 其特 征在于, 所述目标损失函数为: 其中, Loss为目标损失值, pim为样本集中第i个样本的关键词集合中第m个词语的第一 预测值, qin为样本集中第i个样本的非关键词集合中第n个词语的第二 预测值, h 为样本集中 样本的总数量, u为样本集中第i个样本的关键词集合中词语的总数量, v为样本集中第i个 样本的非关键词 集合中词语的总数量, pi‑k为样本集中第i个样本的关键词 集合中k个数值 最小的词语的第一预测值的平均值, qi‑l为样本集中第i个样本的非关键词 集合中r个数值 最大的词语的第二预测值的平均值, a、 b为常数。 8.一种关键词提取装置, 其特 征在于, 所述装置包括: 拆分模块, 用于获取携带关键词信息的样本集, 对所述样本集中每个样本进行分词处 理, 得到所述样本集中每个样本对应的第一词语集合, 基于所述关键词信息将所述样本集 中每个样本的第一词语集 合拆分为关键词集 合和非关键词集 合; 输入模块, 用于将所述样本集输入关键词提取模型, 得到所述样本集中每个样本对应 的关键词集合中每个词语作为关键词的第一预测值, 和非关键词集合中每个词语作为关键 词的第二预测值; 训练模块, 用于基于所述第一预测值及第二预测值的大小关系确定目标损 失函数, 通 过最小化所述目标损失函数以确定所述关键词提取模型的结构参数, 得到训练好的关键词 提取模型; 提取模块, 用于响应用户基于客户端发出的针对目标文本的关键词提取请求, 确定所 述目标文本待提取 的关键词数量, 将所述 目标文本输入所述训练好的关键词提取模型, 得 到所述目标文本中每个词语作为关键词的第三预测值, 基于所述关键词数量及第三预测值 确定关键词提取 结果。 9.一种电子设备, 其特 征在于, 所述电子设备包括: 至少一个处 理器; 以及, 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的关键词提取程序, 所述关键词提取 程序被所述至少一个处理器执行, 以使 所述至少一个处理器能够执行如权利要求1至7中任 一项所述的关键词提取 方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有关键词 提取程序, 所述关键词提取程序可被一个或者多个处理器执行, 以实现如权利要求1至7任权 利 要 求 书 2/3 页 3 CN 114818685 A 3

.PDF文档 专利 关键词提取方法、装置、电子设备及存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 关键词提取方法、装置、电子设备及存储介质 第 1 页 专利 关键词提取方法、装置、电子设备及存储介质 第 2 页 专利 关键词提取方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:48:14上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。