全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111624826.1 (22)申请日 2021.12.28 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦二层 (72)发明人 陈炳金 涂佳阳 何东峰 林英展  黄世维  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 代理人 杜月 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/31(2019.01) G06F 40/247(2020.01) G06F 40/289(2020.01)G06F 40/30(2020.01) G06F 16/22(2019.01) G06K 9/62(2022.01) G06N 3/08(2006.01) (54)发明名称 表格问答中的短语泛化方法、 装置、 电子设 备及存储介质 (57)摘要 本申请公开了一种表格问答中的短语泛化 方法、 装置、 电子设备及存储介质, 涉及自然语言 处理、 智能搜索、 深度学习等领域。 具体实现方案 为: 获取用户问题, 并将用户问题转换为向量表 示; 基于向量表示, 从向量空间中召回候选泛化 数据集; 其中, 向量空间中包括用户词表中表格 数据对应的用户词表向量; 对用户问题分词得到 词组集合, 并从词组集合中提取核心词集合; 其 中, 核心词集合中至少包括一个核心词; 精排核 心词集合与候选泛化数据集, 得到核心词集合的 泛化结果。 将用户词表、 用户问题映射到同一个 向量空间, 进而可计算向量相似度作为语义相似 度, 最终得到用户问题中不同片段的泛化结果, 提高了短语泛化精度。 权利要求书2页 说明书10页 附图3页 CN 114416940 A 2022.04.29 CN 114416940 A 1.一种表格问答中的短语泛化方法, 包括: 获取用户问题, 并将所述用户问题转换为向量表示; 基于所述向量表示, 从向量空间中召回候选泛化数据集; 其中, 所述向量空间中包括用 户词表中表格数据对应的用户词表向量; 对所述用户问题分词得到词组集合, 并从所述词组集合中提取核心词集合; 其中, 所述 核心词集 合中至少包括 一个核心词; 精排所述核心词集 合与所述 候选泛化数据集, 得到所述核心词集 合的泛化结果。 2.根据权利要求1所述的方法, 其中, 所述基于所述向量表示, 从向量空间中召回候选 泛化数据集, 包括: 基于所述向量表示, 从所述向量空间对应的语义索引中获取相似度满足预设范围的多 个用户词表向量; 获取所述多个用户词表向量对应的多个表格数据, 并将所述多个表格数据作为候选泛 化数据集。 3.根据权利要求1所述的方法, 其中, 所述精排所述核心词集合与所述候选泛化数据 集, 得到所述核心词集 合的泛化结果, 包括: 获取所述核心词集合之中的当前核心词, 并获取所述当前核心词与 所述候选泛化数据 集中多个候选泛化数据之间的多个相似度得分; 确定所述多个相似度得分中最高的相似度得分所对应的目标候选泛化数据; 并将所述 目标候选泛化数据作为所述当前核心词的泛化结果。 4.根据权利要求3所述的方法, 其中, 所述获取所述当前核心词与所述候选泛化数据集 中多个候选泛化数据之间的多个相似度得分, 包括: 将所述当前核心词与所述候选泛化数据集中之中每个候选泛化数据分别输入预训练 语义模型, 获取所述当前核心词与所述候选泛化数据集中多个候选泛化数据之 间的多个相 似度得分。 5.根据权利要求1所述的方法, 其中, 所述获取用户问题, 并将所述用户问题转换为向 量表示, 包括: 响应于收到包含用户问题的问答请求, 将所述用户问题输入预训练语义模型, 获取将 所述用户问题转换为向量表示。 6.一种表格问答中的短语泛化装置, 包括: 向量转化模块, 用于获取用户问题, 并将所述用户问题转换为向量表示; 候选集获取模块, 用于基于所述向量表示, 从向量空间中召回候选泛化数据集; 其中, 所述向量空间中包括用户词表中表格数据对应的用户词表向量; 核心词获取模块, 用于对所述用户问题分词得到词组集合, 并从所述词组集合中提取 核心词集 合; 其中, 所述核心词集 合中至少包括 一个核心词; 精排模块, 用于精排所述核心词集合与所述候选泛化数据集, 得到所述核心词集合的 泛化结果。 7.根据权利要求6所述的装置, 其中, 所述 候选集获取模块, 具体用于: 基于所述向量表示, 从所述向量空间对应的语义索引中获取相似度满足预设范围的多 个用户词表向量;权 利 要 求 书 1/2 页 2 CN 114416940 A 2获取所述多个用户词表向量对应的多个表格数据, 并将所述多个表格数据作为候选泛 化数据集。 8.根据权利要求6所述的装置, 其中, 所述精排模块, 具体用于: 获取所述核心词集合之中的当前核心词, 并获取所述当前核心词与 所述候选泛化数据 集中多个候选泛化数据之间的多个相似度得分; 确定所述多个相似度得分中最高的相似度得分所对应的目标候选泛化数据; 并将所述 目标候选泛化数据作为所述当前核心词的泛化结果。 9.根据权利要求8所述的装置, 其中, 所述精排模块在获取所述当前核心词与 所述候选 泛化数据集中多个候选泛化数据之间的多个相似度得分时, 用于: 将所述当前核心词与所述候选泛化数据集中之中每个候选泛化数据分别输入预训练 语义模型, 获取所述当前核心词与所述候选泛化数据集中多个候选泛化数据之 间的多个相 似度得分。 10.根据权利要求6所述的装置, 其中, 所述向量 转化模块, 具体用于: 响应于收到包含用户问题的问答请求, 将所述用户问题输入预训练语义模型, 获取将 所述用户问题转换为向量表示。 11.一种电子设备, 其特 征在于, 包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处 理器能够执 行权利要求1-5中任一项所述的方法。 12.一种存储有计算机指令的非瞬时计算机可读存储介质, 其特征在于, 所述计算机指 令用于使所述计算机执 行权利要求1-5中任一项所述的方法。 13.一种计算机程序产品, 包括计算机程序, 其特征在于, 该计算机程序被处理器执行 时实现权利要求1-5中任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114416940 A 3

.PDF文档 专利 表格问答中的短语泛化方法、装置、电子设备及存储介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 表格问答中的短语泛化方法、装置、电子设备及存储介质 第 1 页 专利 表格问答中的短语泛化方法、装置、电子设备及存储介质 第 2 页 专利 表格问答中的短语泛化方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:45:33上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。