(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 20221091985 6.3
(22)申请日 2022.08.02
(65)同一申请的已公布的文献号
申请公布号 CN 114969486 A
(43)申请公布日 2022.08.30
(73)专利权人 平安科技 (深圳) 有限公司
地址 518000 广东省深圳市福田区福田街
道福安社区益田路5033号平 安金融中
心23楼
(72)发明人 朱运 冯伟超 乔建秀
(74)专利代理 机构 深圳市沃德知识产权代理事
务所(普通 合伙) 44347
专利代理师 高杰 于志光
(51)Int.Cl.
G06F 16/9532(2019.01)
G06F 16/9535(2019.01)
G06Q 30/06(2012.01)
G06K 9/62(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(56)对比文件
CN 111914175 A,2020.1 1.10
CN 111949890 A,2020.1 1.17
CN 109242592 A,2019.01.18
CN 112765480 A,2021.0 5.07
WO 201910 6132 A1,2019.0 6.06
CN 112488781 A,2021.0 3.12
CN 112488781 A,2021.0 3.12
CN 111563198 A,2020.08.21
CN 102063433 A,2011.05.18
CN 104484339 A,2015.04.01
CN 112860848 A,2021.0 5.28
CN 106599577 A,2017.04.26
季德强 等.KN N-GWD推荐 模型及其应用. 《应
用科学学报》 .202 2,第40卷(第01期),
审查员 陈曦
(54)发明名称
语料推荐方法、 装置、 设备及存 储介质
(57)摘要
本发明涉及自然语 言领域, 揭露一种语料推
荐方法, 包括: 根据用户的行为数据将搜索语料
集、 热门语料集及个性化语料集分别进行召回,
得到候选搜索语料集、 候选热门语料集及候选个
性化语料集; 将候选搜索语料集、 候选热门语料
集及候选个性化语料集分别进行排序, 并将排序
后的排序搜索语料集、 排序热门语料集及排序个
性化语料集 分别进行重排, 得到重排待推荐语料
集, 从行为数据中识别用户的点击事件, 并根据
点击事件将 重排待推荐语料推送至用户。 本发明
还涉及一种区块链技术, 重排待推荐语料集可存
储在区块链节 点中。 本发明还提出一种语料推荐
装置、 设备以及介质。 本发明可 以提高语料推荐
的效率及准确率。
权利要求书3页 说明书14页 附图3页
CN 114969486 B
2022.11.04
CN 114969486 B
1.一种语料推荐方法, 其特 征在于, 所述方法包括:
获取待推荐语料集, 其中, 所述待推荐语料集包括搜索语料集、 热门语料集及个性化语
料集;
获取用户的行为数据, 根据所述行为数据将所述搜索语料集、 所述热门语料集及所述
个性化语料集分别进行召回, 得到与所述用户行为相关联 的候选搜索语料集、 候选热门语
料集及候选个性 化语料集;
将所述候选搜索语料集、 所述候选热门语料集及所述候选个性化语料集分别进行排
序, 得到排序搜索语料集、 排序热门语料集及排序个性 化语料集;
基于所述行为数据将所述排序搜索语料集、 排序 热门语料集及所述排序个性化语料集
分别进行重排, 得到重排待推荐语料集, 并从所述行为数据中识别用户的点击事件, 并根据
所述点击事件将所述重排待推荐语料中与所述点击事件相对应的语料集推送至所述用户,
所述点击事件为所述用户对客户端的页面推荐位置的点击 。
2.如权利要求1所述的语料推荐方法, 其特征在于, 所述根据所述行为数据将所述搜索
语料集、 所述热门语料集及所述个性化语料集分别进 行召回, 得到候选搜索语料集、 候选热
门语料集及候选个性 化语料集, 包括:
根据所述行为数据获取用户输入的查询词, 从所述搜索语料集选取与 所述查询词联系
紧密的语料作为 候选搜索语料集;
从所述热门语料集选取历史热门语料集, 根据预设的时间衰减系数将所述历史热门语
料集进行加权计算, 得到所述 候选热门语料集;
利用预设的双塔语料模型将所述行为数据及所述个性化语料集进行向量召回, 得到所
述候选个性 化语料集。
3.如权利要求2所述的语料推荐方法, 其特征在于, 所述从所述搜索语料集选取与 所述
查询词相关联的语料作为 候选搜索语料集, 包括:
构建所述搜索语料集与所述 查询词的查询链接图;
根据所述查询链接图从所述搜索语料集选取与所述查询词相关联的语料作为候选搜
索语料集。
4.如权利要求2所述的语料推荐方法, 其特征在于, 所述利用预设的双塔语料模型将所
述行为数据及所述个性 化语料集进行向量召回, 得到所述 候选个性 化语料集, 包括:
利用所述双塔语料模型中的用户网络层提取所述行为数据的行为特征, 并将所述行为
特征进行编码, 得到用户特 征向量;
利用所述双塔语料模型中的语料网络层提取所述个性化语料集的个性化语料特征, 并
将所述个性 化语料特征进行编码, 得到个性 化语料特征向量;
计算所述用户特征向量及所述个性化语料特征向量的相似度, 根据所述相似度从所述
个性化语料集中选取与所述行为特 征相关的语料作为所述 候选个性 化语料集。
5.如权利要求1所述的语料推荐方法, 其特征在于, 所述将所述候选搜索语料集、 所述
候选热门语料集及所述候选个性化语料集分别进行排序, 得到排序搜索语料集、 排序热门
语料集及排序个性 化语料集, 包括:
利用预设的语料排序模型分别提取行为数据及所述候选搜索语料集、 所述候选热门语
料集及所述候选个性化语料集的特征, 得到行为特征、 候选搜索语料特征、 候选热门语料特权 利 要 求 书 1/3 页
2
CN 114969486 B
2征及候选个性 化语料特征;
利用所述语料排序模型中的线性网络层将所述行为特征、 所述候选搜索语料特征、 所
述候选热门语料特征及所述候选个性化语料特征进行第一预测排序, 得到第一预测排序语
料集;
利用所述语料排序模型中的深度神经网络层将所述行为特征、 所述候选搜索语料特
征、 所述候选热门语料特征及所述候选个性化语料特征进行第二预测排序, 得到第二预测
排序语料集;
利用所述语料排序模型中的激活函数将所述第一预测排序语料集与所述第二预测排
序语料集进行最终排序, 得到所述排序搜索语料集、 所述排序热门语料集及所述排序个性
化语料集。
6.如权利要求1所述的语料推荐方法, 其特征在于, 所述基于所述行为数据将所述排序
搜索语料集、 排序热门语料集及所述排序个性化语料集分别进行重排, 得到重排待推荐语
料集, 包括:
分别计算所述行为数据与 所述排序搜索语料集、 排序热门语料集及所述排序个性化语
料集中每 个语料的分数;
根据所述分数将所述排序搜索语料集、 排序 热门语料集及所述排序个性化语料集进行
全局重排, 得到所述重排待推荐语料集。
7.如权利要求1所述的语料推荐方法, 其特征在于, 所述获取待推荐语料集之后, 所述
方法还包括:
删除所述待推荐语料集中的异常数据, 得到初始待推荐语料集;
删除所述初始待推荐语料集中的重复数据, 得到清洗后的待推荐语料集。
8.一种语料推荐装置, 其特 征在于, 所述装置包括:
语料获取模块, 用于获取待推荐语料集, 其中, 所述待推荐语料集包括搜索语料集、 热
门语料集及个性 化语料集;
语料召回模块, 用于获取用户的行为数据, 根据 所述行为数据将所述搜索语料集、 所述
热门语料集及所述个性化语料集分别进行召回, 得到与所述用户行为相关联的候选搜索语
料集、 候选热门语料集及候选个性 化语料集;
语料排序模块, 用于将所述候选搜索语料集、 所述候选热门语料集及所述候选个性化
语料集分别进行排序, 得到排序搜索语料集、 排序热门语料集及排序个性 化语料集;
语料推荐模块, 用于基于所述行为数据将所述排序搜索语料集、 排序热门语料集及所
述排序个性化语料集分别进行重排, 得到重排待推荐语料集, 并从所述行为数据中识别用
户的点击事件, 并根据所述点击事件将所述重排待推荐语料中与所述点击事件相对应的语
料集推送至所述用户, 所述 点击事件为所述用户对客户端的页面推荐位置的点击 。
9.一种电子设备, 其特 征在于, 所述电子设备包括:
至少一个处 理器; 以及,
与所述至少一个处 理器通信连接的存 储器; 其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序, 所述计算机程序被所
述至少一个处理器执行, 以使 所述至少一个处理器能够执行如权利要求 1至7中任一项所述
的语料推荐方法。权 利 要 求 书 2/3 页
3
CN 114969486 B
3
专利 语料推荐方法、装置、设备及存储介质
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:37:17上传分享