全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210448769.4 (22)申请日 2022.04.26 (71)申请人 国家计算机网络与信息安全管理中 心 地址 100029 北京市朝阳区裕民路甲3号 (72)发明人 任博雅 吕远 李婧蕾 佟玲玲  井雅琪 徐雅静 段运强 孙旷怡  余翠玲  (74)专利代理 机构 北京远创理想知识产权代理 事务所(普通 合伙) 11513 专利代理师 卫安乐 (51)Int.Cl. G06F 16/335(2019.01) G06F 16/35(2019.01) G06F 16/951(2019.01)G06F 40/242(2020.01) G06F 40/279(2020.01) G06F 40/30(2020.01) G06N 3/08(2006.01) (54)发明名称 零样本条件下基于逆向匹配的画像映射方 法、 装置和介质 (57)摘要 本发明涉及一种零样本条件下基于逆向匹 配的画像映射方法, 包括在数据特征标签和画像 标签两个不同体系间建构双相关文本语料库, 使 用逆向匹配对语料库进行筛选修正; 通过人工标 注构建分类语料库, 并训练模型建立画像体系间 的映射关系; 采用基于持续响应衰减的更新机 制, 并结合标签历史状态对时序变化的画像相关 更新数据进行修正。 本方法从扩展数据的角度出 发, 采用基于逆向匹配的文本库构建方法, 引入 与原始标签相关的外部文本数据扩展并增强标 签的语义表达, 再引入与用户画 像相关的外部数 据进行标注建立扩展标签和标注数据之间的联 系, 从而挖掘出原始特征标签隐含的丰富含义, 达到从少量标签序列中计算目标画像的目的。 权利要求书2页 说明书7页 附图2页 CN 114817516 A 2022.07.29 CN 114817516 A 1.一种零样本条件下基于逆向匹配的画像映射方法, 其特 征在于, 所述方法包括: S1、 根据目标画像体系标签搜集外部文本知识, 构建文本语料库, 采用无监督的方式扩 充已知特 征标签以增 加得到的文本语料库中特 征标签的命中率, 得到扩展特 征词典; S2、 基于所述扩展特征词典, 对所述文本语料库中的样本进行筛选, 筛去不包含所述扩 展特征词典 中特征的样本, 逆向构建已知特征标签 ‑目标画像体系双相关的语料库, 对所述 已知特征标签‑目标画像 体系双相关的语料库进行 人工数据标注, 得到训练集; S3、 基于所述扩展特征词典, 将所述训练集转化为样本的特征表示, 建立所述特征标签 与所述训练集中的训练文本的映射关系, 以所述已知特征标签 ‑目标画像体系双相关的语 料库中的标注样本为中间媒介, 训练从所述特征标签到目标画像标签的分类器, 得到映射 模型; S4、 将利用所述分类器对从所述特征标签到目标画像标签进行分类的分类结果与历史 分类状态相结合, 得到所述已知特 征标签到所述目标画像标签的映射。 2.如权利要求1所述的方法, 其特 征在于, 所述S1中具体包括: 对网页信息特 征标签集合中的特 征标签进行分词, 得到特 征词典的种子集; 使用预处理后的图像建立图像库, 利用互联网文本信息无监督预训练得到词向量模 型; 将所述特征词典种子集中的词语依次输入所述词向量模型中, 得到所述特征词典种子 集中的词语的近义词, 将所述近义词加入所述特 征词典, 得到所述扩展特 征词典。 3.如权利要求2所述的方法, 其特 征在于, 所述S2中具体包括: 根据目标IP画像体系中的IP画像标签, 搜集与所述IP画像标签相关的主流网站及应用 程序APP; 利用爬虫工具爬取所述主流网站和所述应用程序APP的非结构化文本信息, 构建目标 画像域的文本语料库; 根据所述扩展特 征词典, 使用AC自动机对所述文本语料库进行筛 选。 4.如权利要求3所述的方法, 其特 征在于, 所述S3中具体包括: 人工对所述已知特 征标签‑目标画像 体系双相关的语料库进行 标注, 得到训练集; 根据所述扩展特 征词典生成特 征标签的向量表示; 使用监督分类模型对每 个所述IP画像标签进行映射建模。 5.如权利要求 4所述的方法, 其特 征在于, 所述S4中具体包括: 基于网页信息特征标签集合中的特征标签生成向量, 使用所述映射模型, 对当前时段 更新的所述目标IP画像 体系中的IP画像标签 计算IP画像; 根据当前时段计算得到的所述IP画像和前一 时刻的综合历史状态, 计算当前时刻用户 的最终的综合分组归属程度预测状态, 并为下一时刻的历史状态进行迭代; 根据归属阈值和所述当前时刻用户的最终的综合分组归属程度 预测状态, 得到所述IP 画像归属判别标签, 其中所述归属阈值由所有所述 IP画像的标签值进行计算分级得到 。 6.一种零样本条件下基于逆向匹配的画像映射装置, 其特 征在于, 所述装置包括: 构建模块, 用于根据目标画像体系标签搜集外部文本知识, 构建文本语料库, 采用无监 督的方式扩充已知特征标签以增加得到的文本语料库中特征标签的命中率, 得到扩展 特征 词典;权 利 要 求 书 1/2 页 2 CN 114817516 A 2训练模块, 用于基于所述扩展特征词典, 对所述文本语料库中的样本进行筛选, 筛去不 包含所述扩展特征词典中特征 的样本, 逆向构建已知特征标签 ‑目标画像体系双相关的语 料库, 对所述已知特征标签 ‑目标画像体系双相关的语料库进行人工数据标注, 得到训练 集; 建模模块, 用于基于所述扩展特征词典, 将所述训练集转化为样本的特征表示, 建立所 述特征标签与所述训练集中的训练文本的映射关系, 以所述已知特征标签 ‑目标画像体系 双相关的语料库中的标注样本为中间媒介, 训练从所述特征标签到目标画像标签的分类 器, 得到映射模型; 映射模块, 用于将利用所述分类器对从所述特征标签到目标画像标签进行分类的分类 结果与历史分类 状态相结合, 得到所述已知特 征标签到所述目标画像标签的映射。 7.如权利要求6所述的装置, 其特 征在于, 所述构建模块, 具体用于对网页信息特征标签集合中的特征标签进行分词, 得到特征 词典的种子集; 使用预处理后的图像建立图像库, 利用互联网文本信息无监督预训练得到词向量模 型; 将所述特征词典种子集中的词语依次输入所述词向量模型中, 得到所述特征词典种子 集中的词语的近义词, 将所述近义词加入所述特 征词典, 得到所述扩展特 征词典。 8.如权利要求6所述的装置, 其特 征在于, 所述训练模块, 具体用于根据目标IP画像体系中的IP画像标签, 搜集与所述IP画像标 签相关的主流网站及应用程序AP P; 利用爬虫工具爬取所述主流网站和所述应用程序APP的非结构化文本信息, 构建目标 画像域的文本语料库; 根据所述扩展特 征词典, 使用AC自动机对所述文本语料库进行筛 选。 9.一种计算机可读存储介质, 其上存储有计算机程序指令, 其特征在于, 该程序指令被 处理器执行时实现权利要求1至 5中任一项所述方法的步骤。 10.一种电子设备, 其特征在于, 包括: 存储器, 其上存储有计算机程序; 处理器, 用于执 行所述存储器中的所述计算机程序, 以实现权利要求1至 5中任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114817516 A 3

.PDF文档 专利 零样本条件下基于逆向匹配的画像映射方法、装置和介质

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 零样本条件下基于逆向匹配的画像映射方法、装置和介质 第 1 页 专利 零样本条件下基于逆向匹配的画像映射方法、装置和介质 第 2 页 专利 零样本条件下基于逆向匹配的画像映射方法、装置和介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:52:46上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。