专利零样本条件下基于逆向匹配的画像映射方法、装置和介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210448769.4 (22)申请日 2022.04.26 (71)申请人国家计算机网络与信息安全管理中心地址 100029 北京市朝阳区裕民路甲3号 (72)发明人任博雅　吕远　李婧蕾　佟玲玲　井雅琪　徐雅静　段运强　孙旷怡　余翠玲　 (74)专利代理机构北京远创理想知识产权代理事务所(普通合伙) 11513 专利代理师卫安乐 (51)Int.Cl. G06F 16/335(2019.01) G06F 16/35(2019.01) G06F 16/951(2019.01)G06F 40/242(2020.01) G06F 40/279(2020.01) G06F 40/30(2020.01) G06N 3/08(2006.01) (54)发明名称零样本条件下基于逆向匹配的画像映射方法、装置和介质 (57)摘要本发明涉及一种零样本条件下基于逆向匹配的画像映射方法，包括在数据特征标签和画像标签两个不同体系间建构双相关文本语料库，使用逆向匹配对语料库进行筛选修正；通过人工标注构建分类语料库，并训练模型建立画像体系间的映射关系；采用基于持续响应衰减的更新机制，并结合标签历史状态对时序变化的画像相关更新数据进行修正。本方法从扩展数据的角度出发，采用基于逆向匹配的文本库构建方法，引入与原始标签相关的外部文本数据扩展并增强标签的语义表达，再引入与用户画像相关的外部数据进行标注建立扩展标签和标注数据之间的联系，从而挖掘出原始特征标签隐含的丰富含义，达到从少量标签序列中计算目标画像的目的。权利要求书2页说明书7页附图2页 CN 114817516 A 2022.07.29 CN 114817516 A 1.一种零样本条件下基于逆向匹配的画像映射方法，其特征在于，所述方法包括： S1、根据目标画像体系标签搜集外部文本知识，构建文本语料库，采用无监督的方式扩充已知特征标签以增加得到的文本语料库中特征标签的命中率，得到扩展特征词典； S2、基于所述扩展特征词典，对所述文本语料库中的样本进行筛选，筛去不包含所述扩展特征词典中特征的样本，逆向构建已知特征标签 ‑目标画像体系双相关的语料库，对所述已知特征标签‑目标画像体系双相关的语料库进行人工数据标注，得到训练集； S3、基于所述扩展特征词典，将所述训练集转化为样本的特征表示，建立所述特征标签与所述训练集中的训练文本的映射关系，以所述已知特征标签 ‑目标画像体系双相关的语料库中的标注样本为中间媒介，训练从所述特征标签到目标画像标签的分类器，得到映射模型； S4、将利用所述分类器对从所述特征标签到目标画像标签进行分类的分类结果与历史分类状态相结合，得到所述已知特征标签到所述目标画像标签的映射。 2.如权利要求1所述的方法，其特征在于，所述S1中具体包括：对网页信息特征标签集合中的特征标签进行分词，得到特征词典的种子集；使用预处理后的图像建立图像库，利用互联网文本信息无监督预训练得到词向量模型；将所述特征词典种子集中的词语依次输入所述词向量模型中，得到所述特征词典种子集中的词语的近义词，将所述近义词加入所述特征词典，得到所述扩展特征词典。 3.如权利要求2所述的方法，其特征在于，所述S2中具体包括：根据目标IP画像体系中的IP画像标签，搜集与所述IP画像标签相关的主流网站及应用程序APP；利用爬虫工具爬取所述主流网站和所述应用程序APP的非结构化文本信息，构建目标画像域的文本语料库；根据所述扩展特征词典，使用AC自动机对所述文本语料库进行筛选。 4.如权利要求3所述的方法，其特征在于，所述S3中具体包括：人工对所述已知特征标签‑目标画像体系双相关的语料库进行标注，得到训练集；根据所述扩展特征词典生成特征标签的向量表示；使用监督分类模型对每个所述IP画像标签进行映射建模。 5.如权利要求 4所述的方法，其特征在于，所述S4中具体包括：基于网页信息特征标签集合中的特征标签生成向量，使用所述映射模型，对当前时段更新的所述目标IP画像体系中的IP画像标签计算IP画像；根据当前时段计算得到的所述IP画像和前一时刻的综合历史状态，计算当前时刻用户的最终的综合分组归属程度预测状态，并为下一时刻的历史状态进行迭代；根据归属阈值和所述当前时刻用户的最终的综合分组归属程度预测状态，得到所述IP 画像归属判别标签，其中所述归属阈值由所有所述 IP画像的标签值进行计算分级得到。 6.一种零样本条件下基于逆向匹配的画像映射装置，其特征在于，所述装置包括：构建模块，用于根据目标画像体系标签搜集外部文本知识，构建文本语料库，采用无监督的方式扩充已知特征标签以增加得到的文本语料库中特征标签的命中率，得到扩展特征词典；权　利　要　求　书 1/2 页 2 CN 114817516 A 2训练模块，用于基于所述扩展特征词典，对所述文本语料库中的样本进行筛选，筛去不包含所述扩展特征词典中特征的样本，逆向构建已知特征标签 ‑目标画像体系双相关的语料库，对所述已知特征标签 ‑目标画像体系双相关的语料库进行人工数据标注，得到训练集；建模模块，用于基于所述扩展特征词典，将所述训练集转化为样本的特征表示，建立所述特征标签与所述训练集中的训练文本的映射关系，以所述已知特征标签 ‑目标画像体系双相关的语料库中的标注样本为中间媒介，训练从所述特征标签到目标画像标签的分类器，得到映射模型；映射模块，用于将利用所述分类器对从所述特征标签到目标画像标签进行分类的分类结果与历史分类状态相结合，得到所述已知特征标签到所述目标画像标签的映射。 7.如权利要求6所述的装置，其特征在于，所述构建模块，具体用于对网页信息特征标签集合中的特征标签进行分词，得到特征词典的种子集；使用预处理后的图像建立图像库，利用互联网文本信息无监督预训练得到词向量模型；将所述特征词典种子集中的词语依次输入所述词向量模型中，得到所述特征词典种子集中的词语的近义词，将所述近义词加入所述特征词典，得到所述扩展特征词典。 8.如权利要求6所述的装置，其特征在于，所述训练模块，具体用于根据目标IP画像体系中的IP画像标签，搜集与所述IP画像标签相关的主流网站及应用程序AP P；利用爬虫工具爬取所述主流网站和所述应用程序APP的非结构化文本信息，构建目标画像域的文本语料库；根据所述扩展特征词典，使用AC自动机对所述文本语料库进行筛选。 9.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该程序指令被处理器执行时实现权利要求1至 5中任一项所述方法的步骤。 10.一种电子设备，其特征在于，包括：存储器，其上存储有计算机程序；处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1至 5中任一项所述方法的步骤。权　利　要　求　书 2/2 页 3 CN 114817516 A 3

专利 零样本条件下基于逆向匹配的画像映射方法、装置和介质

专利零样本条件下基于逆向匹配的画像映射方法、装置和介质