专利跨语言文本语义模型的生成方法、装置及电子设备

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202111647494.9 (22)申请日 2021.12.2 9 (65)同一申请的已公布的文献号申请公布号 CN 114417879 A (43)申请公布日 2022.04.29 (73)专利权人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦二层 (72)发明人韩雅倩　王硕寰　孙宇　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 专利代理师杜月 (51)Int.Cl. G06F 40/30(2020.01) G06F 16/35(2019.01)G06K 9/62(2022.01) (56)对比文件 CN 112001181 A,2020.1 1.27 CN 1097109 23 A,2019.0 5.03 CN 10871 1420 A,2018.10.26 CN 1091452 92 A,2019.01.04 CN 112182255 A,2021.01.0 5 CN 112528681 A,2021.0 3.19 CN 113779978 A,2021.12.10 US 2016179 945 A1,2016.0 6.23 金卓林，朱聪慧.跨语言语义向量的生成模型. 《智能计算机与应用》 .2020, 审查员郝强 (54)发明名称跨语言文本语义模型的生成方法、装置及电子设备 (57)摘要本公开提供了一种跨语言文本语义模型的生成方法、装置及电子设备，涉及数据处理技术领域，尤其涉及自然语言处理、深度学习等人工智能技术领域。包括：获取训练数据集，其中，训练数据集中包括单语言非平行文本及双语言平行文本；将训练数据集中各文本分别输入初始文本语义模型，以确定每个文本对应的语义向量；根据每个文本对应的语义向量，确定每两个文本对应的语义向量间的距离；根据每两个文本间的平行关系及对应的语义向量间的距离，确定修正梯度；基于修正梯度，对初始文本语义模型进行修正，以获取修正后的文本语义模型。由此，文本语义模型可以对各种语言文本进行处理，以准确确定其对应的语义向量，为跨语言文本语义匹配提供了条件。权利要求书2页说明书11页附图4页 CN 114417879 B 2022.12.27 CN 114417879 B 1.一种跨语言文本语义模型的生成方法，其中，包括：获取训练数据集，根据所述训练数据集中包含的文本数量，将所述训练数据集进行划分，以获取多个训练子集，其中，所述训练数据集中包括单语言非平行文本及双语言平行文本；将所述训练子集中各文本分别输入初始文本语义模型，以确定所述训练子集中每个文本对应的语义向量，所述初始文本语义模型为多语言训练模型；根据每个文本对应的语义向量，确定每两个所述文本对应的语义向量间的距离；根据每个训练子集中每两个所述文本间的平行关系及对应的语义向量间的距离，确定所述训练子集对应的修正梯度；基于所述修正梯度，对所述初始文本语义模型进行修正，以获取修正后的文本语义模型。 2.如权利要求1所述的方法，其中，根据每个训练子集中每两个所述文本间的平行关系及对应的语义向量间的距离，确定所述训练子集对应的修正梯度，包括：响应于第一文本与第二文本为平行文本，确定所述第一文本与第二文本间的第一语义向量距离，及所述第一文本分别与各其余文本间的第二语义向量距离；根据所述第一语义向量距离与所述各第二语义向量距离，确定损失值；根据所述损失值，确定修正梯度。 3.如权利要求2所述的方法，其中，所述根据所述第一语义向量距离与所述各第二语义向量距离，确定损失值，包括：根据所述第一语义向量距离与每个所述第二语义向量距离间的差值，确定所述损失值；或者，根据所述第一语义向量距离与第一阈值的差值及每个所述第二语义向量距离与第二阈值的差值，确定所述损失值；或者，根据所述第一语义向量距离与语义向量距离和的比值，确定所述损失值，其中，所述语义向量距离和为所述第一语义向量距离与各个第二语义向量距离间的和。 4.一种文本语义的确定方法，其中，包括：获取待识别的文本；将所述待识别的文本输入预设的文本语义模型，以确定所述待识别的文本对应的语义向量，其中，所述预设的文本语义模型为基于如权利要求1 ‑3任一所述的方法生成的。 5.一种跨语言文本语义模型的生成装置，其中，包括：第一获取模块，用于获取训练数据集，根据所述训练数据集中包含的文本数量，将所述训练数据集进行划分，以获取多个训练子集，其中，所述训练数据集中包括单语言非平行文本及双语言平行文本；第一确定模块，用于将所述训练子集中各文本分别输入初始文本语义模型，以确定所述训练子集中每个文本对应的语义向量，所述初始文本语义模型为多语言训练模型；第二确定模块，用于根据每个文本对应的语义向量，确定每两个所述文本对应的语义向量间的距离；第三确定模块，用于根据每个训练子集中每两个所述文本间的平行关系及对应的语义向量间的距离，确定所述训练子集对应的修正梯度；权　利　要　求　书 1/2 页 2 CN 114417879 B 2修正模块，用于基于所述修正梯度，对所述初始文本语义模型进行修正，以获取修正后的文本语义模型。 6.如权利要求5所述的装置，其中，所述第三确定模块，包括：第一确定单元，用于响应于第一文本与第二文本为平行文本，确定所述第一文本与第二文本间的第一语义向量距离，及所述第一文本分别与各其余文本间的第二语义向量距离；第二确定单元，用于根据所述第一语义向量距离与所述各第二语义向量距离，确定损失值；第三确定单元，用于根据所述损失值，确定修正梯度。 7.如权利要求6所述的装置，其中，所述第二确定单元，具体用于：根据所述第一语义向量距离与每个所述第二语义向量距离间的差值，确定所述损失值；或者，根据所述第一语义向量距离与第一阈值的差值及每个所述第二语义向量距离与第二阈值的差值，确定所述损失值；或者，根据所述第一语义向量距离与语义向量距离和的比值，确定所述损失值，其中，所述语义向量距离和为所述第一语义向量距离与各个第二语义向量距离间的和。 8.一种文本语义的确定装置，其中，包括：获取模块，用于获取待识别的文本；确定模块，用于将所述待识别的文本输入预设的文本语义模型，以确定所述待识别的文本对应的语义向量，其中，所述预设的文本语义模型为基于如权利要求5 ‑7任一所述的装置生成的。 9.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1 ‑4所述的方法。 10.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1 ‑4中任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 114417879 B 3

专利 跨语言文本语义模型的生成方法、装置及电子设备

专利跨语言文本语义模型的生成方法、装置及电子设备