全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210466390.6 (22)申请日 2022.04.29 (71)申请人 北京三快在线科技有限公司 地址 100080 北京市海淀区北四环西路9号 2106-030 (72)发明人 郭林森 彭冲 程兵 华瑜  (74)专利代理 机构 北京润泽恒知识产权代理有 限公司 1 1319 专利代理师 姜影 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) (54)发明名称 文本处理方法、 装置、 电子设备及存 储介质 (57)摘要 本公开实施例提供了一种文本处理方法、 装 置、 电子设备及存储介质。 其中, 文本处理方法包 括: 针对待处理文本中的每个字符, 从待处理文 本中选取字符对应的文本序列; 将 字符对应的文 本序列输入 预训练的知 识词典部分, 通过知 识词 典部分对文本序列对应的子词序列进行知识信 息融合, 得到子词序列的知识融合向量表示, 通 过后处理部分基于子词序列的知识融合向量表 示获取字符的知识融合向量表示; 其中, 知识词 典部分利用样本文本序列和样本文本序列对应 的知识信息标签预训练得到。 本公开实施例中知 识词典部分的预训练过程相比于实体词典和知 识图谱的构建过程更加简便, 并且知识词典部分 能够灵活地与自然语言处理过程结合, 具有良好 的适配性和灵活性。 权利要求书3页 说明书11页 附图5页 CN 114881025 A 2022.08.09 CN 114881025 A 1.一种文本处 理方法, 其特 征在于, 包括: 针对待处 理文本中的每 个字符, 从所述待处 理文本中选取 所述字符对应的文本序列; 将所述字符对应的文本序列输入预训练的知识词典部分, 通过所述知识词典部分对所 述文本序列对应的子词序列进行知识信息融合, 得到所述子词序列的知识融合向量表示, 通过后处理部分基于所述子词序列的知识融合向量表示获取所述字符的知识融合向量表 示; 其中, 所述知识词典部分利用样本文本序列和所述样本文本序列对应的知识信 息标签 预训练得到 。 2.根据权利要求1所述的方法, 其特征在于, 所述知识词典部分包括分词部分和至少一 个嵌入部分, 一个嵌入部分基于一种类型 的样本文本序列预训练得到; 通过所述知识词典 部分对所述文本序列对应的子词 序列进行知识信息融合, 得到所述子词 序列的知识融合向 量表示, 包括: 通过所述分词部分对所述文本序列进行子词粒度的分词, 得到所述文本序列对应的子 词序列; 通过各嵌入部分分别对所述子词序列中的各子词进行知识信 息融合, 得到各嵌入部分 对应的所述子词序列的知识融合向量表示。 3.根据权利要求2所述的方法, 其特征在于, 所述后处理部分包括转换部分和池化部 分; 通过后处理部 分基于所述子词 序列的知识融合向量表示 获取所述字符的知识融合向量 表示, 包括: 通过所述转换部分分别对各嵌入部分对应的所述子词序列的知识融合向量表示进行 子词间的融合处 理, 得到各嵌入部分对应的所述文本序列的知识融合向量表示; 通过所述池化部分对全部嵌入部分对应的所述文本序列的知识融合向量表示进行聚 合处理, 得到所述字符的知识融合向量表示。 4.根据权利要求1所述的方法, 其特征在于, 所述知识词典部分包括分词部分和至少一 个嵌入部 分, 一个嵌入部 分基于一种类型的样 本文本序列预训练得到; 针对任一嵌入部 分, 知识词典部分通过如下 方式预训练得到: 将所述嵌入部分对应类型的样本文本序列输入所述知识词典部分中的分词部分, 通过 所述分词部 分对所述样本文本序列进 行子词粒度的分词, 得到所述样本文本序列对应的样 本子词序列; 通过所述嵌入部分对所述样本子词序列中的各样本子词进行知识信 息融合, 得到所述 样本子词序列的知识融合向量表示; 通过文本卷积神经网络对所述样本子词序列的知识融合向量表示进行融合抽取特征, 得到所述样本文本序列的知识融合向量表示; 基于所述样本文本序列的知识融合向量表示和所述样本文本序列的知识信息标签确 定训练完成后, 得到所述知识词典部分。 5.根据权利要求1所述的方法, 其特征在于, 所述从所述待处理文本 中选取所述字符对 应的文本序列, 包括: 从所述待处理文本 中选取包含所述字符以及所述字符前端和/或后端的至少一个字符 的文本序列, 作为所述字符对应的文本序列。权 利 要 求 书 1/3 页 2 CN 114881025 A 26.一种文本处 理装置, 其特 征在于, 包括: 选取模块, 用于针对待处理文本中的每个字符, 从所述待处理文本中选取所述字符对 应的文本序列; 处理模块, 用于将所述字符对应的文本序列输入预训练的知识词典部分, 通过所述知 识词典部分对所述文本序列对应的子词 序列进行知识信息融合, 得到所述子词 序列的知识 融合向量表示, 通过后处理部 分基于所述子词 序列的知识融合向量表示 获取所述字符的知 识融合向量表示; 其中, 所述知识词典部分利用样本文本序列和所述样本文本序列对应的知识信 息标签 预训练得到 。 7.根据权利要求6所述的装置, 其特征在于, 所述知识词典部分包括分词部分和至少一 个嵌入部分, 一个嵌入部分基于一种类型的样本文本序列预训练得到; 所述处 理模块包括: 分词单元, 用于通过所述分词部分对所述文本序列进行子词粒度的分词, 得到所述文 本序列对应的子词序列; 嵌入单元, 用于通过各嵌入部分分别对所述子词序列中的各子词进行知识信息融合, 得到各嵌入部分对应的所述子词序列的知识融合向量表示。 8.根据权利要求7所述的装置, 其特征在于, 所述后处理部分包括转换部分和池化部 分; 所述处 理模块包括: 转换单元, 用于通过所述转换部分分别对各嵌入部分对应的所述子词序列的知识融合 向量表示进行子词间的融合处理, 得到各嵌入部分对应的所述文本序列的知识融合向量表 示; 池化单元, 用于通过所述池化部分对全部嵌入部分对应的所述文本序列的知识融合向 量表示进行聚合处 理, 得到所述字符的知识融合向量表示。 9.根据权利要求6所述的装置, 其特征在于, 所述知识词典部分包括分词部分和至少一 个嵌入部 分, 一个嵌入部 分基于一种类型的样 本文本序列预训练得到; 针对任一嵌入部 分, 知识词典部分通过如下模块预训练得到: 样本分词模块, 用于将所述嵌入部分对应类型的样本文本序列输入所述知识词典部分 中的分词部分, 通过所述分词部分对所述样本文本序列进行子词粒度的分词, 得到所述样 本文本序列对应的样本 子词序列; 样本嵌入模块, 用于通过所述嵌入部分对所述样本子词序列中的各样本子词进行知识 信息融合, 得到所述样本 子词序列的知识融合向量表示; 卷积模块, 用于通过文本卷积神经网络对所述样本子词序列的知识融合向量表示进行 融合抽取 特征, 得到所述样本文本序列的知识融合向量表示; 确定模块, 用于基于所述样本文本序列的知识融合向量表示和所述样本文本序列的知 识信息标签确定训练完成后, 得到所述知识词典部分。 10.根据权利要求6所述的装置, 其特征在于, 所述选取模块, 具体用于从所述待处理文 本中选取包含所述字符以及所述字符前端和/或后端的至少一个字符的文本序列, 作为所 述字符对应的文本序列。 11.一种电子设备, 其特 征在于, 包括: 一个或多个处 理器; 和权 利 要 求 书 2/3 页 3 CN 114881025 A 3

.PDF文档 专利 文本处理方法、装置、电子设备及存储介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本处理方法、装置、电子设备及存储介质 第 1 页 专利 文本处理方法、装置、电子设备及存储介质 第 2 页 专利 文本处理方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:51:03上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。