全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210987962.5 (22)申请日 2022.08.17 (71)申请人 招商银行股份有限公司 地址 518000 广东省深圳市福田区深南大 道7088招商银行 大厦 (72)发明人 蒲珂宇 杨一枭 刘弘一 贺瑶函  李金龙  (74)专利代理 机构 深圳市世纪恒程知识产权代 理事务所 4 4287 专利代理师 梁爽 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 文本抽取方法、 装置、 设备及存 储介质 (57)摘要 本发明公开了一种文本抽取方法、 装置、 设 备及存储介质, 属于机器学习技术领域。 本发明 通过获取待抽取文本, 并基于待抽取文本确认对 应的抽取条件, 根据抽取条件生成对应的实体标 签数据, 再将待抽取文本和实体标签数据输入预 训练的全局首尾神经网络模型, 通过全局首尾神 经网络模型抽取出目标文本。 在本发 明实施例的 文字提取的过程中, 采用阅读理解技术, 根据不 同的待抽取文本确定抽取条件, 在得到抽取条件 后匹配记有类别的描述信息的实体标注数据, 再 通过预训练的全局首尾神经网络模 型进行抽取, 以解决金融领域里信息抽取中实体嵌套的问题, 提高了识别准确率。 权利要求书2页 说明书10页 附图4页 CN 115357699 A 2022.11.18 CN 115357699 A 1.一种文本抽取 方法, 其特 征在于, 所述文本抽取 方法包括以下步骤: 获取待抽取文本, 并基于所述待抽取文本确认对应的抽取 条件; 根据所述抽取 条件生成所述待抽取文本对应的实体标签数据; 将所述待抽取文本和所述实体标签数据输入预训练 的全局首尾神经网络模型, 抽取出 目标文本 。 2.如权利要求1所述的文本抽取方法, 其特征在于, 所述获取待抽取文本, 并基于所述 待抽取文本确认对应的抽取 条件的步骤之前, 所述方法包括: 创建所述全局首尾神经网络模型, 具体包括: 基于不同类型的文档构建对应的抽取问题, 并获取对应的需要提取的实体的所有类 别, 生成实体 类别描述文本; 基于所述实体 类别描述文本给 所述文档中的文本打上实体标签, 生成训练集数据; 将所述训练集数据输入预训练模型, 解析 得到文本特 征向量; 将所述文本特 征向量输入 全局首尾指针层, 输出全局指针矩阵; 基于所述全局指针矩阵和所述训练集数据, 通过交叉熵损 失函数计算模型的损 失值, 当所述损失值满足预设值时, 训练得到所述全局首尾神经网络模型。 3.如权利要求2所述的文本抽取方法, 其特征在于, 所述将所述文本特征向量输入全局 首尾指针层, 输出全局指针矩阵的步骤 包括: 将所述文本特征向量与所述全局首尾指针层中预构建的第一全连接层和第二全连接 层进行乘积变换, 得到一个启始指针矩阵和一个结尾指针矩阵; 将所述启始指针矩阵与所述全局首尾指针层中的双仿射矩阵进行乘积变换, 得到新启 始指针矩阵; 将所述结尾指针矩阵和所述 新启始指针矩阵进行乘积变换 得到全局指针矩阵。 4.如权利要求2所述的文本抽取方法, 其特征在于, 所述基于所述实体类别描述文本给 所述文档中的文本打上实体标签, 生成训练集数据的步骤 包括: 基于所述实体类别描述文本给所述文档中的文本打上实体标签, 并记录所述实体标签 的类别和所述类别在原 始文字中的位置信息; 基于所述位置信息和所述实体标签的类别, 使用全局指针标签, 输出所述带有实体标 签的数据的类别矩阵; 根据所述实体标签对所述类别矩阵进行值的填充, 生成训练集数据。 5.如权利要求2所述的文本抽取方法, 其特征在于, 所述获取待抽取文本, 并基于所述 待抽取文本确认对应的抽取 条件的步骤 包括: 获取待抽取文档, 并确认所述待抽取文档的类别; 将所述待抽取文本的类别与所述不同类型的文档的类别进行匹配, 得到类别匹配结 果; 基于所述类别匹配结果 生成对应的抽取 条件。 6.如权利要求5所述的文本抽取方法, 其特征在于, 所述根据所述抽取条件生成所述待 抽取文本对应的实体标签数据的步骤 包括: 根据所述抽取 条件获取与所述 不同类型的文档对应的实体 类别描述文本; 基于所述实体 类别描述文本生成所述待抽取文本对应的实体标签数据。权 利 要 求 书 1/2 页 2 CN 115357699 A 27.如权利要求1所述的文本抽取方法, 其特征在于, 所述将获取待抽取文本, 并基于所 述待抽取文本确认对应的抽取 条件的步骤 包括: 获取应用场景需求; 基于所述应用场景需求和所述待抽取文本确认对应的抽取 条件。 8.一种文本抽取装置, 其特 征在于, 所述文本抽取装置包括: 获取模块, 用于获取待抽取文本, 并基于所述待抽取文本确认对应的抽取 条件; 生成模块, 用于根据所述抽取 条件生成所述待抽取文本对应的实体标签数据; 抽取模块, 用于将所述待抽取文本和所述实体标签数据输入预训练的全局首尾神经网 络模型, 抽取 出目标文本 。 9.一种文本抽取设备, 其特征在于, 所述设备包括: 存储器、 处理器及存储在所述存储 器上并可在所述处理器上运行的文本抽取程序, 所述文本抽取程序配置为实现如权利要求 1至7中任一项所述的文本抽取 方法的步骤。 10.一种存储介质, 其特征在于, 所述计算机可读存储介质上存储有文本抽取程序, 所 述文本抽取程序被处 理器执行时实现如权利要求1至7任一项所述的文本抽取 方法的步骤。权 利 要 求 书 2/2 页 3 CN 115357699 A 3

.PDF文档 专利 文本抽取方法、装置、设备及存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本抽取方法、装置、设备及存储介质 第 1 页 专利 文本抽取方法、装置、设备及存储介质 第 2 页 专利 文本抽取方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:43:42上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。