全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111646060.7 (22)申请日 2021.12.2 9 (71)申请人 科大讯飞股份有限公司 地址 230088 安徽省合肥市高新区望江西 路666号 (72)发明人 张镇荣 张建树  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 代理人 宋东阳 (51)Int.Cl. G06V 10/26(2022.01) G06V 10/40(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01)G06N 3/04(2006.01) (54)发明名称 表格图像处理方法、 相关设备及可读存储介 质 (57)摘要 本申请公开了一种表格图像处理方法、 相关 设备及可读存储介质, 在获取待处理的表格图像 之后, 先对该表格图像进行分割, 得到该表格图 像对应的基础网格单元, 然后, 确定出各基础网 格单元的视觉特征以及各基础网格单元的文本 语义特征, 再基于各基础网格单元的视觉特征以 及各基础网格单元的文本语义特征, 确定各基础 网格单元的结构信息, 最后, 根据各基础网格单 元的结构信息, 生成该表格图像对应的表格。 本 方案中, 在将表格图像转化为表格时, 同时考虑 了表格图像的视觉信息以及 文本语义信息, 相对 于仅利用表格图像的视觉信息转化表格, 提升了 转化的表格的精度。 权利要求书2页 说明书11页 附图5页 CN 114255346 A 2022.03.29 CN 114255346 A 1.一种表格图像处 理方法, 其特 征在于, 所述方法包括: 获取待处 理的表格图像; 对所述表格图像进行分割, 得到所述表格图像对应的基础网格单 元; 针对每个基础网格单元, 确定所述基础网格单元的视觉特征以及各基础网格单元的文 本语义特 征; 基于各基础网格单元的视觉特征以及各基础网格单元的文本语义特征, 确定各基础网 格单元的结构信息; 根据所述各基础网格单 元的结构信息, 生成所述表格图像对应的表格。 2.根据权利要求1所述的方法, 其特征在于, 所述对所述表格图像进行分割, 得到所述 表格图像对应的基础网格单 元, 包括: 对所述表格图像进行视 觉特征提取, 得到所述表格图像的视 觉特征; 基于所述表格图像的视 觉特征, 确定所述表格图像中的表格线位置信息; 基于所述表格图像中的表格线位置信息, 对所述表格图像进行分割, 得到所述表格图 像对应的基础网格单 元。 3.根据权利要求1所述的方法, 其特 征在于, 确定所述基础网格单 元的视觉特征, 包括: 获取所述表格图像的视 觉特征; 从所述表格图像的视 觉特征中提取 得到所述基础网格单 元的视觉特征。 4.根据权利要求1所述的方法, 其特征在于, 确定所述基础网格单元的文本语义特征, 包括: 识别所述基础网格单 元对应的文本内容; 对所述文本内容进行语义特 征提取, 得到所述基础网格单 元的文本语义特 征。 5.根据权利要求1所述的方法, 其特征在于, 所述基于各基础网格单元的视觉特征以及 各基础网格单 元的文本语义特 征, 确定各基础网格单 元的结构信息, 包括: 基于各基础网格单元的视觉特征以及各基础网格单元的文本语义特征, 确定各基础网 格单元的全局特 征; 基于各基础网格单 元的全局特 征, 确定各基础网格单 元的结构信息 。 6.根据权利要求5所述的方法, 其特征在于, 所述基于各基础网格单元的视觉特征以及 各基础网格单 元的文本语义特 征, 确定各基础网格单 元的全局特 征, 包括: 针对每个基础网格单元, 将所述基础网格单元的视觉特征以及文本语义特征进行融 合, 得到所述基础网格单 元的初始全局特 征; 基于各基础网格单元的初始全局特征间的相互依赖性, 对各基础网格单元的初始全局 特征进行调整, 得到各基础网格单 元调整后的全局特 征; 将每个基础网格单 元调整后的全局特 征作为所述基础网格单 元的全局特 征。 7.根据权利要求5所述的方法, 其特征在于, 所述基于各基础网格单元的全局特征, 确 定各基础网格单 元的结构信息, 包括: 基于各基础网格单元的全局特征, 对各基础网格单元进行解码, 确定各基础网格单元 的结构信息, 每个基础网格单元的结构信息用于指示所述基础网格单元是否为所述表格图 像对应表格中的实体单 元格, 以及, 所述基础网格单 元的相邻节点。 8.根据权利要求7所述的方法, 其特征在于, 所述基于各基础网格单元的全局特征, 对权 利 要 求 书 1/2 页 2 CN 114255346 A 2各基础网格单 元进行解码, 确定各基础网格单 元的结构信息, 包括: 将所述各基础网格单元的全局特征, 输入解码网络, 所述解码网络按照从左到右从上 到下的顺序依 次对每个基础 网格单元进行解码, 确定各基础 网格单元 的结构信息, 每个基 础网格单元 的结构信息用于指示所述基础 网格单元是否为所述表格图像对应表格中的实 体单元格, 以及, 所述基础网格单 元的上节点和左节点。 9.根据权利要求8所述的方法, 其特征在于, 针对每个基础网格单元, 所述解码网络对 所述基础网格单 元的解码方式如下: 对所述基础网格单元的全局特征进行解码, 得到所述基础网格单元的解码特征, 以及 所述基础网格单元的类别, 所述类别用于指示所述基础网格单元是否为所述表格图像对应 表格中的实体单 元格; 获取已解码的基础网格单 元的解码特 征; 以所述基础网格单元的解码特征作为query, 以所述已解码的基础网格单元的解码特 征作为key, 在所述已解码的基础 网格单元的解码特征中确定所述基础网格单元的上解码 特征和左解码特 征; 基于所述基础网格单元的上解码特征和左解码特征, 确定所述基础网格单元的上节点 和左节点。 10.一种表格图像处 理装置, 其特 征在于, 所述装置包括: 获取单元, 用于获取待处 理的表格图像; 表格图像分割单元, 用于对所述表格图像进行分割, 得到所述表格图像对应的基础网 格单元; 特征确定单元, 用于针对每个基础网格单元, 确定所述基础网格单元的视觉特征以及 各基础网格单 元的文本语义特 征; 结构信息确定单元, 用于基于各基础网格单元的视觉特征以及各基础网格单元的文本 语义特征, 确定各基础网格单 元的结构信息; 表格生成单元, 用于根据所述各基础网格单元的结构信息, 生成所述表格图像对应的 表格。 11.一种表格图像处 理设备, 其特 征在于, 包括存 储器和处 理器; 所述存储器, 用于存 储程序; 所述处理器, 用于执行所述程序, 实现如权利要求1至9中任一项所述的表格图像处理 方法的各个步骤。 12.一种可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被处理 器执行时, 实现如权利要求1至9中任一项所述的表格图像处 理方法的各个步骤。权 利 要 求 书 2/2 页 3 CN 114255346 A 3

.PDF文档 专利 表格图像处理方法、相关设备及可读存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 表格图像处理方法、相关设备及可读存储介质 第 1 页 专利 表格图像处理方法、相关设备及可读存储介质 第 2 页 专利 表格图像处理方法、相关设备及可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:45:32上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。