说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211506901.9 (22)申请日 2022.11.29 (71)申请人 城云科技 (中国) 有限公司 地址 310052 浙江省杭州市滨江区长河街 道江南大道588号恒 鑫大厦主楼17层、 18层 (72)发明人 毛云青 雷卓 彭大蒙 张香伟 (74)专利代理 机构 杭州汇和信专利代理有限公 司 33475 专利代理师 吴琰 (51)Int.Cl. G06V 30/412(2022.01) G06V 30/14(2022.01) G06V 30/19(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 基于单元格约束的表格结构识别方法及其 应用 (57)摘要 本申请提出了基于单元格约束的表格结构 识别方法及其应用, 包括以下步骤: 根据表格类 型将不同的表格图像输入到对应的目标检测模 型中, 以输出对应表格的位置信息; 根据表格的 位置信息, 获取表格的整行和整列的信息, 该信 息包括每行和每列的任意两个不相邻的顶点的 坐标; 识别表格中的所有文本及其边框; 通过机 器翻译方法获取表格的表格结构信息; 根据表格 的位置信息、 表 格的整行和整列的信息及表格的 表格结构信息, 修正表格中的单元格; 对修正后 的表格中单元格的坐标进行聚类, 以生成表格的 单元格结构。 本申请具有可结合任意一种光学符 号识别方法, 通过完整的表格识别技术, 端到端 地从电子文档中分析表格结构。 权利要求书2页 说明书8页 附图2页 CN 115546809 A 2022.12.30 CN 115546809 A 1.基于单 元格约束的表格结构识别方法, 其特 征在于, 包括以下步骤: S00、 根据表格类型将不同的表格图像输入到对应的目标检测模型中, 以输出对应表格 的位置信息; 其中, 表格的位置信息包括表格的任意两个不相 邻的顶点的坐标, 表格的类型 分为有框表格和无框表格; S10、 根据所述表格的位置信息, 获取所述表格的整行和整列的信息, 该信息包括每行 和每列的任意两个不相邻的顶点的坐标; S20、 识别所述表格中的所有 文本及其 边框; S30、 通过机器翻译方法获取所述表格的表格结构信息, 该表格结构信息包括行列数量 和布局信息; S40、 根据 所述表格的位置信息、 所述表格的整行和整列的信息及所述表格的表格结构 信息, 修正所述表格中的单元格, 其中该修正的手段包括补全 单元格、 合并单元格及 去除单 元格; S50、 对修正后的所述表格中单 元格的坐标进行聚类, 以生成所述表格的单 元格结构。 2.如权利要求1所述的基于单元格约束的表格结构识别方法, 其特征在于, 步骤S00中, 通过计算所述表格外的单元格数量和所述表格内的单元格数量的差值来得到所述表格的 边界, 以该边界作为所述表格的边框, 从而输出对应表格的位置信息 。 3.如权利要求1所述的基于单元格约束的表格结构识别方法, 其特征在于, 步骤S30中, 根据所述表格图像的单元格位置, 使得所述表格图像与文本位置对齐, 并分别在垂直和水 平方向采样, 以确定所述表格的行 数和列数。 4.如权利要求3所述的基于单元格约束的表格结构识别方法, 其特征在于, 在步骤S30 中, 在垂直方向采样之前, 在不与现有 单元格重叠的情况下展开单元格的左右 边缘, 以确定 缺少单元格的行, 并在确定所述表格的行数和列数后, 通过找出与已知单元格最接近完整 对齐的单 元格边框, 从而推断出表格垂直和水平的对齐方式, 该对齐方式作为布局信息 。 5.如权利要求4所述的基于单元格约束的表格结构识别方法, 其特征在于, 步骤S40中, 对单元格边框进行聚类, 以确定每行和每列的位置, 并根据每个单元格的框位置分配行和 列的位置, 以合并单 元格。 6.如权利要求5所述的基于单元格约束的表格结构识别方法, 其特征在于, 步骤S40中, 根据单元格的文本内容确定单元格的逻辑关系, 以再次合并单元格, 并将单元格位置分配 给与任何检测到的单 元格不重 叠的剩余文本 框, 同时拆分附近有间隙的单 元格。 7.如权利要求6所述的基于单元格约束的表格结构识别方法, 其特征在于, 步骤S40中, 当文本的边框与相邻的空行或列相交时, 增 加单元格的行或列的跨度。 8.一种基于单 元格约束的表格结构识别装置, 其特 征在于, 包括: 输入模块, 根据表格 类型将不同的表格图像输入到对应的目标检测模型中; 目标检测模块, 用于根据输入的表格图像, 通过对应的目标检测模型输出对应表格的 位置信息; 其中, 表格的位置信息包括表格的任意两个不相 邻的顶点的坐标, 表格的类型分 为有框表格和无框表格; 行列信息获取模块, 用于根据表格的位置信 息, 获取表格的整行和整列的信息, 该信 息 包括每行和每列的任意两个不相邻的顶点的坐标; 文本识别模块, 用于识别表格中的所有 文本及其 边框;权 利 要 求 书 1/2 页 2 CN 115546809 A 2机器翻译模块, 用于通过机器翻译方法获取表格的表格结构信息, 该表格结构信息包 括行列数量和布局信息; 修正模块, 用于根据表格的位置信息、 表格的整行和整列的信息及表格的表格结构信 息, 修正表格中的单 元格, 其中该修 正的手段包括补全单 元格、 合并单 元格及去除单 元格; 聚类输出模块, 用于对修正后的表格中单元格的坐标进行聚类, 以生成输出表格的单 元格结构。 9.一种电子装置, 包括存储器和处理器, 其特征在于, 所述存储器中存储有计算机程 序, 所述处理器被设置为运行所述计算机程序以执行权利要求1至7任一项所述的基于单元 格约束的表格结构识别方法。 10.一种可读存储介质, 其特征在于, 所述可读存储介质中存储有计算机程序, 所述计 算机程序包括用于控制过程以执行过程的程序代码, 所述过程包括根据权利要求1至7任一 项所述的基于单 元格约束的表格结构识别方法。权 利 要 求 书 2/2 页 3 CN 115546809 A 3
专利 基于单元格约束的表格结构识别方法及其应用
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:23:42
上传分享
举报
下载
原文档
(894.4 KB)
分享
友情链接
GB-T 24507-2020 浸渍纸层压实木复合地板.pdf
GB-T 39505-2020 家用电理发剪及修发器性能测试方法.pdf
信通院 量子信息技术发展与应用研究报告.pdf
GB-T 24747-2023 有机热载体安全技术条件.pdf
T-GBMA 001—2019 陶瓷大板施工技术规程.pdf
T-CEC 673.1—2022 全氟异丁腈气体纯度检测方法 第1部分:气相色谱法.pdf
GB-T 29766-2021 信息安全技术 网站数据恢复产品技术要求与测试评价方法.pdf
ISO 17987-3-2016.pdf
NY-T 3001-2016 饲料中氨基酸的测定 毛细管电泳法.pdf
DB22-T 3222-2021 医药企业安全生产标准化等级划分与评定 吉林省.pdf
T-ZYYX 001—2020 医疗机构患者满意度第三方评价要求.pdf
T-JSJXXH 008—2022 一般用变频无油螺杆鼓风机.pdf
T-GDPIA 11—2020 数字化工厂 改性塑料制造 功能架构.pdf
GB-T 23023-2022 信息化和工业化融合管理体系 信息化和工业化融合管理体系.pdf
GB-T 519-2017 充气轮胎物理性能试验方法.pdf
GB-T 32146.2-2015 检验检测实验室设计与建设技术要求 第2部分:电气实验室.pdf
GB-T 32040-2015 石化企业节能量计算方法.pdf
GB-T 34492-2017 500kA铝电解槽技术规范.pdf
DB42-T 2226.3-2024 自然资源政务一张图应用规范 第3部分:数据共享交换 湖北省.pdf
GB-T 4622.1-2022 管法兰用缠绕式垫片 第1部分:PN系列.pdf
交流群
-->
1
/
13
评价文档
赞助2元 点击下载(894.4 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。