(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210405265.4
(22)申请日 2022.04.18
(65)同一申请的已公布的文献号
申请公布号 CN 114495129 A
(43)申请公布日 2022.05.13
(73)专利权人 阿里巴巴 (中国) 有限公司
地址 311121 浙江省杭州市余杭区五常街
道文一西路969号3幢5层5 54室
(72)发明人 宋思博 万建强 杨志博 姚聪
(74)专利代理 机构 北京智信禾专利代理有限公
司 11637
专利代理师 刘晓楠
(51)Int.Cl.
G06V 30/40(2022.01)
G06V 30/18(2022.01)
G06F 40/242(2020.01)G06F 40/30(2020.01)
(56)对比文件
CN 114357148 A,202 2.04.15
CN 113963359 A,202 2.01.21
CN 105574513 A,2016.0 5.11
CN 113792113 A,2021.12.14
CN 112560652 A,2021.0 3.26
CN 111985464 A,2020.1 1.24
US 2021286946 A1,2021.09.16
王建新等.基于深度学习的自然场景文本 检
测与识别综述. 《软件学报》 .2020,
Ahmathjan Mat tohti等.Effective Text
Detection in Composite Ima ges with Simple
Background. 《2019 2nd I nternati onal
Conference o n Informati on System s and
Computer Aided Educati on (ICISCAE)》 .2020,
审查员 李志研
(54)发明名称
文字检测模型 预训练方法以及装置
(57)摘要
本说明书实施例提供一种文字检测模型预
训练方法以及装置, 所述方法包括: 将文字样本
输入文本编码器得到文字特征, 以及将图像样本
输入图像编码器得到图像特征, 其中, 文字样本
从图像样 本提取得到; 根据数据字典和图像特征
确定图像样 本是否包含文字样 本, 得到文字包含
结果, 其中数据字典包括文字样本; 根据文字特
征和图像特征确定文字样本和图像样本的对应
关系, 得到图文对应结果; 根据文字特征和图像
特征预测被掩盖的文字样本, 得到文字预测结
果; 根据包含结果、 图文对应结果和文字预测结
果, 对图像编码器进行参数调整, 得到预训练文
字检测模型。 通过使得视觉表征具备了语义知
识, 规避了由于语义知 识不足而产生的成行成列
歧义等问题。
权利要求书2页 说明书13页 附图5页
CN 114495129 B
2022.09.09
CN 114495129 B
1.一种文字检测模型 预训练方法, 包括:
将文字样本输入文本编码器得到文字特征, 以及将图像样本输入图像编码器得到图像
特征, 其中, 所述文字样本与所述图像样本相对应;
根据数据字典和所述图像特征确定所述图像样本是否包含所述文字样本, 得到文字包
含结果, 其中所述数据字典包括所述文字样本对应的正样本和负 样本;
根据所述文字特征和所述图像特征确定所述文字样本和所述图像样本的对应关系, 得
到图文对应结果;
将所述文字特征根据 预设规则进行掩盖得到部分文字特征, 并将所述部分文字特征和
所述图像特征输入交叉解码 器预测被掩盖的文字样本, 得到文字预测结果, 其中, 所述交叉
解码器包括多头自注意力模块、 多头交叉注意力模块和前向网络模块;
根据所述包含结果、 所述图文对应结果和所述文字预测结果, 对所述图像编码器进行
参数调整, 得到预训练文字检测模型。
2.根据权利要求1所述的方法, 所述将图像样本 输入图像编码器得到图像特 征, 包括:
将图像样本依次通过残差网络层、 特 征金字塔层和注意力池化层, 得到所述图像特 征。
3.根据权利要求1所述的方法, 在根据所述数据字典和所述图像特征确定所述图像样
本是否包 含所述文字样本之前, 还 包括:
根据所述文字样本, 确定与所述文字样本相似的文字负 样本;
根据所述文字样本和所述文字负 样本确定所述数据字典。
4.根据权利要求3所述的方法, 所述根据所述数据字典和所述图像特征确定所述图像
样本是否包 含所述文字样本, 得到文字包 含结果, 包括:
根据所述数据字典中的字典文字样本生成字典文字样本特 征;
根据所述字典文字样本特 征与所述图像特 征进行比对, 得到所述文字包 含结果。
5.根据权利要求1所述的方法, 所述根据所述文字特征和所述图像特征确定所述文字
样本和所述图像样本的对应关系, 包括:
将每一个所述文字特征与 所有图片特征进行比对, 确定所述文字样本和所述图像样本
的对应关系。
6.根据权利要求5所述的方法, 所述根据所述文字特征和所述图像特征确定所述文字
样本和所述图像样本的对应关系, 包括:
将每一个所述图像特征与 所有文字特征进行比对, 确定所述文字样本和所述图像样本
的对应关系。
7.根据权利要求1所述的方法, 所述根据所述包含结果、 所述图文对应结果和所述文字
预测结果, 对所述图像编码器进行参数调整, 得到预训练文字检测模型, 包括:
根据所述包含结果、 所述图文对应结果和所述文字预测结果, 得到第 一损失函数、 第二
损失函数和第三损失函数;
根据所述第一损失函数、 所述第二损失函数和所述第三损失函数 得到叠加损失函数;
根据所述叠加损失函数对所述图像编码器进行参数调 整, 得到所述预训练文字检测模
型。
8.根据权利要求7所述的方法, 所述根据所述叠加损失函数对所述图像编码器进行参
数调整, 得到所述预训练文字检测模型, 包括:权 利 要 求 书 1/2 页
2
CN 114495129 B
2根据所述叠加损失函数修改所述图像编码器中的参数, 得到所述预训练文字检测模
型, 其中, 所述图像编码器包括残差网络层、 特 征金字塔层和注意力池化层。
9.根据权利要求8所述的方法, 所述根据所述叠加损失函数修改所述图像编码器中的
参数, 得到所述预训练文字检测模型, 包括:
根据所述叠加损失函数与所述注意力池化层的参数确定所述特 征金字塔层的参数;
根据所述特征金字塔层的参数确定所述残差网络层的参数, 将所述残差网络层作为所
述预训练文字检测模型的骨干网络 。
10.一种文字检测模型 预训练装置, 包括:
编码模块, 被配置为将文字样本输入文本编码器得到文字特征, 以及将图像样本输入
图像编码器得到图像特 征, 其中, 所述文字样本与所述图像样本相对应;
第一任务模块, 被配置为根据 数据字典和所述图像特征确定所述图像样本是否包含所
述文字样本, 得到文字包含结果, 其中所述数据字典包括所述文字样本对应的正样本和负
样本;
第二任务模块, 被配置为根据 所述文字特征和所述图像特征确定所述文字样本和所述
图像样本的对应关系, 得到图文对应结果;
第三任务模块, 被配置为将所述文字特征根据预设规则进行掩盖得到部分文字特征,
并将所述部 分文字特征和所述图像特征输入交叉解码 器预测被掩盖的文字样本, 得到文字
预测结果, 其中, 所述交叉解码器包括多头自注 意力模块、 多头交叉注意力模块和前向网络
模块;
参数调整模块, 被配置为根据 所述包含结果、 所述图文对应结果和所述文字预测结果,
对所述图像编码器进行参数调整, 得到预训练文字检测模型。
11.一种计算设备, 包括:
存储器和处 理器;
所述存储器用于存储计算机可执行指令, 所述处理器用于执行所述计算机可执行指
令, 该计算机可执行指令被处理器执行时实现权利要求 1至9任意一项 所述文字检测模型预
训练方法的步骤。
12.一种计算机可读存储介质, 其存储有计算机可执行指令, 该计算机可执行指令被处
理器执行时实现权利要求1至9任意 一项所述文字检测模型 预训练方法的步骤。权 利 要 求 书 2/2 页
3
CN 114495129 B
3
专利 文字检测模型预训练方法以及装置
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:50:55上传分享