专利文字检测模型预训练方法以及装置

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210405265.4 (22)申请日 2022.04.18 (65)同一申请的已公布的文献号申请公布号 CN 114495129 A (43)申请公布日 2022.05.13 (73)专利权人阿里巴巴（中国）有限公司地址 311121 浙江省杭州市余杭区五常街道文一西路969号3幢5层5 54室 (72)发明人宋思博　万建强　杨志博　姚聪　 (74)专利代理机构北京智信禾专利代理有限公司 11637 专利代理师刘晓楠 (51)Int.Cl. G06V 30/40(2022.01) G06V 30/18(2022.01) G06F 40/242(2020.01)G06F 40/30(2020.01) (56)对比文件 CN 114357148 A,202 2.04.15 CN 113963359 A,202 2.01.21 CN 105574513 A,2016.0 5.11 CN 113792113 A,2021.12.14 CN 112560652 A,2021.0 3.26 CN 111985464 A,2020.1 1.24 US 2021286946 A1,2021.09.16 王建新等.基于深度学习的自然场景文本检测与识别综述. 《软件学报》 .2020, Ahmathjan Mat tohti等.Effective Text Detection in Composite Ima ges with Simple Background. 《2019 2nd I nternati onal Conference o n Informati on System s and Computer Aided Educati on (ICISCAE)》 .2020, 审查员李志研 (54)发明名称文字检测模型预训练方法以及装置 (57)摘要本说明书实施例提供一种文字检测模型预训练方法以及装置，所述方法包括：将文字样本输入文本编码器得到文字特征，以及将图像样本输入图像编码器得到图像特征，其中，文字样本从图像样本提取得到；根据数据字典和图像特征确定图像样本是否包含文字样本，得到文字包含结果，其中数据字典包括文字样本；根据文字特征和图像特征确定文字样本和图像样本的对应关系，得到图文对应结果；根据文字特征和图像特征预测被掩盖的文字样本，得到文字预测结果；根据包含结果、图文对应结果和文字预测结果，对图像编码器进行参数调整，得到预训练文字检测模型。通过使得视觉表征具备了语义知识，规避了由于语义知识不足而产生的成行成列歧义等问题。权利要求书2页说明书13页附图5页 CN 114495129 B 2022.09.09 CN 114495129 B 1.一种文字检测模型预训练方法，包括：将文字样本输入文本编码器得到文字特征，以及将图像样本输入图像编码器得到图像特征，其中，所述文字样本与所述图像样本相对应；根据数据字典和所述图像特征确定所述图像样本是否包含所述文字样本，得到文字包含结果，其中所述数据字典包括所述文字样本对应的正样本和负样本；根据所述文字特征和所述图像特征确定所述文字样本和所述图像样本的对应关系，得到图文对应结果；将所述文字特征根据预设规则进行掩盖得到部分文字特征，并将所述部分文字特征和所述图像特征输入交叉解码器预测被掩盖的文字样本，得到文字预测结果，其中，所述交叉解码器包括多头自注意力模块、多头交叉注意力模块和前向网络模块；根据所述包含结果、所述图文对应结果和所述文字预测结果，对所述图像编码器进行参数调整，得到预训练文字检测模型。 2.根据权利要求1所述的方法，所述将图像样本输入图像编码器得到图像特征，包括：将图像样本依次通过残差网络层、特征金字塔层和注意力池化层，得到所述图像特征。 3.根据权利要求1所述的方法，在根据所述数据字典和所述图像特征确定所述图像样本是否包含所述文字样本之前，还包括：根据所述文字样本，确定与所述文字样本相似的文字负样本；根据所述文字样本和所述文字负样本确定所述数据字典。 4.根据权利要求3所述的方法，所述根据所述数据字典和所述图像特征确定所述图像样本是否包含所述文字样本，得到文字包含结果，包括：根据所述数据字典中的字典文字样本生成字典文字样本特征；根据所述字典文字样本特征与所述图像特征进行比对，得到所述文字包含结果。 5.根据权利要求1所述的方法，所述根据所述文字特征和所述图像特征确定所述文字样本和所述图像样本的对应关系，包括：将每一个所述文字特征与所有图片特征进行比对，确定所述文字样本和所述图像样本的对应关系。 6.根据权利要求5所述的方法，所述根据所述文字特征和所述图像特征确定所述文字样本和所述图像样本的对应关系，包括：将每一个所述图像特征与所有文字特征进行比对，确定所述文字样本和所述图像样本的对应关系。 7.根据权利要求1所述的方法，所述根据所述包含结果、所述图文对应结果和所述文字预测结果，对所述图像编码器进行参数调整，得到预训练文字检测模型，包括：根据所述包含结果、所述图文对应结果和所述文字预测结果，得到第一损失函数、第二损失函数和第三损失函数；根据所述第一损失函数、所述第二损失函数和所述第三损失函数得到叠加损失函数；根据所述叠加损失函数对所述图像编码器进行参数调整，得到所述预训练文字检测模型。 8.根据权利要求7所述的方法，所述根据所述叠加损失函数对所述图像编码器进行参数调整，得到所述预训练文字检测模型，包括：权　利　要　求　书 1/2 页 2 CN 114495129 B 2根据所述叠加损失函数修改所述图像编码器中的参数，得到所述预训练文字检测模型，其中，所述图像编码器包括残差网络层、特征金字塔层和注意力池化层。 9.根据权利要求8所述的方法，所述根据所述叠加损失函数修改所述图像编码器中的参数，得到所述预训练文字检测模型，包括：根据所述叠加损失函数与所述注意力池化层的参数确定所述特征金字塔层的参数；根据所述特征金字塔层的参数确定所述残差网络层的参数，将所述残差网络层作为所述预训练文字检测模型的骨干网络。 10.一种文字检测模型预训练装置，包括：编码模块，被配置为将文字样本输入文本编码器得到文字特征，以及将图像样本输入图像编码器得到图像特征，其中，所述文字样本与所述图像样本相对应；第一任务模块，被配置为根据数据字典和所述图像特征确定所述图像样本是否包含所述文字样本，得到文字包含结果，其中所述数据字典包括所述文字样本对应的正样本和负样本；第二任务模块，被配置为根据所述文字特征和所述图像特征确定所述文字样本和所述图像样本的对应关系，得到图文对应结果；第三任务模块，被配置为将所述文字特征根据预设规则进行掩盖得到部分文字特征，并将所述部分文字特征和所述图像特征输入交叉解码器预测被掩盖的文字样本，得到文字预测结果，其中，所述交叉解码器包括多头自注意力模块、多头交叉注意力模块和前向网络模块；参数调整模块，被配置为根据所述包含结果、所述图文对应结果和所述文字预测结果，对所述图像编码器进行参数调整，得到预训练文字检测模型。 11.一种计算设备，包括：存储器和处理器；所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求 1至9任意一项所述文字检测模型预训练方法的步骤。 12.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至9任意一项所述文字检测模型预训练方法的步骤。权　利　要　求　书 2/2 页 3 CN 114495129 B 3

专利 文字检测模型预训练方法以及装置

专利文字检测模型预训练方法以及装置