ICS 01. 140.20 A 14 DA 中华人民共和国档案行业标准 DA/T 77—2019 纸质档案数字复制件光学字符 识别(OCR)工作规范 Specification for optical character recognition (OCR) of digital copies of paper-based records 行业标准信息服务平台 2019-12-16发布 2020-05-01实施 国家档案局 发布 DA/T77—2019 前言 本标准按照GB/T1.1一2009给出的规则起草。 本标准由国家档案局提出并归口。 本标准起草单位:国家档案局馆室司、青岛市档案馆。 本标准主要起草人:刘芸、丁德胜、杨来青、邹杰 行业标准信息服务平台 2 DA/T 77—2019 纸质档案数字复制件光学字符 识别(OCR)工作规范 1范围 本标准规定了纸质档案数字复制件光学字符识别(OCR)工作的组织、实施和管理。 本标准适用于字迹清晰、文本规范的纸质档案数字复制件的光学字符识别(OCR)工作。 2 规范性引用文件 下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文 件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 DA/T13档号编制规则 DA/T22归档文件整理规则 DA/T31 纸质档案数字化规范 3术语和定义 下列术语和定义适用于本文件。 3.1 字符character 供组织、控制或表示数据用的元素集合中的一个元素。 [GB18030—2005,定义4.1] 3.2 字符集 character set 多个字符的集合。 注:常见字符集有ASCII字符集、GB2312字符集,BIG5字符集、GB18030字符集、Unicode字符集等。 3.3 光学字符识别 optical character recognition;OCR 通过信息技术对图像文件中的字符形状进行识别、文字转换和文本输出、呈现的过程。 3.4 纸质档案数字复制件digitalcopyofpaper-basedrecord 纸质档案经过数字化加工过程后形成的,存储在磁带、磁盘、光盘等载体上并能被计算机等电子设 备识别的数字图像。 3.5 档案OCR成果OCRoutcomeofrecord 记录通过OCR技术获取的纸质档案数字复制件文字内容的文件。 3 DA/T77—2019 3. 6 识别准确率recognitionaccuracy 通过OCR技术识别正确字符的比率 注:识别准确率=(识别正确字符数/应识别字符总数)X100% 3.7 识别速度recognition speed 单位时间内通过OCR技术识别字符的数量。 4总则 4.1档案OCR应纳入数字档案馆(室)资源建设范畴,统筹规划、有序实施,逐步实现常态化 4.2档案OCR应科学开展,有利于实现档案信息检索和计算机辅助编目、编研开发数据挖掘 的关联关系。 4.4应当来取有效的管理和技术手段,加强档案OCR的过程管理和质量控制,确保档案OCR过程规 范、成果可靠、数据安全、 4.5涉密纸质档案数字复制件的OCR工作,应符合涉密档案相关的管理和技术要求。 5工作组织 5.1机构及人员 5.1.1应建立档案OCR工作机构,配备相应素质和技术水平的工作人员,组织开展档案OCR工作的 统筹规划、组织实施、协调管理、技术保障、安全保障、监督检查、成果验收和长期保存等。档案OCR可 与纸质档案数字化工作统筹配置工作机构和人员, 5.1.2档案OCR工作实行服务外包的,应从企业性质、股东组成、安全保密、企业规模、注册资金情况 等方面严格审查档案OCR服务供方的相关资质;从规章制度的建立健全程度等方面考查服务供方的 管理能力,建立权责明确、覆盖工作全过程的监督机制和安全防范机制,确保档案信息安全。对外聘的 工作人员,应进行安全审查,按规定进行保密教育 5.2流程控制 5.2.1档案OCR流程包括图像导入、图像预处理、比对识别、修改校正、成果整理输出五个业务环节。 应依据相关技术标准,对档案OCR全过程进行有效控制。 5.2.2应加强对档案OCR工作全流程的质量管理和安全管理,建立完善的质量、安全问题发现、修正 机制,确保OCR成果质量和档案信息安全。 5.3工作文件与元数据 5.3.1应建立档案OCR工作方案、技术方案、工作审批材料、流程控制材料、数据验收材料、项目验收 报告、成果移交材料等的管理工作文件,采取服务外包的还应包括项目招标文件、投标文件、中标通知 书、项目合同、保密协议、操作规程、监管记录等,以加强对档案OCR工作的管理 5.3.2应参照相关标准,提出档案OCR工作流程中相关元数据设计、捕获、著录和管理的基本要求, 4

pdf文档 DA-T 77—2019 纸质档案数字复制件光学字符识别(OCR)工作规范

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
DA-T 77—2019 纸质档案数字复制件光学字符识别(OCR)工作规范 第 1 页 DA-T 77—2019 纸质档案数字复制件光学字符识别(OCR)工作规范 第 2 页 DA-T 77—2019 纸质档案数字复制件光学字符识别(OCR)工作规范 第 3 页
下载文档到电脑,方便使用
本文档由 SC2023-03-15 12:25:31上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言