ICS 35.240.01 GB L 70 中华人民共和国国家标准 GB/T 363442018 信息技术 数据质量评价指标 Information technology--Evaluation indicators for data quality 2018-06-07 发布 2019-01-01实施 国家市场监督管理总局 发布 中国国家标准化管理委员会 GB/T 36344-2018 目 次 前言 范围 术语和定义 3: 指标框架 概述 5 : 指标说明 5.1 评价表中表头信息说明 5.2规范性 5.3完整性 5.4准确性 5.5一致性 5.6时效性 5.7:可访问性 附录A(资料性附录) 数据质量评价过程 参考文献· GB/T 36344-2018 前言 本标准按照GB/T1.1-2009给出的规则起草 请注意本文件的某些内容可能涉及专利:本文件的发布机构不承担识别这些专利的责任。 本标准由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。 本标准起草单位:中国电子技术标准化研究院、御数坊(北京)科技咨询有限公司、上海市信息投资 股份有限公司、中国科学院计算机网络信息中心、深圳市华傲数据技术有限公司、贵阳信息技术研究院 (中科院软件所贵阳分部)国网浙江省电力有限公司。 本标准主要起草人:卫风林、宾军志、甘似禹、胡良霖、于文渊、黎俊茂、陈峰、杨达、王静、董建、张群、 张展新、赵菁华、李冰、李易昂、秦俊宁、陈利跃。 GB/T 36344--2018 信息技术数据质量评价指标 1范围 本标准规定了数据质量评价指标的框架和说明。 本标准适用于数据生存周期各个阶段的数据质量评价。 2 :术语和定义 下列术语和定义适用于本文件: 2.1 数据data 信息的可再解释的形式化表示,以适用于通信、解释或处理。 注:可以通过人工或自动手段处理数据。 [GB/T 5271:1--2000.定义 01.01.02] 2.2 元数据metadata 关于数据或数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和数 据易变性的数据。 [GB/T 5271.17--2010,定义 17.06.05] 2.3 数据质量:data quality 在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度。 2.4 原始数据 raw data 终端用户所存储使用的各种未经过处理或简化的数据。 注:原始数据有多种存在形式,如文本数据,图像数据,音赖数据或者儿种数据混合存在。 2.5 数据生存周期 data lifecvele 将原始数据转化为可用于行动的知识的一组过程。 2.6 数据集dataset 具有一定主题,可以标识并可以被计算机化处理的数据集合。 2.7 数据模型 data model 对分析的图像和文本表述,该分析识别了组织为完成其使命、功能、目标、目的和战略,以及管理和 评价组织所需要的数据。 注1:在从高到低的不同抽象层次表示数据时,通常会区分概念模型(与某些努力相关的概念组成的模型)、逻辑模 型和物理模型。 注2:所使用数据模型的使用周境的边界的正规描述,称为上下文模式。 注3:数据模型标识实体、域(属性)以及与其他数据的关系(关联),提供数据和数据间关系的概念视图。 GB/T 36344--2018 示例1,由框图组成的语义数据模型,这种框代表对业务有意义的事务集,如“人”或“行动”,以及措述这类实体对之 间关系的线条。 示例2:应用特定数据管理技术的关系表或可扩展标记语言XML等是逻辑数据模型 2.8 数据标准 data standard 数据的命名、定义、结构和取值规范方面的规则和基准。 3指标框架 数据质量评价指标框架见图1。 数据质量评价指标框架 数性 性 说明: 规范性 数据符合数据标准、数据模型业务规则、元数据或权威参考数据的程度, 完整性 按照数据规则要求,数据元素被赋予数值的程度。 推确性 数据准确表示其所播述的真实实体(实际对象)真实值的程度: 致性 数据与其他特定上下文中使用的数据无矛盾的程度。 时效性 数据在时间变化中的正确程度。 可访问性 数据能被访问的程度。 图1:数据质量评价指标框架 4概述 第5章规定的六大类评价指标,是实施数据质量评价的最小集,数据质量评价过程参见附录A。 5 :指标说明 5.1 评价表中表头信息说明 评价表中的表头说明如下: a): 指标编号及编码规则:指标编号是评价指标的唯一性编号:由一级指标和二级指标共4位数字 组成。编码规则见图2。 二级指标,2位数字 级指标,2位数字 图2编码规则 10 级指标:由2.位数字组成,01代表规范性02代表完整性03代表准确性04代表一致 1 GB/T 36344--2018 性、05代表时效性、06代表可访问性; 2):二级指标:由2位数字组成的顺序码,范围为01一99。 b)指标名称:评价指标的名称。 指标描述:评价指标的解释。 d)计算方法:评价指标的计算方法。 5.2:规范性 规范性评价指标定义见表1. 表1 规范性评价指标 指标编号 指标名称 指标描述 计算方法 数据符合数据标准的度量。 注1:评价数据质量时需要收集数据在命名、创建、定义、X=A/B 更新和归档时遵循的标准,包括国际标准、国家标式中 0101 数据标准 准、行业标准、地方标准或相关规定等 A一满足数据标准要求的数据集中 注2:和数据归档一样甚至更重要,在一个完整的数据规元素的个数; 则中旧数据的销毁一般也有一个比较详细且具有可B二被评价的数据集中元素的个数 执行性的规定 数据符合数据模型的度量。 XA/B 注1:数据模型是种直观描述组织数据结构的手段,是式中: 0102 数据模型 数据表达的规范。 A一满足数据模型要求的数据集中 注2:评价数据质量时需要检查是否存在清晰可理解的数元素的个数; 据模型定义以及这些数据的组织形式 B二被评价的数据集中元素的个数 数据符合元数据定义的度量 X=A/B 注:元数据标注描述或刻画其他数据、以使检索,或使用 式中 信息更容易:评价数据质量时需要检查是否提供可 0103 元数据 三满足元数据定义的数据集中元 解读的元数据文档。 素的个数; 示例:包含各字段名称、描述、类型值域等内容的数据字典 B一被评价的数据集中完素的个数 为一种元数据文档 数据符合业务规则的度量。 X=A/B 注1:业务规则是一种权威性原则或指导方针,用来播述式中 0104 业务规则 业务交互,并建立行动和数据行为结果及完整性的A满足业务规则的数据集中元素 规则。 的个数; 注2:评价数据质量时需要检查是否存在良好归档的业务规则B被评价的数据集中元素的个数 参考数据是系统、应用软件、数据库、流程、报告及交易记XA/B 权威参考数录和主记录用来参考的数值集合或分类表 式中 0105 据(权威参考注:评价数据质量时需要收集参考数据列表 A=满足参考数据规则的数据集中 源) 示例,一张用于一个特定字段的有效值列表为一种参考元素的个数; 数据类型 B一被评价的数据集中元素的个数 XA/B 式中? 安全规范是安全和隐私方面的规则,包括数据权限管理 0106 安全规范 A满足安全规范的数据集中元素 数据脱敏处理等 的个数; B一被评价的数据集中元素的个数 3 GB/T 36344--2018 5.3完整性 完整性评价指标定义见表2。 表2完整性评价指标 指标编号 指标名称 指标捕述 计算方法 X=A/B 数据元素完按照业务规则要求,数据集中应被赋值的数据式中: 0201 整性 元素的赋值程度 A一被赋值的数据集中素的个数; B=预期被赋值的数据集中元素的个数 X-A/B 数据记录完按照业务规则要求,数据集中应被赋值的数据式中: 0202 整性 记录的赋值程度 A=被赋值的数据集中元素的个数: B一预期被献值的数据集中元素的个数 5.4准确性 准确性评价指标定义见表3。 表3准确性评价指标 指标编号 指标名称 指标描述 计算方法 X=A/B 数据内容正 式中 0301 数据内容是否是预期数据 确性 A满足数据正确性要求的数据集中元素的个数; B=被评价的数据集中元素的个数 数据格式(包括数据类型、数值范围、数据长 X-A/B 度、精度等)是否满足预期要求。 数据格式合 式中: 0302 示例:性别一栏不能出现男/女以外的内容,身 规性 A一满足格式要求的数据集中元素的个数; 份证号不能出现标点符号,以及对字符编码的 B一被评价的数据集中元素的个数 些限制,都需要通过规定内容的格式来实现 X=A/B 特定字段、记录、文件或数据集意外重复的式中: 0303. 数据重复率 度量 A=重复的数据集中元素的个数; B被评价的数据集中元素的个数 X-A/B 式中 0304 数据唯一性 特定字段、记录、文件或数据集唯一性的度量 A满足唯一性要求的数据集中元素的个数 B=被评价的数据集中元素的个数 正确字段、记录、文件或数据集之外无效数据X=A/B 脏数据出的度量。 式中 0305 现率 示例:事务发生回滚时由于回滚机制不健全A一有脏数据出现的数据集中元素的个数; 或不完善导致可能出现脏数据 B一被评价的数据集中元素的个数 5.5一致性 致性评价指标定义见表4。 4 GB/T 36344--2018 表4:致性评价指标 指标编号 指标名称 指标描述 计算方法 XA/B 同一数据在不同位置存储或被不同应用或用 相同数据 式中 0401 户使用时,数据的一致性,数据发生变化时,存 致性 A满足一致性要求的数据集中元素的个数; 储在不同位置的同一数据被同步修改 B=被评价的数据集中元素的个数

pdf文档 GB-T 36344-2018信息技术数据质量评价指标

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
GB-T 36344-2018信息技术数据质量评价指标 第 1 页 GB-T 36344-2018信息技术数据质量评价指标 第 2 页 GB-T 36344-2018信息技术数据质量评价指标 第 3 页
下载文档到电脑,方便使用
本文档由 思安2023-01-15 17:30:11上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言