ICS 35.02 CCS L 72 2201 长 春 市 地 方 标 准 DB 2201/T 16—2022 城市智能体数据治理技术规范 City intelligent agent data governance technical specification 2022 - 01 - 14 发布 2022 - 01 - 30 实施 长春市市场监督管理局 发 布 DB 2201/T 16—2022 前 言 本文件按照GB/T 1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定 起草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。 本文件由吉林科讯信息科技有限公司提出。 本文件由长春市政务服务和数字化建设管理局归口。 本文件起草单位:吉林科讯信息科技有限公司、讯飞智元信息科技有限公司。 本文件主要起草人:程玉柱、孙权、江志国、于跃、倪伟、丁慧东、柳羽辉、孟红月、刘烁、冷皓。 I DB 2201/T 16—2022 城市智能体数据治理技术规范 1 范围 本文件规定了城市智能体数据治理技术的缩略语、数据探查、数据规整、治理管理的内容。 本文件适用于指导城市智能体大数据平台关于数据治理设计单位以及城市智能体建设部门在城市 智能体中数据治理的技术设计工作。 2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件, 仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本 文件。 GB/T 34960.5-2018 信息技术服务 治理 第5部分:数据治理规范 GB/T 13000-2010 信息技术 通用多八位编码字符集(UCS) 3 术语和定义 GB/T 34960.5界定的以及下列术语和定义适用于本文件。 城市智能体 城市智能体将视联网、物联网、互联网等信息化渠道构建成城市感知体系,以云计算为基础,人工 智能技术为手段,将各行业领域的数据进行汇集和共享,向各类业务场景提供数据、算力和技术能力支 撑,为城市经济、社会、城市数字化转型等提供支持的智慧城市巨系统。 数据治理 数据资源及其应用过程中相关管控活动、绩效和风险管理的集合。 [来源:GB/T 34960.5—2018,定义3.1] 4 缩略语 下列缩略语适用于本文件。 DDL:数据库模式定义语言(Data Definition Language) ETL:描述将数据从来源端经过抽取、转换、加载至目的端的过程(Extract-Transform-Load) HASH:散列函数(Hash function) MD5: 信息摘要算法(MD5 Message-Digest Algorithm) SHA:安全散列算法(Secure Hash Algorithm) UUID:通用唯一识别码(Universally Unique Identifier) 1 DB 2201/T 16—2022 5 数据探查 数据常规检查 数据常规检查规则见表1。 表1 常规检查规则 规则类型 空值检查 字段值为空检查 全角检查 字段值全角检查 半角检查 字段值半角检查 日期格式检查 基础类检查 组件 数据格式检查 2 1.8 位字符型日期检查(例如:YYYY-MM-DD) ; 2.6 位字符型时间检查(例如:YY/MM/DD) ; 3.14 位字符型日期检查(例如:YYYY-MM-DD HH:MM:SS) 1.不是汉字报错 2.不是数字报错 3.不是字母报错 值域检查 字段代码值域不在字典中错误 字符长度检查 字段长度不属于定义的范围则报错,包括日期类数据 数值范围检查 字段数值不在定义的范围内则报错,包括数据时间 数值大小校验检 查 对两个字段的值进行大小比较,不满足数字大小范围内的报错 多字段空值检查 多个字段同时为空时,业务上认为错误,报错 多字段有值核查 多个字段同时有值时,业务上认为错误,报错 身份证合法性检 查 业务类检查 组件 检查规则描述 检查规则名称 身份证号码与性 别检查 1.身份证字段长度核查,不是 15 或 18 位的报错; 2.身份证字段第 18 位校验码不对;身份证号校验码算法(不符合校 验码算法的报错) 3.身份证字段第一位为 0 的报错; 4.身份证字段尾码(第 15 位到 17 位)为“000”的报错 5.身份证号码中的出生日期码(第 7-14 位)不合法报错; 不合法:出生日期大于当前系统日期;出生日期小于 1900 年;日期 格式不合法; 6.身份证号码中地址码前两位所属的省级行政区划不存在; 1.身份证号第 15 或 17 位为奇数,则性别不为男的报错;2.身份证号 第 15 或 17 位为偶数,则性别不为女的报错 身份证号码与出 生日期检查 身份证号码中的出生日期码(第 7-14 位)与出生日期不一致报错 身份证有效期检 查 1.一代身份证,即“签发日期”+“有效期”得到的失效日期与当前 日期比较; 2.二代身份证,即“公民有效期限截止日期”与当前日期比较; 3.临时身份证,包括:一代临时期限为 1 或 2 年、二代临时期限为 3 个月(计算方法同上) 身份证号重复检 查 身份证号码相同,姓名不同的被称为重证号。该检查主要涉及公民身 份证号码、姓名字段 DB 2201/T 16—2022 表1 常规检查规则(续) 规则类型 检查规则名称 检查规则描述 1.姓名长度不足 2 个汉字; 2.姓名的汉字中有空格; 姓名合法性检查 3.姓名中有不是汉字的非法字符(除•外)少数民族姓名间隔符应用 “•” (GB 13000 编码为 00B7.表示,未编码冷僻字应用“▌” (GB 13000 编码为 258C)表示 1.不足 8 位或大于系统日期; 出生日期合法性 2.出生日期小于 1900 年; 检查 3.日期格式不合法 业务类检查 “性别”与“与户 组件 根据“性别”字典、 “户主关系”字典映射表进行关联性检查 主关系”检查 邮箱检查 email 要有@符号和“.com”,@符号前后为英文或数字 手机号码不等于 11 位应报错,手机号码前两位不所属范围:13、14、 手机号检查 15、16、17、18、19 内应报错 网址检查 网址 URL 校验,http 或 https 等 邮政编码检查 邮政编码不等于 6 位报错 IP 地址检查 IP4 和 IP6 地址检查,0~255 值,用“ .”分开 4 个值 QQ 号检查 QQ 号码小于 10000 报错 数据自定义检查 除5.1检查外,根据业务实际需要设置自定义检查项。 数据一致性检查 为保障采集的各源系统的实体数据的一致性,检查获取的数据表和各源系统数据表业务字段数据 的一致性,包括但不局限于数据条数一致和数据内容一致两个方面。 6 数据规整 数据规整方法 通过数据转换、数据清洗、关联整合等技术手段,对问题数据,包括但不局限于数据标准不一致、 数据格式杂乱、数据错误、数据缺失等,进行有效的数据整理。 数据规整规则 数据规整规则主要包括: 3 DB 2201/T 16—2022 a) b) c) 字典转换:将非标准的字典数据进行标准化转换; 规整任务设计:规整任务设计应让数据规整人员通过简单流程化、图形化的操作完成数据清洗、 转换、抽取的操作。规整任务设计能力包括但不局限于配置输入、配置输出、配置规则组件等; 常规转换:应根据业务需要,完成常规数据的规整。主要包括但不局限于格式转换规则、内容 转换规则、增加列规则、字典转换规则和链接规则,具体规则见表 2 ~ 表 6。 表2 格式转换规则 规则名称 规则描述 身份证号转换 15 位到 18 位的身份证号码的转换,小写 x 转大写 X 去空格 去除字段中的空格,可选去全部空格、去前后空格 半角转全角 字段值中全部半角转换全角 全角转半角 字段值中全部全角转换半角 大写转小写 字段值转大写 小写转大写 字段值转小写 表3 内容转换规则 规则名称 规则描述 将字段中的值统一全部替换为另外一个值。例如:将原字段日期中值“1997 年元月” 字符串替换 全部替换为“1997 年 1 月”。 从某个关联字段中截取部分数据填充到字段中,补充字段值,包括但不局限于全部填充 从关联字段截取 和字段值为空时填充两种。例如:字段出生日期中值为空时,从关联字段身份证号中截 取 7-14 位数据填充到出生日期中。 从身份证号中按照提取数据,通过配置截取数据的位置区间,将截取后的数据值填充到 身份证信息提取 其他字段中。 默认值填充 字段值应填充为一个默认值,包括但不局限于全部填充和数据为空时填充 日 期 格 式 字 段 值 应 转 换 为 字 符 串 类 字 段 。 例 如 : yy/MM/dd HH:mm:ss ; yy-MM-dd 日期转字符串 HH:mm:ss;yyMMddHHmmss;yyMMddHHmm;yyMMdd。 将原字段值按照拆分规则拆分成多个新增字段,原字段应保持不变,拆分规则包括但不 局限于按照固定的分隔符拆分和按照数据位置区间拆分两类。例如:原经纬度字段数据 数据拆分 为[东经 30°,北纬 40°],配置按照分隔符“,”拆分为 2 个字段经度和纬度,最终得 到新增字段经度,数据[东经 30°],新增字段纬度,数据[北纬 40°],原经纬度字段不 变。 当字段值为空时,应配置填充的数据,分为统一默认值填充和从关联字段获取填充两 空值处理 类。 4 DB 2201/T 16—2022 表4 增加列规则 规则名称 规则描述 增加序列 数据处理过程中应增加 uuid 列,列名可以定义 增加常量 数据处理过程中应增加常量列,常量值和列名可以定义 数据处理过程中应增加一列记录其他指定列的值的 hash,应支持 MD5,SHA-1, 增加哈希值 SHA-256 表5 字典转换规则 规则名称 规则描述 将字段值按照配置的标准字典进行标准转换。例如:将性别字段值转换为标准字典中性 字典转换 别字典字段值 表6 连接规则 规则名称 合并规则 规则描述 合并表数据,将第一张表中字段及数据合并到第二张表中,应支持重复字段的映射配置 关联表数据,将两张表通过关联字段进行关联配置,选择关联后的字段信息传输到下一段 关联规则 数据流中 7 治理管理 数据标准管理 数据标准管理是数据资产管理的基础性工作,提供统一的数据标准定义,是衡量数据资产运营和管 理水平的评估依据。数据标准管理主要包括: a) 标准文档库管理:应具备国标、
DB2201-T 16-2022 城市智能体数据治理技术规范 长春市
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思安 于 2022-09-29 22:13:55上传分享