全网唯一标准王
ICS 35.240 CCSL70 DB4208 荆门 東市東地 電方标准 DB4208/T 60—2024 代替DB4208/T60-2017 荆门城市大数据清洗规范 Datacleaning criterion of Big Data in Jingmen city 2024-02-01发布 2024-03-01实施 荆门市市场监督管理局 发布 DB4208/T60—2024 目 次 前言 1 引言 1范围. 2规范性引用文件 3术语和定义 4总体架构 4.1 数据清洗工作流程, 4.2 数据清洗操作过程, 4.3清洗过程数据分析, 4.3.1数据构成 4.3.2数据类型. 4.3.3数据质量.. 4.3.4数据存储.. 5技术规范 5.1数据清洗策略... 5.1.1全人工方式.. 5.1.2全自动方式.. 5.1.3实时人机交互方式 5.1.4异步人机交互方式.. 5.2清洗规则库和清洗算法库 5.2.1清洗规则库 5.2.2清洗算法库, 5.3数据清洗实施步骤, 5.3.1数据预处理... 5.3.2数据有效性检查.. .10 5.3.3数据重复性检查.. 10 5.4数据清洗结果 11 附录A(资料性附录) 数据清洗实例, 12 A.1、数据表的结构. .12 A.2数据表清洗过程 13 DB4208/T60—2024 前言 本本文件按照GB/T1.1一2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规 定起草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 本文件代替DB4208/T60-2017,与DB4208/T60-2017相比,除文件编号按照新要求更新外,主要技 术参数未发生变化。 本文件由荆门市电子政务信息中心(荆门市大数据中心)提出。 本文件由荆门市行政审批局归口。 本文件起草单位:荆门市电子政务信息中心(荆门市大数据中心)。 本文件主要起草人:胡玉荣、罗传军、肖立刚、杨金龙、刘波、田原、陆焱、王娅纷、熊士杰、陈 永锋、李祥琴、游明坤、赖旭、武永成、董尚燕、张牧、吴际林、刘珊艳、余建国、方靖、庄小林。 本文件于2017年5月首次发布。 本文件实施应用中的疑问,可咨询荆门市行政审批局,联系电话:(0724)2376309,邮箱: [email protected];对本标准的有关修改意见建议请反馈至荆门市电子政务信息中心(荆门市大数据 中心),联系电话:(0724)2376119,邮箱:[email protected] II DB4208/T60—2024 引言 党中央、国务院高度重视大数据发展。国务院《促进大数据发展行动纲要》明确指出要“建立标准 规范体系,推进数据采集、政府数据开放、指标口径、分类目录、交换接口、访问接口、数据质量、数 据交易、技术产品、安全保密等关键共性标准的制定和实施。” 荆门市以国家大数据战略为指导,遵循“务求实效、急用先行”的原则,首次制定五个大数据标准 规范。标准规范的制定,对建设荆门城市大数据中心,规范数据处理流程,满足大数据中心建设和管理 的需要,促进“智慧荆门”建设具有重要意义。五个标准规范包括荆门城市大数据术语、荆门城市大数 据采集规范、荆门城市大数据清洗规范、荆门城市大数据比对规范和荆门城市大数据共享规范。荆门城 市大数据术语分为总论、数据采集、数据清洗、数据比对、数据共享和应用服务六大类,规定了荆门城 市大数据中心建设领域的术语和定义,其余四个标准规范则规定大数据中心数据采集、清洗、比对和共 享的总体框架和技术规范,涉及数据处理的整个流程:首先进行数据采集,然后通过数据整合(包括数 据清洗和数据比对),将整合成功的数据装载到公共基础信息库,根据需要提供数据共享。 五个标准规范的制定是荆门市电子政务信息中心(荆门市大数据中心)和全市信息行业人员的共同 愿望,具有鲜明的地方特色和时代特征,填补了荆门市大数据技术应用领域的一项空白,在湖北省乃至 国内具有较高的参考利用价值和指导意义。标准规范在使用过程中还需要不断完善,其中未涉及到的内 容遵循相关国家标准。 II DB4208/T60—2024 荆门城市大数据清洗规范 1范围 本文件规定了荆门城市大数据中心数据清洗过程中应遵循的原则和要求。 本文件适用于荆门市大数据中心建设过程中数据清洗的技术要求和规范。 2规范性引用文件 下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。 凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 GB/T25069信息安全技术术语 DB4208/T58荆门城市大数据术语 3术语和定义 GB/T25069和DB420800/T58确立的以及下列术语和定义适用于本文件。为了便于使用,以下重复 列出了上述标准中的某些术语和定义,未标明引用的均出自DB4208/T58。 3.1 中心汇聚库centerconvergencedatabase 主要用于存储和管理来自源系统最新数据的数据库。其数据结构类似于源系统,数据按来源部门或 业务领域进行分类,一且新的数据进人,则旧的数据就被置换。 3.2 部门数据库departmentdatabase 按部门或业务来源进行分类存储管理的数据库。其数据结构类似中心汇聚库,不同在于数据从中心 汇聚库传输到部门数据库的过程中,进行简单的清洗和相关类型识别转换等规整化操作,同时新旧数据 间存储是按时间切片或对应周期区隔切片存储的,数据存储量以时间切片为单位确定数据批次,来一批 累积一批。 3.3 大数据中心bigdatacenter 主要用于信息资源的存储和管理,可包括中心汇聚库、部门数据库、公共基础信息库等。 3.4 日志数据库logdatabase 1

.pdf文档 DB4208-T 60-2024 荆门城市大数据清洗规范 荆门市

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
DB4208-T 60-2024 荆门城市大数据清洗规范 荆门市 第 1 页 DB4208-T 60-2024 荆门城市大数据清洗规范 荆门市 第 2 页 DB4208-T 60-2024 荆门城市大数据清洗规范 荆门市 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2025-07-26 05:06:38上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。