全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111674000.6 (22)申请日 2021.12.31 (71)申请人 江苏任务网络科技有限公司 地址 213017 江苏省常州市天宁区竹林北 路256号科技促进中心五楼5 30室 (72)发明人 黄圣超 陈贵林 顾程熙 吉鸿呈  周圣侗 李强 李苏华 凌柯非  (74)专利代理 机构 常州众慧之星知识产权代理 事务所(普通 合伙) 32458 代理人 郭云梅 (51)Int.Cl. G06F 21/62(2013.01) G06F 21/60(2013.01) G06F 21/31(2013.01) G06F 16/28(2019.01)G06F 16/27(2019.01) (54)发明名称 一种大数据存储与溯源系统 (57)摘要 本发明公开了一种大数据存储与溯源系统, 属于大数据存储领域, 技术要点包括基础平台 层、 数据操作层、 系统核心层以及系统接入层; 所 述基础平台层包括文件系统与存储层, 所述文件 系统采用kernel  bypass结合非阻塞式异步IO, 所述存储层用于将数据切片、 加密之后的切片 文 件分布式存储至硬盘内; 所述数据操作层包括数 据切片模块、 数据加密模块与数据操作模块, 所 述数据切片模块用于在存储之前对数据进行切 分, 所述数据加密模块用于对切分后的数据即对 同一文件的一个及一个以上的分片进行加密。 本 发明, 具备全链路数据监控以及溯源手段, 对大 数据存储系统中的数据存储安全性进行有效的 改进, 在数据泄露、 隐私保护层面的干预程度较 强。 权利要求书2页 说明书5页 附图5页 CN 114386098 A 2022.04.22 CN 114386098 A 1.一种大数据存储与溯源系统, 其特征在于: 包括基础平台层、 数据操作层、 系统核心 层以及系统接入层; 所述基础平台层包括文件系统与存储层, 所述文件系统采用kernel  bypass方式结合 非阻塞式异步 IO实现, 所述存 储层用于将数据切片、 加密之后的切片文件 存储至硬盘内; 所述数据操作层包括数据切片模块、 数据加密模块与数据操作模块, 所述数据切片模 块用于在存储 之前对数据进行切分, 所述数据加密 模块用于对切分后的数据即对同一文件 的一个及一个以上 的分片进行加密, 加密数量与过程根据用户进行设定, 所述数据操作模 块用于用户对数据进行读取、 修改、 覆写等操作, 同时这些操作记录会被记录; 所述系统核心层包括数据调度引擎与图引擎, 所述数据调度引擎用于对切片之后的数 据存储进行调度, 存储到不同的分布式存储介质中, 所述图引擎用于数据切片之后会求取 其散列值, 并把该数据切片的散列值, 录入时间, 加密方案录入数据库, 在对数据进行操作 过程中, 数据发生变化会直接影响数据的散列值, 当监控到散列值变化时, 将 变化后结果的 散列记录 到数据库, 完成数据溯源; 所述系统接入层包括管理界面与数据接口, 所述管理界面用于管理员查看数据上传、 使用状况以及平台运营状况, 所述数据接口为 开放的API, 用于上传文件; 所述数据操作层、 系统核心层以及系统接入层之间设置有授信访 问机制, 所述授信访 问机制即只有授信的用户能够访问本系统, 不同权限的用户在本系统中可操作数据方式不 同。 2.根据权利要求1所述的一种大数据存储与溯源系统, 其特征在于: 所述授信访问机制 的权限分为数据提供者以及数据使用者, 数据提供者可以在本系统中上传文件, 将文件授 权给第三方使用者, 使用者通过数据操作层完成对数据操作, 但是操作过程是对他人保密 的, 操作结果以及操作记录是对数据提供者公开的。 3.根据权利要求2所述的一种大数据存储与溯源系统, 其特征在于: 所述授信访问机制 用于验证数据上传者的身份, 在本系统中, 会对操作者使用的IP, 硬件设备信息, 用户权限 (读、 写操作权限)进行监控, 还用于验证数据使用者身份, 除了平台允许的人员登陆之外, 对某一个特定数据文件进行访问需要获取文件提供者的授权 。 4.根据权利要求1所述的一种大数据存储与溯源系统, 其特征在于: 所述存储层采用分 布式存储策略, 总共有N台用于数据存储的服务器, 在数据切片加密之后计算其散列值, 根 据不同的散列值存储到不同的服务器上, 同时配备N台服务器作为数据备份服务器, 定时完 成数据备份操作, 其中N至少为1。 5.根据权利要求1所述的一种大数据存储与溯源系统, 其特征在于: 所述存储层包括有 若干个文件块, 所述文件块大小为4kb, 数据切片模块用于对原始数据进行切片, 其中每个 切片大小为3.9kb, 即一个大小为S(单位 kb)的文件, 最后可以分为 个数据切片。 6.根据权利要求1所述的一种大数据存储与溯源系统, 其特征在于: 所述数据加密模块 采用的加密方式是SM4算法, 加密后的文件会比原始数据切片大, 其中每个文件仍不大于 4kb的阈值, 数据切片的尺寸可适应性调整。 7.根据权利要求1所述的一种大数据存储与溯源系统, 其特征在于: 所述数据提供者以 及数据使用者的使用方法如下:权 利 要 求 书 1/2 页 2 CN 114386098 A 2数据提供者: 在使用本系统上传文件的时候需要通过证书认证系统, 携带CA认证信息, 用于存储时可以确定上传者的个人信息以及数据来源, 初始数据通过网络接口上传之后, 首先是进行数据切片模块切片, 由于加密方式可选, 数据提供者可以选择不进行数据加密 或者部分切片加密, 切片之后计算每个切片的散列值, 以及整个初始文件的散列值, 之后会 将这些散列值(作为查询索引)以及文件上传者, 加密方式存储到关系 型数据库中, 同时在 文件写入存储层的时候会将写入时间也一并录入数据库, 在录入数据库时, 原始数据的散 列值以及切片之后的散列值是一对多的关系; 数据使用者: 当授信的数据使用者需要对某个数据文件进行操作, 首先从关系数据库 中查询相关数据的散列值, 然后 从存储层取出所有相关的数据切片, 按照加密方式 以及访 问者提供的私钥, 进行数据解密以及重新组合操作, 其中, 若用户在操作时只读取数据内 容, 则文件系统层不会对此产生反应; 但是在用户对数据进行了写入、 删除以及修改操作 时, 文件系统会计算新的散列值, 与上一次修改后的散列值联合, 作为修改完成后的数据散 列, 在完成操作后重新切片存 储。 8.根据权利要求1所述的一种大数据存储与溯源系统, 其特征在于: 所述数据操作模块 的操作模式分为 三种模式: 一、 单文件模式, 即从存储层获取文件A后, 经过用户自定义的文件操作流程, 仅生成了 一个结果文件A1, 那么我们认 为在这种情况下文件A1为A的下游数据, A为A1的源 数据, 两者 存在数据血缘; 特殊情况为A1的hash值与 A一致, 则认 为文件操作过程中未发生文件修改情 况, 不需要再重新保存A1, 此时认为用户只是在文件操作中浏览了文件A; 二、 拓展模式, 即从存储层获取文件A后, 经过用户自定义的文件操作流程, 生成了两个 (或多个)文件, 其中A1的判断依据按照单文件模式; B为新生成的文件, B不存在源数据, 在 这种情况下, 数据所有权依然归原始数据 A提供者, 用户要 下载文件B仍需提出申请, 例如 源 文件A是一个压缩文件, 对文件进行操作时需要对文件先解压, 解压过程中会生成新的文件 并被本系统记录, 形成新的数据链路; 三、 多文件模式, 即用户某些操作会使用到超过一个文件(文件组A), 例如神经网络训 练, 需要数千数万个文件同时进 行操作, 生 成若干模 型文件(文件组B), 新生成的文件组B与 文件组A没有直接的血缘关系; 自然, 在数据操作中对文件组A中的源文件进行操作时依然 遵循单文件 模式与拓展模式所定义的规则。 9.根据权利要求1所述的一种大数据存储与溯源系统, 其特征在于: 所述图引擎包括文 件增删改查的数据链路与用户文件操作的记录追溯。权 利 要 求 书 2/2 页 3 CN 114386098 A 3

.PDF文档 专利 一种大数据存储与溯源系统

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种大数据存储与溯源系统 第 1 页 专利 一种大数据存储与溯源系统 第 2 页 专利 一种大数据存储与溯源系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 04:13:20上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。