(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210620381.8
(22)申请日 2022.06.02
(71)申请人 蚂蚁区块链科技 (上海) 有限公司
地址 200010 上海市黄浦区外马路618号8
层803室
(72)发明人 郝泳栋
(74)专利代理 机构 北京亿腾知识产权代理事务
所(普通合伙) 11309
专利代理师 孙欣欣 周良玉
(51)Int.Cl.
G06F 21/62(2013.01)
G06F 16/242(2019.01)
G06F 16/2455(2019.01)
G06F 16/2458(2019.01)
G06F 16/901(2019.01)G06F 16/903(2019.01)
(54)发明名称
数据资产风险发现方法和装置
(57)摘要
本说明书实施例提供一种数据资产风险发
现方法和装置, 方法包括: 获取目标数据资产中
针对元数据和操作数据的新增数据; 元数据包括
数据存储单元的描述数据, 操作数据为针对数据
存储单元的访问行为数据; 获取预先建立的目标
数据资产对应的数据血缘图谱; 数据血缘图谱基
于元数据和操作数据的历史数据建立; 数据血缘
图谱包括节点和连接边, 节点基于元数据确定,
连接边基于操作数据确定, 其体 现了节点之间的
关联关系; 节 点的属性值标识了相应元数据对应
的数据存储单元的风险信息; 根据新增数据, 更
新数据血缘图谱; 根据更新后的数据血缘图谱,
确定与新增数据相关的节点的属性值, 根据属性
值确定新增数据的风险信息。 能够提升风险发现
的效率。
权利要求书3页 说明书10页 附图4页
CN 114969819 A
2022.08.30
CN 114969819 A
1.一种数据资产风险发现方法, 所述方法包括:
获取目标数据资产中针对元数据和操作 数据的新增数据; 所述元数据包括针对所述目
标数据资产的数据存储单元的描述数据, 所述操作数据为针对所述数据存储单元的访问行
为数据;
获取预先建立的所述目标数据资产对应的数据血缘图谱; 所述数据血缘图谱基于所述
元数据和操作数据的历史数据而建立; 所述数据血缘图谱包括节点和连接边, 节点基于元
数据而确定, 连接边基于操作数据而确定, 其体现了节点之间的关联关系; 节 点的属性值标
识了相应元 数据对应的数据存 储单元的风险信息;
根据所述 新增数据, 更新所述数据血缘图谱;
根据更新后的数据血缘图谱, 确定与所述新增数据相关的节点的属性值, 根据所述属
性值确定所述 新增数据的风险信息 。
2.如权利要求1所述的方法, 其中, 所述目标数据资产属于结构化数据, 其数据存储单
元通过数据库、 数据表和数据列来标识。
3.如权利要求2所述的方法, 其中, 所述节点对应于数据列。
4.如权利要求3所述的方法, 其中, 所述关联关系包括节点之间的生成关系, 所述生成
关系为第一节点基于第二节点而生成。
5.如权利要求1所述的方法, 其中, 所述元数据的风险信息包括风险分类信息和/或风
险分级信息, 所述风险分类信息用于指示对应的数据存储单元中数据是否属于敏感数据,
所述风险分级信息用于指示敏感数据的级别。
6.如权利要求1所述的方法, 其中, 所述获取目标数据资产中针对元数据和操作数据的
新增数据, 包括:
获取针对目标 数据资产进行操作的结构化 查询语言SQ L语句;
解析所述SQL语句, 根据其中涉及的元 数据和操作数据确定所述 新增数据。
7.如权利要求1所述的方法, 其中, 所述新增数据包括, 针对第一存储单元的第一元数
据和第一操作数据; 所述更新所述数据血缘图谱 包括:
若所述数据血缘图谱中不包含对应于所述第 一元数据的节点, 则在所述数据 血缘图谱
中添加对应于所述第一元 数据的第一节点;
根据所述第 一操作数据确定与所述第 一元数据具有关联关系的第 二元数据, 以及所述
关联关系的第一类型;
在第一节点和所述第二元 数据对应的第二节点之间建立第一类型的连接边。
8.如权利要求1所述的方法, 其中, 所述新增数据中包括针对新增的第 一存储单元的第
一元数据; 所述根据更新后的数据血缘图谱, 确定与所述新增数据相关的节点的属性值, 包
括:
在更新后的数据血缘图谱中, 将所述第一元数据对应的节点作为初始节点, 从该初始
节点出发, 查找与该初始 节点具有预设 关联关系的目标节点;
若查找到所述目标节点, 则将所述目标节点的属性 值作为所述初始 节点的属性 值。
9.如权利要求8所述的方法, 其中, 所述预设关联关系包括节点之间的生成关系, 且所
述初始节点基于所述目标节点而生成。
10.如权利要求8所述的方法, 其中, 所述根据 更新后的数据 血缘图谱, 确定与 所述新增权 利 要 求 书 1/3 页
2
CN 114969819 A
2数据相关的节点的属性 值, 还包括:
若未查找到所述目标节点, 则获取风险信息的判定规则;
根据所述 新增数据, 从所述目标 数据资产中进行抽样, 得到若干抽样数据;
对所述若干抽样数据分别利用所述判定规则, 识别其风险信息, 以综合确定所述新增
数据的风险信息;
根据所述 新增数据的风险信息, 确定所述初始 节点的属性 值。
11.一种数据资产风险发现装置, 所述装置包括:
第一获取单元, 用于获取目标数据资产中针对元数据和操作数据的新增数据; 所述元
数据包括针对所述目标数据资产的数据存储单元的描述数据, 所述操作数据为针对所述数
据存储单元的访问行为数据;
第二获取单元, 用于获取预先建立的所述目标数据资产对应的数据血缘图谱; 所述数
据血缘图谱基于所述元数据和操作数据的历史数据而建立; 所述数据血缘图谱包括节点和
连接边, 节点基于元数据而确定, 连接边基于操作数据而确定, 其体现了节点之 间的关联关
系; 节点的属性 值标识了相应元 数据对应的数据存 储单元的风险信息;
更新单元, 用于根据所述第一获取单元获取的新增数据, 更新所述第二获取单元获取
的数据血缘图谱;
确定单元, 用于根据所述更新单元得到的更新后的数据血缘图谱, 确定与所述新增数
据相关的节点的属性 值, 根据所述属性 值确定所述 新增数据的风险信息 。
12.如权利要求11所述的装置, 其中, 所述目标数据资产属于结构化数据, 其数据存储
单元通过数据库、 数据表和数据列来标识。
13.如权利要求12所述的装置, 其中, 所述节点对应于数据列。
14.如权利要求13所述的装置, 其中, 所述关联关系包括节点之间的生成关系, 所述生
成关系为第一节点基于第二节点而生成。
15.如权利要求11所述的装置, 其中, 所述元数据的风险信息包括风险分类信息和/或
风险分级信息, 所述风险分类信息用于指示对应的数据存储单元中数据是否属于敏感数
据, 所述风险分级信息用于指示敏感数据的级别。
16.如权利要求1 1所述的装置, 其中, 所述第一获取 单元包括:
获取子单 元, 用于获取针对目标 数据资产进行操作的结构化 查询语言SQ L语句;
解析子单元, 用于解析所述获取子单元获取的SQL语句, 根据其中涉及的元数据和操作
数据确定所述 新增数据。
17.如权利要求11所述的装置, 其中, 所述新增数据包括, 针对第一存储单元的第一元
数据和第一操作数据; 所述更新单 元包括:
节点添加子单元, 用于若所述数据血缘图谱中不包含对应于所述第一元数据的节点,
则在所述数据血缘图谱中添加对应于所述第一元 数据的第一节点;
确定子单元, 用于根据 所述第一操作数据确定与 所述第一元数据 具有关联关系的第 二
元数据, 以及所述关联关系的第一类型;
边建立子单元, 用于在所述节点添加子单元添加的第 一节点和所述确定子单元确定的
第二元数据对应的第二节点之间建立第一类型的连接边。
18.如权利要求11所述的装置, 其中, 所述新增数据中包括针对新增的第 一存储单元的权 利 要 求 书 2/3 页
3
CN 114969819 A
3
专利 数据资产风险发现方法和装置
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-07 12:38:52上传分享