(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210712992.5
(22)申请日 2022.06.22
(71)申请人 蚂蚁区块链科技 (上海) 有限公司
地址 200010 上海市黄浦区外马路618号8
层803室
(72)发明人 刘洋 王辰淅
(74)专利代理 机构 北京亿腾知识产权代理事务
所(普通合伙) 11309
专利代理师 孙欣欣 周良玉
(51)Int.Cl.
G06F 16/22(2019.01)
G06F 16/2455(2019.01)
G06F 16/2458(2019.01)
G06F 16/28(2019.01)
(54)发明名称
敏感数据识别方法和装置
(57)摘要
本说明书实施例提供一种敏感数据识别方
法和装置。 方法包括: 响应于检测到目标数据库
中预设类型的新增数据, 对所述新增数据进行抽
样, 以获取抽样数据; 将所述抽样数据存储于缓
存数据库中; 当满足预设的触发条件时, 触发数
据识别任务, 所述数据识别任务基于从所述缓存
数据库中读取的抽样数据进行敏感数据识别。 能
够提升敏感数据识别的效率。
权利要求书3页 说明书10页 附图4页
CN 115145915 A
2022.10.04
CN 115145915 A
1.一种敏感数据识别方法, 所述方法包括:
响应于检测到目标数据库中预设类型的新增数据, 对所述新增数据进行抽样, 以获取
抽样数据;
将所述抽样数据存 储于缓存数据库中;
当满足预设的触发条件时, 触发数据识别任务, 所述数据识别任务基于从所述缓存数
据库中读取的抽样数据进行 敏感数据识别。
2.如权利要求1所述的方法, 其中, 所述目标数据库为多个客户数据库中的任一客户数
据库; 所述缓存数据库被所述多个客户数据库所共享。
3.如权利要求1所述的方法, 其中, 所述目标数据库为关系型数据库, 以数据表作为存
储单元; 所述缓存数据库为非关系型 数据库, 以数据表中的列 作为存储单元。
4.如权利要求1所述的方法, 其中, 所述预设类型的新增数据包括, 使得所述目标数据
库的元数据发生变化的新增数据。
5.如权利要求1所述的方法, 其中, 所述新增数据为所述目标数据库中的目标数据表中
新增的若干目标 数据列; 所述对所述 新增数据进行抽样, 包括:
对所述若干目标数据列按照预先确定的抽样数量进行抽样, 以获取其中第 一数量行的
抽样数据, 其中, 所述抽样数量基于所述目标 数据表的置信度和置信区间而确定 。
6.如权利要求5所述的方法, 其中, 若所述目标数据表中的数据 行数小于或等于所述抽
样数量, 则所述第一数量 等于所述数据行 数。
7.如权利要求5所述的方法, 其中, 所述对所述若干目标数据列按照预先确定的抽样数
量进行抽样, 包括:
若所述目标数据表中的数据 行数为所述抽样数量的1 ‑2倍, 则生成随机数字, 使得该随
机数字与所述抽样数量之和小于或等于所述数据行 数;
以该随机数字作为起始行位置, 从所述若干目标数据列中读取所述抽样数量行的数
据, 作为所述抽样数据。
8.如权利要求5所述的方法, 其中, 所述对所述目标数据表按照预先确定的抽样数量进
行抽样, 包括:
若所述目标数据表中的数据行数为所述抽样数量的n倍, 且2<=n<=m, 则将所述目标
数据表中的数据分为n段数据, 针对每段数据, 生成该段数据的随机数字, 使得各段数据的
随机数字与所述抽样数量之和小于或等于所述数据行 数, 其中m大于或等于10;
针对每段数据, 以该段数据的随机数字作为起始行位置, 从所述若干目标数据列中读
取第二数量行 的数据, 各段数据的第二数量行之和等于所述抽样数量行, 所述抽样数量行
的数据作为所述抽样数据。
9.如权利要求5所述的方法, 其中, 所述对所述目标数据表按照预先确定的抽样数量进
行抽样, 包括:
若所述目标数据表中的数据行数为所述抽样数量的n倍, 且n>m, 则将所述目标数据表
中的数据分为m段数据, 针对每段数据, 生成该段数据的随机数字, 使得各段数据的随机数
字与所述抽样数量之和小于或等于所述数据行 数, 其中m大于或等于10;
针对每段数据, 以该段数据的随机数字作为起始行位置, 从所述若干目标数据列中读
取第三数量行 的数据, 各段数据的第三数量行之和等于所述抽样数量行, 所述抽样数量行权 利 要 求 书 1/3 页
2
CN 115145915 A
2的数据作为所述抽样数据。
10.如权利要求1所述的方法, 其中, 所述新增数据包括, 针对所述目标数据库中的目标
数据表新增的目标 数据列; 所述将所述抽样数据存 储于缓存数据库中, 包括:
按照预设方式, 生成所述目标数据库中目标数据表的所述目标数据列唯一对应的目标
主键, 将所述抽样数据作为所述 目标主键对应的目标值, 以键值对的形式将所述 目标主键
和目标值写入缓存数据库中。
11.如权利要求10所述的方法, 其中, 所述数据识别任务基于从所述缓存数据库中读取
的抽样数据进行 敏感数据识别, 包括:
所述数据识别任务按照所述预设方式, 针对待识别的数据库中的数据表的数据列生成
待识别主键;
根据所述待识别主键从所述缓存数据库中读取对应的抽样数据;
基于从所述缓存数据库中读取的抽样数据进行 敏感数据识别。
12.如权利要求1所述的方法, 其中, 所述预设的触发条件 包括:
修改规则后的全部识别、 增量识别、 或者指定范围的识别; 其中, 所述规则在所述数据
识别任务中用于确定抽样数据是否为敏感数据。
13.一种敏感数据识别方法, 所述方法包括:
响应于检测到目标数据库中预设类型的新增数据, 对所述新增数据进行抽样, 以获取
抽样数据;
根据所述抽样数据确定其特 征统计数据;
将所述特 征统计数据存 储于缓存数据库中;
当满足预设的触发条件时, 触发数据识别任务, 所述数据识别任务基于从所述缓存数
据库中获取的特 征统计数据进行 敏感数据识别。
14.一种敏感数据识别装置, 所述装置包括:
抽样单元, 用于响应于检测到目标数据库中预设类型的新增数据, 对所述新增数据进
行抽样, 以获取抽样数据;
存储单元, 用于将所述抽样单 元获取的抽样数据存 储于缓存数据库中;
识别单元, 用于当满足预设的触发条件时, 触发数据识别任务, 所述数据识别任务基于
从所述缓存数据库中读取的所述存 储单元存储的抽样数据进行 敏感数据识别。
15.如权利要求14所述的装置, 其中, 所述新增数据为所述目标数据库中的目标数据表
中新增的若干目标数据列; 所述抽样单元, 具体用于对所述若干目标数据列按照预先确定
的抽样数量进 行抽样, 以获取其中第一数量行的抽样数据, 其中, 所述抽样数量基于所述目
标数据表的置信度和置信区间而确定 。
16.如权利要求15所述的装置, 其中, 所述抽样单 元包括:
第一生成子单元, 用于若所述目标数据表中的数据行数为所述抽样数量的1 ‑2倍, 则生
成随机数字, 使得 该随机数字与所述抽样数量之和小于或等于所述数据行 数;
第一读取子单元, 用于以所述第一生成子单元生成的该随机数字作为起始行位置, 从
所述若干目标 数据列中读取 所述抽样数量行的数据, 作为所述抽样数据。
17.如权利要求15所述的装置, 其中, 所述抽样单 元包括:
第二生成子单元, 用于若所述目标数据表中的数据行数为所述抽样数量的n倍, 且2<=权 利 要 求 书 2/3 页
3
CN 115145915 A
3
专利 敏感数据识别方法和装置
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 00:14:45上传分享