专利 敏感数据识别方法和装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210712992.5 (22)申请日 2022.06.22 (71)申请人蚂蚁区块链科技（上海）有限公司地址 200010 上海市黄浦区外马路618号8 层803室 (72)发明人刘洋　王辰淅　 (74)专利代理机构北京亿腾知识产权代理事务所(普通合伙) 11309 专利代理师孙欣欣　周良玉 (51)Int.Cl. G06F 16/22(2019.01) G06F 16/2455(2019.01) G06F 16/2458(2019.01) G06F 16/28(2019.01) (54)发明名称敏感数据识别方法和装置 (57)摘要本说明书实施例提供一种敏感数据识别方法和装置。方法包括：响应于检测到目标数据库中预设类型的新增数据，对所述新增数据进行抽样，以获取抽样数据；将所述抽样数据存储于缓存数据库中；当满足预设的触发条件时，触发数据识别任务，所述数据识别任务基于从所述缓存数据库中读取的抽样数据进行敏感数据识别。能够提升敏感数据识别的效率。权利要求书3页说明书10页附图4页 CN 115145915 A 2022.10.04 CN 115145915 A 1.一种敏感数据识别方法，所述方法包括：响应于检测到目标数据库中预设类型的新增数据，对所述新增数据进行抽样，以获取抽样数据；将所述抽样数据存储于缓存数据库中；当满足预设的触发条件时，触发数据识别任务，所述数据识别任务基于从所述缓存数据库中读取的抽样数据进行敏感数据识别。 2.如权利要求1所述的方法，其中，所述目标数据库为多个客户数据库中的任一客户数据库；所述缓存数据库被所述多个客户数据库所共享。 3.如权利要求1所述的方法，其中，所述目标数据库为关系型数据库，以数据表作为存储单元；所述缓存数据库为非关系型数据库，以数据表中的列作为存储单元。 4.如权利要求1所述的方法，其中，所述预设类型的新增数据包括，使得所述目标数据库的元数据发生变化的新增数据。 5.如权利要求1所述的方法，其中，所述新增数据为所述目标数据库中的目标数据表中新增的若干目标数据列；所述对所述新增数据进行抽样，包括：对所述若干目标数据列按照预先确定的抽样数量进行抽样，以获取其中第一数量行的抽样数据，其中，所述抽样数量基于所述目标数据表的置信度和置信区间而确定。 6.如权利要求5所述的方法，其中，若所述目标数据表中的数据行数小于或等于所述抽样数量，则所述第一数量等于所述数据行数。 7.如权利要求5所述的方法，其中，所述对所述若干目标数据列按照预先确定的抽样数量进行抽样，包括：若所述目标数据表中的数据行数为所述抽样数量的1 ‑2倍，则生成随机数字，使得该随机数字与所述抽样数量之和小于或等于所述数据行数；以该随机数字作为起始行位置，从所述若干目标数据列中读取所述抽样数量行的数据，作为所述抽样数据。 8.如权利要求5所述的方法，其中，所述对所述目标数据表按照预先确定的抽样数量进行抽样，包括：若所述目标数据表中的数据行数为所述抽样数量的n倍，且2<＝n<＝m，则将所述目标数据表中的数据分为n段数据，针对每段数据，生成该段数据的随机数字，使得各段数据的随机数字与所述抽样数量之和小于或等于所述数据行数，其中m大于或等于10；针对每段数据，以该段数据的随机数字作为起始行位置，从所述若干目标数据列中读取第二数量行的数据，各段数据的第二数量行之和等于所述抽样数量行，所述抽样数量行的数据作为所述抽样数据。 9.如权利要求5所述的方法，其中，所述对所述目标数据表按照预先确定的抽样数量进行抽样，包括：若所述目标数据表中的数据行数为所述抽样数量的n倍，且n>m，则将所述目标数据表中的数据分为m段数据，针对每段数据，生成该段数据的随机数字，使得各段数据的随机数字与所述抽样数量之和小于或等于所述数据行数，其中m大于或等于10；针对每段数据，以该段数据的随机数字作为起始行位置，从所述若干目标数据列中读取第三数量行的数据，各段数据的第三数量行之和等于所述抽样数量行，所述抽样数量行权　利　要　求　书 1/3 页 2 CN 115145915 A 2的数据作为所述抽样数据。 10.如权利要求1所述的方法，其中，所述新增数据包括，针对所述目标数据库中的目标数据表新增的目标数据列；所述将所述抽样数据存储于缓存数据库中，包括：按照预设方式，生成所述目标数据库中目标数据表的所述目标数据列唯一对应的目标主键，将所述抽样数据作为所述目标主键对应的目标值，以键值对的形式将所述目标主键和目标值写入缓存数据库中。 11.如权利要求10所述的方法，其中，所述数据识别任务基于从所述缓存数据库中读取的抽样数据进行敏感数据识别，包括：所述数据识别任务按照所述预设方式，针对待识别的数据库中的数据表的数据列生成待识别主键；根据所述待识别主键从所述缓存数据库中读取对应的抽样数据；基于从所述缓存数据库中读取的抽样数据进行敏感数据识别。 12.如权利要求1所述的方法，其中，所述预设的触发条件包括：修改规则后的全部识别、增量识别、或者指定范围的识别；其中，所述规则在所述数据识别任务中用于确定抽样数据是否为敏感数据。 13.一种敏感数据识别方法，所述方法包括：响应于检测到目标数据库中预设类型的新增数据，对所述新增数据进行抽样，以获取抽样数据；根据所述抽样数据确定其特征统计数据；将所述特征统计数据存储于缓存数据库中；当满足预设的触发条件时，触发数据识别任务，所述数据识别任务基于从所述缓存数据库中获取的特征统计数据进行敏感数据识别。 14.一种敏感数据识别装置，所述装置包括：抽样单元，用于响应于检测到目标数据库中预设类型的新增数据，对所述新增数据进行抽样，以获取抽样数据；存储单元，用于将所述抽样单元获取的抽样数据存储于缓存数据库中；识别单元，用于当满足预设的触发条件时，触发数据识别任务，所述数据识别任务基于从所述缓存数据库中读取的所述存储单元存储的抽样数据进行敏感数据识别。 15.如权利要求14所述的装置，其中，所述新增数据为所述目标数据库中的目标数据表中新增的若干目标数据列；所述抽样单元，具体用于对所述若干目标数据列按照预先确定的抽样数量进行抽样，以获取其中第一数量行的抽样数据，其中，所述抽样数量基于所述目标数据表的置信度和置信区间而确定。 16.如权利要求15所述的装置，其中，所述抽样单元包括：第一生成子单元，用于若所述目标数据表中的数据行数为所述抽样数量的1 ‑2倍，则生成随机数字，使得该随机数字与所述抽样数量之和小于或等于所述数据行数；第一读取子单元，用于以所述第一生成子单元生成的该随机数字作为起始行位置，从所述若干目标数据列中读取所述抽样数量行的数据，作为所述抽样数据。 17.如权利要求15所述的装置，其中，所述抽样单元包括：第二生成子单元，用于若所述目标数据表中的数据行数为所述抽样数量的n倍，且2<＝权　利　要　求　书 2/3 页 3 CN 115145915 A 3

专利 敏感数据识别方法和装置

专利敏感数据识别方法和装置