(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211005973.5
(22)申请日 2022.08.22
(71)申请人 北京羽乐创新科技有限公司
地址 102200 北京市昌平区中关村科技园
区昌平园超前路5号 4幢2层220B
(72)发明人 张双县 李晏铭 李毅 刘畅
(74)专利代理 机构 北京尚伦律师事务所 1 1477
专利代理师 赵昕
(51)Int.Cl.
G06F 16/174(2019.01)
G06F 16/11(2019.01)
G06F 16/2457(2019.01)
G06F 16/25(2019.01)
(54)发明名称
数据压缩方法及装置
(57)摘要
本公开是关于数据压缩 方法及装置。 该方法
包括: 获取待压缩数据, 待压缩数据中包括多个
元素, 每个元素包括: 元素标签和对应的元素值;
将多个元素分为第一元素组和第二元素组, 其
中, 第一元素组中各个元素标签对应的元素值为
第一预设值, 第二元素组由除去元素值为第一预
设值的其他元素组成; 获取第一元素组中的各个
元素标签形成第一元素标签组; 对第一元素标签
组中的各个元素标签使用布隆过滤法得到第一
整理数组; 对第二元素组进行数据整理获取第二
整理数组, 其中, 第二整理数组所占用的存储空
间小于第二元素组所占用的存储空间; 分别对第
一整理数组和第二整理数据进行压缩得到压缩
数据。
权利要求书3页 说明书12页 附图5页
CN 115422142 A
2022.12.02
CN 115422142 A
1.一种数据压缩方法, 其特 征在于, 包括:
获取待压缩数据, 所述待压缩数据中包括多个元素, 每个元素包括: 元素标签和对应的
元素值;
将所述多个元素分为第一元素组和第二元素组, 其中, 所述第一元素组中各个元素标
签对应的元素值为第一预设值, 所述第二元素组由除去所述元素值为第一预设值的其他元
素组成;
获取所述第一元 素组中的各个所述元 素标签形成第一元 素标签组;
对所述第一元 素标签组中的各个元 素标签使用布隆过 滤法得到第一整理数组;
对所述第二元素组进行数据整理获取第二整理数组, 其中, 所述第二整理数组所占用
的存储空间小于所述第二元 素组所占用的存 储空间;
分别对所述第一整理数组和所述第二整理数据进行压缩得到 压缩数据。
2.根据权利要求1所述的方法, 其特征在于, 所述对所述第 一元素标签组中的各个元素
标签使用布隆过 滤法得到第一整理数组, 包括:
检测所述第一元 素组中包括的所述元 素标签的总数 是否达到预设阈值;
若达到, 则使用布隆过滤法对所述第 一元素标签组中的各个所述元素标签进行转换得
到所述第一整理数组;
若未达到, 则用预设符号隔开每 个所述元 素标签得到所述第一整理数组。
3.根据权利要求2所述的方法, 其特征在于, 所述对所述第 二元素组进行数据整理获取
第二整理数组, 包括:
将所述第二元素组拆分为第 一子元素组和第 二子元素组, 所述第 一子元素组 由所述第
二元素组中的各个所述元素标签组成, 所述第二子元素组由所述第二元素组中的各个所述
元素值组成;
将所述第二子元素组中的各个数值转换为高进制数, 并用所述预设符号隔开每个所述
高进制数 得到高进制数组;
检测所述第一子元 素组中包括的所述元 素标签的总数 是否达到所述预设阈值;
若达到, 则使用所述布隆过滤法对所述第 一子元素组中的各个所述元素标签进行转换
得到第一 转化元素组;
若未达到, 则用所述预设符号隔开每 个所述元 素标签得到第二元 素标签组;
其中, 所述第二整理数组包括: 所述高进制数组和所述第一转化元素组, 或者, 所述高
进制数组和所述第二元 素标签组。
4.根据权利要求1所述的方法, 其特征在于, 所述对所述第 一整理数组和所述第 二整理
数据进行压缩得到 压缩数据, 包括:
使用gzip算法对所述第一整理数组和所述第二整理数据进行压缩得到所述压缩数据。
5.根据权利要求2 ‑4任一项所述的方法, 其特 征在于, 所述方法还 包括:
获取参考数据, 所述 参考数据和所述待压缩数据的数据格式相同;
获取参考数据对应各个参 考数据组, 其中, 每 个所述参考数据组中的数据不相同;
获取各个参考数据组对应的第 一参考值和第 二参考值, 所述第 一参考值为采用所述预
设符号隔开所述各个元素所占用的第一存储空间, 所述第二参考值为采用所述布隆过滤法
进行转换后所占用的第二存 储空间;权 利 要 求 书 1/3 页
2
CN 115422142 A
2获取各个所述第一存 储空间与所述第二存 储空间的差值;
获取所述差值满足预设 关系的所述 参考数据组中的元 素数量为所述预设阈值。
6.一种数据压缩 装置, 其特 征在于, 包括:
第一获取模块, 用于获取待压缩数据, 所述待压缩数据中包括多个元素, 每个元素包
括: 元素标签和对应的元 素值;
划分模块, 用于将所述多个元素分为第一元素组和第 二元素组, 其中, 所述第 一元素组
中各个元素标签对应的元素值为第一预设值, 所述第二元素组由除去 所述元素值为第一预
设值的其 他元素组成;
第二获取模块, 用于获取所述第一元素组中的各个所述元素标签形成第一元素标签
组;
第一处理模块, 用于对所述第 一元素标签组中的各个元素标签使用布隆过滤法得到第
一整理数组;
第二处理模块, 用于对所述第 二元素组进行数据整理获取第 二整理数组, 其中, 所述第
二整理数组所占用的存 储空间小于所述第二元 素组所占用的存 储空间;
压缩模块, 用于分别对所述第一整理数组和所述第二整理数据进行压缩得到压缩数
据。
7.根据权利要求6所述的装置, 其特 征在于, 所述第一处 理模块, 包括:
第一检测子模块, 用于检测所述第 一元素组中包括的所述元素标签的总数是否达到预
设阈值;
第一获取子模块, 用于若达到, 则使用布隆过滤法对所述第一元素标签组中的各个所
述元素标签进行转换 得到所述第一整理数组;
第二获取子模块, 用于若未达到, 则用预设符号隔开每个所述元素标签得到所述第一
整理数组。
8.根据权利要求7 所述的装置, 其特 征在于, 所述第二处 理模块, 包括:
拆分子模块, 用于将所述第二元素组拆分为第一子元素组和第二子元素组, 所述第一
子元素组由所述第二元素组中的各个所述元素标签组成, 所述第二子元素组由所述第二元
素组中的各个所述元 素值组成;
第三获取子模块, 用于将所述第二子元素组中的各个数值转换为高进制数, 并用所述
预设符号隔开每 个所述高进制数 得到高进制数组;
第二检测子模块, 用于检测所述第 一子元素组中包括的所述元素标签的总数是否达到
所述预设阈值;
第四获取子模块, 用于若达到, 则使用所述布隆过滤法对所述第一子元素组中的各个
所述元素标签进行转换 得到第一 转化元素组;
第五获取子模块, 用于若未达到, 则用所述预设符号隔开每个所述元素标签得到第二
元素标签组;
其中, 所述第二整理数组包括: 所述高进制数组和所述第一转化元素组, 或者, 所述高
进制数组和所述第二元 素标签组。
9.一种数据压缩 装置, 其特 征在于, 包括:
处理器;权 利 要 求 书 2/3 页
3
CN 115422142 A
3
专利 数据压缩方法及装置
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 01:01:45上传分享