全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211256657.5 (22)申请日 2022.10.14 (71)申请人 卡奥斯工业智能研究院 (青岛) 有限 公司 地址 266000 山东省青岛市中国 (山 东) 自 由贸易试验区青岛片区 岷山路1号 申请人 海尔卡奥斯物联科技有限公司   海尔数字科技 (青岛) 有限公司 (72)发明人 魏永强 陈录城 盛国军  (74)专利代理 机构 北京同立钧成知识产权代理 有限公司 1 1205 专利代理师 李阳 黄健 (51)Int.Cl. G06F 16/953(2019.01) G06F 16/957(2019.01)G06F 9/50(2006.01) (54)发明名称 数据采集资源量控制方法、 装置、 设备及存 储介质 (57)摘要 本发明实施例提供一种数据采集资源量控 制方法、 装置、 设备及存储介质, 属于互联网信息 技术领域, 该方法包括: 获取任一采集对象预设 时间内的采集数据量、 采集数据中与预设热点匹 配的数据量及采集得到的数据浏览量, 并读取各 历史采集周期及本采集周期的分配 资源数; 根据 预设的期望采集周期及至少一个历史采集周期, 确定任一采集对象的采集状态; 根据匹配的数据 量、 数据浏览量、 采集数据量、 期望采集周期, 计 算任一采集对象的综合热度; 根据任一采集对象 的采集状态、 历史采集周期、 期望采集周期、 综合 热度及当前分配 资源数, 确定任一采集对象 的目 标资源数; 分配目标资源数的资源获取任一采集 对象的数据。 本申请解决了获取的数据时效性差 的问题。 权利要求书3页 说明书16页 附图2页 CN 115329179 A 2022.11.11 CN 115329179 A 1.一种数据采集资源量控制方法, 其特 征在于, 包括: 获取任一采集对象对应的预设时间内的采集数据量、 采集数据中与 预设热点匹配的数 据量及采集得到的数据浏览量, 并读取所述任一采集对象对应的预先存储的各历史采集周 期及本采集周期的分配资源数, 其中所述采集对 象包括网址, 所述采集数据包括采集得到 的网址中的内容, 所述历史采集周期为本采集周期以前的任一采集周期; 根据预设的期望采集周期及至少一个所述历史采集周期, 确定所述任一采集对象的采 集状态; 根据所述匹配的数据量、 所述数据浏览量、 所述采集数据量及所述期望采集周期, 计算 所述任一采集对象的综合热度; 根据任一采集对象的所述采集状态、 所述历史采集周期、 所述期望采集周期、 所述综合 热度及所述分配资源数, 确定任一采集对象的目标资源数; 分配所述目标资源数的资源获取 所述任一采集对象的数据。 2.根据权利要求1所述的方法, 其特征在于, 所述根据预设的期望采集周期及至少一个 所述历史采集周期, 确定所述任一采集对象的采集状态, 包括: 将任一采集对象的至少一个所述历史采集周期的平均值减去所述期望采集周期, 得到 周期差值; 若所述周期差值与 所述期望采集周期的比值大于或等于第 一预设值, 则将所述任一采 集对象的采集状态确定为破线状态; 若所述周期差值与 所述期望采集周期的比值小于或等于第 二预设值, 则将所述任一采 集对象的采集状态确定为空 闲状态; 若所述周期差值与所述期望采集周期的比值小于所述第一预设值且大于所述第二预 设值, 则将所述任一采集对象的采集状态确定为 正常状态。 3.根据权利要求1所述的方法, 其特征在于, 所述根据所述匹配的数据量、 所述数据浏 览量、 所述采集数据量及所述期望采集周期, 计算所述任一采集对象的综合热度, 包括: 根据所述匹配的数据量、 所述数据浏览量及所述采集数据量, 计算所述任一采集对象 的历史热度; 将预设个数的所述历史采集周期确定为 一个记录周期; 将第一记录周期结束时的采集数据量减第 一记录周期开始时的采集数据量, 得到第 一 记录周期的采集数据量, 其中所述第一记录周期为当前时间之前的第N个记录周期, 其中N 为正整数; 将第二记录周期结束时的采集数据量减第 二记录周期开始时的采集数据量, 得到第 二 记录周期的采集数据量, 所述第二记录周期为当前时间之前的第N+1个记录周期; 将所述第一记录周期的采集数据量减所述第 二记录周期的采集数据量, 得到新增数据 量; 将所述新增数据量除以所述期望采集周期并取对数, 得到所述任一采集对象的实际热 度; 将所述历史热度及所述实际热度以预设方式分别映射进预设区间内, 得到映射历史热 度及映射实际热度; 将所述映射历史热度和所述映射实际热度加权求和, 得到所述任一采集对象的综合热权 利 要 求 书 1/3 页 2 CN 115329179 A 2度。 4.根据权利要求3所述的方法, 其特征在于, 所述根据所述匹配的数据量、 所述数据浏 览量及所述采集数据量, 计算所述任一采集对象的历史热度, 采用的公式如下: 式中, 表示所述任一采集对象的历史热度, 表示所述匹配的数据量, 表示所述数据浏览量, 表示所述采集数据量, A、 B、 C均表示常数, log表示取 对数。 5.根据权利要求2所述的方法, 其特征在于, 所述根据任一采集对象的所述采集状态、 所述历史采集周期、 所述期 望采集周期、 所述 综合热度及所述分配资源数, 确定任一采集对 象的目标资源数, 包括: 将各采集对象的所述历史采集周期除以所述期望采集周期, 得到所述各采集对象的时 间超限比; 将各采集对象的所述综合热度与所述时间超限比相乘得到乘积, 并取所述乘积的对 数, 得到所述各采集对象的超限热度值; 根据所述任一采集对象的所述综合热度、 所述历史采集周期、 所述期望采集周期及所 有采集对象的超限热度值中的最大值和最小值, 确定资源数差; 若任一采集对象的采集状态为所述破线状态, 则将所述任一采集对象的所述分配资源 数与所述资源数差相加, 得到所述任一采集对象的目标资源数; 若所述任一采集对象的采集状态为所述空闲状态, 则将所述任一采集对象的所述分配 资源数与所述资源数差相减, 得到所述任一采集对象的目标资源数。 6.根据权利要求5所述的方法, 其特征在于, 所述根据所述任一采集对象的所述综合热 度、 所述历史采集周期、 所述期望采集周期及所有采集对 象的超限热度值中的最大值和最 小值, 确定资源数差, 采用的公式如下: 式中, 表示所述资源数差, 表示所有采集对象的超限热度值中的最大值, 表示 所有采集对象的超限热度值中的最小值, 表示所述任一采集对象的所述综合热 度, 表示所述历史采集周期, 表示所述期望采集周期, D、 E、 F、 G均表示常数, log表 示取对数。 7.根据权利要求1至6中任一项所述的方法, 其特征在于, 在所述分配所述目标资源数 的资源获取 所述任一采集对象的数据之后, 还 包括: 将新的历史采集周期与所述期望采集周期相减得到新的周期差值; 若所述新的周期差值与期望采集周期的比值小于预设比值, 则将所述目标资源数作为 固定资源数, 以采用所述固定资源数的资源获取 所述任一采集对象的数据; 若所述新的周期差值与期望采集周期的比值大于或等于预设比值, 且在预设个周期内 所述任一采集对象的新增数据量大于或等于预设值, 则重复执 行调整目标资源数的步骤;权 利 要 求 书 2/3 页 3 CN 115329179 A 3

PDF文档 专利 数据采集资源量控制方法、装置、设备及存储介质

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据采集资源量控制方法、装置、设备及存储介质 第 1 页 专利 数据采集资源量控制方法、装置、设备及存储介质 第 2 页 专利 数据采集资源量控制方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:00:33上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。