全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210836961.0 (22)申请日 2022.07.15 (71)申请人 平安科技 (深圳) 有限公司 地址 518000 广东省深圳市福田区福田街 道福安社区益田路5033号平 安金融中 心23楼 (72)发明人 钱学广  (74)专利代理 机构 深圳市世联合知识产权代理 有限公司 4 4385 专利代理师 姜妍 (51)Int.Cl. G06Q 30/02(2012.01) G06Q 40/08(2012.01) G06K 9/62(2022.01) G06F 16/2458(2019.01)G06F 16/28(2019.01) (54)发明名称 基于决策树模型的数据分类方法及相关设 备 (57)摘要 本申请实施例属于人工智能技术领域, 涉及 一种基于决策树模型的数据分类方法及相关设 备, 包括从获取的历史业务数据中提取业务特征 生成数据集, 并从数据集中提取子集作为第一训 练数据集; 确定第一训练数据集中的指标属性和 条件属性, 基于指标属性确定第一训练数据集的 第一总信息熵; 根据第一总信息熵和条件属性生 成节点, 基于节点生成决策树模型; 通过验证数 据集对决策树模型进行验证, 得到验证结果, 直 到验证结果满足预设条件, 输出最终决策树模型 作为分类预测模 型; 将目标业务数据输入分类预 测模型, 得到分类结果。 此外, 本申请 还涉及区块 链技术, 业务特征可存储于区块链中。 本申请可 以提高对业 务数据的分类效率和分类准确性。 权利要求书2页 说明书15页 附图4页 CN 115099875 A 2022.09.23 CN 115099875 A 1.一种基于决策树模型的数据分类方法, 其特 征在于, 包括下述 步骤: 获取历史业务数据, 从所述历史业务数据中提取业务特征, 根据所述业务特征生成数 据集, 并从所述数据集中提取子集作为第一训练数据集; 确定所述第 一训练数据集中的指标属性和条件属性, 基于所述指标属性确定所述第 一 训练数据集的第一总信息熵; 根据所述第一总信息熵和所述条件属性 生成节点, 基于所述节点 生成决策树模型; 从所述数据集中获取验证数据集, 通过所述验证数据集对所述决策树模型进行验证, 得到验证结果; 确定所述验证结果是否满足预设条件, 若所述验证结果不满足预设条件, 则更新所述 决策树模型, 直到所述验证结果满足预设条件, 输出最终决策树模型作为分类预测模型; 获取目标业 务数据, 将所述目标业 务数据输入所述分类预测模型, 得到分类结果。 2.根据权利要求1所述的基于决策树模型的数据分类方法, 其特征在于, 所述基于所述 指标属性确定所述第一训练数据集的第一总信息熵的步骤 包括: 确定所述指标属性中每 个指标特征在所述第一训练数据集中的概 率; 基于所述 概率计算得到所述第一训练数据集的第一总信息熵。 3.根据权利要求1所述的基于决策树模型的数据分类方法, 其特征在于, 所述根据 所述 第一总信息熵和所述条件属性 生成节点的步骤 包括: 步骤A, 根据所述第一总信息熵和所述条件属性的属性数据, 计算得到每个所述条件属 性的信息增益; 步骤B, 获取所述条件属性的优化权值, 通过所述优化权值优化对应的信息增益, 得到 优化信息增益; 步骤C, 基于所述优化信息增益确定最优条件属性, 并将所述 最优条件属性作为节点; 步骤D, 将所述节点之外的条件属性和所述指标属性组成第 二训练数据集, 根据 所述指 标属性计算所述第二训练数据集的第二总信息熵; 步骤E, 循环步骤A至步骤D, 直至所有的所述条件属性 生成节点。 4.根据权利要求3所述的基于决策树模型的数据分类方法, 其特征在于, 所述根据 所述 第一总信息熵和所述条件属性的属性数据, 计算每个所述条件属性的信息增益的步骤包 括: 根据所述属性数据, 计算每 个所述条件属性中每 个属性特 征的属性信息熵; 基于所述属性信息熵计算得到对应所述条件属性的条件信息熵; 根据所述第一总信息熵和所述条件信息熵, 计算得到信息增益。 5.根据权利要求3所述的基于决策树模型的数据分类方法, 其特征在于, 在所述根据 所 述第一总信息熵和所述条件属性的属性数据, 计算得到每个所述条件属性的信息增益的步 骤之前还 包括: 确定所述属性数据是否存在异常数据; 若存在异常数据, 则对所述异常数据进行修 正。 6.根据权利要求5所述的基于决策树模型的数据分类方法, 其特征在于, 在所述获取所 述条件属性的优化权值的步骤之前还 包括: 确定所述异常数据对应的条件属性, 统计所述异常数据在所述条件属性中的占比;权 利 要 求 书 1/2 页 2 CN 115099875 A 2根据所述占比计算得到调整系数, 根据所述调整系数调整所述条件属性的优化权值。 7.根据权利要求1所述的基于决策树模型的数据分类方法, 其特征在于, 所述通过所述 验证数据集对所述决策树模型进行验证, 得到验证结果的步骤 包括: 将所述验证数据集输入所述决策树模型, 输出 预测结果; 根据所述预测结果计算预测准确度, 将所述预测准确度作为验证结果。 8.一种基于决策树模型的数据分类装置, 其特 征在于, 包括: 提取模块, 用于获取历史业务数据, 从所述历史业务数据中提取业务特征, 根据 所述业 务特征生成数据集, 并从所述数据集中提取子集作为第一训练数据集; 确定模块, 用于确定所述第一训练数据集中的指标属性和条件属性, 基于所述指标属 性确定所述第一训练数据集的第一总信息熵; 生成模块, 用于根据所述第一总信息熵和所述条件属性生成节点, 基于所述节点生成 决策树模型; 验证模块, 用于从所述数据集中获取验证数据集, 通过所述验证数据集对所述决策树 模型进行验证, 得到验证结果; 输出模块, 用于确定所述验证结果是否满足预设条件, 若所述验证结果不满足预设条 件, 则更新所述决策树模型, 直到所述验证结果满足预设条件, 输出最 终决策树模型作为分 类预测模型; 分类模块, 用于获取目标业务数据, 将所述目标业务数据输入所述分类预测模型, 得到 分类结果。 9.一种计算机设备, 包括存储器和处理器, 所述存储器中存储有计算机可读指令, 所述 处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的基于决策树模型 的数据分类方法的步骤。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机 可读指令, 所述计算机可读指 令被处理器执行时实现如权利要求 1至7中任一项 所述的基于 决策树模型的数据分类方法的步骤。权 利 要 求 书 2/2 页 3 CN 115099875 A 3

.PDF文档 专利 基于决策树模型的数据分类方法及相关设备

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于决策树模型的数据分类方法及相关设备 第 1 页 专利 基于决策树模型的数据分类方法及相关设备 第 2 页 专利 基于决策树模型的数据分类方法及相关设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 06:31:30上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。