专利基于Stacking集成学习算法的车辆销售预测方法、系统及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210858110.6 (22)申请日 2022.07.20 (71)申请人上海评驾科技有限公司地址 200030 上海市徐汇区定安路5 5号徐汇万科中心 A座18层 (72)发明人徐小敏　吴志辉　 (74)专利代理机构深圳市洪荒之力专利代理有限公司 4 4541 专利代理师谢艳红 (51)Int.Cl. G06Q 30/02(2012.01) G06N 3/08(2006.01) G06N 3/04(2006.01) G06K 9/62(2022.01) (54)发明名称基于Stacking集成学习算法的车辆销售预测方法、系统及存储介质 (57)摘要本发明涉及车辆销售预测相关领域，公开了基于Stacking集成学习算法的车辆销售预测方法、系统及存储介质，通过将机器学习算法在汽车销售预测中的应用进行了研究，在随机森林、 BP神经网络等经典算法上通过Stacking算法进行模型融合，从而达到了对销售预测中的低误差预测，有益于高效的适应多样性的变化、客户的需求动态等，能够在销售、计划等方面提升企业竞争力。权利要求书2页说明书5页附图2页 CN 115222454 A 2022.10.21 CN 115222454 A 1.一种基于Stack ing集成学习算法的车辆销售预测方法，其特征在于，包含以下步骤：获取原始数据，并通过预处理程序对所述原始数据进行预处理，以生成预处理数据，所述预处理程序包括对所述原始数据的数据质量分析处理，文本类型的数值化处理，以及数据集的划分处理；进行特征工程，对所述预处理数据进行特征分析，获取多个特征集合，并基于相关性分析对多个所述特征集合进行特征选择，以删除多个所述特征集合中的冗余特征；进行基学习器模型训练，所述基学习器模型训练包括步骤：通过日向前链交叉验证方法与网格搜索对随机森林和BP神经网络进行超参数调优，通过训练集训练模型，并通过验证集评估模型性能，以获取超参数；进行元学习器模型训练，所述元学习器模型训练包括步骤：基于超参数调优后的模型，分别在验证集和测试集上进行结果的预测，所述结果作为Stacking模型第二层元学习器的训练集与测试集，并通过数据集对LR模型进行训练，输出预测结果。 2.根据权利要求1所述的基于Stacking集成学习算法的车辆销售预测方法，其特征在于，所述通过预处理程序对所述原始数据进行预处理的步骤中，还包括对所述原始数据的数据特征分析、数据集成、数据清理以及数据变化操作，所述数据质量分析用于判断所述原始数据中是否包含脏数据，所述脏数据包括缺省值、异常值、不一致的值以及重复数据和特殊符号数据。 3.根据权利要求1所述的基于Stacking集成学习算法的车辆销售预测方法，其特征在于，所述进行特征工程的步骤中，还包括：进行PCA特征提取，通过Pearson相关系数获取特征间的相关性，所述PCA特征提取用于通过一组特征计算出一组按预设事件重要性降序排列的新特征，所述PCA特征提取用于对数据降维，所述Pearso n相关系数用于衡量数据集合间的线性相关关系。 4.根据权利要求1所述的基于Stacking集成学习算法的车辆销售预测方法，其特征在于，所述超参数用于表征主动设定的参数，在进行所述超参数调优的过程中，通过缩小范围并随机取值的方式进行收敛判断。 5.根据权利要求1所述的基于Stacking集成学习算法的车辆销售预测方法，其特征在于，所述L R模型即逻辑回归模型，逻辑回归假设数据服从伯努利分布，通过极大化似然函数方法，运用梯度下降来求解参数，以达到将数据二分目的。 6.一种基于Stack ing集成学习算法的车辆销售预测系统，其特征在于，包括：预处理模块，用于获取原始数据，并通过预处理程序对所述原始数据进行预处理，以生成预处理数据，所述预处理程序包括对所述原始数据的数据质量分析处理，文本类型的数值化处理，以及数据集的划分处理；特征工程模块，用于对所述预处理数据进行特征分析，获取多个特征集合，并基于相关性分析对多个所述特征集合进行特征选择，以删除多个所述特征集合中的冗余特征；基学习器训练模块，用于进行基学习器模型训练，所述基学习器模型训练包括步骤：通过日向前链交叉验证方法与网格搜索对随机森林和BP神经网络进行超参数调优，通过训练集训练模型，并通过验证集评估模型性能，以获取合适超参数；元学习器训练模块，进行元学习器模型训练，所述元学习器模型训练包括步骤：基于超参数调优后的模型，分别在验证集和测试集上进行结果的预测，所述结果作为St acking模权　利　要　求　书 1/2 页 2 CN 115222454 A 2型第二层元学习器的训练集与测试集，并通过数据集对LR模型进行训练，输出预测结果。 7.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如权利要求 1至5所述的基于Stacking集成学习算法的车辆销售预测方法的任一步骤，所述存储介质为非易失性存储器。权　利　要　求　书 2/2 页 3 CN 115222454 A 3

专利 基于Stacking集成学习算法的车辆销售预测方法、系统及存储介质

专利基于Stacking集成学习算法的车辆销售预测方法、系统及存储介质