专利一种小样本图像数据集划分方法及计算机可读存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211034501.2 (22)申请日 2022.08.26 (71)申请人重庆长安汽车股份有限公司地址 400023 重庆市江北区建新东路260号 (72)发明人刘巍　李昌　张国杰　王浩　 (74)专利代理机构重庆华科专利事务所 5 0123 专利代理师康海燕 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/762(2022.01) G06V 10/82(2022.01) G06V 10/77(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种小样本图像数据集划分方法及计算机可读存储介质 (57)摘要本发明提供一种小样本图像数据集划分方法及计算机刻度存储介质，包括S1.利用距离度量学习的深度神经网络获取目标图像数据集的深度特征，构造带有中心损失的损失函数优化训练网络，将目标图像数据转化为其对应的深度特征向量； S2.利用基于距离聚类算法，对获取的目标图像数据集的深度特征，按照数据集原有的类别标签，将不同图片的深度特征表示输入距离聚类算法，算法输出聚类划分中心，然后根据聚类划分中心对每个类别的图片内部进行聚类，得到每一个样本所属的层次； S3.根据聚类结果，利用分层采样的方式在每一类数据的不同层次中进行采样，得到分布均匀的训练集以及测试集，用于后续模型的训练。本发明通过距离度量学习的深度神经网络的方式使其能够得到图像数据更好的特征表达，通过该特征表达方式进行聚类并分层采样，划分出分布更均匀、训练效果更好的数据集。权利要求书2页说明书5页附图2页 CN 115439685 A 2022.12.06 CN 115439685 A 1.一种小样本图像数据集划分方法，其特征在于，所述方法包括： S1.获取目标图像数据集的深度特征：利用距离度量学习的深度神经网络获取目标图像数据集的深度特征，构造带有中心损失的损失函数优化训练网络，将目标图像数据转化为其对应的深度特征向量； S2.样本聚类：利用基于距离聚类算法，对获取的目标图像数据集的深度特征，按照数据集原有的类别标签，将不同图片的深度特征表示输入距离聚类算法，算法输出聚类划分中心，然后根据聚类划分中心对每个类别的图片内部进行聚类，得到每一个样本所属的层次； S3.分层采样：根据聚类结果，利用分层采样的方式在每一类数据的不同层次中进行采样，得到分布均匀的训练集以及测试集，用于后续模型的训练。 2.根据权利要求1所述的目标图像数据集划分方法，其特征在于，所述S1包括： S11.特征提取:采用分类模型对目标图像数据集中的每一个样本进行特征图提取； S12.嵌入：将提取获得的特征图映射到一个可以度量的空间，得到样本特征的向量表示和输出预测结果； S13.训练优化距离度量学习的深度神经网络； S14.使用训练优化好的距离度量学习的深度神经网络对目标图像数据集中的每一个样本进行映射，得到其对应深度特征。 3.根据权利要求2所述的小样本图像数据集划分方法，其特征在于，所述S11特征提取是，使用卷积网络提取数据的特征，所述卷积网络包括ResNet5 0、 MobileNetV2等。 4.根据权利要求2所述的小样本图像数据集划分方法，其特征在于，所述S12是通过两层全连接将提取的特征映射到嵌入高维空间中，进而进行特征转换；第1层全连接层用于输出样本的向量表示，第2层全连接层用于输出预测结果向量。 5.根据权利要求4所述的小样本图像数据集划分方法，其特征在于，所述S13训练优化距离度量学习的深度神经网络的方式是：通过中心损失辅助交叉熵损失的方式训练距离度量学习的深度神经网络，获得更好的样本向量表示，距离度量学习最终的损失函数L表示为其中， c∈R为类z样本通过网络得到的深度特征向量的向量中心； d为特征维数； f(x1) 为样本xi映射的特征向量v， f(x2)为样本xi映射的预测向量y， f表示距离度量学习的深度神经网络；函数D( ·)为欧氏距离的平方； N 为样本数量； M为类别数量； λ为中心损失控制系数；将所有样本放入距离度量学习的深度神经网络中进行训练，并通过损失函数L对网络进行优化。 6.根据权利要求5所述的小样本图像数据集划分方法，其特征在于，所述S14是使用训练完毕的网络将目标图像数据集中的样本转换为嵌入空间中的深度特征向量，即得到每一个样本的深度特征。 7.根据权利要求5所述的小样本图像数据集划分方法，其特征在于，所述步骤S2包括：步骤S2.1，将每一个样本的深度特征按照不同类别分别输入基于距离模聚类的算法，权　利　要　求　书 1/2 页 2 CN 115439685 A 2输入聚类算法所需要的参数包括：样本个数、预估类别数、迭代次数、指数和价值函数以及最小变化阈值；步骤S2.2，用值在0， 1间的随机数初始化隶属矩阵U，使其满足约束条件；步骤S2.3，计算c个聚类中心ci， i＝1， ...， c，并根据聚类中心将图片数据进行层次分类；步骤S2.4：计算价值函数，如果相对上次价值函数值的改变量小于最小价值函数变化阈值或者达到最大迭代次数，算法停止，完成每个类别中图片数据的聚类；步骤S2.5：计算新的U矩阵，返回步骤S2.3 。 8.根据权利要求5所述的小样本图像数据集划分方法，其特征在于，所述步骤S2采用的基于距离模聚类的算法包括模糊C ‑means聚类算法、 K ‑means聚类算法。 9.根据权利要求5所述的小样本图像数据集划分方法，其特征在于，所述步骤S3分层采样是，根据步骤S2的聚类结果，利用分层采样的方式划分原有图片数据集，将数据集中的每一类图片数据按步骤S2得到的聚类中心分为若干层次，然后再从每一层内进行单纯随机抽样，组成该类别的训练集与测试集，最后集合成整个数据集的训练集与测试集，用于后续模型的训练。 10.一种计算机可读存储介质，其特征在于，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行权利要求1至9中任一项所述的小样本图像数据集划分方法。权　利　要　求　书 2/2 页 3 CN 115439685 A 3

专利 一种小样本图像数据集划分方法及计算机可读存储介质

专利一种小样本图像数据集划分方法及计算机可读存储介质