专利声音分类模型的构建方法、声音分类方法和系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111510352.8 (22)申请日 2021.12.10 (71)申请人上海应用技术大学地址 200235 上海市徐汇区漕宝路120 -121 号 (72)发明人沈希忠　陈菱　 (74)专利代理机构上海汉声知识产权代理有限公司 3123 6 代理人胡晶 (51)Int.Cl. G10L 25/24(2013.01) G10L 25/18(2013.01) G10L 25/30(2013.01) G10L 25/51(2013.01) G10L 19/26(2013.01)G10L 19/02(2013.01) G06F 17/14(2006.01) G06F 17/16(2006.01) G06F 30/27(2020.01) (54)发明名称声音分类模型的构建方法、声音分类方法和系统 (57)摘要本发明涉及一种声音分类模型的构建方法、声音分类方法和系统，包括，预处理，对原始声音数据进行预处理；特征提取，对声音信号进行预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组和离散余弦变换提取频谱特征；建模，利用极限学习机算法随机产生输入层和隐藏层的连接权值及隐含层神经元的阈值，对提取出的特征数据进行训练得到训练数据库，通过极限学习机分类器进行实证分析和参数优化，得到分类模型。本发明的优点在于：利用梅尔倒谱系数算法提取自然环境声音，再使用极限学习机作为分类器对提取的音频特征进行训练和测试，最后分析出待测声音所属的特征类别，从而实现声音的识别和分类，具有明显的优势。权利要求书3页说明书7页附图1页 CN 114255783 A 2022.03.29 CN 114255783 A 1.一种声音分类模型的构建方法，其特征在于：包括预处理，对原始声音数据进行预处理；特征提取，对声音信号进行预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组和离散余弦变换提取频谱特征；建模，利用极限学习机算法随机产生输入层和隐藏层的连接权值及隐含层神经元的阈值，对提取出的特征数据进行训练得到训练数据库，通过极限学习机分类器进行实证分析和参数优化，得到分类模型。 2.根据权利要求1所述的一种声音分类模型的构建方法，其特征在于：所述预处理包括将原始声音数据转化为wav格式，每段声音样本采用滤波器消除环境杂音，裁剪声音波形中的杂音和静音部分，保留特征波形。 3.根据权利要求1所述的一种声音分类模型的构建方法，其特征在于：所述对声音信号进行预加重的方法为，利用一个高通滤波器提升声音信号的高频部分，所述高通滤波器为， y(n)＝x(n) ‑α *x(n‑1)#(1) 其中， 0.9≤α≤1.0， n为信号的采样点数， x(n)为声音信号， y(n)为预加重后的声音信号。 4.根据权利要求3所述的一种声音分类模型的构建方法，其特征在于：所述分帧的方法为，将预加重处理后的声音信号划分为时长为t的多个帧。 5.根据权利要求4所述的一种声音分类模型的构建方法，其特征在于：所述加窗的方法为，分帧后的信号表示为S(n)， n＝0， 1， ...N ‑1，其中n为分帧后得到的帧数， N为帧的大小，加入汉明窗后，表示为S1(n)＝S(n)*W(n)，则汉明窗W(n)的形式为，其中， a＝0.46 。 6.根据权利要求5所述的一种声音分类模型的构建方法，其特征在于：所述对声音信号进行快速傅里叶变换的方法为，创建汉明窗矩阵C，其大小与S(n)相同，两个矩阵的对应位置相乘，得到加窗后的声音信息矩阵S1(n)，对加窗后的声音信息矩阵进行FFT快速傅里叶变换得到矩阵D，对矩阵D里每一帧的数据点分别取模再取平方，计算得到能量谱密度E，对每一帧得到的能量相加，得到一个新的矩阵F，其中的每个元素代表每一帧能量的总和。 7.根据权利要求6所述的一种声音分类模型的构建方法，其特征在于：所述进行梅尔滤波器组和离散余弦变换提取频谱特征的方法为，定义一个有M个滤波器的滤波器组，采用的滤波器为三角滤波器，其频率响应定义为：其中，谱线索引号k＝(1+N) ·fm/fs， N为FFT点数， fm为计算得出的Mel 刻度转换为频率后的值， fs为抽样频率；权　利　要　求　书 1/3 页 2 CN 114255783 A 2然后计算每个滤波器组输出的对数能量为，其中， s(m)为对数能量， X(k)为声音信号的能量谱， Hm(k)为滤波器组；将不同频带的能量取对数变换后，再经由离散余弦变换变回时域，称作梅尔频率倒频谱参数，其计算公式如下： 8.根据权利要求1所述的一种声音分类模型的构建方法，其特征在于：所述建模的过程包括随机特征映射和线性参数求解两个阶段；第一阶段，隐藏层参数随机进行初始化，采用一些非线性映射作为激活函数，将输入数据映射到一个新的特征空间，记隐藏层的输出为H(x)，计算公式为： H(x)＝[h1(x)， ...， hL(x)]#(6) hi(x)表示如下： hi(x)＝g(wi， bi， x)＝g(wix+bi)， wi∈RD， bi∈R#(7) 其中wi和bi是隐藏层节点参数， g(wi， bi， x)是激活函数，根据公式(6)和(7)计算出隐藏层输出H；第二阶段，通过最小化近似平方差的方法对连接隐藏层和输出层的权重( β )进行求解，目标函数如下： min||Hβ‑T||2， β ∈RL*m#(8) 其中H是隐藏层的输出矩阵， T是训练数据的目标矩阵：通过线代和矩阵论的知识可推导得公式(8)的最优解为： β*＝H+T#(10) 其中H+为矩阵H的Mo ore‑Penrose广义逆矩阵， H+＝(HTH)‑1HT，至此完成训练。 9.一种基于极限学习机的声音分类方法，其特征在于：包括，基于权利要求1 ‑8任一项所述的方法训练得到极限学习机分类模型；将待分类的声音信号输入到极限学习机分类模型中得到分类结果。 10.基于权利要求1 ‑8任一项所述的声音分类模型的构建方法的声音分类系统，其特征在于：包括，拾音器，包括麦克风和音频放大电路，用于采集声音信号；主处理模块，包括植入预处理算法的控制芯片，所述预处理算法用来接收拾音器获取的声音信号并进行预处理； DSP算法处理模块，与所述主处理模块通信连接，包括植入识别算法的芯片，所述识别算法为训练得到的所述分类模型，实现自然环境声音识别和分类；权　利　要　求　书 2/3 页 3 CN 114255783 A 3

专利 声音分类模型的构建方法、声音分类方法和系统

专利声音分类模型的构建方法、声音分类方法和系统