全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111510352.8 (22)申请日 2021.12.10 (71)申请人 上海应用技 术大学 地址 200235 上海市徐汇区漕宝路120 -121 号 (72)发明人 沈希忠 陈菱  (74)专利代理 机构 上海汉声知识产权代理有限 公司 3123 6 代理人 胡晶 (51)Int.Cl. G10L 25/24(2013.01) G10L 25/18(2013.01) G10L 25/30(2013.01) G10L 25/51(2013.01) G10L 19/26(2013.01)G10L 19/02(2013.01) G06F 17/14(2006.01) G06F 17/16(2006.01) G06F 30/27(2020.01) (54)发明名称 声音分类模 型的构建方法、 声音分类方法和 系统 (57)摘要 本发明涉及一种声音分类模 型的构建方法、 声音分类方法和系统, 包括, 预处理, 对原始声音 数据进行预处理; 特征提取, 对声音信号进行预 加重、 分帧、 加窗、 快速傅里叶变换、 梅尔滤波器 组和离散余弦变换提取频谱特征; 建模, 利用极 限学习机算法随机产生输入层和隐藏层的连接 权值及隐含层神经元的阈值, 对提取出的特征数 据进行训练得到训练数据库, 通过极限学习机分 类器进行实证分析和参数优化, 得到分类模型。 本发明的优点在于: 利用梅尔倒谱系数算法提取 自然环境声音, 再使用极限学习机作为分类器对 提取的音频特征进行训练和测试, 最后分析出待 测声音所属的特征类别, 从而实现声音的识别和 分类, 具有明显的优势。 权利要求书3页 说明书7页 附图1页 CN 114255783 A 2022.03.29 CN 114255783 A 1.一种声 音分类模型的构建方法, 其特 征在于: 包括 预处理, 对原始声音数据进行 预处理; 特征提取, 对声音信号进行预加重、 分帧、 加窗、 快速傅里叶变换、 梅尔滤波器组和离散 余弦变换提取 频谱特征; 建模, 利用极限学习机算法随机产生输入层和隐藏层的连接权值及隐含层神经元的阈 值, 对提取出 的特征数据进行训练得到训练数据库, 通过极限学习机分类器进行实证分析 和参数优化, 得到分类模型。 2.根据权利要求1所述的一种 声音分类模型的构建方法, 其特征在于: 所述预处理包括 将原始声音 数据转化为wav格式, 每段声音样本采用滤波器消除环 境杂音, 裁剪声音波 形中 的杂音和静音部分, 保留特 征波形。 3.根据权利要求1所述的一种 声音分类模型的构建方法, 其特征在于: 所述对声音信号 进行预加重的方法为, 利用一个高通滤波器提升声 音信号的高频部分, 所述高通滤波器为, y(n)=x(n) ‑α *x(n‑1)#(1) 其中, 0.9≤α≤1.0, n为信号 的采样点数, x(n)为声音信号, y(n)为预加重后的声音信 号。 4.根据权利要求3所述的一种 声音分类模型的构建方法, 其特征在于: 所述分 帧的方法 为, 将预加重处 理后的声 音信号划分为时长为t的多个帧。 5.根据权利要求4所述的一种 声音分类模型的构建方法, 其特征在于: 所述加窗的方法 为, 分帧后的信号表示为S(n), n=0, 1, ...N ‑1, 其中n为分帧后得到的帧数, N为帧的大小, 加入汉明窗后, 表示 为S1(n)=S(n)*W(n), 则汉明窗W(n)的形式为, 其中, a=0.46 。 6.根据权利要求5所述的一种 声音分类模型的构建方法, 其特征在于: 所述对声音信号 进行快速傅里叶变换的方法为, 创建汉明窗矩阵C, 其大小与S(n)相同, 两个矩阵的对应位 置相乘, 得到加窗后的声音信息矩阵S1(n), 对加窗后的声音信息矩阵进行FFT快速傅里叶 变换得到矩阵D, 对矩阵D里每一帧的数据点分别 取模再取平方, 计算得到能量谱密度E, 对 每一帧得到的能量相加, 得到一个新的矩阵F, 其中的每 个元素代表每一帧能量的总和。 7.根据权利要求6所述的一种 声音分类模型的构建方法, 其特征在于: 所述进行梅尔滤 波器组和离 散余弦变换提取 频谱特征的方法为, 定义一个有M个滤波器的滤波器组, 采用的滤波器为 三角滤波器, 其频率响应定义 为: 其中, 谱线索引号k=(1+N) ·fm/fs, N为FFT点数, fm为计算得出的Mel 刻度转换为频率后的值, fs为抽样频率;权 利 要 求 书 1/3 页 2 CN 114255783 A 2然后计算每 个滤波器组输出的对数能量 为, 其中, s(m)为对数能量, X(k)为声 音信号的能量谱, Hm(k)为滤波器组; 将不同频带的能量取对数变换后, 再经由离散余弦变换变回时域, 称作梅尔频率倒频 谱参数, 其计算公式如下: 8.根据权利要求1所述的一种 声音分类模型的构建方法, 其特征在于: 所述建模的过程 包括随机特 征映射和线性 参数求解两个阶段; 第一阶段, 隐藏层参数随机进行初始化, 采用一些非线性映射作为激活函数, 将输入数 据映射到一个新的特 征空间, 记隐藏层的输出为H(x), 计算公式为: H(x)=[h1(x), ..., hL(x)]#(6) hi(x)表示如下: hi(x)=g(wi, bi, x)=g(wix+bi), wi∈RD, bi∈R#(7) 其中wi和bi是隐藏层节点参数, g(wi, bi, x)是激活函数, 根据公式(6)和(7)计算出隐藏 层输出H; 第二阶段, 通过最小化近似平方差的方法对连接隐藏层和输出层的权重( β )进行求解, 目标函数如下: min||Hβ‑T||2, β ∈RL*m#(8) 其中H是隐藏层的输出矩阵, T是训练数据的目标矩阵: 通过线代和矩阵论的知识可推导得公式(8)的最优解 为: β*=H+T#(10) 其中H+为矩阵H的Mo ore‑Penrose广义逆矩阵, H+=(HTH)‑1HT, 至此完成训练。 9.一种基于极限学习机的声 音分类方法, 其特 征在于: 包括, 基于权利要求1 ‑8任一项所述的方法训练得到极限学习机分类模型; 将待分类的声 音信号输入到极限学习机分类模型中得到分类结果。 10.基于权利要求1 ‑8任一项所述的声音分类模型的构建方法的声音分类系统, 其特征 在于: 包括, 拾音器, 包括麦克风和音频放大电路, 用于采集声 音信号; 主处理模块, 包括植入预处理算法的控制芯片, 所述预处理算法用来接收拾音器获取 的声音信号并进行 预处理; DSP算法处理模块, 与所述主处理模块通信连接, 包括植入识别算法的芯片, 所述识别 算法为训练得到的所述分类模型, 实现自然环境声 音识别和分类;权 利 要 求 书 2/3 页 3 CN 114255783 A 3

.PDF文档 专利 声音分类模型的构建方法、声音分类方法和系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 声音分类模型的构建方法、声音分类方法和系统 第 1 页 专利 声音分类模型的构建方法、声音分类方法和系统 第 2 页 专利 声音分类模型的构建方法、声音分类方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 22:29:34上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。