ICS 35.240.01 CCS L 77 35 福 建 省 地 方 标 准 DB35/T 1979—2021 智慧家庭人工智能语音服务通用技术规范 General technical specification for artificial intelligence voice service of smart home 2021 - 06 - 21 发布 2021 - 09 - 21 实施 福建省市场监督管理局 发 布 DB35/T 1979—2021 目 次 前言 ................................................................................. II 1 范围 ............................................................................... 1 2 规范性引用文件 ..................................................................... 1 3 术语和定义 ......................................................................... 1 4 缩略语 ............................................................................. 2 5 语音服务的组成及能力等级划分 ....................................................... 3 6 环境要求 ........................................................................... 3 7 基本要求 ........................................................................... 4 8 测试方法 .......................................................................... 10 附录 A(规范性) 语音测试集录音质量要求 .............................................. 15 附录 B(规范性) 测试用设备要求 ...................................................... 16 I DB35/T 1979—2021 前 言 本文件按照GB/T 1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定 起草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。 本文件由福建省工业和信息化厅提出并归口。 本文件起草单位:中国移动通信集团福建有限公司、科大讯飞股份有限公司、中移(杭州)信息技 术有限公司、福建福诺移动通信技术有限公司、中国电信股份有限公司福建分公司、中国联合网络通信 有限公司福建省分公司、福建广电网络集团、华为技术有限公司、福建星网锐捷通讯股份有限公司、 新大陆通信科技股份有限公司、福建福日电子股份有限公司。 本文件主要起草人:章金水、黄海辉、林海、俞晓梅、罗新喜、孙凯廷、马培培、罗红、程宝平、 李栋、黄晓明、韦观明、屈彤、吴振文、沈绍昌、王献飞、杨韬。 II DB35/T 1979—2021 智慧家庭人工智能语音服务通用技术规范 1 范围 本文件规定了智慧家庭人工智能语音服务的组成及能力等级划分、环境要求、基本要求和测试方法。 本文件适用于智慧家庭人工智能语音服务的建设、测试和评价。 2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件, 仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本 文件。 GB 3096—2008 声环境质量标准 GB/T 21023—2007 中文语音识别系统通用技术规范 GB/T 21024—2007 中文语音合成系统通用技术规范 GB/T 22239—2019 信息安全技术 网络安全等级保护基本要求 GB/T 36464.1—2020 信息技术 智能语音交互系统 第1部分:通用规范 GB/T 36464.2—2018 信息技术 智能语音交互系统 第2部分:智能家居 3 术语和定义 GB/T 21023—2007、GB/T 21024—2007、GB/T 36464.1—2020、GB/T 36464.2—2018界定的以及下 列术语和定义适用于本文件。 语音服务 voice service 人机之间通过自然语言对话来获取信息的服务。 语音采集 voice acquisition 通过传声器或麦克风阵列等拾音设备对语音进行采集。 语音识别 speech recognition 将人类的声音信号转化为文字或指令的过程。 [来源:GB/T 21023—2007,3.1] 语义理解 semantic understanding 使功能单元理解人说话的意图。 [来源:GB/T 36464.1—2020,3.11] 1 DB35/T 1979—2021 语音合成 speech synthesis 通过机械的、电子的方法合成人类语言的过程。 [来源:GB/T 21024—2007,3.1] 端点检测 voice activity detection 一种用于分析、判断连续音频流中有效起始点和结束点的语音处理技术。 [来源:GB/T 36464.1—2020,3.22] 智能语音终端 artificial intelligence voice terminal 可接收用户的语音,使得用户可以获取在线音视频等内容,或可通过语音进行控制的设备。 噪声 noise 语音采集过程中,采集到的由非有效语音信源发出的,能干扰、影响对有效语音信号的理解或处理 的声音信号。 [来源:GB/T 36464.1—2020,3.27] 等效声级 equivalent continuous A-weighted sound pressure level 在声场中的某个位置上,用某一段时间内能量平均的方法,将间歇暴露的几个不同噪声,用这样一 个声级来表示该段时间的噪声大小。 平均意见得分 mean opinion score 语音质量的一种主观度量。 [来源:GB/T 36464.2—2018,3.26] 语音唤醒 speech wakeup;voice trigger 处于音频流监听状态的语音交互系统,在检测到特定的特征或事件出现后,切换到命令词识别、连 续语音识别等其他处理状态的过程。 [来源:GB/T 36464.2—2018,3.13] 媒资 media assets 媒体单位生产的文字、图片、音视频等数据。 媒资库 media pool 存储媒资的数据库。 4 缩略语 下列缩略语适用于本文件。 PCM:脉冲编码调制(Pulse Code Modulation) MOS:平均意见得分(Mean Opinion Score) 2 DB35/T 1979—2021 5 语音服务的组成及能力等级划分 语音服务的组成 由语音采集与识别、语义理解、语音合成与播放、语音技能四个部分组成。 语音服务能力等级划分 语音服务能力根据成熟度划分为五个等级,见表1。 表1 语音服务能力等级 定义 主体 语音采集与识别 义理解与智能终端 能互动 语义理解与语音互 Level 4 语义理解 端点检测 语义理解 语音深度识别与自 — 然合成 语音识别与机器合 Level 2 成 Level 1 语音采集与播放 语音技能 智能翻译 多级互动 控制 动 Level 3 语音合成与播放 上下文及多场景语 语义深度理解与智 Level 5 6 语音服务能力等级 应用唤醒、栏目唤 自然合成(多语种、 起、内容搜索 多发音人) — 语音识别 — 机器合成 — 语音采集 — 语音播放 — 环境要求 自然环境 智能语音终端主要在家庭环境下使用,在表2所示自然环境条件下应正常工作。 表2 温度 ℃ 0~40 自然环境要求 相对湿度 10%~90%无凝结 大气压力 KPa 86~106 网络环境 智能语音终端或与之相连的智能设备应支持无线或有线网络接入互联网,网络接入速度应不低于 128 kbit/s。 噪声环境 智能语音终端主要在家庭环境下使用,家庭噪声环境具体要求按照GB 3096—2008第4章中0、1、2 类声环境功能区的规定执行。 3 DB35/T 1979—2021 7 基本要求 语音采集与识别 7.1.1 语音采集 人工智能语音服务使用智能语音终端进行语音采集,应能通过传声器或麦克风阵列等具备语音采集 能力的拾音设备对语音、连续语音进行单声道或多声道的采集。语音采集应满足以下要求: a) 支持 8 kHz 或 16 kHz 采样率,16 bit 及以上的采样精度; b) 音频文件编码支持 PCM 或 Opus 或 Speex 格式; c) 对于连续性音频,支持 30 s 或 60 s 为时间单位进行切片分割。 注: Opus是有损音频的一种编码格式;Speex是一套针对语音音频的压缩格式。 7.1.2 端点检测 人工智能语音服务在进行语音采集时,应对采集的音频进行端点检测,以区分用户说话的自然停顿 和主观停止。 7.1.3 语音识别 应满足以下要求: a) 支持家庭场景下关键词语音识别能力,如影视、音乐、医疗、教育等; b) 支持简单中英文混合识别; c) 支持数字、电话号码; d) 支持普通话、带有福建口音的普通话; e) 宜支持福建省内主流方言,如闽南语、客家语; f) 语音识别句识别率应满足表 3 要求。 表3 语音识别句识别率要求 环境噪声等效声级 句识别率 dB(A) % 0类 昼间50,夜间40 ≥90 1类 昼间55,夜间45 ≥85 2类 昼间60,夜间50 ≥80 声环境功能区类别 句识别率计算方法按公式(1)。 100% ·····································································
DB35-T 1979-2021 智慧家庭人工智能语音服务通用技术规范 福建省
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2022-10-11 02:51:28上传分享