基于云端处理的语音识别智能音响的设计与研究

2021-08-09 03:23沈洋

电子技术与软件工程 2021年11期

沈洋

（中山市悦辰电子实业有限公司广东省中山市 528400）

1 概述

近年来，智能家居市场迎来了爆发期。公开数据显示，2020年中国智能家居市场规模达到了1820 亿元左右，智能家居的设备出货量突破了2.15 亿台。随着技术的变更，预测在2023年全球智能家居设备出货量将达到13.9 亿台，中国智能家居市场为5 亿台。

语音识别是解决机器“听懂”人类语言的一项技术。所谓听懂，有两层意思，一是直译，把用户所说的话直接转换成文本；二是义译，正确理解语音中所包含的要求，并作出正确的应答。无论是Siri、Echo，还是其他的智能语音助手都可以接触和管理消息。需要注意的是，智能音箱不再只是单一的智能硬件，它将在更多的应用层面与使用场景落地。

根据市场分析可知如今电视设计的趋势是超薄、窄边框、大尺寸屏幕，而内置喇叭和腔体容积却越来越小，因此搭配超薄平板电视的超薄、小体积及高保真条状电视音响系统必将成为今后主流的家庭音响，具有广阔的市场前景。

本文设计与研究了基于云端处理的语音识别智能音箱，在功能上支持模拟输入、S/PDIF 输入、HDMI、HDMI ARC、HDMI eARC、Bluetooth 和Wi-Fi 等功能，方便构建连接并使用。通过自主研发的声学采集处理系统，采用全新的心理声学音频信号处理技术(MAP-Audio)，以及完整的DSP 算法和DRC 调控技术，通过对频率响应和动态范围缺陷的补偿，针对扬声器的声学限制、高噪音背景，线性人类感知做补偿，改善声音质量；从而彰显语音识别智能音响的声音优势。

2 基于云端处理的语音识别智能音响设计

本文所设计的基于云端处理的智能音响如图1 所示，对ATMOS 的处理芯片、杜比数字实时编码（Dolby Digital Live）技术，实现在无线智能音响、语音交互智能电视与机顶盒、语音控制装置、远程音频拾取、游戏控制台，智能家居和物联网模组、车载免提控制与通信上的应用。

2.1 云端语音信号处理方案

人机对话系统共有六个主要部分，包括有语音识别器、自然语言解析器、问题求解器、语言生成器、语言合成器和对话管理器。

如图2 所示的人机交互过程中，语音识别、语义理解、语音合成部分决定着用户体验，因此如何准确的识别并且自然的反馈，成为智能音箱语音交互设计的核心问题。

2.1.1 语音识别ASR-Automatic Speech Recognition

是将声音转化成文字的过程，相当于耳朵。通常语音识别有两种方法：

图1：基于云端智能音箱设计框图

图2：人机交互过程

（1）隐马尔可夫模型（HMM- Hidden Markov Model），“传统”的识别方法，一般采用较多；

（2）基于深度神经网络的“端到端”方法，使用相对较少。

2.1.2 语义理解NLP-Natural Language Processing

NLP 是语音交互中最核心，也是最难的模块。是实现智能语音交互的关键部分，决定着机器是否可以理解用户真实意图和实际需求。

NLP 主要涉及的技术有：文本预处理、词法分析、语义理解、分词、文本分类、文本相似度处理、情感倾向分析、文本生成等等。举个例子，在处理文本时，会发现有大量的同音错别字，怎么样让机器知道这些错别字，并且改过来呢，也是NLP 的一大难点。

图3：基于云端处理的语音识别智能音响

2.1.3 语音反馈TTS-TextToSpeech

实现TTS，目前比较成熟的有两种方法：“拼接法”和“参数法”。

2.2 数字音频DSP处理方案

本方案采用CS49844 音频DSP 进行基于云端处理的一代环绕声的应用提供高容量处理。数字信号处理器(DSP)支持所有传统DVD 音频编解码器和所有Blu-ray Disc®音频格式，并且拥有足够的数字信号处理器(DSP)容量，可在单个芯片中支持各种并发后处理算法，而无需从外部存储。当性能要求需要更多处理时，开发人员可轻松在拥有四核的CS49844 引脚兼容器件之间分别切换。其主要特性有：适用于Dolby ATMOS 和DTS:X 的单芯片解决方案、多声道解码和后处理、拥有四核(CS49844) 32 位DSP、I²S 和S/PDIF、串行控制端口和Cirrus Logic DSP 工具支持。其中：

2.2.1 音频信号输入Audio Source

Audio Source 信号源既可输入模拟与数字信号，数字音频信号的格式分为两种传输方式：光纤与电缆传入方式，数字音频信号通过 Digital Selector 的选通开关后传入到DSP，模拟音频信号经过ADC 模数转换后输入到DSP 进行处理。

2.2.2 数字信号选择器DS -Digital Selector

音频信号源Audio Source 可能发送光纤同轴两种类型接口的数字音频，这两种信号要进行一组切换行为才能传入DSP 进行解码，这组切换受控于MCU(Microcontroller Unit)，这是更合理的设置搭配，需要在此处进行信号的选择。

2.2.3 动态随机存取内存-SDRAM

SDRAM 有同步Synchronization 接口，在响应控制输入前会等待一个时钟信号，这使得SDRAM 与DRAM 相比，更优的操作模式，存储核心处理所需要各类参数，以及用作中间数据缓存。本次的系统设计中，涉及到的音频处理参数，多个模块的数据由于数据量巨大，无法保存在DSP 内存中，需要写入SDRAM，实时同步读写。

2.3 杜比数字实时编码（Dolby Digital Live）技术应用

一种实时编码技术，它能将多种音频信号转成杜比数字的专用码流并通过家庭影院系统进行播放。其主要技术包括有：

2.3.1 影音的环绕声技术

杜比数字实时编码(Dolby® Digital Live) 技术使你在看视频时沉浸在与影音空间相契合的5.1 声道环绕声中，从而提供更好的综合游戏体验。

2.3.2 无延迟或暂停技术

杜比数字实时编码(Dolby Digital Live) 技术已针对低延迟交互式应用进行优化，不会在视频与音频之间引入任何可感知的延迟，因而完美地适用于游戏。

2.3.3 单电缆连接

通过使用单个数字连接，杜比数字实时编码 (Dolby Digital Live)技术确保音频信号的完整性并消除多个模拟和数字连接的混淆、干扰和染波。

杜比全景声结合了面向对象的概念，动态处理声道的混音、声音定向、增益等方式，令观众体验极佳的沉浸感。利用顶部扬声器和环绕扬声器创造出逼真而自然的音频体验。置顶声道采用了安置在声条音响顶部的两只斜向上的喇叭，通过大花板反射形成天空置顶声道。由安置在声条式音响两侧的喇叭通过左右墙面反射产生左右环绕声道。在一个狭小的声条式音响体积内要安置8 个独立的声道。杜比全景声实现了硬件配置受限的情况下，尽可能重放原创者的设想效果。让声音可以精确的在三维空间内部署和流动，而减少声道的限制带来的影响。如图3 所示。

基于云端处理的语音处理及现场观看和交谈，支持触发辅助信源选择拾取噪声抑制技术，实现了多通道声学回声消除，SSP 噪声抑制，集成语音触发引擎，低功率70mW 唤醒语音检测缓冲声音模式，集成片上32 位的数字音频处理器芯片，具有106dB 全路径动态范围的24 位麦克风ADC，原始音频采样率：8～96kHz，0.125dB模拟前端增益分辨率，低串扰专用麦克风偏置，I2S 串行数据接口，I2C 控制接口，容量可选串行EEPROMFLASH，USB 全速，兼容2.0 UAC，异步数据传输异步SRC 和同步缓冲区集成DC/DC 电源管理，22 Pin 邮票孔焊盘设计。

3 结语

在面对以新技术为主要驱动力的新一轮科技革命和产业变革蓬勃兴起的环境下，智能家居的崛起是历史的必然。

此外，在国家政策和巨大行业需求的双重助力下，中国智能家居行业市场规模将进一步扩大。权威调研机构Strategy Analytics 发布调研报告称，预计到2023年，消费者在智能家居硬件、服务、安装上的费用支出将达到1570 亿美元（超1 万亿元人民币）。

2020年中国智能家居设备市场出货量预计接近2.2 亿台，至2024年出货量将增长至近5 亿台，年复合增长率高达23%。“双11”期间，智能家居生态销售额2 分钟内便已破亿。随着技术的进一步发展以及应用范围的拓宽，智能音响市场将迎来一轮爆发式的增长。