基于云平台的语音质量实时评测系统设计与实现

2019-11-27 02:03周泉邵春菊唐本亭黄成
移动通信 2019年10期

周泉 邵春菊 唐本亭 黄成

【摘  要】介绍了一种基于云平台架构的语音质量评测系统,该系统改变了传统语音通话质量测试工具的实现方式,利用商用智能手机的能力,采用APP与后端平台相结合的方式,实现了分散采集集中评测的方案,达到评测准确、便携易用且低成本的目的。

【关键词】语音质量;MOS;VoLTE

1   引言

随着运营商4G网络的部署和VoLTE业务的开通,网络支持的语音频宽从2G时期的4 kHz提高了到了现在AMR-WB的16 kHz[1],后续若升级采用EVS编码能提高到32 kHz或更高[2]。如何快速准确评测语音业务质量是电信运营商和OTT语音业务提供商掌握用户真实感知的关键手段。传统语音质量评测方法主要采用PC+专用MOS盒并捆绑路测软件的方式独立开展,由于其分散性、专用性、算法限制等问题,存在测试成本高、测试场景不真实、一致性差等诸多缺陷。

本文提出并实现了一种全新的基于商用终端和云平台架构的MOS云测试系统。通过普通商用终端采集语音样本上传至集中部署的云平台进行实时评测,并实时返回评测结果。该方法经过部署和应用,凭借其低成本、集中部署、高评测一致性等优势,将逐渐成为运营商采用的主流测试方案。

2   语音业务质量算法

2.1  MOS的基本概念

语音质量评价方法分为主观评价和客观评价。早期语音质量的评价方式是凭主观的,也就是在打通电话之后通过人耳来感知语音质量的好坏。1996年在ITU-T P.800和P.830建议书开始制订相关的评测标准:MOS(Mean Opinion Score)测试。它是一种主观测试方法,将用户接听和感知语音质量的行为进行调研和量化,由不同的调查用户分别对原始标准语音和经过无线网传播后的衰退声音进行主观感受对比,评出MOS分值。实际网络测试中,一般市区内MOS值达到3以上的时候,就表明网络质量处于较好的水平[3]。表1为MOS分值定义表:

MOS值主观测量方法成本太高,费时太长。因此,在后来的研究和探索中,先后出现了如PSQM/PSQM+、PESQ、POLQA、PAMS、E-Model等评测算法,其中PAMS为英國电信定义,E-Model定义在ITU-T G.107中,PSQM/PSQM+、PESQ、POLQA则分别定义在ITU-T G.861~863中。

2.2  语音质量打分算法

在GSM语音为主的时代,PESQ(Perceptual Evaluation of Speech Quality)是广泛使用的语音质量算法,随着宽带语音业务的发展,越来越多的测试工具开始集成POLQA(Perceptual Objective Listening Quality Analysis,感知客观语音质量评估)算法。POLQA能够覆盖最新的语音编码和网络传输技术,对于3G、4G/LTE和VoIP网络有了更高的准确度[4]。POLQA算法在实现上是需要将经过网络传输的受损语音与传输之前的参考语音进行比较计算,得到受损语音的MOS分值。在客观语音质量评测算法中,这种需要输入参考语音的算法,也叫全参考算法。

E-Model是欧洲电信标准协会(ETSI)开发的无参考算法,本来用作电信网络的传输规划工具,但该模型也在VoIP服务质量测量中得到了广泛使用。使用E-Model算法进行语音质量评分时,不需要输入参考语音,只需要在合适的位置提取语音数据流在网络传输中的相关参数,如流量带宽、丢包率等,根据这些实时参数按模型定义的方法进行计算,即可得到MOS分值。

E-Model实现比POLQA相对简单,其打分准确率比POLQA低。E-Model的优势在于可测试网络时延并且通过在网络节点上的部署可进行大规模通话量的同时评测。在实际运营商网络中E-Model算法一般会基于信令监测系统部署,可以实现任意通话的质量评测。但这种方式的缺陷也是明显的,不能反映端到端的语音质量。

目前在实验室或外场测试中,应用最多的仍然是采用POLQA算法的测试工具。

3   MOS测试系统

3.1  MOS云测试架构

目前主流仪表厂商采用的语音质量测试解决方案大多如图1所示,其中核心部分是MOS盒,MOS盒一般通过USB接口与PC连接,通过音频线缆与测试手机连接。两个测试手机开始通话后,由PC上安装的测试软件来控制放音和录音。放音内容即为参考语音,而录音所得即为受损语音。受损语音和参考语音通过PC上集成的POLQA算法进行对比打分,从而得到MOS值。

PC(含测试软件)、MOS盒、测试手机组成了传统的MOS测试工具,多用于外场路测。不难看出这样的传统MOS工具存在以下缺点:

(1)构成复杂,携带不变。MOS盒是有源设备,需要供电或配置电池,加上笔记本电脑和手机,整套系统难以手持进行测试,必须放置在车上才能开展。

(2)每台PC都需要配置POLQA算法License,导致工具的成本上升,而算法的利用率往往很低。同时POLQA打分算法分散而孤立地安装在笔记本电脑上,难以进行统一的版本管理。

(3)物理线缆连接限制了两个手机的距离,难以进行跨基站甚至跨地域的测试。

本文提出一种全新的基于商用终端和云平台架构的MOS云测试系统(如图2所示)。通过普通商用终端采集语音样本上传至集中部署的云平台进行实时评测,并实时返回评测结果。MOS云颠覆了传统语音质量测试工具由一台电脑配置一个专用MOS盒并绑定路测软件的测试模式,新的测试架构由三个主要部分组成:测试终端及自动测试APP(负责执行测试及语料采集)、MOS云平台(负责受损语料打分)、语料播放盒或者呼叫中心(播放标准语料)。其中语料播放盒的功能也可以集成在手机中,完全通过软件实现。

3.2  MOS云测试工作流程

手机-手机测试过程由以下五步组成:

第一步,自动测试APP拨打被叫手机或者呼叫中心。

第二步,被叫手机(含语料播放盒)或者呼叫中心播放标准语料。

第三步,主叫手机记录通过移动网络传过来的受损语料并上传至MOS云平台。

第四步,MOS云平台对上传的受损语料进行打分。

第五步,MOS云平台反馈打分结果给主被叫手机,测试结束。

测试架构的变化和测试流程的优化使得整个语音质量测试完全自动执行,并摆脱了对传统MOS盒的依赖。尤其对于部分型号手机,可将放音功能集成到手机上,实现测试前端仅需手机,无需其它任何外设,大大简化了测试复杂度。

手机-呼叫中心测试方式类似,只是放音功能从手机(语料播放盒子)变为了自动放音服务器。

3.3  云端集中评测方案实现

在云端部署方面通过优化线程应用、引入新排队机制、设置分布式模块等举措攻克并发吞吐量集中处理的难题,大幅提升算法使用效率,降低部署成本。传统方法下,一个打分模块每天在正常工作模式下可完成约3 000个采样评测打分,而MOS云系统中一个算法模块每天最多可完成约28万次评测打分,将打分效率提升了近百倍。

3.4  终端语料采集方案实现

在终端语料采集方面,通过自主研发和深度定制,基于安卓系统底层优化的方案在多款商用终端上实行深度定制,解决了长期以来困扰业界的语料播放和采集难题。MOS云测试系统对于传统的测试工具进行改良,提出两种新型的语料播放方法:一是在音频接口只传输音频语料模拟信号的基础上,将控制信号进行编码之后通过音频接口来传输;二是利用安卓终端在软件上的可扩展性,定制修改通话时播放内置标准语料来代替原有MIC声音。

4   实测分析与验证

4.1  POLQA算法打分一致性对比

采用传统MOS工具测试获得10个MOS分值以及对应的受损语音录音文件,将这些录音文件上传到MOS云平台,通过MOS云打分模块对这些录音文件进行打分。打分结果显示,MOS云打分结果与传统MOS工具打分结果基本一致(如表2所示)。

4.2  MOS云终端录音质量验证

采用传统MOS工具進行语音通话质量测试,在测试手机上同时安装MOS云APP进行录音。测试结束后,把MOS云的录音文件再次使用该传统MOS工具进行离线打分,从而对比出传统MOS工具录音打分结果与MOS云APP录音打分的差异。测试约3小时,共5组数据。传统MOS工具采集859个MOS分,平均MOS值为4.190,MOS云APP录制了865个录音,通过传统MOS工具离线打分后,获得865个MOS分,平均MOS值为4.169。

从图4的各组测试MOS均值统计,MOS云终端录音进行测试与传统MOS盒工具通过MOS盒与电脑进行录音,两者在录音质量上基本一致。

4.3  外场测试对比

选择广州和遵义两市区,进行MOS云和传统MOS工具的外场对比测试。其中广州的测试方式为MOS云测试手机和传统MOS工具同车辆进行测试,让两种工具进行同时同网络环境下的测试。贵州遵义的测试则为两种工具同时间段进行测试,但不同车辆。测试中所有手机型号均为HTC M8。

从表3的测试统计数据可以看出,广州进行的同网络环境测试,MOS云和传统MOS工具的测试结果非常接近,考虑即便是在同车辆同时的情况下,无线网络覆盖也会存在一定差异,这两种方式的测试结果基本可以认为是一致的。遵义的测试数据两种工具的差异稍大,分析差异原因主要在于测试路线差异导致业务质量水平差异。

考虑到即便是两套同样型号的MOS盒工具同样的网络环境下测试结果也会存在差异,从上面的两个外场测试结果来看,可以认为MOS云测试与传统MOS盒工具测试结果一致。

4.4  录音上传带宽需求分析

MOS云的测试手机在测试过程中需要将手机录音通过网络上传MOS云平台,虽然上传可以采用Wi-Fi甚至有线网络,但是为了测试便利,更多将直接通过LTE上传。上传带宽需求测算如下:

标准语料时长:10 s;

录音文件大小:10 s WAV文件大小为800 kB;

每小时录音数量:3600/10=360个;

平均带宽需求=360×800×8/3600=640 kb/s。

640 kb/s带宽需求相对于LTE网络的能力以及目前主流的LTE终端能力都不是高需求,不会对网络造成压力,对VoLTE语音业务也不会形成实质性影响。

5   结束语

本文提出并实现了一种基于云平台架构的语音质量评测系统。通过架构设计,将语音质量打分算法功能转移到云端,前端只负责放音录音以及测试结果展示。通过在实验室以及外场的验证测试,证明该系统可以在保证测试准确性和一致性的同时,达到测试前端便携、低成本的目标。

参考文献:

[1] 3GPP. 3GPP TS 26.114: AMR speech codec, wideband; Source Controlled Rate operation[S]. 2008.

[2] 3GPP. 3GPP SA4 S4-470030: Codec for Enhanced Voice Services (EVS_codec)[S]. 2011.

[3] 耿彦玲. 通过对MOS的优化改善3G用户感受[J]. 中小企业管理与科技, 2012(22): 281-283.

[4] 周平,谢炳岳,方建强,等. 移动网络语音质量分析技术在云计算平台的实现[J]. 移动通信, 2012,36(15): 72-76.

[5] 肖累累,张伟伟. 客观语音质量评估算法的研究[J]. 无线通信, 2013,3(6): 149-154.

[6] 姚玉华,朱为钰. 探究VoLTE语音质量的评价方法及测试方案[J]. 通讯世界, 2017(4): 36-37.

[7] 袁满,王科. 高铁场景下VoLTE语音质量的优化提升[J]. 邮电设计技术, 2019(2): 21-25.