智能家电语音识别与交互技术应用安全探索

2022-01-17 05:52黄伟彬张明珠孙杰英许蕴盈

日用电器 2021年12期

黄伟彬张明珠孙杰英许蕴盈

（威凯检测技术有限公司/广东中创智家科学研究有限公司广州 510663）

引言

人机交互（HCI）由传统意义上常见的外围设备（如键盘、鼠标及后续出现的触控屏）来开展交互。这是因为计算机设备无法理解我们话语的含义，更别说理解我们的意图了。然而，过去几年中，人机交互模式发生了重大变化，人们目睹了语音识别与交互技术在计算机领域中的快速发展。语音作为最具效率和表现力的交流工具之一，已改变用户与设备的交互及消费服务的方式。目前语音识别与交互技术一个广泛应用是作为一种智能家居控制方式被大众所接受和使用，用户使用语音命令唤醒和操作不同的终端设备，快速互动的便利性令语音操控发展迅速，但是新技术的落地往往也会冒出一些风险和隐患。

1 语音识别与交互技术概述

语音识别与交互技术就是运用各类语音终端收集语音录音，然后通过声学模型将输入的声音进行特征提取、语义识别等处理，转化为计算机能识别的信息，然后将识别的结果传输到终端进行相应的操作。

当前热门的智能家电语音识别技术应用方式有两种。一种是以智能音箱或手机等智能终端为语音输入口的语音控制方式。另一种是家电本身集成语音模块实现语音交互功能的控制方式。

1）智能音箱（如图1）

图1 典型智能音箱控制家电运行机制

2014年，亚马逊推出市场上第一台智能音箱Amazon Echo，将智能语音技术带入这一硬件，引起市场极大追捧，随后各大巨头公司纷纷先后入局。谷歌智能音箱Google Home、苹果的Apple Home Pod、百度的小度、阿里的天猫精灵、小米的小爱同学等等。

智能音箱一个命令请求的逻辑大概如下：

①智能音箱设备始终在监听一个唤醒词，只有当听到唤醒词时音箱设备才开始录制用户发出的语音命令。

②用户请求的语音命令记录被上传到对应的厂商服务平台，开始进行语音识别（STT）将一段音频转化为一段文字，然后使用NLP处理（自然语言处理）将文本转换为机器可读指令。

③录音及其转化文本被传送到云存储并被存储。

④厂商服务平台返回一个语音录音响应，并通过扬声器反馈给用户。

⑤“技能”被激活。可能是打开灯或播放音乐。

2）家电本身带语音模块（如图2）

图2 集成语音模块家电运行机制

家用电器内置语音功能，是国内家电企业一个创新尝试，意在摆脱如智能音箱等终端在家电控制场景上的缺陷，使每一个电器都成为语音控制指控输入入口，满足消费者越来越高的操控性要求，进而达到更好的舒适体验感。

语音模块与原有的电器控制模块通过串口进行连接，进行语音控制命令的传输，实现语音控制功能。

2 安全概述

尽管语音识别技术的和效率是显而易见的，但与此技术相关的隐私和安全问题也越来越别众多用户关注。

2.1 数据隐私问题

无论是智能音箱、手机终端、还是带在线语音操控的家电，大多数设备会接收用户的问题或命令并上传到厂商自己的云服务平台上进行关键技术处理（识别、转化等），这意味着用户在语音交互过程中的大部分私人数据都会被厂商储存，虽然这种储存有可能是暂时性的。

大部分消费者首先想到可能是智能语音交互设备是否在“窃听”？、智能音箱是否真的在唤醒后才开始进行录制用户语音？等问题。尽管科技厂商一再否认通过智能语音设备采集用户隐私对话，但层出不穷的国内外智能音箱和语音助理曝出用户语音记录事件让消费者在使用智能语音交互产品上产生一定的担忧，如何平衡便利与隐私也是广大用户应考虑的问题。

2.2 语音命令“黑名单”

家用电器语音控制交互不应执行明显会对消费者本身或其财产产生危害的命令。

一方面，基于人身或财产安全的基础上，智能语音交互设备应设置部分命令“黑名单”，主动或强制禁止部分语音命令的识别及运行。另一方面，在当前智能语音交互设备不能完全消除误唤醒的前提下，应规避部分家电的误唤醒可能带来的安全问题。如燃气灶是否可以使用语音唤醒功能、是否可以使用语音命令调节火的大小等等。

2.3 存在可能各种攻击手段

1）听不见的语音攻击

大部分智能终端扬声器能接收人类听觉范围之外的音频频率，并且AI语音识别可以处理这些音频。人耳听觉的频率范围在20 Hz～20 kHz之间，而智能音箱等终端设备中的麦克风，大部分使用驻极体麦克风和MEMS（微机电系统）麦克风，频率在10 Hz～40 kHz范围内的声波一般都能获得响应[1]。故智能音箱设备能接收人耳听不到的超声波信号，并执行隐藏在超声波里可能的攻击命令。

2）常见的攻击方式有：

SurfingAttack：利用声波在固体中的传播特性，通过固体介质启动攻击，不受视线障碍的影响[2]。

DolphinAttack：利用声波在空气中的传播特性，使用人耳听不到的超声波信号，注入控制指令，从而实现对设备的攻击[3]。

2.4 法规保护

属于个人数据范畴的“语音”已经成为监管机构关注的焦点。语音识别通常被归类为生物识别技术，跟指纹、虹膜或视网膜等人类的独特特征具有同等的重要性，也处于各种隐私和安全法条款保护的范畴，故无论是消费者还是收集语音数据的各种设备厂商都应了解相关语音数据保护法规和各类隐私法规。

1）GDPR通用数据保护条例

自2018年5月起生效的GDPR将 “语音”归类为 “个人数据”。虽然GDPR条例中第4.1条 “个人数据 “的定义没有具体提到 “语音”，而是 “其身体、生理特征所特有的一个或几个属性”[4]，但欧洲数据保护委员会仍认为 “语音识别 “在身体或生理生物识别技术的范畴内。

2）CCPA 加州消费者隐私法案[5]

根据加州消费者隐私法（CCPA），遵循该法案的企业必须向用户公开其收集用户信息的做法，包括收集、披露和出售的个人信息。CCPA将 “生物识别信息 “列为 “个人信息 “的一个子集。该法案对 “生物识别信息 “定义为：”生物识别信息包括但不限于虹膜、视网膜、指纹、脸、语音等“。2021年5月10日，加州议会通过了AB-1262法案，旨在将保护消费者的范畴扩大到具有录音功能的智能扬声器设备。

3 结语

智能语音识别与交互技术当前正处于跨界技术融合摸索阶段，难免碰到各式各样的问题和困难，面对当前行业状况，产业链上下游应有机协同，完善行业标准体系，促进技术稳健发展并落地。随着技术的不断完善和市场的成熟，智能语音交互未来必定会大放异彩发挥重要作用。