语音识别专利技术综述

2019-09-10 07:22牛洪波王婉君刘华楠

河南科技 2019年24期

牛洪波王婉君刘华楠

摘要：语音识别作为一种输入手段，应用范围越来越广，从手机输入到车辆远程控制都会使用语音识别。本文通过对语音识别相关的专利数据进行统计分析，梳理了语音识别相关技术成果，对申请量、主要申请人、关键专利技术进行了分析，以期为该领域的相关研究提供建议。

关键词：语音识别;关键技术;专利分析

中图分类号：TN912.34 文献标识码：A 文章编号：1003-5168（2019）24-0059-03

Overview of Patent Technology for Speech Recognition

NIU Hongbo WANG Wanjun LIU Huanan

（Patent Examination Cooperation Henan Center of the Patent Office，CNIPA，Zhengzhou Henan 450018）

Abstract： Speech recognition， as an input method， has been applied widely， eg， mobile phone input，vehicle remote control. Based on the statistical analysis of patent data related to speech recognition， this paper reviews the achievements of speech recognition technology from different perspectives， and analyses the application volume， main applicants and key patent technologies.

Key words： speech recognition; key technology; patent analysis

1 语音识别技术概述

语音识别是利用计算机识别人们所说的自然语言。由于方言、说话习惯的影响，高效、正确的识别语音是各个公司、高校研究的重点。1952年AT&T贝尔实验室开发出来世界上第一个语音识别系统Audrey，虽然这个系统只能识别10个英文数字，但是它开启了语音识别的先河;到了80年代，隐马尔可夫链（HMM）以及人工神经网络（ANN）的引入，使得语音识别的准确性和效率有了大幅提升[1-2]。

现在我们身边都有很多语音识别的应用，相比于其他输入方式，语音识别可以解放人们的双手，提高输入效率，广泛应用在汽车驾驶、家电控制、手机输入等。经过几十年的发展，全球范围内有大量语音识别的专利申请。本文对语音识别相关专利申请进行分析，梳理其发展脉络、发现重要申请人的专利布局，以期为相关研究奠定基础。

2 语音识别技术专利申请现状

2.1 国内外申请量趋势以及主要分布区域

本文在DWPI数据库中利用语音识别关键词以及分类号进行检索，以检索得到截止到2018年9月公开的专利文献为样本，分析了语音识别的年申请量、分布区域、主要申请人，并在CNABS中针对国内的申请人进行了分析。

图1示出了语音识别在全球和中国申请量的趋势，全球的申请量从1993年开始明显增长，2001年已经到达1200多件，虽然由于2008年金融危机的影响，2008、2009年申请量有所下降，但是此后，继续保持增长的势头。

国内的申请最早起步于1985年，是由清华大学申请的公开号为CN85100083A、发明名称为“一种语音特征的提取和识别方法”的申请。此后几年，申请量维持在个位数。从2009年开始，国内申请有了显著增加，2017年申请量已经达到913件，占到全球申请量的65.6%，这和国内互联网的发展趋势相吻合。

图2示出了语音识别全球申请分布情况。研究语音识别的公司主要分布在美国，包括谷歌、IBM、微软在内的科技公司以及美国的科研院所申请了大量专利，到目前为止，语音识别相关的专利在美国的申請量位居世界首位。此外，日本的申请量也比较大，重要的申请人有索尼、松下等。检索发现，这些公司不仅在日本布局专利，还通过PCT或巴黎公约的方式向美国、欧洲以及中国提交了相关申请，积极利用专利布局海外市场。在语音识别发展前期，国内的申请量较少，但是随着我国国力以及创新能力的发展，近年来，中国的专利申请量有了明显提升，2017年的申请量已经是2001年的近8倍，已经达到了900多件。

2.2 国内外主要申请人

对语音识别技术相关的专利申请人进行统计分析，在全球范围内，申请量最多的前十位如图3所示。这些申请人集中在专业公司以及大型公司。例如，Nuance作为专业的语音识别研发公司，投入了大量的研发力量，研发了目前世界最先进的语音识别软件。此外，国外的主要申请人还有微软、NEC、松下、索尼、三菱、佳能、三星、西门子以及IBM等。

国内申请人主要有百度、联想、科大讯飞、上海能感物联网、中兴、腾讯、欧珀、乐视等，其申请的专利大多和自己的业务相关，例如CN101441869A是联想在2007年申请的利用语音验证用户身份进而实现开关机，CN102385619A是百度在2011年申请的以语音识别为基础的信息搜索。

3 语音识别关键技术及专利

最初是利用与模板匹配进行语音识别，但是当语料太多时，不仅处理速度开始下降，而且准确率也达不到预期效果。基于模板的识别方式虽然在短时间内对语音识别有了突破，但是众多缺点限制了其应用的发展。鉴于基于模板的识别方法缺陷显著，人们开始从其他角度进行突破，AT&T贝尔实验室将马尔科夫链应用到了语音识别，而且随着训练样本的增加，语音识别的准确度有了大幅提升。目前使用较多也最为有效的语音识别技术主要有基于时间规整的语音识别技术、基于隐马尔科夫的语音识别技术以及基于人工神经网络的语音识别技术。

3.1 基于时间规整的语音识别技术（DTW）

时间规整的语音识别技术最早由来自RCA实验室的Martin在20世纪60年代提出。后来，来自苏联的Vintsyuk进一步提出了采用动态规划实现动态时间规整的方法。动态时间规整通常用于识别单独的词，一般联合小量词汇表使用。动态时间规整的原理是提取语音的特征矢量，通过欧几里得距离计算和参考模板的距离，显然，距离越近越有可能是用户真实的语音。早期基于动态时间规整的语音识别专利申请有US4918733A、US5073939A等，现在基于动态时间规整的语音识别技术发展相对成熟。目前的研究主要集中在将动态时间规整和其他语言识别技术整合，例如高通公司申请的US2002143540A，该申请将时间规整和隐马尔科夫模型结合，提供了一种语音识别精确度更高的方案。

3.2 基于隐马尔科夫链的语音识别技术（HMM）

1982年AT&T贝尔实验室申请了基于马尔科夫链的语音识别专利US4587670A，并以此专利为基础，陆续申请了语音识别相关的其他专利，如US5946656A、US5963906A。随着隐含马尔可夫链在人工智能等领域的应用，出现了很多以改进隐含马尔可夫链为基础的语音识别专利申请，例如为了克服由于噪声变化导致语音识别精确度低的问题，JP2004279466A提出了一种根据噪声选择最优语音识别模型的自适应语音识别系统。隐马尔科夫模型是现在语音识别系统的基础，主流语音识别系统基本都是基于隐马尔科夫模型的，例如GMM-HMM、DNN-HMM。

3.3 基于人工神经网络的语音识别技术（ANN）

神经网络在语音识别中的研究应用起始于20世纪80年代，利用人工神经网络建立的语音识别模型，除了对输入信号的改进外，更多的是对神经网络的学习过程的改善，例如JPH0962644A是对学习过程的改进。基于神经网络的语音识别技术起步相对基于时间规整和马尔科夫链的语音识别技术较晚，但是发展迅速，在最近几年的申请量已经超过基于隐马尔科夫链的语音识别的申请量。由于神经网络在语音识别中突出表现，后来人们又将卷积神经网络（CNN）、循环神经网络（RNN）以及深度神经网络（DNN）应用在了语音识别，例如US2018166067A1、CN107993651A等。

4 结语

语音识别正在逐步改变我们的生活，随着人工智能的发展，语音识别在未来也会发挥更加重要的作用。本文从申请量、主要申请人以及关键专利等角度，对语音识别方面的专利进行了梳理，现在的专利申请主要集中在语音识别在各领域的应用，特别是随着物联网、车联网的发展，出现了很多通过语音控制设备的申请。语音识别已经逐步成熟，但是語音识别还面临着诸如模糊音的识别、噪声干扰、说话者感情识别以及方言识别等问题，相关企业、高校可以考虑从这些方面对语音识别进行改进。

参考文献：

[1] 于俊婷，刘伍颖，易绵竹，等.国内语音识别研究综述[J].计算机光盘软件与应用，2014.

[2] 息晓静，林坤辉，周昌乐，等.语音识别关键技术研究[J].计算机工程与应用，2006.