基于凸优化的少量样本语音识别

2020-02-10 10:52罗光圣黎文伟

中文信息 2020年2期

关键词：语音识别

罗光圣　黎文伟

摘要：本文首先討论了语音识别的应用研究状况，以及介绍了语音识别的应用流程。在此基础上讨论了少量样本的基本概念，分析了少量样本的研究状况，然后分析了凸优化的基本原理和算法。其中重点讨论凸优化算法。最后总结了少量样本语音识别的工作和展望。

关键词：语音识别少量样本凸优化

中图分类号：TP181文献标识码：A文章编号：1003-9082（2020）02-0-01

一、语音识别

语音识别通过运用语言学、计算机科学、电子工程、模式识别、概率论、信息论以及人工智能等领域的方法和技术，使计算机设备能够精准识别和翻译语音信息，也被称为自动语音识别（ASR）或者语音到文本（STT）。

语音识别的流程如下：

二、少量样本

对图像识别的机器学习少量样本目前大致可分为模型大致可分为三类：Mode Based，Metric Based 和 Optimization Based。

在专业领域语音识别样本不会很多，如银行的电子渠道手机银行语音导航，样本数有账户管理，我的账户，交易明细等类别很少，可以从训练训练50个类，每个类100个样本。

训练过程中，从训练集（50 个类，每类 100 个样本）中随机采样 5 个类，每个类 5 个样本，构成支撑集，去学习 learner;然后从训练集的样本（采出的 5 个类，每类剩下的样本）中采样构成 Batch 集，集合中每类有 15 个样本，用来获得 learner 的 loss，去学习 meta leaner

具体地，它显式的定义一个基于支撑集 S的分类器，对于一个新的数据X ，其分类概率由X与支撑集 S之间的距离度量得出：

其中 a 是基于距离度量的 attention score：

三、凸优化

如果一个最优化问题的可行域是凸集，并且目标函数是凸函数，则该问题为凸优化问题。凸优化问题可以形式化的写成

其中x为优化变量;f为凸目标函数;C是优化变量的可行域，是一个凸集。这个定义给了我们证明一个问题是凸优化问题的思路，即证明目标函数是凸函数（一般是证明它的Hessian矩阵半正定），可行域是凸集。

凸优化的证明如下：

1.目标函数

2. 目标函数展开之后为

3. 二阶偏导数为

4. Hessian矩阵为

Hessian矩阵是半正定矩阵，上面的优化问题是一个不带约束条件的凸优化问题。可以用梯度下降法或牛顿法求解。

训练一个语音识别的神经网络模型，来预测梯度，用一次二次方程的回归问题来训练，采用凸优化的方法进行优化，到的神经网络优化器比Adam，RMSProp还要好。

结语

在这边文章中，我们基于专业语音识别应用领域中，样本少的实际情况，提出了少量样本与优化器凸优化结合的分类模型。

未来的工作，将少量样本的语音，扩展到有噪音环境下的语音识别，同时迁移到其他专业应用领域中如医疗等，或者在此基础上迁移到其他少量语种中去，经过简单的微调而不用太多数据就是准确的实现语音识别功能。实验验证一下基于凸优化的少量样本语音识别模型和其他优化器的模型性能进行比较。

参考文献

[1] G. Dahl， D. Yu， L. Deng， A. Acero. Context-Dependent Pre-trained Deep Neural Networks for Large Vocabulary Speech Recognition. IEEE Transactions on Audio， Speech， and Language Processing. 2012.

[2] H. Sak， A. Senior， F. Beaufays. Long Short-term Memory Recurrent Neural Network Architectures for Large Scale Acoustic Modeling. INTERSPEECH 2014.