让世界聆听我们的声音

2016-03-17 03:46科大讯飞股份有限公司董事长刘庆峰
中国科技产业 2016年1期
关键词:评测产学研语音

◎科大讯飞股份有限公司董事长 刘庆峰

让世界聆听我们的声音

◎科大讯飞股份有限公司董事长 刘庆峰

当下,万物互联的物联网时代正在到来。以手机为标志的移动互联网作为IT产业发展的第五次浪潮,正在汹涌澎湃地向着穿戴设备、智能家居、车联网等方向发展。这是未来经济科技发展最大的风口,已成为产业界的共识。未来三到五年内,物联网将在全世界掀起新的产业浪潮。在无屏、移动和远场状态下,以语音为主,键盘、触摸为辅的人机交互时代正在来临。

从DOS到Windows,成就了微软;苹果则通过把触屏交互做到极致,成为了全球最值钱的公司。然而,产业发展的下一步是以语音为主的交互时代。作为亚太地区最大的语音和人工智能公司,今天的科大讯飞正紧紧抓住这样的大势与机遇,努力成就更大的事业。

智能语音产业是一个高门槛的核心技术领域。科大讯飞在1999年创业之初,得到了微软研究院院长、国内语音领域专家,以及有关政府部门和产学研界的大力支持,给予了很多很好的指导和建议,为科大讯飞的发展壮大提供了巨大的帮助。

2000年以前,中国智能语音市场全由国际巨头控制。后来,通过产学研合作,科大讯飞这样一个由在校大学生创建的智能语音公司逐渐发展成为亚太地区最大的语音和人工智能上市公司,抢占了包括公安、电信等领域的主流市场80%的份额,民用市场如移动互联网领域60%的份额。这就是产学研创新体系发挥的重大作用。

智能语音交互包含三项关键技术:一是语音合成,即把文字转换成语音,让机器开口说话;二是语音识别,即把语音转换成文字,让机器听懂人说话,甚至能够通过声纹识别,分辨出说话人的身份特征;三是智能语音交互系统要有会思考的“大脑”,让机器不仅能听会说,还要能思考、会预测。

当前,科大讯飞的智能语音技术发展迅速,已在语音合成、语音识别、口语评测、自然语言处理等多项技术上拥有国际领先的成果。首先是语音合成。按照当前国际语音合成大赛的评分标准,5.0分是专业的播音员水平,普通人说话可以达到4.0分,基础门槛是3.0分。在1998年,科大讯飞的语音合成系统得分就已达到3.0分,今天则达到了4.5分,合成的语音非常清晰流畅。

2006年,科大讯飞语音合成系统参加国际语音合成领域级别最高的Blizzard Challenge大赛,首次参赛即夺得冠军,从2006到2013年,科大讯飞语音合成系统连续8年在国际语音合成比赛中获得第一。2012年,科大讯飞语音合成系统让计算机读英语首次超过人类一般水平(4.0分)。2014年,国际语音合成比赛由合成英语改为合成印地语,科大讯飞依然超过印度人、美国人,再次夺冠。在语音识别领域,NIST国际评测大赛是国际上规模最大、影响力最广泛的评测比赛。科大讯飞自2008年开始分别参加了说话人识别和语种识别评测比赛。在说话人识别比赛上,科大讯飞荣获2008年说话人识别评测大赛全球第一名,荣获2010年核心测试综合评价第二名;在语种识别比赛上,科大讯飞荣获2009年高混淆方言识别指标综合排名冠军、通用测试指标综合排名亚军,荣获2011年9个高混淆度方言评测中7个方言评测第一名。

智能语音技术有着非常广泛的应用场景。万物互联时代,智能语音技术在任何地方都可以使用。声纹和指纹一样,具有独一无二的特征,声纹识别技术在安全领域有很好的应用,对国家安全的意义非常重大。目前,“声纹+人脸识别”的身份认证已经在很多领域应用。最近产业界特别关注的热点是汽车内的语音交互。随着车联网的发展,语音将成为车载技术的刚需。车内语音技术最难的是远程语音控制和汽车行驶过程中产生的大量噪音干扰,已成为业界攻关的难点。2015年4月,科大讯飞研发的中文车载语音应用技术在由宝马中国研发中心牵头组织实施的“宝马全球中文语音技术测试”中斩获第一,全面领先国际竞争对手nuance,成为业界唯一达到实用标准的技术。迄今,科大讯飞已经与奥迪、宝马、奔驰、通用、丰田、雷克萨斯、福特等国际车厂,以及国内的江淮、奇瑞、上汽、广汽、长安、吉利、长城等主流车厂建立了广泛的合作关系,产品陆续在荣威350、长城H6等20余款车型中配装上市。

语音技术将来可以应用在生活的方方面面。比如在手机应用方面,普通人不用经过任何事先的训练,打开手机中的讯飞输入法,不仅可以手写、可以叠屏,还可以将直接说出语音立即转换成文字,并且平均识别准确率达到95%以上。目前,讯飞输入法已拥有2.8亿用户,日活跃用户数超过5000万人。讯飞输入法主要使用的是科大讯飞的语音识别技术。

此外,科大讯飞将语音识别、语音合成与人工智能技术结合起来,推出了另一款应用——灵犀语音助手,直接通过语音发出指令,打电话、发短信等功能都可以快速响应。比如,对着手机说出“帮我查昆明到北京的航班”、“我想听中国人”等,便能轻松实现所需要的功能。同时,科大讯飞在语音翻译技术方面也取得了可喜成果。语音翻译需要语音识别、机器翻译和语音合成这三个核心技术,科大讯飞如今已做到了语音识别、语音合成全球第一,文字到文字的翻译技术也是第一。

在实现了机器能听会说之后,科大讯飞开启了高级人工智能——认知智能的攻关项目。科大讯飞在人工智能方面的主要项目是承担的“国家人工智能863计划”,亦即“类人答题机器人”,也叫“高考机器人”。国内几乎60%的人工智能专家都在这个计划里,这也是产学研合作的一个重要体现。目前,该项目已取得阶段性的成果:一是翻译,科大讯飞口语翻译技术在2014年国际口语机器翻译评测大赛(IWSLT)中获得第一名,已经能够让翻译能力达到了相当于大学英语6级水准。二是在对英语高考试卷中关于口语、填空题、选择题等测试方面,配有科大讯飞口语翻译技术的机器已经超过人工。目前,科大讯飞器智能阅卷技术已经在安庆、合肥等地成功试点应用。

今天,当人们在强调产学研用结合时,当成果转化依然面临诸多制约瓶颈时,科大讯飞早已迈开步子抢得先机,与清华计算所、中科院自动化所等十几家高校院所成立实验室,在研发领域保持国际领先地位;让创新技术在合适的地方、以适当的方式使用,打造领先的产品、不断解决用户问题……未来,科大讯飞将继续通过加强产学研合作不断推进技术和产品创新,领跑国内智能语音与人工智能行业。

以科大讯飞多年的技术创新和产学研合作经验来看,产学研合作应以企业为主体,否则创新就没有“发动机”。首先,企业参与产学研合作要有清晰的产业发展目标,否则不可能做长远的研究。其次,企业家要有科学家的思维。再者,企业参与产学研合作要有完善的股权期权等奖励激励机制。企业要让产学研合作伙伴掌握价值链的主导权,让其成为公司的主人。

猜你喜欢
评测产学研语音
精益求精产学研 继往开来朝阳人
次时代主机微软XSX全方位评测(下)
次时代主机微软XSX全方位评测(上)
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
攻坡新利器,TOKEN VENTOUS评测
对方正在输入……
“政产学研用”:培养卓越新闻人才的新探索
完善转化机制 推动产学研融合