科大讯飞口述史:一家本土科技公司的十年侧影

2017-11-02 16:26江涛
名人传记·财富人物 2017年9期
关键词:语音华为系统

本文是科大讯飞副总裁江涛口述实录。科大讯飞的创业经历,是个典型的中国技术创业故事。从技术到商业,从实验室到市场……这个故事提供了一个路径样本,也是那 10 年本土技术商业史的一个侧影。

讯飞前传

讯飞的前传离不开“人机语音通信实验室”,这是中科大六系(也就是电子工程系)的实验室,八几年就成立了,导师叫王仁华,是中国语音界非常有名的泰斗级老教授。九十年代,国内做语音都会首推“二王”,南边是王仁华教授,北边是清华大学的王作英教授。

我是1993年进科大的,当时科大的学生都管导师叫“老板”,因为他们都跟着老师在外边接活做项目(注:时代背景为知识分子到校外私企的打工经商潮)。

王老师跟其他的“老板”差别在什么地方呢?这个实验室也在外面接活,也给大家发点小钱,但除了有一拨人接活挣点小钱之外,他还保留了一支相当精锐的部队,做国内最前沿的基础研究,就是语音合成、语音识别编解码相关的研究;第二个不同是,他不像大部分的老板——论文出来了自己的名字写在第一个,然后才是学生的。在王老师这里,这个模式如果是你先做的,就把你的名字写在第一个,把年轻人推出去。

庆峰1990年进科大,到大五已经是非常强的主力骨干了。王老师把他的学生分成两拨,一拨是挣钱的,一拨是搞研究的,刘庆峰就是搞研究的头——虽然只是五年级的本科生。

1998年,在国家863比赛中,庆峰牵头拿了第一名,当时主要聚焦在语音合成技术。863对语音合成技术的评测标准是:播音员的标准是5分,普通人发音是4分,3分是可以接受不反感。当时,在国家 863多少年的比赛中,第一次有了3.0分,就是科大的代表队。当时一起参赛的还有很多代表队,比如清华、北大等等。

这个奖也给庆峰很大的鼓舞,觉得应该做点什么,把这个研究成果进一步产业化。当时李开复在微软中国担任副总裁(注:1998年7月,李开复在中国创建并领导微软中国研究院,现为微软亚洲研究院),准备把微软奖学金给庆峰,但这个奖学金是有条件的,必须到微软做一个月的研究。当时庆峰已经准备创业了,就说没法去一个月,后来微软的条件一降再降,最后降到过来两周也行,但他最后还是拒绝了。十几年之后,一次讯飞语音云开发者大会,李开复也到了现场,我们邀请他的时候,他很感慨地说,庆锋是这么多年来唯一拒绝过微软奖学金的人。

当时还有一个背景,国外IT巨头纷纷开始涉足中文,1998年,IBM发布了语音系统,翌年被评为科技界十件大事之一。第一次在电脑上不用键盘就可以输入,大家都觉得这是一个很革命性的事情。在IBM影响下,英特尔、摩托罗拉、东芝等国外IT巨头都建立了语音研发中心,当时科大声学所、语言所、清华等等一些学校语音专业的学生,一毕业就被挖去,这些国外公司基本上把中国语音市场瓜分了。

还有一个背景必须提,就是大学生创业潮。九八、九九年团中央呼吁大学生创业,CCTV2还专门在1999年春节前后拍了一期节目,请了很多大学生创业者去讲他们的故事。这是九八、九九年那一拨创业潮,但是后来我们上市的时候,一百多家企业就剩两三个了。

这就是九八、九九年刘庆峰的状态——技术上很牛,研究生刚毕业,拒绝了微软,在大的语音产业第一次浪潮和大学生创业潮,以及国家863奖的激励下开始创业。

“讯飞 Inside”

融到钱后,就可以大手笔干活了。我们开始追逐自己的梦想,第一次做了ToC(面向消费市场)的产品——畅言软件。这是一款针对PC的软件,通过语音既可以有指令的操作,又可以有文本输入,我们第一次把手写输入的随意性和语音输入的快速性无缝整合在一起。

这个软件的“成功版”卖两千块钱一套,我们在全国十几个省打广告,然后招商。把代理商请到合肥来,跟他们讲这个软件有多好多好,我卖你一套一千块钱,你卖两千块钱。这个代理看着觉得挺神奇的,就各自囤了一些货,但后来很快退回来了,一是不好卖,二是很多盗版。第一年卖了一千多万,但大部分都积压在代理商那里,搞得代理商叫苦不迭。

这是我们第一次ToC的努力。当时可以做事情的时候,我们就想改变人使用计算机的习惯,现在看来,这显然是超越我们的能力了。一方面,PC已经比较好地解决了人机交互的问题,对语音的需求没那么迫切,而且换一台电脑就得重新训练;其次,商业环境也不成熟,那时候没有电子商务,得靠一级一级的代理,最后一级一级加价,价格就比较高;同时,盗版又大面积出现。从技术、需求、商业环境上,都还不太成熟,所以叫它蹒跚的起步。讯飞的成长中,我们犯了无数的错误,这是其中之一。

讯飞商业模式第一次形成叫“iFLY Inside”,2000年,我们在深圳参加高交会,华为的工作人员看到了我们的语音合成系统,觉得比他们的好,就把我們带到蛇口的那个楼里,十几个研发人员围着问了一个下午。后来,华为就决定跟我们签约了。

签约后,华为开始测试我们的语音合成系统。我们在家里测觉得挺好的,结果到华为一跑,只能撑几分钟。华为给了我们很大的压力,在陈涛副总裁的带队下,我们最核心、最骨干的一些研发人员接近二十几天吃睡都在华为,饿了就吃点东西,困了就在地上铺个东西睡会儿。我们那个时候才知道电信级稳定性的要求。

修改、优化后提交还是不够,华为在现场又发现了问题,需要反复的修改,这个过程算是“脱了一层皮”。从实验室状态的产品,在稳定性、工程化上面,如何满足真正大规模商用的要求,也是我们第一次面对。

但是这一层皮脱掉了以后,以后再有谁测我们的系统,我们从来就没倒过。除了华为,当时的中兴、神州数码等等国内做智能网、呼叫中心、业务系统的,需要用到语音引擎都买讯飞。

我们把语音的核心能力提供给合作伙伴,他来做具体的应用,这是“iFLY Inside”模式的确立。

弯曲的直线endprint

讯飞犯过无数的错误,走过无数弯路,后来我们把它叫做“弯曲的直线”。

现在讯飞有两个事业部,通信增值和移动互联。当年有一个叫“有声Email”的项目,我是总负责人,跟上海电信合作,在上海热线的邮箱系统第一次实现,当时觉得自己还挺了不起的。

那个时候移动互联网还没起来,电话用户比互联网用户多得多,“有声Email”就是用电话来访问,让用户听互联网上的信息。这个还真卖了一套,但就是没人用。在做这些产品的过程中,我们也慢慢的知道了该如何做产品,如何做工程,如何研究用户需求。

还有个项目叫“老师家长一线通”,希望通过智能的电话语音系统,解决老师和家长之间的沟通问题,现在有很多 App 也做这个,包括校讯通,但当时产品出来同样没市场。不过,这支团队后来进一步延伸出了通信增值事业部。

2005年,彩铃从韩国引入中国,迅速火了起来。当时运营商最困扰的是,电话热线里面只能提供“1”到“9”的9首彩铃让用户来选。他们就找我们问,能不能用语音选彩铃。

我们就做了“声动彩铃”这个系统,在安徽一试点成果非常好。当时,安徽的运营商就给我们推荐了几个单位,后来联通总部看到这个系统的成果,就进一步下文,说这个产品应该怎么用。这样,我们终于有了第一个能够覆盖全国的业务。

它逐渐在全国形成了规模效应,后来中国电信得到了C网,开始做彩铃的时候,也是全面用我们的系统。中国移动也是。

基于音乐和彩铃相关的语音业务平台,很多都是由讯飞来做。基于讯飞的语音核心技术之外,我们把音乐方向的应用真正做起来了。

这几年,我们的通信增值事业部在原来音乐语音搜索上又进一步做了很多东西,比如个性化彩铃、基于特色的语音合成技术,可以让彩鈴随时的更换。还有爱吼网(一个在线K歌的平台)。

移动互联方面,包括输入法,我们的基础团队也是从这边延伸出来的。2002年到2005年,我们把它叫做“弯曲的直线”,走了无数的弯路。

“弯曲的直线”的另外一面是教育产品。我们教育产品线已经很长了,早期做的产品叫“会说话的书”,这是 2002 年开始做的重要项目,我们当时对它抱了很大的期望。在书底下有一个存储装置,包含语音合成芯片,可以把书的内容读出来,适合小孩。

语音合成怎么用?当时想的就是大家除了看书以外,还有听的需求。这两款产品费了牛劲,因为是我们第一次做硬件产品。现在看来,这两款产品巨土,工业设计水平都比较低,包括用户体验也都不太好。

但是,这次项目之后保留下来的教育产品条线,现在已经有几百号人、几亿的销售额,可能到未来会有几十亿。要是当时没做现在看来很疯狂的傻事,就没有今天的发展。endprint

猜你喜欢
语音华为系统
一种无人机缓冲系统
现在的余华为谁写作?
微信语音恐惧症
赛力斯华为智选SF5
华为承诺函的批评话语分析
品“助读系统”之妙
魔力语音
Magic Phonetics魔力语音
直扩系统中的窄带干扰抑制
直扩系统中的窄带干扰抑制