泰岳智享 生态共赢

2017-09-25 19:19张瑞飞
软件和集成电路 2017年8期
关键词:孤岛语义算法

张瑞飞

我们在2014年与中国工商银行做了一项实际测试,尝试用深度学习的方法对工商银行的电话咨询原因进行分析,通过学术算法应用到实际中,我们发现所产生的结果并不一致。机器很难识别同义和反义词,并且对于评价对象和评价内容的区分等问题在实际应用当中一直存在。

解决此项问题的基础,首先要解决的是计算机处理语言符号和语义的认知技术,能够将普通人看到的词语分成概念符号和定义,通过这样的分解我们定义了在深度学习中非常重要的概念—语言理解的最深度数据结构是什么?是语言本体加语言范畴加语言表述。以这个为基础我们在深度学习中尝试增加了一些理解汉语歧义的能力,如果在两种以上的场景里使用,能否为多种歧义语言增加应用空间?通过这样的理解我们进行了与传统自然语言处理不同的方式,把传统的符号化作为基本单元理解成为语义网络的计算方式并进行改革。

人工智能同样没有免费的午餐,在智能语言识别中还需要更多的积累,目前我们积累了83000个语言库概念单元,在句法上总结了8类基本句类和3192个混合句类,根据语境单元标注标签,根据语言篇章进行记忆表述,可以求出更准确的中英文翻译结果。神州泰岳在人工智能发展中的特色是什么?第一,我们用三种不同的语义挖掘方法进行概念计算、统计计算、关联计算。概念计算是把语义符号转换成概念,统计计算是深度学习和机器学习的方法,关联计算是关系图谱的计算,同时调用了两种资源,一是建立8万个多个语义、语言基础库资源,二是增加了算法资源,以实时、批量、可流通等三种方式进行调换。在这个过程中我们意识到,人工智能的发展不能依靠一家企业来完成人推广。我们希望用生态取代平台概念,我们开发了很多系统,包括大数据管理平台、大数据应用模板、大数据挖掘模型等,我们希望生态是任何企业或个人都能进入到系统中,随时随地与我们产生合作。

目前只有一种方法能实现这样的愿景,把我们所开发的产品变成服务来标准化应用到服务接口上,方便每一个合作伙伴去利用,这样就形成了生态的第一个概念。

第二个概念,当进行行业应用时,行业的优秀经验需要被分享。但是需要给该行业什么工具,怎么把该行业的数据、技术能力和业务能力一起分享?这是我们取代生态平台,所进行的研究方向。

第三个概念,用数据消费取代数据管理。当企业进行数据表、数据试点、数据视图等大量基础工作时,生成一个报表需要一个月的时间。现在大数据的状态是倡导数据的时效性,我们希望在新的系统设计里,运用数据消费去取代数据管理。

第四个概念,打通所有的信息孤岛。我们与企业合作当中,有三种信息孤岛类型。第一,结构化与非结构化信息孤岛;第二,外部互联网数据和企业内部信息孤岛;第三,企业交易数据和第三方交易数据。

第五个概念,在业务创新平台的开发中,我们希望业务人员能够主动参与进来,在平臺应用的孵化器中不断进行创新。2016年8月,我们在平台上进行了五个应用的开发,每三个月都会开发一款新型产品,应用到企业中,方便企业使用。

结合平台设计理念,我们尝试把机器学习、语义分析和互联网大数据,以及数据模型统一起来,建立共享生态圈,以数据采集、业务流程和业务逻辑、数据挖掘、数据分析、数据可视化,将多层API全部打开,来满足基础调用能力,形成整个社区生态圈,提供不同的工具给社区技术人员或业务人员以及增值服务商。

2014年Google提出大数据流水线概念,使用加工算法,在数据采集、清洗加工、融合利用、数据供给四个领域做到实时处理,虽然这种概念与传统数据相似,但是用于实际应用领域却非常陌生,怎么进行实时数据供给和融合?实时流水线几乎涵盖一切数据,从工控到文件,全部以毫秒级处理。

基于这个能力我们与亚马逊合作,把数据流水线开发成可视化数据,取代传统的API调用方式。在取得数据以后,则需要更快更强的数据处理方式,通过对spark底层进行实时优化,包括数据缓存中上、下文的兼容、序列器、操作等,将spark性能提升20倍,在这个基础上,能够利用大数据集群同时完成流水处理所有的数据任务。

为了开发人工智能数据分析引擎,我们开发了算法工程,包括数据处理、特征工程、特征学习、特征比对、自动调参、模型优化、模型部署以及整个人工智能模型建模的工程开发。而智能语言业务有很多流程,我们具备高速的流程引擎,可同时在机器学习算法上添加实时操作应用来实现机器人客服。

而机器人需要支持多轮对话,我们重新编写了机器人底层的知识结构,把知识分成普通的问答知识、要素型知识、列表型知识、矩阵型知识,形成机器人的本能反应,这样机器人就可以从事客服工作。

(根据演讲内容整理,未经本人审核)endprint

猜你喜欢
孤岛语义算法
韩国语“容入-离析”关系表达及认知语义解释
孤岛(外一首)
孤岛
Travellng thg World Full—time for Rree
学习算法的“三种境界”
算法框图的补全
算法初步知识盘点
图片新闻