泰岳语义工厂

2019-10-08 15:12刘大双
软件和集成电路 2019年8期
关键词:结构化语义工厂

刘大双

语义工厂顾名思义就是对自然语言进行加工处理,输出结构化的信息及其语义。今天,我们越来越意识到,自然语言处理技术要很好地跟业务场景相结合,才能更好地赋能行业应用。

神州泰岳在超过16个领域、140个场景中抽象出相应的语义模型,同时对这些模型进行训练,保证输出效果。这么做的目的就是希望能够为企业客户和行业应用开发商提供一个自然语言处理SaaS平台。

其实,自然语言处理技术有一个很高的门槛,不仅是数学、语言学、计算机科学等诸学科综合的体现,同时还需要有很好的行业知识,给我们的企业客户也带来了一个新的挑战。另外,人才也是一个很大的挑战。今天在人工智能领域的人才非常缺乏,人才成本居高不下,要维护一个相对稳定的、具有一定规模的自然语言处理团队,还是比较奢侈的一件事。在行業应用上,我们已经有超过20年的行业应用经验积累,今天已经积累了将近100人的专注于自然语言处理的团队,同时我们有超过400人的交付团队,如果把这两个团队加起来的话,有将近600人。

基于这样的积累,我们希望为市场做的是,授之以鱼的同时还能授之以渔。我们更加强调,希望通过场景化的自然语言处理平台已经抽象出的场景,将来从事自然语言处理的应用开发团队实际上不需要具备自然语言处理的知识,只需要提供调用接口,也不需要花时间做模型训练,就可以保证相对稳定的输出效果。我们希望为市场提供一个专业的、有质量保证的、性价比高的一个SaaS服务平台。

简单说,语义工厂要提供几类服务:第一类是NLP基础服务,提供可以通用的技术服务,比如中文分词、简转繁、中文命名实体识别等。第二类是应用场景服务,到目前为止我们在16个行业抽象出了超过140个场景,针对这些场景都建立了语义模型,进行了充分的预训练,保证达到一个稳定的、可用的输出效果。第三类是数据服务,我们本身也积累了一些行业的数据,希望能够跟合作伙伴在数据方面有所合作。

场景化,是我们所强调的。在应用场景服务里我们提供了通用的场景,比如合同文本结构化、裁判文书结构化、客服工单分类及热点发现、招投标公告信息提取、企业风险标签提取、简历、JD结构化及信息匹配等。

语义工厂实际应用到具体场景中会产生什么效果?在教育领域,利用语义工厂输出的服务实现在线阅卷,目前我们能够处理的题型有名词解释题、简答题以及翻译题。实际上,通过我们在实际工作中的数据验证,准确率达到95%,很多场合中可以超过人工判卷的准确率。在公安刑侦领域,可以从现场案件盘查的笔录和报案文字笔录中发现类似案件,实现串并案分析,实现以案找案、以案找人、以人找案等,提升公安刑侦工作效果。

我们希望为市场、客户、合作伙伴提供人工智能、大数据的技术来实现业务创新,实现行业赋能的目标,希望让自然语言处理技术真正落地。(根据演讲内容整理,未经本人审核)

猜你喜欢
结构化语义工厂
顾丽英:小学数学结构化教学的实践探索
借助问题情境,让结构化教学真实发生
韩国语“容入-离析”关系表达及认知语义解释
深度学习的单元结构化教学实践与思考
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
为什么工厂的烟囱都很高?
奶酪工厂
植物工厂