即构科技:“数智人”助力行业智能升级

2023-08-31 02:06孙媛媛
小康 2023年24期
关键词:智人音视频数字

孙媛媛

AI技术的创新迭代,将驱动虚拟人的应用场景进一步落地,为虚拟人行业发展带来更多想象力和可能性。

虚拟数字人行业近年来发展迅速,其技术发展和市场需求基本围绕两点演变,一是视觉效果,二是交互体验。用户对于虚拟数字人的市场认可和消费意愿,使虚拟数字人强大的商业价值日益凸显,加之国家相关产业政策明确表示对这一新兴产业的支持,新老互联网厂商纷纷加码虚拟数字人市场,自2022年以来虚拟数字人的市场应用呈现爆发态势。

即构科技2015年成立后,专注自研音视频引擎,目前已成为全球知名的音视频云服务商,多年来一直在深耕探索音视频通信、实时互动、音视频处理、AI算法等多方面的技术与能力,尤其在音视频处理的底层技术方面具有天然技术优势,凭借多年沉淀下来的RTC能力,以及在移动端丰富的项目落地经验,可以稳定保障生成式数字人的音视频内容画质高清、音质无损,以及数字人直播的实时性体验。即构科技创始人兼CEO林友尧表示,即构科技无论在AIGC还是在元宇宙中,最大的核心竞争力都是强调实时互动。

RTC技术实力加持令AI数智人快速落地

早在2019年,林友尧就观察到在线互动的新需求,开始进行技术积累,包括AI算法、虚拟现实建模等。当看到元宇宙概念走红时,林友尧感到兴奋,因为元宇宙能更好地将公司积累的技术整合起来,让技术有“用武之地”。

即构科技在AI领域早有沉淀,其数字人产品的核心技术——AI多模态生成算法,是基于视觉感知算法和音视频生成算法以及NLP语义算法的多模态AI能力的融合,能够有效促进产品在业务场景中的商业化落地,解决实际痛点。

从最基础的“面部表情传递情感信息”这一基本场景尝试重构沟通方式,经过一年的研发,在2022年即构科技推出了3D数字人产品——ZEGO Avatar,通过对面部表情的高度还原、极低的延迟,实现了超情感表达。

同时,林友尧意识到,人人互动和人场互动是互联网未来核心场景,重构这种场景,需要对场景抽象化,并实现高并发、低延迟的状态同步。基于此,即构科技推出了具备虚拟世界开发能力的产品——ZEGO Metaworld。

今年以来,即構科技加码数字人业务,从原先专注3D数字人,到2D、3D多线并举,其中2D业务上线一站式数智人解决方案,应用于知识口播、金融、教育、营销、企业内训等场景。

“即构数智人——即智”是即构科技最新打造的AI视频生成应用,通过行业领先的人工智能、面部动态识别、声音处理、实时互动技术、云计算技术为企业提供高效的短视频营销工具、虚拟直播、实时互动型数字人等一站式解决方案,可支持数智人形象定制、短视频创作、数智人直播,为企业降本增效再提速。

即构数智人的表现效果,是外界最为关心的,也是即构科技着力打磨的地方。目前“即智”支持定制形象、背景、音色、语言。在平台输入内容后,“即智”可自动进行语义理解,模仿真人表情与动作,并且根据同一段内容,数智人可以每次演绎出不同效果,如同人类的“微表情”。

而通过“即智”数智人平台,用户只需要上传一段5分钟的本人录制视频,就可以1:1还原本人的声音、形象,并且在平台内自由进行内容创作或者进行直播,省去了内容生产过程中的筹备、拍摄、剪辑过程,团队可以将更多时间和精力专注在内容质量的打磨上,生产效率大大提高。

作为即构科技产业互联网业务总裁,王文祥目前负责即构产业互联网业务和创新业务,曾主导过即构RTI升级、即构元宇宙互动引擎等创新项目。在接受《小康》杂志、中国小康网采访时,王文祥表示,目前能够熟练运用短视频及直播等营销手段创造效益的企业并不多,究其原因,是主播人力成本、设备搭建成本、操作成本、试错成本等支出较高,而数字人的出现,恰好能解决这一痛点。越来越多企业开始探索数字人的智能交互体验,为企业自身的运作降本增效。另外,在企业的数字化转型过程中,数字人技术也被持续应用到如线下大屏、单向客服、数字教练、VolTel等场景中。

做垂直行业的数字人

近年来,AI数字人已逐渐成为各行业数字化应用的新风口,国内外AI大模型的陆续出现、广泛的应用前景以及来自政策层面的大力支持,使这一领域充满想象空间。当AIGC时代来临,哪些企业具有较早的技术积累和沉淀,哪些企业能够迅速结合市场需求推出实用的产品和服务,哪些企业就掌握了该领域的发展先机。

即构科技在人人交互和人机交互领域里积攒经验,结合数智人和大语言模型,为垂直行业带来全新的智能交互体验,让更多客户体验技术带来的降本增效,通过“人格化的数智人”“行业垂直可控的数智人”这样的方案,实现“有温度的人机互动”。数字人和数智人,有一字之差,王文祥解释说:“‘智是一种强调,强调我们的数字人更加有智慧、有温度。”

据了解,即构科技目前已为200多个国家/地区提供一站式音视频云服务,音视频技术已经服务超过4000家客户,创业八年多时间,公司全部客户的流失率不到5%,其中大客户的流失率更是几乎为0。由于在行业内有很多已经落地的成功案例,针对不同行业的成熟落地方案,对于拓展数字人业务具有先发优势。基于本身对社交娱乐、金融、医疗、教育等行业深刻的理解和服务,所以数字人的新业务也能够更好地适应和响应客户们的需求。

王文祥提到,“大模型有通用大模型,未来做大模型除了大厂之外,一些中小型厂商聚焦于做垂直领域的大模型也是非常有市场前景的。而对于即构来说,我们希望在应用这块能够赋能企业去真正地创造价值。因此,我们会注重具体行业的定制化需求,这是差异化的业务战略。”

即构科技于今年推出的“即智”数智人平台,其应用于金融领域,可通过“AI bank”的模式,让用户体验更有温度更智慧化的业务办理。针对如何防止黑产行业利用虚拟数字人进行骗贷骗保等痛点,则配套了金融反欺诈的解决方案。与此同时,即构数智人还可适配金融行业自建产品销售网络及内部大型培训等个性化需求,助力金融机构构建自有的私有化直播平台。

“像银行这种对安全有高要求的敏感行业,数据、应用、本地化,都要按需定制,我们提供企业数字化能力的同时,也助力其保障数据安全。”王文祥指出,即构科技的数字人拥有序列号可以溯源,如果被第三方非法使用,是可以被追溯到的。“我们主动拥抱监管,提前布局更安全合规的内容。”

对于银行业务咨询等场景来说,需要解决的痛点是数字人的反馈是否足够及时、数据是否足够安全,比如客户提出了问题,中后台接收需要时间,接到问题后,语音转化为文字,然后进入大模型或者人工后台操作,这个过程要极致压缩时间,令数字人的回答更实时,这就需要打造足够详细的数据库以及提供稳定的RTC通信能力。如果一个提问,客户等待很久才能得到数字人的反馈,体验就比较差。金融企业客户通过接入即构科技提供的服务即可实现实时音视频通信,尤其在弱网环境下仍然能够获得高质量、稳定性强的音画,获得流畅的沟通。

在确保信息安全方面,数字人接入如ChatGPT这样通用开放的大模型语言体系客观上存在一定风险。金融行业、法律行业的客户严肃场景居多,如果数字人回答得不够严谨就会触发风险,在此基础上,即构科技对数字人进行反复训练,在通用的大模型内,对它进行垂直化、合规化。“让我们的数字人不光会说,还不瞎说,因此在训练时会设置一些围栏,只讲涉及具体行业的核心部分,相关信息均经过授权,非行业内知识进行隔离处理。”王文祥表示。

在数字化经济浪潮的冲击下,金融行業纷纷布局数字化创新战略,未来即构科技将以扎实的实时音视频及 AI能力为基础,持续为金融行业数字化的转型注入活力。

数字人助企业出海

近日,数字文娱人工智能创新峰会在上海举办,各类人工智能在数字文娱领域的新应用在会上展出。在即构科技的展台上,有精心布置的直播间、颇具亲和力的带货主播、高效的产品介绍……而看似真人直播带货的场景,其实是人工智能构建出来的。

“我们最近用数字人尝试了几场直播,销售数据还不错。接下来,我们准备提升直播的互动性,从一场直播卖一款产品升级为卖多款产品。”王文祥表示,数字人直播有两个好处,一是数字人主播不需要停歇,二是节省直播场地等成本。以数字人为代表的人工智能在打破人力限制的同时,也突破了跨语种交流的壁垒。“人工智能使数字文娱产业的出海业务更顺畅,实现破局新增长。”

面向全球市场的数字人是大模型的另一个应用方向。“这种数字人可以多语种、多形象、多场景定制,只要6分钟至8分钟就能生成一条播报视频。”

今年5月,中哥文化贸易促进会在成都市举行重要合作伙伴授牌仪式,同日,成都IN3咖啡工厂、成都叁叁叁文化科技有限公司、即构科技联合推出的“哥伦比亚咖啡庄园企业代表与成都IN3咖啡工厂仿真人直播技术”正式亮相。

据了解,该款仿真人是由即构科技结合AIGC技术自研的“数智人产品”所打造而成的,以哥伦比亚托利马大学负责人为原型,对其进行真人形象1:1克隆,随后经过人工智能训练推理,令其动作自然且具备动态化的表现力以及多语言表达的功能。

仿真人能够结合短视频、直播等社交传播方式,开创性地实现向全球咖啡爱好者传递哥伦比亚前沿咖啡文化、咖啡资讯与生产技术的目标,为哥伦比亚咖啡提供展示舞台的同时,也为成都乃至中国咖啡产业链发展带来更多机会。

此次咖啡工厂仿真人直播技术在IN3咖啡工厂店亮相,标志着中国西部地区最大的咖啡店在科技创新方面又迈出了新的一步,也将推动成都与“一带一路”倡议响应国更多更好的交流合作,以此为契机进一步推动产业核心技术研发,为培育新技术、新业态、新模式、新组织带来新动能。

即构科技已经为全球200多个国家和地区提供毫秒级的实时互动体验,在泛互联网赛道上拥有 70% 以上的行业头部客户。随着国内泛互联网的发展,越来越多的企业将目光投向了海外市场,即构科技服务的大部分头部客户都走上了出海的征程,进一步实现全球化。

猜你喜欢
智人音视频数字
基于“异病同治”理论桂枝加龙骨牡蛎汤治疗老年人不寐的作用机制
3KB深圳市一禾音视频科技有限公司
人类简史—智人的进化与革命
WIFI音视频信号传输的关键问题探究
人类正从“智人”变成“神人”
高速公路整合移动音视频系统应用
Roland专业音视频新技术研讨会在上海召开
数字变变变