深度学习与混合现实分论坛：VR改变时代AI创造未来

2019-01-19 06:01

中国电子报 2019年80期

关键词：深度

编者按：10月21日上午，2019世界VR产业大会“深度学习与混合现实分论坛”召开。本次活动由南昌工学院承办，江西以太科技园有限公司、中澳增强现实与深度学习重点实验室协办。本次活动以“VR引领时代AI创造未来”为主题，对深度学习如何推动VR产业发展进行了深入的讨论。全国高校人工智能与大数据创新联盟秘书长朱启明主持论坛。本报特编发论坛主要内容，以飨读者。

本报记者李佳师

康灿华：

致力加速AR/VR高校人才培养

南昌工学院是一所致力于培养为区域经济发展服务人才的高水平综合高校，一直以来十分重视VR人才培养的投入与发展，很早就开设了VR、AI专业。混合现实技术是虚拟现实技术的进一步发展，通过在虚拟世界再现现实场景信息，在虚拟世界、现实世界和用户之间搭建一座相互反馈的信息，增强用户更多体验感，深度学习与AR、AI将在本世纪大放异彩。深度学习的引入、拓展了AR/VR的应用领域，夯实了AR/VR的参与机制。

沈春华：

利用深度学习加速像素级别预测

我今天跟大家分享的是基于深度学习的像素级别预测。这个问题是什么样的呢？大家可能知道现在通过计算机视觉能够理解和预测很多你感兴趣的与图片相关的特征、性质。而图像级别的预测则意味着每个像素都要做预测，具体从数据上来说，就是给出输入的图片，我们都需要估计一个函数，然后输出感兴趣的预测。我们最近正在做的工作是语义分割，就是改革输入图片，设定标定标签，主要目標是把集成量降下来，让深度学习嵌入到移动端。虽然深度学习正趋向于构建更深层的模型结构以提高性能，然而近来一些结果表明，考虑到其他限制，仅仅增加网络层数不是最佳选择。而新型浅层残差网络结构能够在分类和语义分割任务上大幅优于更深层网络，在像素标定方面，基于Cityscaps数据集的方法相对于传统目标提取有更大的优越性。

何旭明：

新视角的对应关系学习实现有限数据更完整呈现

今天主要分享我们课题组正在做的“用于新视角的对应关系学习”，我们的主要目标是希望用有限的数据来产生一个更完整的视觉表示。其中最重要的挑战，是需要在不同的视角或者不同的版本图像之间建立一个对应关系。我们主要采用的技术是混合的技术，希望能够把数据驱动的策略，以及基于知识的驱动策略进行融合。除了深沉浸网络，我们还希望加入人类的知识。

什么叫产生新的视角？就是给了一个视角，比如你拍了一些照片，我们希望能换一个视角看这个场景会是怎么样，即产生一个新视角图。怎么做到？我们主要的想法是把一些场景用平面来表示，然后模拟在不同视角下的不同之处。这样可以用一个组合的方式，相当于用两个函数，一个函数告诉我们这个平面在哪里，另外一个函数是这个平面是怎么变化的。比如一张图上，左边一匹马、右边一匹马，我们希望建立对立关系。这其中有很多挑战的问题，包括有大的视角的变化，还有不同物体，不同背景的区别。以前的方法是每个图像提取一个特征，然后提取相关性，相当于得到一个类似的变化。这里面的问题是你提取的特征很难包括全局的信息，容易出现错误的匹配。比如说左边自行车的前轮匹配到右边自行车的后轮上面。我们怎么更好的判断对应关系，以及有时候上下关系是有用的，有时候上下关系没有用，因此我们希望用动态的方式，混合这两种信息，然后呈现最好的效果，这是我们主要的两个思想。同时，这两个功能也是用两个网络功能的分支来实现，前面的步骤是计算全局的特征，后面的步骤是计算动态的混合。这样的方法进行匹配其结果有很大的提升。

李升雨：

利用眼动追踪技术

加速了解用户想法

VisualCamp公司成立于2014年，在韩国有25个专利，海外有15个专利，公司共有20人，主要研发眼动追踪技术。通过眼动追踪技术我们可以看到用户在屏幕上看到了什么东西，用户关心关注哪一个东西。这个技术的应用范围很广泛，世界上有30亿人用手机，如果利用这个技术采集用户视线数据，按照这些视线数据，我们就能够了解用户的想法，知道用户的关注点，按照用户的关注点企业能够改进服务，带来收入提升。目前在全球比如美国、欧洲等地有不少公司都在进行这方面的技术研发，脸书、谷歌、苹果都在进行相应技术研究。

现在VisualCamp的算法加上AR技术，人人都可以用眼睛来控制他的手机。我们在VR眼镜、手机、平板、PC等设备上插进一个小模块，就可以用眼睛来操作。比如我们与韩国公司合作的项目，这是英文的内容，如果学生关注点在屏幕上，意味着他的听力水平很好，如果他的视线在字幕上，意味着他的听力水平或者英语水平不够好。所以，就可以按照他的水平推荐一些内容。比如我们与电商合作的一个项目，当用户浏览的时候我们采集他们的视线数据，就可以知道用户关注点，是关心价格还是关注产品性能，电商就可以按照用户的关注反馈推荐产品。我们在韩国跟现代汽车做过一个项目，我们也为OPPO手机提供技术。我们的商业模式是B2B，我们把我们的版权卖给合作公司或者制造商。我毕业于清华大学，现在负责公司销售部门的工作。我们公司的工程师大部分毕业于首尔大学，现在开发算法和应用方面的技术。

王新云：

VR在工业领域有很大应用空间

材料成形控制专业是全国高校开设最多的专业之一，目前有200多个高校开设这个专业，它是一个机械和材料相结合的专业，研究材料装备对虚拟制造技术有很大关系。材料成形及控制涉及了铸造、锻造、焊接、3D打印等专业，非常复杂，学生实习去工厂很难看清楚这些设备，因为设备很大也很保密，所以很难获得很好的体验，但利用虚拟现实就能够让学生沉浸在里面获得更多现场的知识。

VR技术可以应用于分析求解材料设备成形过程中复杂的缺陷等问题。通过虚拟制造的技术，我们可以看到在封闭的模具里面的变形，我们也可以看到冷却分析等很真实的虚拟过程。这是很复杂的前沿，各个温度的差异都可以很清楚的反映出来。VR+CAE具有非常好的产业化前景的，在工业设计、虚拟工业设计、虚拟生产方面都有很多的应用。

罗训：

影视制作能力的不足

虚拟现实的内容现在呈现两个趋势，一是需求爆发式的增长;二是生产能力远远跟不上需要。以影视行业为例子，原来说到大片的时候，大家都说好莱坞的大片，但从去年到今年，中国制造的工业级大片越来越多。2017年，中国电影院放映的荧幕数已经超过美国，未来两到三年中国的荧幕数就会超过美国。中国还有一个特点，网剧的播放量比较大，《延禧攻略》播放了150亿次。很火的网剧制作时间很短，所以大量的内容需要靠制作来完成，这是个突出的矛盾。

我们着重研究三个领域的智能化技術：一是基于摄影测量的数字制景，从去年到今年我们支持了四部播放量超过10亿级的网剧和电视剧的制作;二是数据驱动的城市三维建模，与滴滴、阿里巴巴等公司合作，做城市的规划以及城市建设的优化;三是人脸扫描和人脸建模，这个工作有助于未来千万级，甚至上亿级的国家第三代身份证的应用，因为里面的照片信息本来就是三维立体的。基于摄影测量的数字制景过程首先要有一个采集规划，然后采集大量的照片，再然后将采集来的大量照片进行一个反算，最后形成一个非常大规模的视频。我想说的就是：第一它的应用特别广。第二这个应用是虚拟现实里面非常典型的应用，它集成了很多计算技术在里面。第三它是高效率的渲染技术。

娄岩：

利用VR/AR破解医疗教育培训难题

5G、6G在很多领域的产品化工作还有很长的路要走，落地很难，但是VR/AR在今天的各行各业都可以落地了。根据医学形态学的特点和医学数据的精准性要求，VR在医学领域的应用主要是培训和教学，具体可分为两种：一是用于实操性的VR实现，如手术模拟;二是用于可视化的VR实现，如解剖教学。医学上的VR的实现与其他领域的VR的实现不同，有严格的要求，如医学模型首先要符合真实人体器官和组织结构。其实现相对其它领域的VR应用更为复杂和困难。

VR应该在医学中有许多关键技术需要解决，比如三维重建，医学类的三维重建首先要根据我们自己的需求选择数据获取数据的方式及格式，如CT影像三维数据、高精度点云扫描数据、图像识别成像数据等，据此选择重建的方式和工具。比如力反馈和定位技术的实现，力反馈技术指用于再现人对环境力觉的感知。借助于力觉交互设备，人们可以真实的按照人类的肢体语言进行人机自然互动和信息交流，通过应用力反馈设备，可以获得和触摸实际物体时相同的运动感，从而产生更真实的沉浸感。比如人体器官组织柔性体的切割与破碎等问题。我们团队组建于2013年，致力于VR人机交互内容制作、3D虚拟仿真、VR产品研发，同时与全国各大医疗机构、高等院校合作，进行前沿性课题研究、学术交流以及技术转让等活动。

陈晓华：

5G带来更多流量入口加速数字经济发展

人要致富先修路。最早的时候我们修的是公路、铁路、高铁、机场，进入信息时代，我们需要修信息高速公路。5G对数字经济的作用，我的观点是5G将催生和推动各行各业的数字化发展，率先在交通、能源、制造、教育、医疗、消费、休闲娱乐等行业进行运用，促进传统商业模式演进，带来巨大的经济价值。5G不仅仅是提速，将带来更大的商业价值和模式的转变，没有5G就不能大力发展数字中国。5G具备四大特点：高带宽、低延时、灵活开放、大连接，5G将开启万物互联的时代。现在经济有三个端口：一是手机;二是家里的电脑;三是平板。谁控制了入口，谁就占有了所有未来经济的主力。为什么现在的微信、美团这么厉害？因为它们把流量端口控制了。因为未来的5G发展之后，还有一个端口，就是汽车，汽车不只是汽车，将是流量的入口。VR/AR设备，也是一个大流量的入口。畅想5G有两个关键点：一是整个移动通信网络将需要面对数字化转型的契机。二是因为5G商用后数据越来越多，我们需要把数据转成数字经济，要数据的资产化。

杨恒：

CV让虚拟变得真实

VR让真实变得虚拟

首先谈谈CV（计算机视觉）和VR之间的关系。计算机视觉想解决虚拟的眼睛看待真实的世界，即通过二维的图象来理解三维的过程。虚拟现实刚刚相反，是怎么让真实的人看到虚拟的世界。这是我对CV和VR的理解。我们也做了一些基于CV与VR结合的应用，比如利用CV技术进行人脸的跟踪。如果女生对大的品牌比较关注，可以看一下美国和欧洲香奈儿的官网，买太阳镜的时候可以试戴眼镜，不同的太阳镜试戴的效果。在京东如果你用京东的APP选择口红，也可以看到你涂抹这个口红后的效果，它里面的虚拟时装功能可以让你试各种口红的色号。现在大部分的女生手机里面都有了美颜软件，我们是在2016年、2017年给美颜做了30、40个底层的技术支撑。所以说CV技术跟VR技术结合，在人们生活中有大量的直接应用。

CV可以帮助VR，VR能否反过来帮助CV？VR可以帮助我们解决一些数据问题，有了一些数据之后通过仿真的方式产生更多的数据。比如，我这里只有一个人脸图片，通过VR我们可以将之恢复成3D人脸，之后就可以产生各个角度、各个光照、各种各样的表情，还有戴上眼镜、口罩各种各样的数据，使用VR的手段，使得生成更快。未来我们是怎么样的？我希望未来的计算机，无论是车载的系统还是办公室的系统，都能理解你的情感，最终人和计算机是非常友好的工作，更好的交互。

李汉曦：

利用深度学习加快增强现实应用

我们是新浪投资的一家初创公司，我们探索的方向是人工智能和增强现实跨界整合，目前已经做了三年时间。

增强现实从上世纪70年代萌发，到现在经历了三代：第一代是MarkAR，这是目前应用最广的现实增强技术。第二代叫SLAMAR，这是目前最流行的AR技术。目前在这个领域做得比较好的主要是苹果和谷歌。第三代的VR能够针对物体进行定位，我们叫做实物AR。在2017年当时还是SLAM AR当道的时候，我们就已经能够做到自然光照下复杂背景下全天侯的实时AR。为什么我们能做到？是我们利用了深度学习，因为利用深度学习我们能够将AR做到象素级的精确度。所以利用深度学习在AR上有很大的价值。进入2019年产业界有两个大的变化，一个5G元年推动边缘计算兴起，把深度学习能力带到移动芯片中。比如说苹果的仿生芯片，还有华为的手机芯片，都开始重视深度学习的能力。在这种情况下，我们的AR技术就可以植入到移动端，这个意义是非常大。换句话说，在明年所有的手机都可以用深度学习的形式进行实物VR，那时候我们可以走向万物VR，万物自己解释自己的时代。另一个变化，因为5G元年移动端到云端的距离越来越短，速度越来越快。在云端计算完全可以替代一部分移动端的工作。边缘计算和5G集合可以把AR更加普及化。而我们做了两个简单的工作，一是把我们的深度学习算法，移植到苹果iPad和iPhone中。二是用微信扫一扫AR，扫一扫小程序，就可以演示之前的实物VR。

沈复民：

安防领域有了混合现实能够更智能

我们是电子科技大学19位教授一起出来做的一个公司，名字叫考拉悠然科技公司，主要做AR技术产业化的落地。

智能安防是一個很大的市场。2016年的中国安防报告显示，到2022年，中国的安防产业会达到万亿元的市场规模，其中AI+产业是570亿元，其中的53%，300多亿元是AI+安防。到2021年AR+安防会达到2000多亿元，这个增速会非常快。为什么这几年增速会非常快？因为到2020年人工智能真正开始活起来了，从今年开始，我们已经开始大规模落地，中国智能安防快速增长很大的原因，是因为中国是全世界拥有摄像头最多的国家，即便如此中国的二、三线城市摄像头的密度还远低于欧美国家，原因是中国的这些摄像头还是分布在一线城市，也就是说，这里有巨大的市场空间，可以让新铺装的摄像头都是AR化的摄像头。

目前，中国铺装了这么多的摄像头，大多数的功能只有三个：录、播、囤。如果出了重大的安全事件再回去查，整个过程非常烦琐、低效。智能安防能为安防插上智慧大门，带来安防行业巨大的提升，而智能安防不仅依赖于人脸识别，还需要多形态识别，包括行为的分析、动作的识别、语音的识别等，才能产生更大的价值。这里面列举的还只是我们视觉里面包括的相关多媒体信息。而有了AR、VR，意味着不仅为安防装上了眼睛、装上了大脑，还装了视觉、触觉、味觉、听觉、嗅觉等，把人的所有感知因素全都融合在一起。

金宝境：

利用AR/VR加速博物馆现代化

我们的研究背景关注千禧时代的消费者。韩国的千禧时代是指1982年到2000年出生的人，他们关注什么？他们的特点是工作和生活都相结合、不想加班，高度重视性价比。

韩国5G技术已经非常商业化。2018年韩国开始5G使用，2019年韩国5G开通了，目前5G使用移动手机的人数已经超过3000万人数。在这样的背景下，韩国的AR/VR现在是加速推进阶段。博物馆是AR/VR非常重要的应用场景，博物馆也需要随着消费者方向而推进转型，为吸引千禧一代观众，博物馆需要在体验和感受上进行变化。

安东博物馆是一个历史悠久的博物馆，这个博物馆的遗产在抗日战争时期毁灭了，所以他们希望通过AR/VR来呈现当时的生活、当时的文物。不仅仅是安东博物馆，富川地区的水石博物馆、中央博物馆、NEXO计算机博物馆、富山电影博物馆等，都在采用AR/VR来提升博物馆的体验，从这些案例我们都看到韩国AR/VR呈现的博物馆比较活跃，发展也非常快。