基于视觉信息编解码的深度学习类脑机制研究

2019-09-07 08:27

张江科技评论 2019年4期

从视觉信息编解码的角度出发，建立人类视觉神经信息与外界视觉刺激之间的映射模型，探索大脑视觉信息处理的过程，有望利用机器智能实现对人类视觉感知功能的模拟，从而提升计算机处理视觉信息的能力。

深度学习是机器学习研究的一个新的领域，通过深度神经网络学习大量样本的内在规律和层次表征，其在计算机视觉、语音识别、自然语言处理等多个领域都取得了巨大的进步。最早的深度神经网络结构受到了生物神经系统的启发，深度神经网络的层次化结构借鉴了人脑中前馈视觉表征的层次化结构。多项功能性磁共振成像（fMRI）研究表明，深度神经网络在视觉信息处理方面与人类大脑的视觉处理过程具有相似的表现。然而，深度学习是否类脑？目前并没有统一的结论。在此，我们将从视觉信息编解码的角度来探讨深度学习的类脑机制。

大脑是人体最为神秘且复杂的部分，我们的思想和记忆都寄放在其中。也许你会认为思想是无形无实且无法预测的，但实际上我们的思想就隐藏在这复杂的大脑活动信号之中。伴随着成像设备的进步以及人类对大脑认识的日益加深，人类将有望解读大脑信号，将大脑中的想法转化成自动化设备的驱动力。

近年来，认知心理学和认知神经科学不断发展，脑电图（EEG）、fMRI以及脑磁图（MEG）等大脑成像技术先后问世，使得采用科学手段对大脑活动进行解读成为可能。研究人员通过采集不同时空尺度的大脑活动信号，利用数学模型建立这些信号与大脑感知及认知状态间的映射关系，实现对人类的认知进行辨识或重构的目的。以视觉认知为例，目前已经有很多视觉信息编解码的实验，涵盖了从初级视觉特征（方向、对比度、颜色）、中级视觉特征（轮廓、深度信息）到高级视觉特征（语义、类别）的识别或重构。

这些技术都说明，“读脑术”已经不再是一个遥不可及的幻想，视觉信息编解码的出现使“读脑术”的实现成为可能。

那么，视觉信息编码和解码又是一个怎样的过程？比如，针对一个刺激（是stimulus），大脑会有一个响应（response），建立从刺激到响应的映射关系就是一个编码过程，当提供一个新的刺激时，就能够据此映射关系预测大脑的响应。反之，如果已知大脑响应，去推测受到什么样的刺激，这就是一个解码过程。解码过程可以看作是编码过程的逆过程。

如果建立了一个好的编码模型，可以通过模型求逆得到解码模型。当模型不能够求逆时，可以通过最大后验估计（maximum a posteriori estimation，MAP）或者贝叶斯估计（bayesian estimation，BE）来推出解码模型。因此，编码是一个非常重要的步骤。

“读脑术”——通过分析大脑扫描数据重建图像

视觉信息编解码以视觉认知理论为基础，通过采集人眼接受不同图像刺激时大脑响应的时空数据来建立并训练数学模型，可以预测人眼看到新的图像时的大脑响应，或者根据采集到的大脑响应来识别、重构人眼所看到的图像。视觉信息编解码为探究大脑的认知机理提供了一个强有力的工具。借助视觉信息编解码，研究人员可以通过实验来发现不同的视觉处理区域对视觉对象的何种特征进行编码以及如何进行编码。这些研究结果不但可以增进我们对大脑的认识，还可以促进类脑智能的发展。

基于深度多视图生成式模型的视觉信息编解码框架

视觉信息解码是通过fMRI技术来识别或重构人眼所看到的视觉刺激，被广泛应用于视觉认知研究。目前，fMRI采集到的是大脑体素的血氧水平依赖（BOLD）信号。BOLD信号的信噪比低，且具有很强的时域非平稳特性。每次对大脑的扫描可以得到数十万个体素的BOLD时间序列。如何对高维度、高噪声、高动态变化的大脑信号进行有效特征的提取至关重要，也是实现视觉信息解码的关键问题。基于大脑信号的视觉信息解码按照解码难度和层次的不同可以分为分类、识别和重构。视觉信息的解码分类比较简单，即根据大脑信号预测人眼看到图像的种类。

视觉信息的解码识别根据大脑信号从数据库中识别出人眼看到的图像。2008年3月5日，美国加利福尼亚大学伯克利分校的神经学专家杰克·格兰特（Jack Gallant）在国际期刊《自然》（Nature）上首次利用fMRI技术“读”出了人眼看到的图像。其原理很简单，格兰特选择2名受试者，在第一阶段，2名受试者观看1 750张图片，包括动物、建筑、食物、室外风景、室内景物、人造物体等。研究人员利用fMRI技术监测2名受试者大脑视觉皮层的活动。基于获得的数据，研究人员在机器上创建了一个数学模型来分析大脑对不同视觉特征的反应。在第二阶段，2名受试者观看了任意挑选的120张新图片，同时fMRI技术继续记录他们的大脑信号。通过数学模型的分析，机器分别预测对了2名受试者看到的110张和86张图片，预测准确率达到92%和72%。当受试者看到的图片数量增加到1 000张时，机器预测准确率有所下降，但对其中1人的预测准确率仍能达到82%。然而，这还不是真正意义上的图像重建，只是根据给定的大脑信号进行图像辨识。视觉信息的解码重建是根据获得的大脑活动信号，通过数学模型，恢复出受试者所看到的图像，这是大脑解码研究中难度最大、最具挑战性的一个问题。首先，人们对神经编码的理解还十分有限，这导致我们的建模未必能抓住fMRI数据最本质的特征。其次，数据采集技术具有一定的信息局限性。由于不同技术对数据采集的精度和对神经系统的损伤程度不同，人们获取时空数据就会非常有限。最后，在有限精度下，两幅图像对应的fMRI数据可能相差不大，根据某个fMRI模式，人们并不能很快地反推出哪幅图像是最初的刺激图像。

目前，基于简单的视觉信息编码模型而进行的解码研究只适合于初级视觉皮层，对于高级视觉皮层及视觉区域之间的相关性研究还不是很理想。为了有效利用来自高级脑区及脑区间的深层次信息，我们需要一个复杂的层次化建模的工具。

基于深度多视图生成式模型的视觉信息编解码研究

深度学习是指利用基于深度神经网络的各种算法来解决图像、文本等各领域实际问题的研究。因此，我们可以将深度学习作为视觉信息编码所需的层次化建模的工具。然而，人们对深度学习内在理论的研究还不够全面，深度学习常常被当作“黑盒子”来使用。基于之前的研究，我们首次提出了基于深度多视图生成式模型（deep generative multi-view model，DGMM）的视觉信息编解码研究：假定大脑信号和外部刺激是由同一隐含变量生成的，通过学习一个多视图变分自动编码器可以建立外部刺激到脑信号的双向映射关系，有效地建立大脑信号和外部刺激之间的关系。

基于深度多视图生成式模型的视觉信息编解码以一种科学合理的方式建立了视觉图像和大脑响应之间的关系，将视觉图像重建问题转化成多视图隐含变量模型中缺失视图的贝叶斯推断问题。受层次化、卷积神经网络从下至上及从上到下等人脑视觉信息处理机制的启发，该研究采用了深度神经网络从视觉图像中逐层提取视觉特征和概念，提高了模型的表达能力和可解释性。受视觉区域的体素感受野和视觉信息的稀疏表达准则的启发，该研究采用了稀疏贝叶斯学习从大量体素中自动筛选对视觉信息解码贡献较大的体素，提高了模型的稳定性和泛化能力。深度多视图生成式模型的视觉信息编解码充分利用了体素之间的相关性信息，有效地抑制了体素噪声的干扰，增强了算法的鲁棒性。得益于贝叶斯方法的优点，深度多视图生成式模型的视觉信息编解码能够更方便、更灵活地融合先验知识，提升预测性能。大量的实验数据验证了深度多视图生成式模型的视觉信息编解码的优越性，为大脑信号解码问题提供了一个行之有效的通用框架——允许从不同角度对其进行扩展以适应不同的任务，具有很强的扩展性。该研究不仅为探究大脑的视觉信息处理机制提供了一个强有力的工具，而且为脑-机接口（brain-computer interface，BCI）的发展提供了技术支持，将对类脑智能的发展起到一定的促进作用。

此外，我们还研究了深度特征在大脑皮层上的表达，但现有的研究仍存在一定的局限性。例如，自然图像刺激的fMRI样本量很少，因此，只能在数字、字母、符号上有较好的重建效果，对自然图像的重建效果还有待研究。目前采用的是静态编解码，下一步将采用动态编解码。例如，利用循环神经网络（recurrent neural networks，RNN）、长短时记忆（long short term memory，LSTM）模型等进行辅助。此外，我们认为解决编解码问题的方法可以借鉴机器翻译中的对偶学习思想。例如，将变分自动编码器（variational auto-encoder，VAE）和生成式对抗网络（generative adversarial networks，GAN）进行结合。

综上所述，我们提出了一个基于深度多视图生成式模型的视觉图像重建框架，该框架具有很好的扩展性，它可以挖掘不同模式之间的共同表征并建立两者之间的关系，使得理解大脑活动信号成为可能。

基于深度多视图生成式模型的视觉信息编解码以一种科学合理的方式建立了视觉图像和大脑响应之间的关系，将视觉图像重建问题转化成多视图隐含变量模型中缺失视图的贝叶斯推断问题。