神经退行性疾病相关蛋白病理性聚集和液液相分离研究进展

2023-07-10 02:39唐一鸣姚逸飞杨中元周运王子超韦广红

合成生物学 2023年3期

唐一鸣，姚逸飞，杨中元，周运，王子超，韦广红

（复旦大学物理学系，表面物理国家重点实验室，计算物质科学教育部重点实验室，上海 200438）

蛋白质是生物功能的主要执行者，它们通过折叠成特定的空间结构来发挥生理功能，但在一定的条件下会发生错误折叠和聚集并导致疾病。神经退行性疾病就是一类以蛋白质异常相互作用和聚集为病理特征的疾病，如阿尔茨海默病与β淀粉样蛋白（amyloid-β， Aβ）形成的淀粉样斑块以及微管相关蛋白（tubulin associated unit， Tau）异常聚集而形成的神经纤维缠结有关［1］；帕金森病的病理特征是α-突触核蛋白（α-synuclein，αSyn）聚集成的路易小体［2］；肌萎缩侧索硬化症与TDP-43蛋白包涵体有关［3］。除此之外，最新研究表明：很多神经退行性疾病相关蛋白（包括Tau［4］、αSyn［5］、TDP-43［6］）亦能发生液液相分离并组装成液态凝聚物（在体内被称为无膜细胞器），进而发挥调控信号传导和异染色质转录等生理功能［7］。病理性纤维化与液液相分离是蛋白质聚集的两种形式，蛋白质液液相分离可能是下一步错误聚集和纤维化的驱动力［8-9］。在细胞微环境（如pH、温度）改变或氨基酸突变等情况下，蛋白质液态凝聚物会进一步发生液-固相变，形成病理性纤维［10］。表1列出了部分能发生纤维化和/或相分离的神经退行性疾病相关蛋白。

表1 代表性神经退行性疾病相关蛋白的聚集和相分离能力Table 1 Aggregation and phase separation of proteins associated with neurodegenerative diseases

研究蛋白质分子间相互作用以及聚集的微观机理，对于进一步理解蛋白质的生理功能和病理过程，以及相关疾病的药物研发具有非常重要的科学意义和应用价值。目前对于神经退行性疾病相关蛋白的毒性机理和纤维化机制已经有广泛和深入的研究。利用X射线衍射、核磁共振、冷冻电镜等实验方法，研究人员解析出了大量蛋白的纤维结构，它们具有cross-β的结构特征，即由主链间氢键稳定的β折叠结构。多种实验方法已经被用来表征蛋白质的纤维形貌和纤维化过程［28］；计算模拟被用来研究纤维的热力学性质、揭示蛋白-蛋白以及纤维-抑制剂之间的相互作用机理［29-30］。与此相比，蛋白质液液相分离微观机制的研究尚处于起步阶段。目前普遍认为蛋白质固有无序区域之间的多价相互作用是相分离的主要驱动力［31-32］，但对于凝聚物内部的蛋白构象特征、蛋白-蛋白、蛋白-RNA之间的相互作用模式等，尚知之甚少。本文将以神经退行性疾病相关蛋白为切入点，综述它们病理性聚集和液液相分离的前沿进展，介绍表征蛋白质聚集体形貌和空间结构的实验手段，研究蛋白质相互作用、聚集和相分离微观机理的理论和计算方法，以及预测相分离能力的机器学习方法。

1 神经退行性疾病相关蛋白病理性聚集的实验研究方法

为了理解神经退行性疾病的病理过程，揭示相关蛋白病理性聚集的物理机制，国内外实验工作者已经开展了大量研究，包括解析纤维的空间结构和形貌、表征纤维化的动力学过程等。表2列出了主要实验方法（主要包括谱学方法和显微方法两大类）以及它们各自的适用范围。

表2 研究蛋白质病理性聚集的主要实验方法Table 2 Major experimental methods for studying protein pathological aggregation

圆二色谱法（circular dichroism spectroscopy，即CD谱）［33］和傅里叶红外光谱（Fourier transform infrared spectroscopy， FTIR）［34］等谱学方法常用来测定蛋白质链中的二级结构含量。这些方法具有操作简便、测定时间短等优点，但不能表征二级结构在蛋白质链上的分布。根据核磁共振方法（nuclear magnetic resonance， NMR）测得的特定原子化学位移，可以得到每个氨基酸形成的二级结构类型［46］。跟踪荧光强度的时间演化是实验表征蛋白质纤维化过程以及抑制剂分子干预的主要手段，如ThT荧光光谱法（ThT fluorescence spectroscopy， ThT-FS）［35］。例如根据在Tau255-411溶液中加入硫酸化的肝素后的ThT信号的增长速度快慢，判定肝素对Tau蛋白片段的纤维化的影响［47］。值得注意的是，一些外源性化合物本身会导致ThT荧光信号产生偏差［48］。

扫描电镜（scanning electron microscope， SEM）［36］、透射电镜（transmission electron microscope，TEM）［37］、原子力显微镜（atomic force microscope，AFM）［38］等方法是用于表征淀粉样纤维空间形貌的常用方法。如Islam等［49］结合TEM和SEM观测到Aβ淀粉样纤维具有螺旋状缠结的形貌；Makky等［50］通过TEM发现Tau蛋白能形成6种具有不同形貌的纤维，并通过AFM给出了这6种纤维的高度。由于淀粉样纤维不溶于水，又很难结晶，常规的解析蛋白质结构的方法，如晶体X射线衍射和液体核磁共振不能用于解析纤维的结构。X射线衍射只能得到主链的骨架信息，即cross-β结构。例如Salveson等［51］通过X射线衍射（X-ray diffraction， XRD）方法解析出了具有cross-β结构的Aβ16-36纤维。解析纤维原子分辨空间结构的主要方法包括固体核磁共振（solid-state NMR，ssNMR）［40-41］和冷冻电镜［43］方法。如Tuttle等［52］通过ssNMR解析出了全长Aβ40的纤维结构。Gremer等［53］、Fitzpatrick等［13］以及Li等［21］分别通过冷冻电镜解析出了全长Aβ42蛋白、Tau306-378和TDP-43低复杂度结构域（low-complexity domain， LCD）的纤维结构。这些纤维结构的解析为药物研发提供了结构基础。

用于表征蛋白质纤维化过程中蛋白分子内/分子间相互作用的实验方法有交联质谱（chemical crosslinking of proteins coupled with mass spectrometry，简称CXMS或XL-MS）［44］、核磁共振［40-41］、荧光共振能量转移（fluorescence resonance energy transfer，FRET）［45］方法等。例如Daniele Ubbiali等［54］采用交联质谱的方法跟踪αSyn蛋白聚集过程中相互作用的演化，观察到蛋白质链随着聚集进程逐渐伸展；Yoh课题组［55］使用固体核磁共振方法观察到了αSyn蛋白在纤维化过程中单体构象逐渐伸展并形成β折叠结构的过程。Meng等［56］使用单分子荧光共振能量转移方法研究了Aβ40和Aβ42的单体构象，发现两者单体结构均呈现高度无序的状态。上述这些实验手段为揭示蛋白质聚集机理提供了重要帮助。

2 神经退行性疾病相关蛋白自聚集和共聚集的实验研究

神经退行性疾病通常伴随着神经系统中的不溶性淀粉样蛋白斑块，这些斑块通常由一种或多种蛋白质聚集而成［57］。研究相关蛋白质的聚集和共聚集，对深入理解神经退行性疾病的复杂病理学成因至关重要。本节以αSyn、TDP-43、Aβ、Tau、FUS等疾病相关蛋白为例，简要介绍实验上对它们形成的纤维结构的表征，并以αSyn和Aβ蛋白为例，介绍它们与其他蛋白质共聚集的研究工作。上述五个蛋白中，αSyn、Aβ和Tau蛋白是固有无序蛋白，而TDP-43和FUS蛋白则分别包含了长为148、165个氨基酸的固有无序区域，它们均具有高亲水性、高带电性和结构无序的特征。图1给出了Aβ、αSyn、TDP-43、Tau和FUS代表性的纤维结构及对应的PDB ID。除了PDB ID为2M4J和2LNQ的Aβ纤维结构与PDB ID为5W3N的FUS纤维结构由ssNMR解出，PDB ID为5XSG的FUS纤维结构由X射线衍射解出外，图中其余结构均由冷冻电镜解出。该图的最左边给出了每种蛋白或其LCD的氨基酸占比（“其他”包含了所有低于5%含量的氨基酸）。

图1 神经退行性疾病相关的五种蛋白的氨基酸组成和代表性纤维结构Fig.1 Amino acid composition and fibril structures of neurodegenerative disease-related proteins

2.1 阿尔兹海默病与Aβ、Tau蛋白

阿尔茨海默病是全球第一大神经退行性疾病，它的病理进程与大脑中β淀粉样蛋白（β-amyloid，Aβ）和微管相关蛋白（Tau）形成的神经纤维缠结有关。Aβ是最早被关注和研究的淀粉样蛋白之一，全长的Aβ共有42个氨基酸，存在多个氨基酸数目少于42的异构体，其中Aβ40和Aβ42是两种被广泛研究的重要异构体。在过去的二十多年里，研究人员已经通过核磁共振、冷冻电镜等方法解析出了全长Aβ及其多个片段的空间结构，如2M4J［58］、5OQV［53］等。Tau蛋白是一种主要在脑细胞中表达的微管相关蛋白，由441个氨基酸组成，主要具有稳定轴突微管的生理功能，其微管结合域由4个重复单元组成（R1～R4）。早在1963年和1981年，研究人员就找到了2种不同形貌的Tau蛋白的纤维——双螺旋细丝形态（PHF）和直丝形态（SF）［59-60］，但直到2017年这2种纤维结构才被冷冻电镜解出（PDB ID：5O3T，5O3L）［13］。从不同的神经退行性疾病患者大脑中提取的Tau蛋白纤维空间结构不同，如从皮质基底节变性患者大脑内提取的两种纤维结构（PDB ID：6TJO、6TJX）［61］，不同于从眼颈肌张力障碍病人体内提取的两种纤维结构（PDB ID：7P66、7P67）［62］。这些结构的解析为进一步理解蛋白质错误折叠/纤维化与不同神经退行性疾病的关系提供了新的视角，并为这些疾病的药物研发提供了新的线索。

2.2 帕金森病与α-突触核蛋白

帕金森病是全球第二大神经退行性疾病，其病理特征是大脑中主要由αSyn蛋白聚集成的淀粉样斑块（路易小体）［63］。αSyn共有140个氨基酸，由N端结构域、纤维核心域（NAC）和C端结构域组成。目前已有多个全长αSyn或其片段的纤维结构被解析出来，其中2016年Tuttle等采用固体核磁共振（ssNMR）方法解析出的全长纤维，2018年采用冷冻电镜方法，Li、Stahlberg和Ye三个课题组分别解析出了αSyn片段的纤维结构。这4个结构均具有希腊钥匙（Greek-key）的结构特征，即单体由多段β折叠在空间蛇形排列，它们的PDB ID分别是2N0A［52］、6A6B［64］、6H6B［65］、6CU7［66］。2019年Guerrero-Ferreira等［19］解出了两个单体结构类似但原纤维间界面不同的αSyn片段纤维结构；2020年Schweighauser等［20］解析了2种从病人体内提取的αSyn片段纤维结构。而这4个结构没有Greek-key的结构特征。除此之外，氨基酸突变、翻译后修饰等会影响αSyn的分子内/间相互作用模式，从而使纤维结构不同于野生型纤维。例如H50Q、G51D、A53T这三个突变均会改变原纤维间的界面，从而改变纤维形貌（PDB ID：6PES［67］、7E0F［68］、6LRQ［69］）。N端截短（如Δ1-40）和磷酸化（如pY39）等翻译后修饰都会改变纤维的空间结构（PDB ID：7LC9［70］、6L1U［71］）。

2.3 肌萎缩侧索硬化症与TDP-43蛋白、FUS蛋白

肌萎缩侧索硬化症（amyotrophic lateral sclerosis，ALS）也称渐冻人症，其病理特征是大脑组织中由多种蛋白聚集形成的不溶性蛋白质包涵体，TDP-43和FUS蛋白是其主要成分。TDP-43蛋白由414个氨基酸组成，包括3个结构域：N端结构域、RNA识别结构域和C端低复杂度结构域（LCD）。其中LCD结构域对TDP-43的聚集具有至关重要的作用，且其单独也能够发生纤维化。近年来LCD区域多个片段的纤维结构被解出，2019年Cao等［72］通过冷冻电镜解出了5个长度不同的LCD短肽片段纤维结构，其形貌各不相同（PDB ID：6N37、6N3B、5O3L、5O3T、6GX5）。Guenther等［73］找出了LCD区域中6个能独立形成空间拉链结构的片段（PDB ID：5WKD、6CEW、6CB9、5WIQ、5WIA、5WHN）。全长LCD纤维结构于2021年被Li等［21］通过冷冻电镜方法首次解析出来，该纤维（PDB ID：7KWZ）包含一个由139个残基堆叠而成的纤维核。LCD包含了TDP-43蛋白约90%的病理性突变，大部分突变能够加速纤维化过程或改变纤维形貌。例如野生型LCD312-317片段能够形成动态可逆的纤维，但A315E/T突变会导致固态不可逆纤维的形成［73］；A315T突变会使LCD286-331片段在体外形成的纤维神经毒性增强［74］；G335D突变能促进LCD发生从螺旋到β折叠的结构转变从而促进其聚集［75］。LCD片段及全长LCD纤维结构的成功解析，为进一步理解TDP-43蛋白质的异常聚集和纤维化奠定了基础。

FUS蛋白由526个氨基酸组成，它在生物体内参与转录调节、RNA代谢和DNA损伤修复等多种生理功能［76］。FUS蛋白包含两个结构域：位于N端的低复杂结构域（LCD）和位于C端的RNA结合域，其中LCD对FUS蛋白的聚集具有至关重要的作用。2017年Murray等［22］在大肠杆菌中表达，并进一步得到了FUS全长LCD（氨基酸1～214）的纤维，并通过ssNMR方法解出了其核心片段（FUS37-97）的纤维空间结构；2018年Luo等［77］采用X射线衍射方法解出了FUS37-42与FUS54-59片段的纤维结构（PDB ID：5XSG、5XRR）。这些研究发现FUS形成的纤维具有热可逆性（升高温度纤维溶解，降低温度纤维重新形成）。2020年Lee等［78］采用冷冻电镜方法得到了FUS112-150片段的纤维结构（PDB ID：6XFM），其形貌具有U型的特征。最近Sun等［79］采用冷冻电镜方法，解析出了LCD区域34-124片段的纤维结构（PDB ID：7VQQ），该纤维片段由具有V型、S型和N型特征的3个区域组合而成。

TDP-43 LCD片段和FUS LCD片段以及全长TDP-43 LCD纤维结构的成功解析，为进一步理解TDP-43、FUS蛋白质的异常聚集和纤维化以及肌萎缩侧索硬化症等疾病的分子机制奠定了基础。

2.4 多种神经退行性疾病相关蛋白的异质相互作用

研究表明，两种不同神经退行性疾病相关蛋白的错误折叠和聚集存在关联。例如，①αSyn和Tau蛋白存在强病理性关联：在患有路易小体痴呆的病人中，编码αSyn和Tau蛋白的基因（SNCA和MAPT）具有强相关性［80］；②错误折叠的αSyn和Tau蛋白均具有细胞间传递的能力［81］；③在患有阿尔兹海默病、ALS等多种神经退行性疾病的患者脑组织中αSyn和Tau蛋白存在共定位［82-83］。研究人员已经通过体外实验深入研究了αSyn和Tau的相互作用模式：如将αSyn加入到Tau蛋白液态凝聚物中时，αSyn带负电的C端能与Tau带正电的聚脯氨酸结构域P2（198-243残基）结合，加速凝聚物向固态纤维转变（图2）［84］。Aβ的N端可以与αSyn的N/C端结构域相互作用形成异质二聚体［85］。另外，阿尔茨海默病和Prion疾病也存在病理关联［86］，病理学研究表明Prion蛋白能与阿尔茨海默病患者脑组织中的Aβ淀粉样蛋白发生免疫共沉淀现象［87］。淀粉样纤维的多形性，以及多种蛋白质异质相互作用的实验发现，为神经退行性疾病的机理研究和药物开发带来了新的挑战。

图2 神经退行性疾病相关的四种蛋白的单体、淀粉样纤维和共聚集形成的异质凝聚体［84-87］Fig.2 Monomer conformations, amyloid fibrils of proteins related to neurodegenerative diseases and their heterogeneous aggregates[84-87]

3 神经退行性疾病相关蛋白构象分布、相互作用和病理性聚集微观机理的模拟研究

虽然实验研究在纤维结构解析方面取得了重大进展，但通常只能得到纤维的静态结构，再加上蛋白质低聚体构象高度动态变化及其不稳定性，因此实验方法很难识别纤维的最小稳定单元、揭示抑制剂分子与纤维相互作用的微观机理，以及表征聚集早期蛋白质的构象变化和低聚体结构特征。随着蛋白质力场的发展与完善，分子动力学等计算机模拟方法能够在原子/分子水平研究蛋白质/多肽的聚集过程［88］。基于分子动力学模拟的轨迹，一方面，计算二级结构含量和分布可以与实验给出的CD谱、化学位移结果对比，而计算氨基酸间距离能与FRET实验结果等对比，验证模拟结果的可靠性；另一方面，可以实现对纤维热力学和动力学性质、蛋白质相互作用以及聚集机理的表征。分子动力学模拟的流程见图3。

图3 通过计算模拟研究蛋白质相互作用及病理性聚集的流程图Fig.3 Flow sheet for studying protein interactions and pathological aggregation by computational simulation

3.1 纤维最小稳定单元的确定和纤维-抑制剂相互作用的计算模拟

以纤维结构为初始构型作分子动力学模拟可以用来确定纤维最小稳定单元，表征纤维热力学和动力学性质、纤维内部分子间/内相互作用以及纤维与溶剂之间相互作用。如针对Aβ42的L-S型纤维结构，全原子分子动力学模拟发现四聚体是其最小稳定单元［89］；而对于TDP-43288-319片段的纤维结构，模拟表明七聚体是其最小稳定单元［90］。针对同种蛋白不同纤维结构的模拟，可以比较它们各自的稳定性，给出稳定它们空间构型的重要物理相互作用类型。例如，Natesh等［91］针对三种Aβ纤维结构（PDB ID：2M4J、2LMN、2LMP）进行了分子动力学模拟，发现这三种纤维具有不同的稳定性，并揭示了稳定各自纤维结构的分子间相互作用。另外，针对抑制剂（如小分子、抗体等）抑制纤维化或破坏纤维结构的实验发现，研究人员开展了一系列模拟工作，旨在揭示相应的抑制和破坏机理，为进一步筛选或设计新型药物分子提供理论指导。比如利用常规或增强采样的分子动力学模拟，研究了不同分子对Aβ原纤维的破坏机制，发现：桑黄素破坏盐桥和氢键［92］；辣椒提取物wgx-50通过疏水相互作用［93］、aducanumab抗体通过特异性结合纤维N端［94］来破坏纤维；手性小分子（+）-Catechin和（-）-Catechin构象差异引起空间位阻效应的不同，呈现出对Aβ原纤维不同的破坏效果［95］。最近本文作者所在的课题组采用分子动力学模拟研究了黄芩素对多种不同形貌αSyn纤维的破坏，发现黄芩素对不同纤维具有不同的破坏效果和机理［96］。这些模拟结果为相关疾病药物的筛选和设计提供理论指导。

3.2 蛋白质寡聚体构象分布的模拟研究

模拟蛋白质分子的自发聚集过程和低聚体构象分布，是理解蛋白质聚集微观机理的有效手段。限于模拟时间尺度和计算资源，很难从全原子水平直接模拟大量蛋白分子自发组装成纤维的过程，目前研究主要侧重于聚集早期低聚体的构象分布和蛋白间相互作用模式。

以Aβ及其短肽为例，国内外多个课题组分别采用副本交换分子动力学研究了Aβ40和Aβ42的二聚体构象分布，发现二聚体构象结构多样，既包含无序结构，也包含多种富含β片层的构象，并给出了稳定二聚体的相互作用类型［97-98］。除了构象热力学特性，Cao等［99］将分子动力学模拟与马尔可夫态模型结合，研究了Aβ蛋白二聚化的动力学过程。与Aβ相比，αSyn、Tau等蛋白的氨基酸序列较长，现有工作大都针对它们的重要片段进行研究。例如，Yamauchi等［100］通过增强采样方法给出了NAC核心短肽片段68GAVVTGVTAVA78二聚体的构象分布；Yoon等［101］采用常规分子动力学模拟揭示了短肽71VTGVTAVAQKTV82四聚体的自发组装过程。微管结合域是Tau蛋白纤维化的关键区域。Ganguly等［102］通过副本交换方法揭示了位于微管结合域的R2和R3片段形成的同源和异源二聚体的分子间相互作用模式和构象分布。最近，我们针对R3片段二聚体和肝素的混合物开展了副本交换分子动力学模拟，结果表明肝素能增强PHF6片段（306VQIVYK311）之间疏水、芳香堆积相互作用，从而促进R3的自聚集［103］。

3.3 机器学习方法结合分子动力学模拟实现对蛋白构象的高效采样

近年来，随着蛋白质数据库的不断增大，以及计算机算力的提升，机器学习方法也开始被用于研究神经退行性疾病相关蛋白的构象特性。例如周焕祥课题组［104］以聚谷氨酰胺Q15、Aβ40和细胞壁水解酶ChiZ三种天然无序蛋白为研究对象，根据短时间分子动力学模拟得到的构象，利用神经网络和自编码器方法生成更加完整的构象空间，其预测结果得到了长时间分子模拟结果的验证［104］。Jin等［105］结合分子动力学模拟、主成分分析和机器学习方法预测了聚丙氨酸Ala13和钙调蛋白在原训练集中不存在的合理构象。这些工作为进一步利用机器学习方法实现蛋白质（尤其是无序蛋白）构象空间高效采样迈出了重要一步。

4 神经退行性疾病相关蛋白液液相分离的研究进展

蛋白质除了能够聚集形成固态病理性纤维外，还能发生液液相分离形成液态凝聚物。生物分子的液液相分离是细胞核仁、应激颗粒等多种无膜细胞器形成的主要驱动力，具有重要生物学意义。2009年，Brangwynne等［106］发现重要细胞器P颗粒具有流动、融合、荧光恢复等液态性质。2012年Li等［107］和Kato等［108］分别在体外实验中观察到了蛋白质和RNA通过液液相分离形成的小液滴。之后，该领域迎来了爆发式发展，越来越多的蛋白被发现具有相分离能力。此外，蛋白质相分离的生理功能被不断发现，例如适应性和先天性免疫信号传导、应激颗粒组装、异染色质形成和转录等［109］。除此之外，越来越多的研究表明，神经退行性疾病相关蛋白（如αSyn、TDP-43、Tau等）具有较强的液液相分离能力，且它们的液态凝聚物会在病理条件下发生液固相变，形成有细胞毒性的固态淀粉样纤维。蛋白质的液液相分离及其与病理性聚集的关系已成为当今物理学和生命科学等交叉领域的研究前沿和热点。图4给出了几种无膜细胞器及几种典型蛋白形成的小液滴的形貌。

图4 无膜细胞器与蛋白质通过液液相分离形成的小液滴［4-6，9，106，110-115］Fig.4 Membrane-free organelles and liquid droplets formed by liquid-liquid phase separation of proteins[4-6,9,106,110-115]

4.1 研究蛋白质液液相分离的实验方法

判断蛋白质溶液发生相分离的常见实验方法包括浊度（turbidity）试验和微分干涉差（differential interference contrast， DIC）显微镜。浊度可以用于表征蛋白分子形成凝聚物的能力，而DIC常用于观察蛋白质相分离形成的小液滴形貌。在这些实验中，通常需要添加例如聚蔗糖（ficoll）、聚乙二醇（PEG）、葡聚糖（dextran）等聚合物作为拥挤剂，以模拟细胞中的拥挤环境［116］。浊度和显微实验操作简单，可以实现高通量筛选特定蛋白发生液液相分离的环境条件。例如，刘聪课题组［117］建立了一种高通量筛选蛋白质相分离能力的方法（HiPPS），并系统研究了溶液环境对30多种蛋白质相分离能力的影响。TEM、AFM等方法不仅能用于观察小液滴形貌，还能在纳米尺度精确测量其尺寸。随着共聚焦显微（confocal microscopy）和超分辨率成像（super-resolution imaging）技术的不断发展，可以直接观察细胞中形成的蛋白质凝聚物的位置和形貌，例如hnRNPA1［118］、C9orf72编码的二肽重复片段（PR20、GR20）［119］、FUS［115］、Tau［120］、TDP-43［121-122］、αSyn［123］等。值得注意的是，上述方法要求冷凝物中的蛋白质必须先经过抗体染色或荧光标记。

表征蛋白质液态凝聚物的物化性质（包括黏度、表面张力、流动性、密度、蛋白质的二级结构等），对理解蛋白质液液相分离的物理机制具有重要意义。在体外实验中，确定聚集体物态性质的最直接的途径是测量小液滴的黏度和表面张力［124］。光成像的技术可以用来表征凝聚物流动性的强弱，例如光漂白荧光损失实验（fluorescence loss in photobleaching， FLIP）、光漂白荧光恢复实验（fluorescence recovering after photobleaching，FRAP）、荧光关联光谱（fluorescence correlation spectroscopy， FCS）等［10］。其中最常用的是FRAP实验［125］，它已经被广泛应用于区分蛋白质聚集形成的液态和固态聚集体，以及表征小液滴的成熟（即由液态向固态转变）过程［109，126］。FRET方法常用来表征蛋白质发生相分离过程中的构象变化；ThT荧光和CD谱用来研究蛋白质在发生相分离过程中二级结构的变化。此外，拉曼光谱［127-128］也被用于表征蛋白质在发生相分离前后的构象转变。

4.2 神经退行性疾病相关蛋白液液相分离的实验研究

多种神经退行性疾病相关蛋白既能发生病理性聚集形成固态淀粉样纤维，也能发生液液相分离形成液态凝聚物。例如αSyn、TDP-43和Tau蛋白均同时具有纤维化和相分离能力。生理条件下αSyn蛋白以富含螺旋的单体形式与神经囊泡结合，参与囊泡形状调节、神经递质释放、化学信号传递等生理功能；在病理情况下它会发生异常聚集，形成具有毒性的寡聚体或纤维。2020年Ray等［5］首次在体外实验中观察到了αSyn形成的小液滴，并发现液滴流动性随时间逐渐降低，最终转变成固态聚集体。同年，Hardenberg等［123］在细胞实验和试管实验中分别观察到了αSyn的液态凝聚物及其进一步转变成的凝胶状聚集体。上述结果表明αSyn不仅能发生液液相分离，且其相分离与聚集密切相关。进一步研究表明，pH值、盐浓度、拥挤剂等微环境［129］，乙酰化［129］和截短［130］等翻译后修饰，黄酮类小分子［131］等均能调控αSyn的相分离。

2015年Molliex等［9］通过添加类泛素蛋白修饰分子标记（SUMO）降低蛋白质溶解度的方法，首次观察到了全长TDP-43蛋白的相分离。2016年，Conicella等［6］观察到了TDP-43 LCD区域的相分离，并发现位于321～340区域的6个ALS突变对LCD相分离能力具有破坏作用。黃介嵘课题组［132］利用NMR和光学显微技术研究了G298S等三个ALS相关突变体的相分离能力，提出疏水相互作用驱动LCD的相分离。吝易等［133］的研究表明该区域只在酸性条件下才有较高的螺旋倾向性，而在中性或碱性条件（pH>6.5）下螺旋倾向性降低，β倾向性升高［133］。最近，McKnight课题组［134］将位于316～339的螺旋区域、能形成侧链氢键的氨基酸分别突变成甘氨酸，系统研究了23种突变对TDP-43 LCD相分离能力的影响，发现只有P320G突变能够完全抑制LCD的相分离。除突变外，翻译后修饰也能调控TDP-43的相分离，如C端磷酸化能增加TDP-43小液滴的流动性、抑制其纤维化［135］。

2017年Ambadipudi等［15］首次在试管实验中观察到Tau蛋白微管结合域的液态凝聚物，并发现磷酸化能增强其相分离能力；2018年，Wegmann等［8］首次观察到了带GFP标记的全长Tau蛋白形成的小液滴，该液滴随时间失去流动性，转变为固态聚集体。2020年，Zhang等［136］在体外细胞实验中观察到了全长Tau蛋白的液态凝聚物。除此之外，研究人员还通过多种实验手段研究了Tau蛋白相分离的微观机制。Ambadipudi等［137］通过NMR实验找到了对Tau微管结合域K18相分离重要的3个六肽片段和4个KXGS片段。Boyko等［138］通过研究多个Tau蛋白截短体的相分离能力，提出Tau蛋白的相分离主要由N端负电荷与C端正电荷之间的静电吸引所驱使；Majumdar等［139］测量了K18溶液在相分离不同阶段的荧光光谱，发现K18单体在凝聚相中比在溶液中具有更伸展的构型，由此提出，单体构象的转变以及单体-水相互作用的增强是K18相分离的驱动力之一。氨基酸突变能影响Tau的相分离：K274Q突变能显著降低Tau蛋白相分离的临界浓度［140］；虽然疾病相关突变体P301L、G272V、ΔK280对Tau的相分离能力没有显著影响，却能加速液-固相变［141］。

2015年Patel等［142］通过体外重组实验发现，全长FUS蛋白能够通过液液相分离形成小液滴，且这些液滴随时间会发生液固相变形成固态聚集体。Kang等［143］通过DIC方法发现LCD区域单独也可以发生相分离，对FUS相分离的发生具有驱动作用。Avni等［128］采用一种基于拉曼散射光谱的高灵敏单液滴振动方法，表征了FUS蛋白液滴内部的分子间相互作用，并提出阳离子-π与π-π相互作用对FUS的液液相分离起到重要作用。磷酸化、甲基化等翻译后修饰可以调控FUS的相分离，其效果与翻译后修饰位点有关。例如FUS LCD区域中四个丝氨酸（Ser26、Ser42、Ser61和Ser84）各自的磷酸化均能抑制LCD的液液相分离［144］；位于纤维核心片段（37~97）上的丝氨酸或苏氨酸磷酸化能显著抑制液滴的形成［22］；而Y526氨基酸的磷酸化却能促进FUS在细胞质内的相分离［145］。体外试验发现精氨酸的甲基化修饰可以抑制FUS的液液相分离［115］。此外，盐离子和RNA也可以调节FUS LCD的相分离能力［146］。

一种蛋白的液液相分离会受到另一种蛋白或RNA的调控。例如αSyn能分别与TDP-43、Tau蛋白发生相互作用从而调节后者的相行为：αSyn能促使TDP-43 LCD与RNA共同形成的小液滴发生液固相转变，且形成的纤维相较于TDP-43单独形成的纤维具有更强的病理毒性［147］；αSyn也能够调控Tau凝聚物的液固相变［148］。颗粒体蛋白（granulin）也能调控TDP-43 LCD的相分离，其效果依赖于颗粒体蛋白的种类［149］。Lin等［150］发现RNA能促进hnRNPA1、FUS等固有无序蛋白的液液相分离。Maharana等［151］发现RNA在低和高浓度下分别能促进和抑制TDP-43/FUS蛋白的相分离。进一步的研究还表明RNA与TDP-43的特异性结合能抑制TDP-43凝聚体的液-固相变［121，152］。

4.3 研究蛋白质液液相分离的理论和计算研究

随着蛋白质相分离的实验报道不断涌现，国内外多个课题组开始用理论和计算手段阐释其背后的物理机制，但该领域仍处于起步阶段。由于相分离现象涉及大量蛋白分子，体系巨大，目前大都采用连续场近似或高度简化的粗粒化模型，这些方法能定性给出相图，帮助理解相分离的热力学特性，但缺乏对凝聚物内部分子结构细节、物理相互作用的精确描述。仅有少量工作尝试采用全原子分子模拟，从单体构象分布的角度来研究相分离的微观机制。

4.3.1 基于平均场的理论和计算研究

Flory-Huggins理论是高分子物理中研究聚合物相分离的理论模型之一。Overbeek和Voorn［153］在该理论的基础上引入静电项，实现对带电聚合物相图的计算。该方法被用于蛋白质相分离的研究，首次给出了Ddx4蛋白N端区域的相图，并提出驱使其相分离的主要相互作用是静电作用［154］。Chan课题组［155］在上述平均场理论的基础上引入随机项近似，发现电荷分布模式能影响蛋白的相分离能力［图5（a）］。结合平均场理论描述的体系能量函数和体系密度分布的时间演化方程进行模拟采样（即场理论模拟），可以获得蛋白体系的相图［图5（b）］［156-157］。

图5 研究蛋白质液液相分离的相关计算模拟方法［155，157，159，171，175-176］Fig.5 Computational methods for studying protein liquid-liquid phase separation[155,157,159,171,175-176]

4.3.2 粗粒化分子模拟研究

粗粒化模型常被用来直接模拟蛋白的相行为。目前最常用的是Mittal课题组［158-159］开发的基于长条形模拟盒子的方法——slab模拟（slab simulation）［图5（c）］。该方法将蛋白质简化为由弹簧势相连的粗粒小球链，每个小球代表一个氨基酸，采用氨基酸疏水性指数（hydrophobic-scale， HPS）［160］或Kim-Hummer势函数［161］来描述小球间的范德华相互作用，采用Debye-Hückel势函数来描述静电相互作用。slab模拟主要优点是可以方便地计算高、低密度相的密度。Mittal课题组用这一方法研究了多种蛋白的相分离，例如FUS蛋白LCD域［162］、TDP-43蛋白LCD区域及多个突变体［163］、LAF-1蛋白RGG结构域［164］等，并系统研究了35种无序蛋白相分离能力的温度依赖性，区分了具有上/下临界溶解温度（UCST/LCST）相分离行为的蛋白，发现它们具有不同的氨基酸组成特征［158］。之后，多个课题组采用slab模拟方法，或对其势函数及参数作修正，研究了LAF-1、Ddx4、hnRNA1等蛋白的相分离行为［165-169］。也有课题组借用此粗粒化蛋白质模型，在立方盒子中模拟蛋白质的相分离［170］，但由于计算两相密度存在困难，通常无法给出相图。另一种研究蛋白质液液相分离并计算相图的方法是周焕祥课题组［171］开发的基于Gibbs系综的模拟方法［图5（d）］。该方法采用蒙特卡洛方法同时模拟处于两个独立盒子（具有不同初始密度）中的蛋白质，在模拟过程中允许盒子间粒子交换，直到达到稳定共存的两相，他们用该方法研究了RNA调控蛋白质液液相分离的微观机理［171］，区分了三种对蛋白质相分离具有不同影响的调控因子（regulator）［172］。

上述模拟方法虽然能研究蛋白质的两相共存状态，并给出相图，但其模型过于简化，无法精确描述对相分离重要的物理相互作用（比如π堆积相互作用等），以及溶剂对相行为的影响。基于将单个氨基酸简化为多个小球的粗粒化蛋白模型和显式溶剂模型相结合的方法，Hummer课题组［173］采用修正的Martini 2.2力场研究了FUS蛋白LCD区域的相分离，计算得到了凝聚相的表面张力和剪切黏度［173］；Marrink课题组［174］采用Martini 3.0力场模拟了链长为30的聚赖氨酸和聚谷氨酰胺的相分离，并给出了盐离子和RNA对它们相分离能力的影响。本课题组基于Martini 2.2力场，开发了一套能精准计算两相密度、表征蛋白质聚集体流动性的计算方法，并系统研究了所有400种二肽的聚集和相分离能力，给出它们的液液相分离倾向性评分（LLPS score），其中对4种典型二肽（QW、GF、WW、VI）相分离能力的预测得到了实验验证，此外，模拟还给出了QW液液相分离的相图［图5（e）］［175］。

4.3.3 全原子分子模拟研究

虽然粗粒化模拟已被广泛应用于研究蛋白质和短肽的相分离能力和相行为，但不能描述对相分离过程具有重要作用的蛋白构象特征。全原子模型可以精确表征蛋白的构象分布、二级结构特性，预测对相分离重要的物理相互作用。本课题组［176］通过对Tau蛋白K18单体进行全原子副本交换分子动力学模拟，发现K18单体的构象特征和物理特性（例如单体塌缩度、二级结构含量和相互作用强度）具有非线性的温度依赖关系，与其相分离行为的温度依赖性一致，表明该蛋白质的液液相分离能力编码在其单体构象中，从而为用全原子模型研究蛋白质的相分离行为提供了一种新的思路和方法。通过计算蛋白质不同区域二级结构含量的温度依赖关系，从K18中找出了对液液相分离和纤维化重要的六肽片段，并得到实验验证［图5（f）］。Zheng等［177］通过将粗粒化分子模拟得到的蛋白质高密度相还原成全原子模型，表征了液滴中氢键、盐桥等物理相互作用。

4.3.4 蛋白质液液相分离数据库和机器学习预测方法

目前已有多个蛋白质相分离相关的数据库被构建，例如，DrLLPS储存了在真核细胞内与相分离有关的43万多个蛋白质，并将它们分为scaffold、regulator、client三类［178］；LLPSDB［179］和PhaSepDB［180］储存了文献中报道的具有相分离能力的蛋白质序列及相分离实验条件等信息；MloDisDB储存了无膜细胞器及与它们相关的疾病［181］。Chu等［182］基于LLPSDB给出蛋白质信息，测试了采用支持向量机（SVM）、决策树（DT）、K近邻（KNN）、梯度提升决策树（GBDT）等机器学习方法，以及词向量（w2v）等蛋白质序列编码方法，根据蛋白质序列预测其相分离能力，发现采用GBDT和w2v方法预测准确度最高，并用这两种方法开发了PSPredictor预测工具。van Mierlo等［183］提出一种相分离分析和预测机器学习分类器PSAP，成功预测了DAZAP1、CPEB3等新的具有相分离能力的蛋白。这些数据库和相分离能力预测工具，为预测新型蛋白质的相分离能力提供了一种简易方便的手段。

5 总结与展望

本文简要介绍了表征蛋白质聚集过程、聚集体形貌、相分离能力的实验和模拟方法，以及多种典型的神经退行性疾病相关蛋白聚集和相分离的研究进展，并简述了机器学习方法在蛋白质构象空间和相分离能力预测方面的应用。蛋白质的可逆液液相分离具有重要生理功能，而不可逆的液固相转变却能导致疾病，蛋白质液液相分离和液固相变微观机制的阐释对深入理解神经退行性疾病的致病机理具有重要理论意义，同时也是开发具有潜在治疗效果的新型药物的前提和分子基础。尽管目前已经有大量蛋白质聚集和液液相分离的实验研究，但相关的模拟研究工作还相对较少，人们对蛋白质共聚集和液液相分离的微观机理、液液相分离与病理性聚集关联的理解还非常有限。表征凝聚体内部蛋白质的构象特征及其关键物理相互作用、液固相变的动力学和热力学特征，对计算模拟和实验都是一个很大的挑战。实验手段和模拟方法相结合来深入、全面地揭示蛋白质相分离和聚集背后的分子机制，是该领域未来重要的研究方向。微观机制的阐释对深入理解神经退行性疾病的致病机理、开发具有潜在治疗效果的新型药物有重要理论意义和应用价值。