蛋白质结构的“限域下最低能量结构片段”假说与蛋白质进化的“石器时代”

2020-04-02 02:52曹傲能

物理化学学报 2020年1期

曹傲能

上海大学纳米化学与生物学研究所，上海 200444

1 引言

蛋白质是地球上所有生命体中大多数功能的执行者。蛋白质的一维氨基酸链只有折叠成特定的三维空间结构，才具有生物活性。从这个意义上可以说，生命始于蛋白质折叠，因而蛋白质折叠问题也被称为第二遗传密码。遗憾的是，经过数十年大量的研究，至今仍然没有找到任何折叠密码，蛋白质结构似乎不存在简单的规则。Anfinsen于上个世纪六十年代左右提出，蛋白质的氨基酸序列包含其天然结构的全部信息，而蛋白质的天然结构是其热力学最稳态1。这个假说至今仍是唯一普遍接受的关于蛋白质结构和折叠问题的理论。但实验研究发现一些蛋白质的天然活性态结构并不是其热力学最稳态，这说明Anfinsen的热力学假说并不完全正确，而且这一黑匣子式的论断也没有提供关于第二遗传密码的任何细节。蛋白质序列仍然如天书般“句读之不知，惑之不解”。蛋白质折叠问题也被Science杂志列为125个未解决的科学问题之一2。

科学家很早就希望寻找类似一个DNA密码子对应一个氨基酸那样简洁的蛋白质序列-结构对应关系。一维的DNA可以简单地对应一维的氨基酸序列，但是想要把一维的氨基酸序列和三维的蛋白质结构对应起来就没那么简单，甚至是不可能的。所有将局部氨基酸序列与特定局部结构对应的努力都已宣告失败。无论是天然蛋白质的结构数据，还是蛋白质全新设计的结果都表明，蛋白质中的长程作用力对局部序列的结构具有重要影响3。或者说，蛋白质中的长程作用力相当于文章中的有关联的“上下文”，可以改变一句话(蛋白质局部序列)的含义(局部结构)。但长程作用力怎样影响局部序列的结构仍然是未解之谜。

另一方面，一些蛋白质中的片段可以嫁接到完全不同的蛋白质骨架上并保持原来的结构和功能。说明在不同的蛋白质序列“上下文”中，局部多肽片段也可以采取相同的结构。这一结果可以理解成这些不同的“上下文”对局部句子的影响可以是相同的。而最近我们更是将天然抗体蛋白中的CDR (complementarity-determining region，互补决定区)环区片段嫁接到无机纳米粒子上，成功重建了CDR环区在原天然抗体中的结构和识别原来抗原的功能，制备出人工纳米抗体4。这一工作暗示，蛋白质完整序列的“上下文”也是可有可无的。这类交叉领域的工作进展，为我们认识蛋白质的结构和折叠问题带来新的启示。本文结合我们最近的工作，提出了蛋白质结构的“限域下最低能量结构片段”假说。

2 蛋白质结构与折叠基本特征

2.1 寻找蛋白质局部序列的结构倾向性

如果不考虑氨基酸残基的侧链构象，蛋白质主链结构可以用各氨基酸残基的两二面角(Φ，Ψ)来表示。每个氨基酸残基的两个二面角都有一个允许取值范围，可以画出相应的Ramachandran图5。虽然不同氨基酸的二面角的允许范围有所不同，但每个氨基酸都可以采取无数个二面角组合，也就是说，不存在固定的氨基酸-结构对应关系。大量已解析的蛋白质结构也表明，同一种氨基酸可以在不同的二级结构中出现，虽然出现概率有很大的不同6,7，但不存在简单的氨基酸-结构一一对应关系。显然，寻找第二遗传密码不能寄希望于单个氨基酸对应关系。

蛋白质结构中存在多种典型的局部结构特征，即蛋白质各种二级结构(α螺旋、β折叠股(βstrand)、转角、环区等)。早在第一个蛋白质结构解析出来之前，Pauling与合作者就从理论上预测了蛋白质局部二级结构α螺旋和β折叠的存在8,9。但Pauling等的工作主要是基于蛋白质主链的，没有考虑氨基酸的侧链，也就是说没有序列特异性。蛋白质结构的解析证明了Pauling理论预测的正确性，然而蛋白质结构数据的统计分析表明，同样不存在局部序列-结构的一一对应关系。而且蛋白质中绝大多数多肽片段在单独存在时没有稳定构象，或与天然蛋白质中构象不同。从简单一维序列信息到复杂的三维结构，显然在序列上不相邻的氨基酸之间的长程作用力是至关重要的。

2.2 蛋白质结构中的长程作用力

蛋白质结构中长程作用力包括二硫键及多种非键相互作用，如静电相互作用、疏水作用、范德华力、氢键等。这些长程作用力是维持蛋白质三级结构和四级结构的主要原因。

Baker与合作者曾经定义一个相对接触级数(Contact order)来度量蛋白质结构中序列上不相邻的氨基酸之间的接触作用，并发现一些可自动折叠的小蛋白质的接触级数与其折叠动力学之间存在一定的关联10。Baker等的接触级数概念主要存在两个问题。一是没有考虑多个氨基酸协同形成的长程作用团(比如疏水核心)，这种作用团往往比单独的作用更强，对蛋白质结构的稳定贡献更大。二是接触级数不区分接触的作用类型，只要两个残基的原子在空间中的距离在范德华半径接触距离内就同等对待。但显然，不同类型的相互作用(比如氢键和二硫键)的强度差别及其对蛋白质结构与折叠贡献的差别是巨大的。所以，接触级数与折叠速率的关联仅仅是一个表观的相关性拟合，不能说明他们存在因果关系，也不可能反映真实的蛋白质结构与折叠原理。

不同的长程作用力对蛋白质结构的稳定性作用是千差万别的，部分甚至是无足轻重的。以氢键为例，尽管氢键是蛋白质α螺旋和β折叠等二级结构的一个显著特征，但氢键的作用其实并没有想象中的那么大。地球上的生物都是“水做的”，蛋白质分子中的氢键给体和受体除了形成链内氢键外，也可以与环境中的水分子形成氢键，所以蛋白质链内形成氢键并不增加包括环境在内的整个系统的氢键总量。因而，考察某个作用力对蛋白质结构稳定性的贡献，必须综合考虑它对包含蛋白质分子和溶剂环境在内的整个系统的净贡献。事实上，尽管蛋白质中存在数目巨大的弱相互作用力，他们对蛋白质稳定的净作用力是比较小的，仅仅相当于几个氢键的作用力。

虽然一般来说单个氢键的作用对蛋白质结构稳定性贡献较小，但如果多个氢键形成协同效应则可以产生一个稳定的局部结构。比如，β折叠片之间氢键的协同效应可以产生非常强的长程相互作用，对蛋白质结构起到很大的稳定作用。典型的βαβ超二级结构就是蛋白质结构中常见的模块(Rossmann fold，见图1a)。同样，β折叠片之间氢键的协同效应也是蛋白质的β结构纤维化聚集体稳定的主要原因。而α螺旋中虽然也有规律排列的i-i+ 4氢键，但其协同效应相对β折叠片之间的氢键协同效应要弱很多。一些单股的α螺旋稳定性不一定高，但在典型的亮氨酸拉链结构中，两股α螺旋可以通过规则的亮氨酸拉链形成紧密的堆积而得到稳定11。这里的亮氨酸拉链就是另一个强协同长程作用的代表，也是一种疏水作用(见图1b)。

疏水作用不仅存在于亮氨酸拉链结构中，更普遍地存在于蛋白质结构内部。蛋白质链中的疏水氨基酸倾向于折叠到蛋白质内部，形成一个疏水核心(见图1c)。疏水核心由疏水氨基酸堆积而成，其中固然有大量数目的范德华力，但疏水作用是一个综合效应，一般认为主要是因为熵效应的贡献12。

和以上众多弱相互作用协同形成的长程作用不同，单个二硫键就是很强的长程作用力。尽管Anfinsen与合作者已经证明核糖核酸酶A (RNase A)等小蛋白质的二硫键打开后，可以在正常生理条件下自动氧化恢复正确的二硫键和天然活性1。但在没有氧化还原剂和二硫键异构酶存在下，仅仅通过蛋白质的构象变化是不能改变二硫键结构的。二硫键是蛋白质一维氨基酸链之外的唯一共价结构，正确配对的二硫键是蛋白质形成正确构象的必要条件(见图1d)。

图1 对蛋白质结构稳定性起重要作用的长程相互作用Fig.1 Typical long-range interactions critical to the stability of protein structures.

蛋白质结构中还常常含有金属离子结合位点，一类是功能性金属结合位点，与蛋白质的功能相关，没有金属离子存在时蛋白质仍然可保持稳定结构13；而另有一类是维持蛋白质结构稳定的结构性金属结合位点，比如锌指结构14。在典型的锌指结构中，锌离子和蛋白质中的多个组氨酸中的氮或半胱氨酸中的硫通过配位键结合，稳定并保持局部二级结构的相对位置(见图1e)。

在没有以上这些强长程作用或特征性的协同作用存在下，蛋白质二级结构之间堆积而形成的众多非键相互作用，也可以起到一定的互相支撑稳定作用。比如RNase A中N端的α螺旋和其余部分的相互作用。RNase A甚至可以切开成一个前20个氨基酸组成的S肽和一个剩余104个氨基酸组成的S蛋白(包含4对正确的二硫键)两个独立的片段(见图1f)。这两个片段单独存在时都不能形成稳定的天然结构，但当他们结合后(也被称为核糖核酸酶S)具有RNase A的结构和功能15。而且即使再去掉S肽C端的5个氨基酸，仍然可以形成RNase A的结构和功能16。从这些实验事实我们可以得出，长程作用不需要来自同一条肽链，两条独立的肽链组合也可以形成和一条长链一样的结构。事实上，蛋白质和其他分子(辅基、抑制剂等)的结合也可以起到稳定蛋白质结构的作用，这些分子其实也相当于提供了一些“长程作用”。

另外，还存在一些没有典型特性、相对较弱的长程作用，他们虽然对蛋白质结构的整体稳定性影响不大，但在调节蛋白质的构象变化和活性方面发挥关键的作用。例如，多次跨膜的膜蛋白跨膜区为胞内外的区域提供一定的限域作用，膜蛋白与受体结合后，通过跨膜区带动胞内外区构象变化的联动。

通过以上分析可以看出，蛋白质中的长程作用或蛋白质语言其实有一定的规律可循。大量突变实验还表明，蛋白质序列具有一定的容错率，除了少数位置之外的单点突变一般并不改变蛋白质结构和功能；某些蛋白质中部分片段甚至可以被整体删除，而不影响其余部分的结构和功能。

2.3 蛋白质折叠过程

蛋白质在遇强酸、强碱、高温或低温、变性剂等条件下都可能失活变性17。鸡蛋煮熟后凝固就是因为蛋白质变性。蛋白质折叠是蛋白质变性的逆过程，因此蛋白质折叠问题也被称为使煮熟的鸡蛋重新变成生鸡蛋。我国科学家吴宪早在1929年就在第13届国际生理学会上提出蛋白质变性学说，并于1931年正式提出，蛋白质变性是肽链的构象变化而非共价键变化18。Anfinsen与合作者于上个世纪50年代末到60年代完成了RNase A的氧化还原折叠的经典实验，发现还原态RNase A在除去还原剂和变性剂后能够自动氧化恢复活性1。在此基础上，Anfinsen提出了蛋白质的天然结构是其热力学最稳态的假说19,20。

热力学并不是蛋白质折叠问题的全部。蛋白质怎样从一维链折叠成三维结构的动力学过程更是困扰科学家的一大难题。Levinthal于上世纪60年代末提出了被称为Levinthal’s paradox的著名思想实验，指出蛋白质不可能遍历其天文数字的构象空间，因此蛋白质折叠一定存在折叠路径(折叠中间体)，蛋白质局部结构的形成可能是折叠的起始21。在此后的数十年里，蛋白质的体外折叠动力学实验研究一直是个热点领域22-25。蛋白质折叠实验发现了一些规律。比如，同源蛋白质的折叠动力学过程具有相似性26，这显然是与进化相关的；另外，我们发现蛋白质的折叠动力学常数与热力学稳定性之间存在一定的线性关系27。

关于蛋白质折叠过程中早期构象的形成机制主要存在两种比较有影响的理论模型。一种是框架模型(Framework model)28-30，该模型认为蛋白质首先形成部分二级结构，三级结构随后慢慢形成；另一种是疏水坍塌(Hydrophobic collapse model)模型31,32，该模型认为蛋白质折叠始于疏水作用引起的松散变性蛋白质链坍塌成为紧密的熔球态(Molten globule state)33。这两种模型观点明显不同，各有实验证据支持34,35，至今仍有大量相关研究36。

对蛋白质体内折叠的研究是近年来的另一个热点。和体外折叠不同，体内折叠从新生肽链合成出来就已开始，并有大量的折叠辅助分子，比如二硫键异构酶，脯氨酸順反异构酶，分子伴侣等37。

蛋白质折叠研究另一个热门方向是计算机模拟，包括应用一些简化的晶格模型模拟蛋白质的折叠过程38，或通过分子动力学模拟计算真实蛋白质的折叠过程39。而在理论研究基础上提出的折叠漏斗(Folding Funnel)是对蛋白质折叠过程中自由能变化的一个比较形象的定性描述40,41。

3 蛋白质片段的嫁接

虽然蛋白质中的片段作为独立的多肽时常常是没有结构和活性的，但实验发现，一些蛋白质中的片段可以嫁接到另一个完全不同的蛋白质骨架上，并保持其原来的结构和功能。最典型的例子就是蛋白质的环区嫁接。比如，RNase A和血管生成素Angiogenin各有一个环区，如果将RNase A的环区嫁接到Angiogenin的环区位置，得到的新蛋白质则具有RNase A的活性42；反之，把Angiogenin的环区嫁接到RNase A的环区位置，得到新蛋白质则具有Angiogenin的活性(见图2a，b)43。同样，抗体中的CDR环区也可以嫁接到其他骨架上，使得到的新蛋白质具有和原抗体一样的抗原识别功能44。近年来，蛋白质环区的嫁接已经成为蛋白质工程的一个重要手段，而常用来嫁接环区的骨架蛋白(包括β-barrel，Helix-bundle，Kunitz结构域，Knottins等)都具有特别稳定的长程作用45,46。

图2 蛋白质片段嫁接到不同骨架上Fig.2 Protein fragments grafting onto different scaffolds.

如果说，将一个蛋白质的片段嫁接到另一个蛋白质骨架上后，仍然存在蛋白质“上下文”影响的话，那么我们最近将天然抗体的CDR环区嫁接到金纳米粒子表面制成人工纳米抗体的工作则明确否定了蛋白质序列“上下文”存在的必要性(见图2c，d)4。

蛋白质环区在金纳米粒子上嫁接成功表明，环区片段自身要保持其天然构象，只需要确定其跨度的长程作用，即只要保持环区两端的距离和在原蛋白质中的距离相同，这段环区片段就可以自动折叠成和原蛋白质中一样的片段结构，并具有和原来一样的功能。也就是说，蛋白质局部片段的结构只受极少数的长程作用影响，蛋白质序列中大多数远距离氨基酸对局部结构的影响都很小。基于这一实验事实，我们提出了蛋白质结构的“限域下最低能量结构片段”假说。

4 “限域下最低能量结构片段”假说

我们金抗体工作清楚地表明，蛋白质完整序列的“上下文”对局部片段的结构并不是必须的。以我们嫁接的抗体CDR片段为例，完整序列“上下文”的长程作用仅仅和金纳米粒子上提供的两个锚点的限域作用相当。因此，可以认为，只要对这个片段给一个和天然蛋白质中相同的限域作用，它就会自动折叠成其天然构象。换一句话说，蛋白质中局部片段的天然构象是在少数强长程作用限域下的热力学最稳态；而整个蛋白质结构可以看做是由少量限域位点分隔成的多个“限域结构稳定片段”拼合而成。

蛋白质结构中可以充当这些限域位点的就是前面讨论的强长程作用力，包括二硫键、疏水中心、结构性金属结合位点、多股的β折叠片层以及亮氨酸拉链结构等由多个氨基酸协同组成的结构单元。在正常生理条件下，这些强长程相互作用一般难以被蛋白质分子常温下的热运动破坏，为蛋白质局部片段提供了稳定的限域作用。

在没有长程作用力存在的条件下，片段的局部结构的稳定力主要来自相邻氨基酸的空间位阻限制和少量链内氢键(主要存在于α螺旋和部分转角等)。这些作用力通常比较弱，虽然可以使其天然构象比其他巨大数目构象的平均出现概率高出若干倍，但由于肽链巨大的构象空间，这些天然构象出现的几率仍然极低，所以大多数片段在独立存在时没有稳定的结构。而自由多肽片段的构象空间可能存在多个局部能量极小，一旦长程限域作用将其限定在某个极小附近，则这个极小就变成了在这一限域作用下的最小。这就是相同的多肽片段可以在不同蛋白质中(不同限域作用下)存在不同天然结构的原因。

蛋白质结构由一些长程强相互作用位点分隔成多个“限域结构稳定片段”，大大简化了蛋白质的折叠过程，并解决了Levinthal’s paradox。因为各个“限域结构稳定片段”可以相对独立地折叠，将极大地减少蛋白质折叠的构象空间。因而，蛋白质折叠过程中的一个关键事件是形成正确的限域位点。这也是为什么在很多蛋白质的折叠过程中，快速的疏水坍塌常常是折叠的第一步。在折叠过程中，一旦形成了天然的限域作用，则多肽片段可以沿着光滑的势能面，快速折叠到限域下的能量最低态。如果在折叠过程中形成了非天然的强长程作用，则往往会使蛋白质陷于错误的局部势阱，形成错误折叠中间体；而跳出这个局部势阱则是一个慢速过程。同样，对含有多个二硫键的蛋白质来说，在二硫键被还原后的氧化再折叠过程中，形成天然的正确二硫键配对是折叠成正确结构的先决条件。只要保持正确的二硫键，其天然构象的形成往往是一个快速的自动折叠过程(当然也可能会存在X-Pro的顺反异构等局部范围内的慢速步骤22)。

正确的天然限域位点的形成和局部片段形成最低能量结构的倾向性是相辅相成的。正确限域位点的形成为局部片段提供限域作用，特别是通过熵效应限制局部片段的构象空间(排除形成大量无规结构的可能性)，提高局部结构的稳定性。而局部片段形成最低能量结构的倾向性也有助于形成正确的限域位点。比如，Scheraga与合作者发现47，一段来源于RNase A的包含三个半胱氨酸的多肽片段在体外形成不同二硫键配对时，其中对应于RNase A中正确配对方式的组分所占比例比随机比例高很多，说明局部结构对形成正确配对是有很大帮助的。这一实验结果也非常符合我们提出的“限域下最低能量结构片段”假说。一般来说，天然的(进化来的)局部结构具有焓的优势，为形成正确限域位点提供驱动力；而正确的限域位点则为稳定局部天然结构提供有利的熵效应。这也很好地解释了蛋白质折叠的框架模型和疏水坍塌模型之间的矛盾。折叠符合框架模型的蛋白质的结构片段可能具有更大的局部结构的焓效应优势，而符合疏水坍塌模型的蛋白质结构可能更依赖长程作用力提供的熵效应。

由一个个“限域下最低能量结构片段”拼合起来的完整蛋白质并不保证整体的蛋白质处于热力学最低能量状态。也就是说，Anfinsen的热力学假说并不一定正确。事实上，实验发现部分蛋白质的天然活性结构是热力学亚稳态，还存在更稳定的非活性结构48,49。还有一些蛋白质在天然状态下是没有固定结构的，只有和其他蛋白质结合后才有结构和功能50。这一类现象可以很好地用“限域下最低能量结构片段”假说解释，因为这些蛋白质在活性的亚稳态和非活性的稳态之间的变化对应于不同的限域作用。从严格意义上讲，几乎所有的单个蛋白质分子的天然结构都不能算是整个系统的热力学最稳态，因为蛋白质分子都有形成纤维化聚集的倾向51,52，而纤维化聚集则可能是比单个蛋白质分子天然结构更稳定的状态。以“限域下最低能量结构片段”假说的观点来看，纤维化聚集是因为纤维种子为蛋白质链提供了一个更稳定的，涉及大多数氨基酸的限域作用。

“限域下最低能量结构片段”假说还可以解释分子伴侣帮助蛋白质折叠的机制。分子伴侣通过和蛋白质折叠的错误中间体(形成了非天然的长程作用)结合，从而为其提供新的限域作用，让错误折叠的局部片段重新折叠(在新限域作用下，折叠到新的局部能量最低态)。这也从另一个角度说明，蛋白质折叠的长程作用不一定要在同一条链上，分子伴侣就是一种外部的影响蛋白质局部结构的作用力。帮助蛋白质折叠的各种异构酶的作用机制同样如此。另外，对蛋白质结构限域作用还表现在蛋白质与其他分子的相互作用中，包括配体受体结合，膜蛋白的跨膜区在细胞膜上的锚定作用等。

根据量子力学原理，蛋白质链上的所有原子都是同一个分子的一部分，理论上所有的原子都对其他原子的结构有影响。实际上，即使是分子量比蛋白质小得多的多原子分子，其薛定谔方程都是无法精确求解的，更不用说分子量在数万到数百万道尔顿范围的蛋白质分子了。所以，采取一定的近似来求解是唯一可行的出路。“限域下最低能量结构片段”假说可以看作是这样的近似处理手段，即只考虑强长程作用，这样就相当于把大分子的蛋白质化为多个小分子量的多肽，为通过计算预测和设计蛋白质结构提供了新的思路。当然，这样做的前提是要先正确地确定或预测出蛋白质中的关键强长程作用位点。在此基础上，长链蛋白质结构的计算，可以分解为多个短肽的结构计算，从而极大地减少计算量。

蛋白质中的关键强长程作用位点对稳定蛋白质结构至关重要，所以这些位点一般是进化保守位点，突变除去这些位点(比如半胱氨酸突变以去除二硫键)将极大地降低蛋白质的稳定性。相反，增强合理的长程作用则可以提高蛋白质结构的稳定性，比如可以通过突变或定向进化增加蛋白质(酶)的稳定性。而用纳米材料包裹蛋白质同样也可以将蛋白质的部分氨基酸残基固定在天然结构中的正确的相对位置上。这相当于给蛋白质增加了强长程作用位点，可以极大地提高被包裹蛋白质的稳定性53-60。大量的纳米包裹提高蛋白质稳定性的实例从另一个角度证明了“限域下最低能量结构片段”假说的合理性。

5 蛋白质进化的“石器时代”

按照大爆炸理论，宇宙诞生时是没有生命的。生命只能是在星球产生之后，慢慢从小分子逐步进化而来。地球上最早的生命可以追溯到35亿年以前的太古宙时期61，而有机分子可能早在40亿年以前冥古宙时期就已经出现。

从有机分子自然进化出生命是宇宙中的一个奇迹。而核酸和蛋白质是对生命最重要的两种生物大分子，他们的形成和进化显然对生命的出现至关重要。原始的生命形式或“半生命”形式到底以哪一种物质为主，目前有不同的观点。其中，RNA世界的理论是一个比较热门的理论62，但存在重大缺陷。进化的一个基本观点和立足点是逐步完善而不是推倒重来。目前地球上的所有已知生命中的主要功能执行者是蛋白质，不同的氨基酸组合成多肽的序列和结构的多样性也是RNA和DNA不能比拟的，只有这种多样性才能保证功能的多样性，复杂的生命才可能从中产生。尽管部分RNA也可能具有某种催化酶的功能，完全由RNA行使功能的简单生命体即使不是没有存在过，也至少不是在地球目前生命系统的进化线路当中的。因为如果先有了以RNA为主的生命系统，再由RNA转录到对应的多肽序列虽然很容易，但这样得到的多肽几乎是不可能折叠成稳定结构的。而如果先进化出稳定结构和功能的蛋白质，和它对应的RNA或DNA序列是肯定可以存在的。因此蛋白质必然是独立进化的，而不是由RNA转录出来的。其原因可以用一句话概况：RNA不懂蛋白质折叠！所以在进化或协同进化中，只可能是蛋白质独立进化并选择RNA或DNA作为信息储存介质；而不可能是先存在一个RNA(或DNA)世界，再由RNA(或DNA)指导蛋白质的合成。

Miller的经典实验表明63，在模拟的原始地球大气环境条件下，自然界可以合成出多种氨基酸。事实上，原始地球上出现的氨基酸种类可能远远多于现存生物中的氨基酸种类。而氨基酸之间通过肽键连接就得到多肽。但从小肽变成可折叠的蛋白质就困难得多。最大的困难在于，在不同氨基酸随机组合得到的天文数字的不同序列中，只有极其少量的序列能够折叠成稳定的结构。因而蛋白质几乎不可能从随机长链多肽库中直接进化出来。因为即使按原始氨基酸只有20种计，链长100个氨基酸的随机多肽库具有20100种不同序列，即使每种序列只合成一条多肽链，所需要物质的质量也比整个宇宙的质量都多得多。因此蛋白质必须是分阶段一步步进化出来的，这就要求有一个具有相对稳定结构和功能的短肽阶段，而这又与极大多数短肽都没有稳定结构的事实相矛盾。

基于我们金抗体工作和前面提出的“限域下最低能量结构片段”假说，我们认为，在蛋白质进化的早期可能存在一个“石器时代”。在这一时期，独立时没有稳定结构和功能的短肽可以通过固定在各种表界面上(比如“石头”(各种岩石或原始汤中的微粒甚至纳米颗粒)、微乳囊泡等，而且某些岩石还可能对氨基酸和多肽的合成起到催化作用)，依靠表界面的限域作用而获得稳定的结构和功能。即，首先进化出蛋白质的片段(“限域下最低能量结构片段”)，但这些片段不是独立存在的。从某种意义上，“石器时代”的蛋白质相当于半无机半有机的杂合蛋白质；而在下一步进化中，这些短肽可以逐步进化变长，同时也可以通过依附在同一界面上的多个“限域下最低能量结构片段”的组合形成具有更复杂结构和功能的杂合蛋白；在最后阶段，长链蛋白质脱离依附的介质，走出“石器时代”(如图3所示)。

图3 蛋白质进化史前的石器时代Fig.3 “Stone Age” of the prebiotic evolution of proteins.

原始地球含硫的气氛(H2S，SO2等)使得合成含巯基的氨基酸(比如半胱氨酸)是非常可能的。事实上，运用现代分析技术重新分析Miller加入H2S后的模拟原始地球环境实验的样品，发现存在多种含硫氨基酸64。而单质金是自然界天然存在的一种“石头”。所以含巯基的氨基酸可以以Au―S键(键能约为125 kJ·mol-1)与金表面结合。也就是说，在原始地球上，以金抗体类似的形成短肽-金(或者其他表界面)形式的具有稳定结构和蛋白质功能的杂合蛋白质是可能的。另外，由于二硫键的键能(约为250 kJ·mol-1)与两个Au―S键的键能相当，使得在同一个金表面的多个多肽片段在一定条件下形成二硫键而脱离金表面成为可能，从而进一步进化出独立的具有结构和功能的原始蛋白质。

另外，蛋白质结构的一个特征是存在相对独立的结构域。尽管单个蛋白质分子可以非常大，但单个结构域的大小存在一个上限。一般认为，结构域存在上限是因为受折叠动力学限制。而从“限域下最低能量结构片段”假说来看，结构域存在上限是因为片段拼合的原因，即，从进化上讲有用的结构片段不应该被拼合在蛋白质结构内部。这个解释显然更合理。或者说，蛋白质结构域大小上限的存在从一个侧面证明了“限域下最低能量结构片段”假说和蛋白质进化的“石器时代”的合理性。

6 展望

蛋白质结构和折叠问题已经被研究了近一个世纪，距离揭开最终的秘密可能就差捅破一层窗户纸。“限域下最低能量结构片段”假说是否就是蛋白质结构的最终秘密有待进一步的验证。目前来看，这一假说能够很好地解释已有的实验现象，并可以推出合理的蛋白质早期进化假说。

一个成功的理论和假说不仅要解释已有的现象，还需要做出合理的可以检验的预测。根据“限域下最低能量结构片段”假说，众多的天然蛋白质应该可以进行解剖和剪辑。除了天然蛋白质之间互换骨架和片段的剪接外，利用其它非蛋白质骨架，比如纳米粒子，也可以合成更多非肽-肽杂合蛋白质。我们最近的探索表明，除了环区外，蛋白质其他的结构片段也可以嫁接到金纳米粒子表面，并可以重建原蛋白的局部结构和功能；而且除了金纳米粒子外，其他纳米粒子、脂质体以及细胞膜等都可以用来重构蛋白质片段的结构和功能。

按照上面提出的蛋白质进化路线，在进化早期，多种不同的多肽片段可以在界面上聚集而协同完成一个更复杂的功能。尽管无法追踪这一进化事件，但现在同样可以将不同片段嫁接到同一个纳米粒子上，使他们协同完成一个更高级的功能，包括多重特异性，识别与催化的结合等。自然界的进化是在没有人的干预下缓慢地进行的，而人工干预可以有目的地(定向)加快进化过程。同样，自然进化不可能出现的结构也可以通过全新设计得到，比如，既具有天然蛋白质的功能，又具有无机材料稳定性的纳米-多肽杂合人造蛋白质。我们的初步探索结果表明这些都是可以实现的。