基因中的暗物质
——垃圾DNA

2020-09-28 07:27内莎凯里
飞碟探索 2020年3期
关键词:基因组编码垃圾

文|内莎·凯里

译|贾乙 王亚菲

想象一下,现在你手里有一部戏剧、电影或电视节目的剧本。当然,完全可能有人仅仅把剧本当成一本书来看。但是,如果它被用来演绎成其他作品,它就会变得更有力量。在被大声朗读出来,甚至被表演出来时,它就不再仅是页面上的一个个文字了。

DNA就是如此,它是最杰出的剧本。无论是从细菌到大象,还是从啤酒酵母到蓝鲸,它仅使用4个简单的字母,就携带了生命的所有编码。但试管中的DNA是很无聊的,它完全没有用处。而一旦细胞或动物开始用它进行生产的时候,DNA就会变得令人兴奋。它是制造蛋白质的编码,这些蛋白质对呼吸、进食、排泄废物、生殖和所有其他生命特有的活动都至关重要。

蛋白质的功能是如此重要,以至于20世纪的科学家用它们来界定基因的含义——基因就是能够编码蛋白的DNA序列。

让我们来怀念一下历史上伟大的剧作家威廉姆·莎士比亚。虽然剧作家写作时使用的英语,从他去世的那个世纪起已经发生了不小的改变。但我们仍然相信,他一定只写了他需要演员表演出来的那些话。例如,莎士比亚不会像下面这样写剧本:

事实上,他只写了画线部分的单词:

就是“A rose by any other name would smell as sweet(即使给玫瑰换个称谓,它依然芳香如故)”。

但如果看看我们自己的DNA剧本,就会发现,它并不像莎士比亚那些画了线的词语那么清晰和紧凑。相反,每个编码蛋白的区域就像是漂浮在“废话海洋”上的一个词。

多年来,科学家们无法解释为什么我们的基因中会有那么多的DNA不编码蛋白。这些非编码的部分被误会成“垃圾DNA”。但渐渐地,这个看法已经被一大堆理由逼迫得站不住脚了。

也许,转变这一观点最根本的原因是源于我们细胞中垃圾DNA那惊人的总量。其中一个最大的冲击来自2001年人类基因组测序完成的时候,人们发现人类细胞中98%以上的DNA被划入了垃圾的行列——它们不编码任何蛋白。上面使用的莎士比亚的比喻实际上是一个精简版的模型。在基因组里,乱七八糟的文字的比例约为前面提到的乱序剧本的4倍。每一个有意义的字母都对应着超过50个字母的垃圾文字。

人类基因组计划

一项规模宏大、跨国、跨学科的科学探索工程,被誉为生命科学的“登月计划”,于1990年正式启动,美国、英国、法国、德国、日本和中国科学家共同参与,旨在揭开组成人体2.5万个基因的30亿个碱基对的秘密,破译人类遗传信息。2001年,人类基因组工作草图发表,成为计划成功的里程碑。2003年4月14日,人类基因组计划的测序工作宣告完成。其在研究人类过程中建立起来的策略、思想与技术,构成了生命科学领域的新学科——基因组学。

还有一个类似的比喻。请想象一下,我们去参观一家汽车厂,这家汽车厂也许非常高端,但如果看到只需要两个人就能造好一辆炫酷的红色跑车,而同时又有98个人在一旁无所事事的话,我们一定很惊讶。这显然是荒谬的,那么为什么这在我们的基因组里是合理存在的?当然,你可以说从共同祖先进化而来的生物往往不是完美的——比如我们人类就确实不需要阑尾(译者注:此观点尚存争议,因为有研究者认为阑尾在免疫和消化方面仍具有一定的功能)——但这次似乎不完美得有点过头了。

事实上,在我们的汽车厂里,更可能的情况应该是:由两个人组装一辆汽车,其他的98个人做着其他一切使这家企业正常运转的工作,如融资、记账、宣传产品、处理养老金、打扫卫生和汽车销售等。这可能是垃圾DNA在我们基因组里更好的一种工作模式。我们可以认为蛋白质是生命所需的最终物质,但如果没有垃圾DNA,就无法正确地生产和整合出蛋白质。确实,两个人就能制造汽车,但他们不能保证公司能成功销售汽车,也不能保证建立一个强大且成功的汽车品牌。同样,如果没有人生产汽车,就算有98个员工在展厅拖地板、磨破嘴皮子,也没有任何意义。只有每个组件各司其职的时候,整个组织才能运转。而这,就是我们的基因组工作的模式。

另一个来自基因组测序的令人震惊的事实是:使用经典的基因模型无法解释人类极其复杂的解剖结构、生理功能、智力和行为。在编码蛋白的基因数量上,人体跟简单而微小的蠕虫几乎相同(均为大约2万个)。更值得注意的是,大部分蠕虫的基因跟人类基因可以直接等效。

当研究人员想在DNA水平上深入分析人类与其他生物到底有什么区别的时候,很显然,基因不能提供解释。事实上,遗传物质只有一个特征与复杂性相关。这个唯一随着动物复杂性变化的部分,就是垃圾DNA。一个生命体越复杂,其基因中垃圾DNA所占的百分比就越高。直到这时,科学家们才真正开始关注这个有争议的观点,那就是:垃圾DNA可能是生物进化复杂性的关键。

从某个角度看,这些数据所引出的问题是很明显的。如果垃圾DNA不编码蛋白,却又如此重要,那么它们在细胞中的作用是什么?不断出现的新发现使人们逐渐接受了垃圾DNA其实具有多种不同功能的观点。

它们中的一些在染色体(由DNA组成的巨大分子)中形成特殊的结构,以保护我们的DNA不受损伤。随着年龄的增长,我们染色体中的这些区域会不断缩小,直到一个临界程度。之后,我们的遗传物质就变得很容易遭遇潜在的灾难性重排,从而导致细胞的死亡或癌变。其他结构类型的垃圾DNA,则可以成为细胞分裂成子细胞进行染色均分时的锚点。还有一些则是绝缘结构,用于限制特定区域染色体的基因表达。

但是我们基因中很多的垃圾DNA并不仅仅具有上面提到的功能。它们确实不编码蛋白,却编码另外一种分子,我们称之为RNA。垃圾DNA里有很大一类会在细胞内建造工厂,用来帮助蛋白质的合成。其他类型的RNA分子负责将制造蛋白质所需的原料转移到这个工厂。

另外有些垃圾DNA则来自病毒和其他微生物的入侵,它们已经如遗传间谍般融入了人类染色体中。这些早已死去的生物残留的遗传物质,对人类细胞有潜在危险,有些存在于人类个体中,而有些甚至存在于广泛的人群中。哺乳动物细胞进化出了多种机制来使这些病毒元件保持沉默,但有时候这些机制会被打破。一旦出现这种问题,它们所产生的影响可以是相对良性的,比如特定种系小鼠毛色的改变,也可以是很严重的,比如增加罹患癌症的风险。

数年前,人们认识到垃圾DNA的一个主要作用其实是调节基因的表达。有时候,它在个体上会有巨大的、明显的效果。比如,一个垃圾DNA就可以决定雌性动物能否保持正确的基因表达模式。它的作用也可以是在群体中的,一个最常见的例子是虎斑猫颜色特征的控制。在极端的例子中,这一机制也能解释为什么有同样遗传性疾病的同卵双胞胎女性,会出现截然不同的症状。在某些情况下,情况可以极端到双胞胎中的一个罹患了严重危及生命的疾病,而另一个则是完全健康的。

成千上万的垃圾DNA片段被认为参与进了调控基因表达的网络。它们就像是遗传剧本的舞台导演一样,只是其指导对象的复杂性是我们在剧院里无法想象的。

研究人员才刚刚开始揭开垃圾DNA庞大网络中的奥秘和关联的一角。这个领域仍极具争议。在极端的情况下,有科学家声称这一领域中有些武断的说法严重缺乏实验证据的支持。其他有些人则觉得,有整整一代科学家(甚至更多)被困在一个过时的模型中,无法看到或者理解这个新领域。

有部分原因是,我们可以用来探索垃圾DNA功能的手段还比较落后,这有时会让研究人员很难用实验来检验他们的假设。

确实,我们对这一领域的研究时间还不长。但有时候,我们可以从实验室的板凳和机器旁退出来,去户外转转。在广大的自然中,实验每天都在我们身边发生,因为自然和进化已经用了几十亿年的时间来尝试各种变化。即使仅仅在我们这个物种出现和繁衍的时间段,也已经有足够的时间来进行大规模的实验测试。因此,我们可以有许多方法去开启一段探究基因组暗物质的旅程。比如,科学家已经聚焦了一个有些奇怪但不容置疑的事实——一些遗传病就是由垃圾DNA的突变引起的,这会是我们进入隐藏的基因组宇宙最好的起点。

猜你喜欢
基因组编码垃圾
垃圾去哪了
牛参考基因组中发现被忽视基因
基于SAR-SIFT和快速稀疏编码的合成孔径雷达图像配准
《全元诗》未编码疑难字考辨十五则
那一双“分拣垃圾”的手
子带编码在图像压缩编码中的应用
Genome and healthcare
倒垃圾
倒垃圾
基因组DNA甲基化及组蛋白甲基化