DNA：信息爆炸时代新救星

2017-06-30 11:53

自然与科技 2017年6期

手机，让我们可以一探事实究竟，畅享流媒体，浏览阅读facebook和twitter资讯，听音乐。然而这一切的数据都并没有保存在你的手机里，它们躲在一个你不知道的地方，或许是世界另一边。如今，像微软，亚马逊以及facebook这样的大型公司通过磁带或是其他传统媒体储存数据，但数据信息量巨大并一直维持着稳定的增长速度，不断蚕食着数据储存中心所剩无几的空间。并且就算是性能极佳的储存媒体数据储存年限也至多只有短短几十年，随后就需要有新的接班人来代代延续未尽的使命。面对此困境，一些研究人员为我们指出了一条更优的出路——通过DNA储存恢复数据信息。

DNA掌握着基因信息，基因指挥着生命体体内每一个细胞。DNA分子盘旋梯形结构的每一侧都是由四个化学成分，即核苷酸A、T、C和G组成（A、T、C、G分别是英语术语腺嘌呤，胸腺嘧啶，胞嘧啶以及鳥嘌呤的简写）。它们之间不同的组合代表着不同的基因密码。

如今电脑使用二进制储存数据。路易斯·赛泽指出，数据同样可以通过A、T、C、G这4个化学成分表达。赛泽是一名计算机工程师，现就职于西雅图华盛顿大学，目前，他的研究领域是计算机与数据系统的设计与运转。研究人员一次可以完成一个核苷酸组的构建，通过在实验室里的重复操作，搭建出一条条人造DNA链。其中不同的核苷酸组合代表着不同的数字、字母以及其他电子信息。实验室里的专门设备可以翻译读取这一条DNA链上信息。通过上述步骤，研究人员破译出蕴藏的原始信息。

为何要如此大费周折呢？关键就在于DNA强大的信息储存能力：DNA可以实现在极小空间内极大数据信息量的储存。理论上来说，一条DNA链大小上与一小粒方糖相当，但信息储存量却与超级卖场沃尔玛规模大小的一个数据储存中心不相上下。此外，赛泽补充道，与传统的磁带所不同，DNA可以在未来几千年的时间里完完整整地储存这些数据。

早在几年前DNA储存数据的工程就已开启。就在不久前，赛泽的团队在上述方法流程中加入了叫做“随机通道”，对原方法进行了进一步优化。“随机通道”为寻找特定文件提供了捷径。在这里，每一个数据文件都有自己专属的“地址”，其工作原理可以打个这样的比方：邮递员通过地址上邮编、街道名和门牌号把邮件交给你，研究人员通过每个文件的专属“地址”迅速找到目标文件。为此，研究人员要在每个储存文件数据的DNA链上输入它的专属电子“地址”。

赛泽团队中不乏微软员工，其4月6日于佐治亚州亚特兰大公布了在科研上的这项新进展。编程语言与操作系统结构性支持国际大会对其进行了具体详细地展示。

PCR的引入

西雅图团队PCR来完成在海量DNA信息中找到特定的文件的任务。PCR是聚合酶链反应的简写。PCR工作原理是这样的：将DNA同一连串被称为引物的寡链核苷酸一起进入试管。每一个引物与特定DNA链末尾中的储存文件位置相匹配。试管在专门仪器一遍遍地重复加热、冷却过程。

加热会使双链DNA解旋成为单链。完全冷却下来以后，引物找到并连接到科学家自己感兴趣的DNA片段末尾。混合液中的单个核苷酸基之后会连接到DNA链的剩余部分。

其中的加热冷却循环作用相当于开启复印机：PCR可以复制DNA。循环往复冷热可以复制出数以万计的目标DNA。科学家将此描述为DNA扩增。

PCR不断地复制DNA中所需的片段，在短短时间内，目标DNA片段的总体数量便会远远超过样品中其他遗传物质。

PCR已经被科学家们广泛地应用于我们的生活中。例如，PCR可以复制在犯罪现场的DNA，法医可以通过将此DNA与其他人如犯罪嫌疑人的DNA进行比对帮助破案。类似的例子还有环境学家运用PCR复制他们在河流里发现的新DNA样本，然后比对将其归入特定鱼群。

赛泽同时指出，不停地复制DNA的特定部分也可有助于更快找到所需的数据文件。

他将这种理念比作是仅仅使用几个特定字母来获得一系列字母表，通过几个字母获得整整一碗盛满字母表的“汤”。想要在茫茫数据里，挑出几个单个字母好似大海捞针，十分耗时。但试假想可以不断地一遍又一遍地复制任意你喜欢的字母。最后当你从这满满一碗字母“汤”里随意摇起一勺，你能在几乎每一勺字母里发现你心仪的那个。同样的道理，PCR可以使复制DNA完全按照你的意志来进行。而后，你大可将此DNA送入专业实验设备解码，读取其中储存的数据信息。

在基因实验与研究中，PCR是一个相当常用的工具。但将PCR引入用于寻找发现特定DNA电子文件却刚刚起步：赛泽长期埋头工作在微生物实验室，在他日常的实验工作中找到了灵感与突破口，这才将PCR正式引入。在研究与实验中，他更加详细地了解了PCR，他的团队因而发现了“随机通道”。他这样解释道，“你手上有两件毫不相干的东西，但就在那一刹那间，你突然发现它们之间可以相互关联起来。”

锦上添花

赛泽也表示，“在复制大批量DNA的过程中是极容易出现差错的”。他的团队对症下药，设计出了补救措施：当数据复制出现错误的DNA时，重叠部分形成三条独立的DNA链。当解码数据信息时，电脑需要分析至少这三条DNA链中两条链来生成数据信息，这样的话，即使一条链出现了一些差错，电脑也可以从其他两条链数据信息发现差错并及时进行纠正。

同时，新的系统也要求所有数据同样的高准确度。在储存大数据量的文件时，降低对一些数据材料的精确标准将更有助于整个文件的储存。例如，人们对于文本文件精确度要求极高，但如果换成是一张猫咪的图片，大多数人对图片像素就不会那么斤斤计较。

在实验室的测试过程中，优化过的新系统表现十分出色。研究人员成功编码了一个讨论非洲国家卢旺达战争罪的视频文件。当他们后来再来寻找这段视频时，他们几乎毫不费力轻松找到。实验团队也同时成功地编码并重新制成了四个图像文件。

迪恩就职于圣地亚哥的加利福尼亚大学，现在是一名计算机科学工程师。他主持赛泽小组新系统的DNA储存与文件补救工作。他指出，DNA数据储存能否推广普及以及何时能够实现普及仍存在许多不确定性因素，然而华盛顿大学的研究小组已经显示出了在此研究领域非凡的潜力。“最让人振奋的莫过于，他们已经成功地实现在人工合成DNA中储存图片，”他继续补充道，“同时，他们在实验室中也将这些图片毫无差错地读取出来。”

当然，这是一张猫咪图片。endprint