DNA数据存储

2018-03-03 18:58肖优明
检察风云 2018年3期
关键词:薛定谔存储系统字节

肖优明

在刚刚过去的2017年,微软研究院宣布了未来三年内在数据中心内部建立DNA(脱氧核糖核酸)数据存储系统的目标,至少在精品应用程序中存储数据,系统的最终尺寸将与20世纪70年代美国施乐复印机相当。此外,微软打算利用半导体合成遗传材料对数字数据进行编码,完善其DNA数据存储和检索系统。

一块糖大小能装下全球所有电影

用DNA这种生物材料来备份大量数据听起来似乎有些奇怪,但其在极小空间中存储大量信息的能力早在70多年前就已经得到了证实。20世纪40年代,奥地利物理学家埃尔温·薛定谔就曾提出了一个可装入非重复结构的遗传性编码脚本,他将这个非重复结构称作“非周期性晶体”。薛定谔是量子力学奠基人之一,因发展原子理论获1933年诺贝尔物理学奖。

美国生物学家詹姆斯·沃森与弗朗西斯·克里克从薛定谔的理论得到启发,在1953年4月25日《自然》杂志上发表的一篇研究论文里提出了DNA分子结构的双螺旋模型,引发了生命科学的革命性发展,获得1962年诺贝尔生理学或医学奖。

尽管核酸链在细胞中记录信息已有数十亿年历史,但其在IT数据存储中的作用直到五年前才得到证明。当时哈佛大学的遗传学家将他的著作包括其中的插图编码进了不到5500万条DNA中。该技术从此迅速发展起来,科学家现在已经能够在1千克DNA中存储多达2.15亿GB的数据。

数据存储容量是云技术全球增长的驱动因素之一。DNA作为数据存储的一种方法之所以有吸引力,在于具备了两大优势。一是超大容量,作为全宇宙中最密集的存储媒介,能解决现有数据信息指数级增长的大难题。如果编码正确,DNA可以比目前使用的存储技术更紧凑地存储数百万次的信息。研究表明,1立方毫米DNA能存储的数据高达1018字节,1克DNA能容纳455EB(艾字节,1艾相当于10亿GB)数据,而5EB就相当于至今全人类的所有讲话。这样一来,全世界所有电影可以被“浓缩到”糖块大小的体积内。

二是DNA存储介质经久耐用,而磁带和硬盘最多只能保存50年左右。如果脱水,DNA可以在几个世纪以后可靠地保存信息,而不会发生闪存驱动器或硬盘驱动器硬件退化的风险。许多研究人员从哺乳动物和古人类骨骼组织提取重建出基因,足以证明这些DNA几乎能永久性存活。

改进DNA合成效率取得突破性成果

DNA存储系统进入实用仍然面临两大障碍,首先是成本。以现有合成DNA链的水平,将数据字节转换成DNA代码(即组成DNA的4个碱基)费力费时,成本很高。在微软一项涉及近1350万个DNA片段的研究中,购买这些DNA就花了80万美元。微软曾表示,只有将现有成本减低至万分之一,DNA存储才能获得广泛应用。

其次是将数据自动写入DNA的水平还存在局限,有待提高。2016年7月,微软研究院计算机设计师道格·卡米安和华盛顿大学计算机实验室科学家路易斯·瑟兹携手合作,成功利用DNA存储技术保存了约200M数据,内容包括《战争与和平》等100部世界名著和音乐唱片等。卡米安推算,因写入200M数据用了好几个星期,写入速度只有400字节/秒,距离微软设定的100兆字节/秒相差甚远。微软表示,必须将存储速度提高至100M/s,这项技术才有实用价值。

不少专家对微软的目标持怀疑态度,认为即使能实现,DNA数据存储系统也将仅局限于某些方面的使用,比如存储法律文档和医疗数据,难以取代当前的主流存储方案。然而微软高级研究员卡琳·斯特劳斯博士表示,虽然在DNA成为主流数据存储解决方案之前,必须克服许多挑战,但初步结果令人鼓舞。随着需求增加,一切皆有可能。他指出:“数据存储的需求以惊人的速度增长,需要存储大量数据的组织和消费者(例如医疗数据或个人视频)将受益于新的长期存儲解决方案,我们相信DNA可以提供这个答案。”endprint

猜你喜欢
薛定谔存储系统字节
拟相对论薛定谔方程基态解的存在性与爆破行为
Chern-Simons-Higgs薛定谔方程组解的存在性
No.8 字节跳动将推出独立出口电商APP
分布式存储系统在企业档案管理中的应用
No.10 “字节跳动手机”要来了?
一类相对非线性薛定谔方程解的存在性
天河超算存储系统在美创佳绩
薛定谔的馅
简谈MC7字节码
华为震撼发布新一代OceanStor 18000 V3系列高端存储系统