首页

微软创造DNA数据存储纪录

点击:0时间:2020-09-23 17:09:51

章江

微软日前宣布,它和华盛顿大学研究人员合作,利用人工合成DNA作为数据存储介质的技术,保存了大约200MB数据,其中包括《战争与和平》和另外99部经典文学作品、被译成100多种语言的《世界人权宣言》、数字图书馆“古腾堡工程”排名前100位的电子书等。

划时代意义的存储技术

盡管在此之前已经有研究证明数据可以被保存在DNA之中,然而没有任何研究者能一次性向DNA写入如此多数据。微软和华盛顿大学的研究团队成功地将4个图片文件的数据编码为人工合成DNA片段的核苷酸序列。更重要的是,他们能实现逆过程——从更大的DNA池中取回正确的核苷酸序列,重建图像,而且没有丢失1个字节的信息。

用4个碱基开发定制代码

DNA是染色体的主要化学成分,与此同时也是组成基因的材料,有时被称为“遗传微粒”。在繁殖过程中,父代把自己DNA的一部分复制传递到子代中,从而完成性状的传播。作为一种生物大分子,DNA可组成遗传指令,引导生物发育与生命机能运作。它的主要功能是信息储存,可比喻为“蓝图”或“食谱”。其中所包含的指令是建构细胞内其他的化合物如蛋白质与核糖核酸所需要的,带有蛋白质编码的DNA片段称为基因。

DNA存储技术是一项着眼于未来的具有划时代意义的存储技术,它利用人工合成的脱氧核糖核酸(DNA)作为存储介质,具有高效、存储量大、存储时间长、容易获取、免维护的优点。利用DNA存储数据的关键是DNA碱基,DNA这种双螺旋结构上有4个化学基团,即核碱基,它们按照特定顺序排列,组成遗传信息,指导生物体生长发育。

研究人员开发的DNA数字存储系统同样利用这4个碱基“字母”,开发定制代码,完全区别于生物体所用“语言”。当复制一份计算机文件时,DNA数字存储系统首先把硬盘信息中的二进制数翻译成定制代码,然后借助标准DNA合成机器制造出相应的碱基序列。这一序列并非一个长分子,而是多个重复片段,每一个片段携带一些索引细节,明确各自在整体序列中所处位置。这样的系统虽然显得冗余,优点是即便某些片段遭损毁,数据也不会丢失。分子生物学实验室用来读取生物体DNA的标准设备可以读取信息,当即呈现在电脑屏幕上。

1毫克DNA存储美国国会图书馆藏书

DNA存储技术作为数字存储媒介的显著优点之一是容量大。DNA分子是一种令人难以置信的密集存储介质,1克DNA能够存储大约2拍字节,相当于大约300万张CD。用DNA存储数据保存时间可能长达数千年。与硬盘、磁带等存储介质不同的是,DNA不需要经常维护。就读取方式而言,DNA存储不涉及兼容问题。

微软宣布已成功向数百万DNA写入了10倍于此前的数据量,每个DNA包括150个碱基,但是没有披露DNA数据存储项目耗费的成本,其中用到了约15亿个碱基。负责合成这些DNA的Twist Bioscience通常每个碱基价格为10美分。商用合成技术的成本最低可以达到每碱基0.04美分,读取100万碱基的成本约为1美分。

在信息存储上,硬盘完全不能和DNA相提并论。在人类的基因序列中,1克的重量就可以包含几十亿GB的数据,而1毫克分子的信息存储空间就在贮存了美国国会图书馆全部的书籍之后还有剩余。美国国会图书馆建于1800年,系美国的四个官方国家图书馆之一,也是全球最重要的图书馆之一。目前藏品总数1.3亿,其中0.29亿书籍、0.12亿照片、0.58亿件手稿,包括很多稀有图书、特色收藏、世界上最大的地图、电影胶片和电视片等。

极具潜力的数据存储介质

“微软希望在未来把利用人工合成DNA作为数据存储介质的技术和现有硅技术硬盘结合起来,创造出更安全快速的大容量硬盘。如果这一技术成熟到适合主流应用,装备当今存储密度最高的存储设备,沃尔玛超市般大小的数据中心就可能变成只有一块方糖大小,一个鞋盒那么多的DNA就足以保存100个大型数据中心的数据。”微软负责该研究项目的首席研究员卡林·施特劳斯表示,“目前DNA存储技术成本昂贵,操作复杂,不过微软希望借力生物科技行业的研究成果。”

生物芯片的核心元素

国际数据资讯公司(IDC)预计,全球范围内保存的数字化数据到明年将达到16万亿GB,其中大部分位于大型数据中心。当前的电子存储设备发展速度赶不上数据量的增长,无法在期望的成本内保存所有信息。由于大数据应用的爆发性增长,提高存储密度已刻不容缓。DNA作为一种极具吸引力的潜在数据存储介质,具有广阔的应用前景和商业价值,是生物芯片的核心元素。

简单说,生物芯片就是在一块玻璃片、硅片、尼龙膜等材料上放上生物样品,然后由一种仪器收集信号,用计算机分析数据结果。所以它就是一个载体平台,材料则有很多种,例如硅,玻璃,膜(纤维素膜)等,还有一些三维结构的多聚体,平台上则密密麻麻地摆满了各种生物材料。芯片只是一个载体,做什么东西或者检测什么,还是要靠生物学家来完成。也就是说,原来要在很大的实验室中需要很多个试管的反应,现在被移至一张芯片上同时发生了。

人们可能很容易把生物芯片与电子芯片联系起来,两者确有一个最基本的共同点,那就是在微小尺寸上具有海量的数据信息。但它们是完全不同的两种东西,电子芯片上布列的是一个个半导体电子单元,而生物芯片上布列的是一个个生物探针分子。生物芯片又称蛋白芯片或基因芯片,是DNA杂交探针技术与半导体工业技术相结合的结晶。将大量探针分子固定于支持物上后与带荧光标记的DNA或其他样品分子(例如蛋白、因子或小分子)进行杂交,通过检测每个探针分子的杂交信号强度进而获取样品分子的数量和序列信息。

生物芯片在生命科学研究及实践、医学科研及临床、药物设计、环境保护、农业、军事等各个领域用途广泛,将产生巨大的社会和经济效益。生物芯片以及相关产品产值有可能超过微电子芯片,成为下一世纪最大的高新技术产业,将给人类的生活带来一场深刻的革命,对于全世界的可持续发展都会作出不可估量的贡献。

带来更高的存储密度

要在DNA之中保存数据,必须把0和1数据转换为4种核苷酸,即碱基组成的序列。哈佛大学分子生物学家乔治·切奇2012年向DNA中写入了一本5万个单词、数据量不到1MB的书,随后将其印刷在比花粉粒还小的玻璃芯片上。他在2016年报告说,已实现了22MB数据的DNA编码。

同样在研究利用DNA存储数据的加州大学伯克利分校博士后研究员雷因哈德·赫科尔认为,微软的成功令人关注,但是制作订制的DNA分子成本高昂,成为阻碍DNA存储技术大规模使用的主要障碍。如果希望人们接受这一技术,那么需要使这项技术的成本低于磁带。

施特劳斯对读写DNA的成本未来几年将会大幅下降充满信心,因为有证据表明这一成本的下降比过去50年中晶体管制造成本降低的降速更快,而晶体管成本的下降是计算技术创新的动力。2007年,对人类基因组的测序耗资约1000万美元,但到2015年这一成本已下降至1000美元。作为一种优良的存储介质,DNA相对于传统存储技术能带来更高的存储密度。

磁带是目前用于长期存储的标准介质,随着生物技术的进步和DNA读写工具的成本下降,DNA最终有望把磁带取而代之。DNA的耐久性极好,在干燥寒冷的情况下表现尤为突出。今年3月,有研究人员部分重建了古人类基因,这些古人类的骨骼保存在西班牙一处洞穴里已有超过40万年历史。作为对比,磁带保存数据只有几十年时间,随后就会老化。

编辑:成韵 chengyunpipi@126.comendprint

标签: 碱基 数据 成本
相关新闻
最新新闻
关闭