美国科学家开发高效的DNA存储设备

美国哥伦比亚大学和纽约基因组中心(NYGC)的研究人员表明,设计用于手机上的流式视频的算法可以通过将更多信息挤压到DNA的四种碱基上从而将DNA几乎全部的存储潜能都发挥出来。他们认为这项技术极为可靠。相关研究成果发表于2017年3月3日的《科学》期刊。

DNA高度紧凑和在阴凉、干燥的地方可保存几十万年的特性被认识为是一种理想的存储介质。这可以从最近在西班牙一个洞穴中发现的一个43万年前的人类祖先的骨骼中恢复DNA而得到印证。

研究人员选择了六个文件编码或写入DNA:一个完整的计算机操作系统、一部1895年的法国电影、一张50美元的亚马逊礼品卡、一个计算机病毒、一块先驱者铝板的图文信息和一项1948年由信息理论学家克劳德·香农完成的研究。他们将这些文件压缩成一个主文件,然后将数据拆分为由1和0组成的二进制代码的短字符串。使用称为“喷泉码(fountain codes)”的容错纠错算法,它们将字符串随机地封装成所谓的液滴,并将每个液滴中的1和0映射到DNA中A、G、C、T四种碱基。该.算法可删除已知会产生错误的碱基组合,并添加条形码到每个液滴,以帮助以后重新组装文件。

他们共生成了72000条DNA链的数字列表,每条链长200个碱基,并将其以文本文件发送给旧金山的一家DNA合成初创公司Twist Bioscience,他们专门将数字数据转换为生物数据。两个星期后,他们收到一小瓶含DNA分子的液体。为了恢复他们的文件,研究人员使用现代测序技术来读取DNA链,然后用软件将遗传代码翻译成二进制。结果证明恢复的文件没有错误。

他们还证明,将它们的DNA样品通过聚合酶链反应(PCR)扩增使得其编码技术可以产生几乎无限数量的文件拷贝,并且这些拷贝,甚至其拷贝的拷贝的可以无错误的恢复。

最后,研究人员表明,他们的编码策略在一克DNA上可存储215拍字节的数据,比此前由哈佛大学的开创性研究人员和欧洲生物信息学研究所的Nick Goldman和Ewan Birney发表的方法存储密度高100倍。他们认为这是迄今为止最高密度的数据存储设备。

目前该项技术的主要障碍是成本问题。研究人员花了7000美元来合成他们用来存储2兆字节数据的DNA,另需2000美元来读取数据。虽然DNA测序的价格呈指数下降,但其与DNA合成的需求不同,投资者可能不愿意冒风险投巨资来降低成本。但是如果生产低质量的分子或使用DNA喷泉码等编码策略来修复DNA分子中的错误,DNA合成的价格可以大大降低。

(发布:)

;