硬盘过时是迟早的事,但用 DNA 来存储数据是不是有点太科幻了

1878 年 6 月 19 日,英国著名摄影师埃德沃德·迈布里奇(Eadweard Muybridge)把 12 台双镜头照相机列成一排,拍摄一名骑手骑马快速奔跑的场景。最初的目的是想解决困扰了画家和艺术家几个世纪的难题——马在奔跑时四条腿是否可以同时离地。

(图片来源:Timetoast)

尽管画面不是非常清晰,但是从其中一幅作品上还是可以看出,马在全速奔跑的某个瞬间,四蹄是全部腾空的。后来他把这些照片放到一个在光源前面旋转的玻璃盘上,合成了一套原始的动画。

一个多世纪后,这段古老的动画和前沿科技进行了一次合作——哈佛大学医学院研究人员成功将这幅 5 帧的动画存入了活细胞的 DNA 中。这个首次「享此殊荣」的电影片段能随时取出,还能随着细胞增殖而被无限复制。

用大肠杆菌的 DNA 存电影

这一研究于 7 月 12 号发表在英国《自然》杂志上,引起了一阵惊呼。科学家们认为,这是人类在探索基因能否作为存储设备上的一大进步。

哈佛大学两位遗传学家 George Church、Seth Shipman 以及他们的同事,给那部黑白电影中的每个像素指定了一个 DNA 编码。细胞中的 DNA 只有 4 种组成部分——腺嘌呤、鸟嘌呤、胸腺嘧啶和胞嘧啶,这 4 种分子以无数种排列方式组成了数量庞大的 DNA 链。

随后,科学家们得到了一段储存着完整电影的 DNA 序列。最后他们用一种叫做 「CRISPR」的基因编辑技术将这段 DNA 序列导入了大肠杆菌的基因组中。

尽管体内有一段「奇怪的 DNA」,大肠杆菌还是生存了下来并繁殖后代。科学家发现,储存在基因组中的电影在每一代大肠杆菌中都完整无缺。

(左边是原始动画,右边是从细菌 DNA 中复原的动画)

明尼苏达大学(University of Minnesota)的数学教授兼数字技术专家 Andrew Odlyzko 称这项新研究「非常了不起」。

「想象一下,我们可以把秘密交给位于我们肠道或者皮肤上的细菌,这应该是最安全的保密方式了,」他说道。

让细菌「监控」神经元

此前,科学家已经成功将莎士比亚的十四行诗存入了 DNA 中。2012 年,Church 将自己的书《Regenesis》的电子数据编辑成 DNA 形式导入了细菌体内,并通过细菌繁殖得到了 900 亿份复制品。

「这应该是出版史上的最高纪录了,」Church 在采访中说道。

(哈佛大学遗传学家 George Church,图片来源:Harvard University)

在这些研究的基础上,Church 和其他科学家开始酝酿一个更大胆的想法——能否将改造过的细菌植入人体细胞,记录下细胞的一举一动。换句话说,就是像拍电影一样录下每个细胞的生活。

当人生病时,医生可以将这些细菌提取出来,观察存储在 DNA 中的录像。Church 说,这就像飞机失事后人们可以通过黑匣子知道当时发生的情况一样。

大脑包含约 860 亿个神经元,然而要想知道这些神经细胞的日常活动却是一件非常困难的事。

「目前,我们可以用电极来观察神经元的活动,但是一个电极只能监控一个神经细胞。人的脑子装的下 860 亿个神经元,可装不下 860 个电极啊,」Church 说道。不过,经过改造的细菌或许是理想的「侦察兵」。

科学家的想法是,通过基因工程将细菌改造成「记录装置」,然后让这些细菌随着血液到达大脑,记录大脑神经元的活动。随后科学家可将这些细菌提取出来,通过其 DNA 就能知道神经元在这段时间的活动状态。

Church 和他的同事已经在过去的研究中展示了细菌能记录细胞中被标记的 DNA。

存储能力甩硬盘几条街的 DNA

半个世纪前,著名物理学家理查德·费曼(Richard Feynman)就提出了用 DNA 来存储信息这一超前想法。很久之后分子生物学革命才兴起,几十年后才有科学家成功地做到了给 DNA 测序。

「基因不仅仅是文字信息,它也能做一些自己的事,」费曼在 1959 年的一次演讲中说道。

「想象一下,我们也能做出一件非常小的东西,让它做我们想做的事,」他激动地说道。

「费曼博士的想法意义深远——它给我们提供了一个方向,」南加州大学的数学家 Leonard Adleman 说道。他还是「RSA」——使用最广泛的一种公钥加密算法——的创建者之一。

1994 年,Adleman 宣布他已经成功将数据存入了 DNA 中,并把 DNA 当作电脑解决了一个数学问题。他坚信,DNA 的存储能力是同样大小光盘的一万亿倍还不止。

数据存储是一个越来越让人头疼的问题。在这个知识爆炸的年代,每天产生的数据数量惊人,因而储存数据的技术一不小心就过时了,比如被淘汰掉的软盘。

但 DNA 永远都不会过时。「数十亿年来,生物都在用 DNA 存储信息,而且信息都保存完整,」Adleman 说道。他注意到,现代的细菌仍然能从几百万年前的昆虫琥珀中读取到基因信息。这是因为 DNA 很容易保存,只需放在冷、暗、干燥处,没有恒温恒湿的苛刻要求。它还非常稳定,存放上百万年都没问题。

除此之外,DNA 合成测序,使用的设备和方法都是生物学研究的常规工具。这使得 DNA 的存储有效地避开了因设备技术更新换代而起的许多麻烦。所以 DNA 是数码信息长期存储的理想材料,而且存储的时间越长,越能显出优越性。

DNA 真正取代硬盘还要多久?

DNA 作为存储介质,也有显著的弱点。首先是成本太高。欧洲生物信息研究所(EBI)的高德曼团队的实验费用高得惊人:每一兆字节的存储费用是 12,400 美元,外加测序解读 220 美元。这是常规磁带存写费用的一百多万倍。

第二,信息读写非常耗时。数码信息编入 DNA 目前只能由专门的 DNA 合成设备来做;而从 DNA 中读取信息,重组复原为数码文件也很费时。高德曼团队用了整整两个星期,才完成五个文件 739 千字节的复原。

第三,DNA 介质不能重复使用,写录完毕,一般来说不能修改、不能再用。可是,我们已经习惯了常规存储,如硬盘和 U 盘的便利。几十块钱的 U 盘,插入电脑,就能周而复始地存取文档。

这些「简单」的基本功能,DNA 介质却难以胜任。

(硬盘、U 盘、细菌 DNA 在读写速度、数据保留时间、耗电量、数据密度上的对比,图片来源:Nature)

「人们的本能反应是,DNA 分子那么渺小,怎么能储存海量信息呢?」Birney 博士说到。

「尽管这些想法很超前,但我们起码知道,这些生物技术诞生的时间肯定前人预测的要早,」Church 说到。

他举出了人类基因组测序的例子。此前,一些比较乐观的科学家预测这将花费至少 60 年的时间,每组基因测序的费用将高达 1000 美元(测完人类 30 亿个碱基对将需要 3 万亿美元)。而于 1990 年正式启动的「人类基因组计划」只用了十年时间,花费 30 亿美元。

DNA 存储着生物体的奥秘,是个非常大的「数据盘」。当克服了存储和读取上的难题,也许未来某一天,我们所有的硬盘、U 盘、网盘都可以丢到一边。用一块硬币大小的 DNA,就能存储我们一生需要的数据了。

;