人们着眼于生物存储技术以前,磁盘、光盘等存储设备一直占据着存储市场的主体。1946年第一台电子数字计算机ENIAC的问世,标志着人类进入了一个崭新的信息革命时代。随着计算机磁存储设备的出现,信息的存储速度与容量日渐得到大幅度改善。一块铝制的圆片,表面涂上磁性介质,便可以在电磁效应作用下,通过一系列二进制字符串来完成存储与表达。而光盘作为光存储介质的代表,同样可以通过数字编码信息将其保存于光盘的表面凹槽中。这些设备一定程度上解决了大量信息的存储问题,然而它们存储能力的增长速度却远远跟不上人类创造新数据的速度。据报道,仅过去两年,人们创造的数据就比此前历史上的所有的数据加在一起还要多。随着数据量的飞速增长,人们迫切需要一种新的存储介质,它理应具有更高的信息存储密度从而节省存储空间,而且结构稳定,其中的数据日久经年也不会发生丢失。而要满足以上两点,似乎没有任何一种存储介质可以比得上DNA。
图1. DNA结构示意图。图片来源:Sergey Volkov / iStockphoto
DNA这一具有双螺旋结构的物质保存着物种的遗传信息,因此也可以看作是一种特殊的数据载体。将各种信息背后的大串1和0数据转换成DNA的四个基本核苷酸:腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T),就能实现信息的存储。理论上,DNA存储的信息密度比现有的磁盘或光盘存储技术高好几百万倍。而且DNA不会像磁盘和光盘那样随着时间的推移发生降解,保存得当的话可以经历成千上万年而不丢失一丁点数据。不要把这个想法当作天方夜谭,实际上,已经有科学家在尝试用DNA来存储数据了。哈佛大学遗传学家George Church等在2012年用DNA片段装下了一本5.2万字的书(Science, 2012, 337, 1628);微软的工程师和美国华盛顿大学的科学家在2016年用DNA存储数码图片(点击阅读相关)。
然而DNA存储数据现阶段在实际应用中还存在诸多困难。最直接的问题是成本,DNA进行编码存储和读取的过程十分昂贵,商业化应用还需从长计议。另一方面,现有的编码方案效率较低,DNA的实际存储能力仅实现了约理论值的一半,且在读取数据进行检索时常常发生数据遗失,稳定性并不理想。近日,纽约基因组研究中心的Yaniv Erlich与Dina Zielinski在这方面的研究取得了进一步突破,他们在Science报道了一种可靠高效的DNA存储策略——DNA Fountain,大幅提升DNA的存储能力,接近其理论极限(图2)。
图2. 不同科学家在DNA存储方面的努力。图片来源:Science
DNA具有A、T、G、C四种核苷酸,理想状态下,每个核苷酸的信息存储量可以达到2个比特(1字节=8比特),但考虑到存储中的读写错误以及额外的索引信息等等因素,科学家估计实际情况下DNA存储的理论容量是1.8比特/核苷酸,而目前为止最好的结果是1.14比特/核苷酸(Angew. Chem. Int. Ed., 2015, 54, 2552-2555)。
Erlich和Zielinski相信他们可以更接近上述DNA存储能力的理论极限。他们找了六个数据文件作为样品,包括一个完整的计算机操作系统、一个计算机病毒、一部电影等,共2.14 MB(图3A),并将这些文件转换为0和1的二进制字符串,再压缩成一个主文件,然后将这些数据拆分为二进制代码的短字符串。他们还使用“喷泉码”(fountain codes)设计了一种“DNA Fountain”算法(图4),将这些短字符串随机地打包成所谓的云滴,进行额外的标记后,以正确的顺序进行重新组合,最终得到了72,000个DNA链的数字列表,每个链包含200个碱基(图3B)。
图3. DNA存储的实验过程。图片来源:Science
图4. DNA Fountain编码策略。图片来源:Science
Yaniv Erlich又将这些列表发送给Twist Bioscience中心,根据碱基的顺序合成DNA链。收到合成样品后,他们利用现代DNA测序技术,将测序结果输入计算机中,并根据此前设定的编码方式解码得到二进制数据,随后根据标记重新组装成六个原始的数据文件。他们发现这种方法表现的十分出色,不仅得到的文件没有发生任何错误,还能通过聚合酶链反应(PCR)复制得到大量的无错误副本。经过测算,这种DNA Fountain策略下,每个核苷酸可以存储1.57比特的数据,相比此前结果大幅度提升,整体存储量达到理论极限的86%(图3)。如果从重量角度来衡量,这种策略下存储密度最高可实现1克DNA存储21.5万TB的数据,这些数据量在目前需要数十万块大容量硬盘才能装下,比过去的记录提高了至少两个数量级。
加州大学洛杉矶分校的生物化学家Kosuri对这一结果给出了高度的评价,他认为这一研究有力证实了人们利用DNA作为存储介质来存储数据是完全可行的。
不过,DNA存储要想走向实用,依然还有关键问题没有解决。Erlich和Zielinski的实验中,合成DNA用来存储这仅仅2.14 MB数据就花费近7000美元,读取这些数据又另外花费了2000美元;而且,仅仅合成就花费了近两周的时间。想象一下,在电脑上点击一下“存储”按钮,十几天后才弹出提示框“保存成功!”,然后还提示需要缴费上千美元……
随着DNA合成、测序的成本不断下降,存储与读取的成本也会随之下降,但实现这一过程仍旧有很长的路要走。除此之外,相比于其它形式的数据存储,DNA的存储和读取速度相对较慢,该方法对于需要紧急处理的数据则不太奏效。为此,人们仍旧需要做出进一步努力来不断完善DNA的存储过程。
原文(扫描或长按二维码,识别后直达原文页面,或点此查看原文):
DNA Fountain enables a robust and efficient storage architecture
Science, 2017, 355, 950-954, DOI: 10.1126/science.aaj2038
部分内容编译自:
http://www.sciencemag.org/news/2017/03/dna-could-store-all-worlds-data-one-room
如果篇首注明了授权来源,任何转载需获得来源方的许可!如果篇首未特别注明出处,本文版权属于 X-MOL ( x-mol.com ), 未经许可,谢绝转载!