当前位置 : X-MOL首页行业资讯 › 生物存储,DNA表示太能“装”

生物存储,DNA表示太能“装”

人们着眼于生物存储技术以前,磁盘、光盘等存储设备一直占据着存储市场的主体。1946年第一台电子数字计算机ENIAC的问世,标志着人类进入了一个崭新的信息革命时代。随着计算机磁存储设备的出现,信息的存储速度与容量日渐得到大幅度改善。一块铝制的圆片,表面涂上磁性介质,便可以在电磁效应作用下,通过一系列二进制字符串来完成存储与表达。而光盘作为光存储介质的代表,同样可以通过数字编码信息将其保存于光盘的表面凹槽中。这些设备一定程度上解决了大量信息的存储问题,然而它们存储能力的增长速度却远远跟不上人类创造新数据的速度。据报道,仅过去两年,人们创造的数据就比此前历史上的所有的数据加在一起还要多。随着数据量的飞速增长,人们迫切需要一种新的存储介质,它理应具有更高的信息存储密度从而节省存储空间,而且结构稳定,其中的数据日久经年也不会发生丢失。而要满足以上两点,似乎没有任何一种存储介质可以比得上DNA。

图1. DNA结构示意图。图片来源:Sergey Volkov / iStockphoto


DNA这一具有双螺旋结构的物质保存着物种的遗传信息,因此也可以看作是一种特殊的数据载体。将各种信息背后的大串1和0数据转换成DNA的四个基本核苷酸:腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T),就能实现信息的存储。理论上,DNA存储的信息密度比现有的磁盘或光盘存储技术高好几百万倍。而且DNA不会像磁盘和光盘那样随着时间的推移发生降解,保存得当的话可以经历成千上万年而不丢失一丁点数据。不要把这个想法当作天方夜谭,实际上,已经有科学家在尝试用DNA来存储数据了。哈佛大学遗传学家George Church等在2012年用DNA片段装下了一本5.2万字的书Science, 2012, 337, 1628);微软的工程师和美国华盛顿大学的科学家在2016年用DNA存储数码图片(点击阅读相关)。


然而DNA存储数据现阶段在实际应用中还存在诸多困难。最直接的问题是成本,DNA进行编码存储和读取的过程十分昂贵,商业化应用还需从长计议。另一方面,现有的编码方案效率较低,DNA的实际存储能力仅实现了约理论值的一半,且在读取数据进行检索时常常发生数据遗失,稳定性并不理想。近日,纽约基因组研究中心Yaniv ErlichDina Zielinski在这方面的研究取得了进一步突破,他们在Science报道了一种可靠高效的DNA存储策略——DNA Fountain,大幅提升DNA的存储能力,接近其理论极限(图2)。

图2. 不同科学家在DNA存储方面的努力。图片来源:Science


DNA具有A、T、G、C四种核苷酸,理想状态下,每个核苷酸的信息存储量可以达到2个比特(1字节=8比特),但考虑到存储中的读写错误以及额外的索引信息等等因素,科学家估计实际情况下DNA存储的理论容量是1.8比特/核苷酸,而目前为止最好的结果是1.14比特/核苷酸Angew. Chem. Int. Ed., 2015, 54, 2552-2555)


Erlich和Zielinski相信他们可以更接近上述DNA存储能力的理论极限。他们找了六个数据文件作为样品,包括一个完整的计算机操作系统、一个计算机病毒、一部电影等,共2.14 MB(图3A),并将这些文件转换为0和1的二进制字符串,再压缩成一个主文件,然后将这些数据拆分为二进制代码的短字符串。他们还使用“喷泉码”(fountain codes)设计了一种“DNA Fountain”算法(图4),将这些短字符串随机地打包成所谓的云滴,进行额外的标记后,以正确的顺序进行重新组合,最终得到了72,000个DNA链的数字列表,每个链包含200个碱基(图3B)。

图3. DNA存储的实验过程。图片来源:Science


图4. DNA Fountain编码策略。图片来源:Science


Yaniv Erlich又将这些列表发送给Twist Bioscience中心,根据碱基的顺序合成DNA链。收到合成样品后,他们利用现代DNA测序技术,将测序结果输入计算机中,并根据此前设定的编码方式解码得到二进制数据,随后根据标记重新组装成六个原始的数据文件。他们发现这种方法表现的十分出色,不仅得到的文件没有发生任何错误,还能通过聚合酶链反应(PCR)复制得到大量的无错误副本。经过测算,这种DNA Fountain策略下,每个核苷酸可以存储1.57比特的数据,相比此前结果大幅度提升,整体存储量达到理论极限的86%(图3)。如果从重量角度来衡量,这种策略下存储密度最高可实现1克DNA存储21.5万TB的数据,这些数据量在目前需要数十万块大容量硬盘才能装下,比过去的记录提高了至少两个数量级。


加州大学洛杉矶分校的生物化学家Kosuri对这一结果给出了高度的评价,他认为这一研究有力证实了人们利用DNA作为存储介质来存储数据是完全可行的。


不过,DNA存储要想走向实用,依然还有关键问题没有解决。ErlichZielinski的实验中,合成DNA用来存储这仅仅2.14 MB数据就花费近7000美元,读取这些数据又另外花费了2000美元;而且,仅仅合成就花费了近两周的时间。想象一下,在电脑上点击一下“存储”按钮,十几天后才弹出提示框“保存成功!”,然后还提示需要缴费上千美元……


随着DNA合成、测序的成本不断下降,存储与读取的成本也会随之下降,但实现这一过程仍旧有很长的路要走。除此之外,相比于其它形式的数据存储,DNA的存储和读取速度相对较慢,该方法对于需要紧急处理的数据则不太奏效。为此,人们仍旧需要做出进一步努力来不断完善DNA的存储过程。


原文(扫描或长按二维码,识别后直达原文页面,或点此查看原文):

DNA Fountain enables a robust and efficient storage architecture

Science, 2017, 355, 950-954, DOI: 10.1126/science.aaj2038


部分内容编译自:

http://www.sciencemag.org/news/2017/03/dna-could-store-all-worlds-data-one-room


如果篇首注明了授权来源,任何转载需获得来源方的许可!如果篇首未特别注明出处,本文版权属于 X-MOLx-mol.com ), 未经许可,谢绝转载!

阿拉丁
分享您的投稿习惯
经济学SSCI期刊
英语语言编辑翻译加编辑新
加速出版服务新
1212购书送好礼
Springer旗下全新催化方向高质新刊
动物学生物学
系统生物学合成生物学
专注于基础生命科学与临床研究的交叉领域
传播分子、细胞和发育生物学领域的重大发现
聚焦分子细胞和生物体生物学
图书出版流程
快速找到合适的投稿机会
热点论文一站获取
定位全球科研英才
中国图象图形学学会合作刊
南科大
上海交大
多伦多
新加坡
上海师范
清华大学
福州大学
兰州化物所
南京大学
厦门大学
ACS材料视界
down
wechat
bug