您的位置:首页 >科技 >

微软和华盛顿大学演示了自动DNA数据存储

2019-12-03 16:40:42来源:

DNA数据存储有望将大量信息放入试管中,但谁愿意整天带着试管在数据中心里转呢?

来自微软和华盛顿大学的研究人员正在研究一种更好的方法:一种完全自动化的系统,它可以将数字位转换成编码的DNA分子进行存储,并在需要时将这些分子转换回位。

他们使用他们的概念证明系统,在今天发表在《自然科学报告》上的一篇论文中,将“你好”这个词编码在DNA链中,然后读出它。这听起来似乎是一个非常简单的任务,但它却证明了这个系统是有效的。

“我们确信,DNA分子是很好的数据存储候选对象。但我们本质上是计算机建筑师。华盛顿大学保罗·g·艾伦计算机科学与工程学院的教授路易斯·塞兹告诉GeekWire。“让我们兴奋的是,这是向展示一个有分子成分和电子成分的计算机系统迈出的一步。”

DNA数据存储机制类似于细胞中的DNA编码遗传信息的方式:使用电子1和0,而是将数据转换为DNA碱基对的编码系统,使用的化学“字母”腺嘌呤,胞嘧啶,鸟嘌呤和胸腺嘧啶(A、C、G、T)。“你好,”例如,可以编码到化学TCAACATGATGAGTA字符串。

需要注意的是,这种定制的分子在基因上没有任何作用。相反,该系统仅仅使用DNA中的化学物质作为密码。

“没有细胞,没有生物体,”微软首席研究员卡琳·施特劳斯说。

该方法极大地提高了数据存储的密度。从理论上讲,你可以在一立方英寸的DNA中存储十亿亿亿字节的数据(即艾字节),Strauss说。

在过去的实验中,微软和华盛顿大学的研究小组用DNA来编码文件,从历史文本到猫的图片,再到高清的OK Go音乐视频。华盛顿大学的分子信息系统实验室甚至有一个“DNA中的记忆”网站,你可以上传自己的DNA存储文件。

但这项工作需要很多手工步骤来弄清楚代码,发送指令让分子合成,等待DNA从邮件中返回,然后进行实验。因为涉及到太多的处理,所以有很多出错的机会。在商业环境中根本飞不起来。

“你不能让一群人拿着移液管在数据中心里跑来跑去——这太容易发生人为错误,代价太大,占用的空间也太大,”该研究的主要作者、艾伦商学院的高级研究科学家克里斯·高桥在微软的一篇博客文章中解释道。这就是为什么自动化系统很重要。

该系统的软件将数字代码转换成DNA代码。然后,这些代码被自动发送到合成器,合成器以正确的顺序和比例将所需的化学物质和液体结合起来,然后将定制的DNA分子吐到存储容器中。

为了读出数据,DNA被引入一个添加化学物质的装置,并将其推入一个纳米孔DNA测序机。序列被自动转换成数字数据的1和0。

Ceze说这个过程仍然需要12到16个小时,但是经过的时间并不是这个实验的重点。相反,关键是要表明一个自动化系统可以从开始到结束可靠地完成工作。

微软和华盛顿大学的团队还创造了一个可编程系统,可以在一个名为“紫滴”的数字微流控设备上移动液滴。该操作系统被称为Puddle,可以用来为微流体系统发出命令,就像Linux等更传统的操作系统可以为电子计算系统发出命令一样。

这是一个水坑的代码样本:

“这个系统的伟大之处在于,如果我们想用新的、更好的或更快的东西来替换其中的一部分,我们可以直接把它插进去,”微软研究员Bichlien Nguyen说。

最终,下一代DNA数据存储系统将与PurpleDrop等设备和Puddle等软件相结合,创造一个基于微流体而非电子的计算机环境。Ceze说,这可能会导致混合计算机系统,将电子计算的处理能力与DNA的数据存储密度混合在一起。

他说:“我们的目标是将分子应用于拥有大量数据的应用中。”“我们正在探索的计算方式是模式匹配和近似搜索。如果你有大量的图片和视频,你怎么找到相似的图片,你怎么找到相似的视频?”

Ceze和他的同事已经演示了基于dna的计算如何在巨大的数据库中“搜索”匹配给定查询的图像。这种能力是五角大楼的国防高级研究计划局(DARPA)非常感兴趣开发的。

同样在本周,加州理工学院(Caltech)和加州大学戴维斯分校(University of California at Davis)的研究人员发表了一篇论文,描述了一个使用自组装DNA分子来运行算法的数据处理系统。“这非常有趣,”Ceze说。“它允许你在分子尺度上进行计算……但它实际上并不是处理大量数据,而这正是我们的目标。”

基于dna的计算机系统不太可能很快出现在百思买。

“我们真的很想把它部署到云端。我们看到的情况是,用使用分子数据存储和分子数据搜索的系统组件取代位于数据中心的大型系统的一部分。

Strauss不愿意预测将DNA添加到微软Azure需要多长时间,但她相信微软和UW将尽一切努力把实验变成产品。

“我们这里有一个非常特别的团队,”她说。“我们非常幸运,处在一个人们愿意押注和创新的环境中。”

Takahashi, Nguyen, Strauss和Ceze是《自然科学报告》中开放获取研究的合著者,“DNA数据存储端到端的自动化演示”。

太平洋时间3月21日上午11点21分更新:我们修改了这份报告,以更准确地反映用于DNA存储的理论数据密度估计数,并修改了研究论文中描述的用于实验的软件参考。