考研网

中国科学院上海生命科学研究院(中国科学院上海生命科学研究院植物生理生态研究所)

中国科学院上海生命科学研究院,中国科学院上海生命科学研究院植物生理生态研究所

先一步看见生命经济未来

大咖论健

全球数据存储需求量大幅增长,目前储存媒介已无法满足,DNA存储成为最有可能解决存储难题的新型技术之一。基因慧特邀深圳华大生命科学研究院平质博士参与《大咖论健》栏目,与读者分享DNA存储的核心技术及产业展望等见解,详见下文深度对话。

文章 | 基因慧 编辑 | Kathy 审核 | Mark

关键词 | DNA存储;DNA编码算法;DNA合成


划重点

1. DNA存储可以降低超大量数据的存储成本和维护成本;

2. 利用信息学方法进行DNA存储中的随机读取、模糊检索和信息修改等操作,不需要每次都重新合成DNA,还能避免损坏原始样本,降低成本;

3. DNA编码算法的约束条件包括:避免DNA序列中GC含量过高或过低、以及单碱基重复,还应避免形成DNA二级结构等;

4. DNA编码算法应该保证信息存储密度、兼容性和数据恢复稳定性;

5. DNA合成主要方法为化学合成法,目前酶促合成法尚未成熟;

6. DNA存储商业化的突破口在于DNA合成,目前DNA合成成本与效率仍需优化。

DNA存储简析

01

基因慧:有人说DNA存储是真正的生物信息,即BT和IT的真正融合,您怎么理解?它和过往人们对于生物信息学(Bioinformatics)的认知有哪些不同呢?

平质博士:传统生物信息学本质上是数据科学,利用信息学方法,研究生物学中获取的大量数据,属于数据驱动的研究方向。而DNA存储属于用生物学的方法解决信息学的问题,所以“DNA存储是真正的生物信息”这个说法有一定道理。


图1 DNA存储发展历程(来源/华大研究院)

02

基因慧:我们知道DNA存储依赖测序、合成及存储,华大在各自板块都有深入研究和部分产业化,对于三个版块之间的相互影响和发展阶段,可否谈谈?

平质博士:在DNA存储过程中,有时需要读取DNA序列上的信息,可能还会涉及到数据的修改,随后重构DNA序列、再次进行存储,因此,这三个版块其实是一个循环。

合成方面,华大拥有自主研发的高通量DNA合成设备;存储方面,深圳国家基因库可以存储大量DNA样本和数据;测序方面,华大的测序设备可以满足各种通量和不同效率的测序需求。


图2 DNA存储流程(来源/华大研究院)

03

基因慧:DNA存储在国内研发起步还很早,据说您和北京大学、天津大学、哈佛大学等院士级科研团队都有过深入合作,发表了很多专利,可否介绍下这些成果以及它们对DNA存储的影响?

平质博士:在DNA存储的研究早期,研究会更侧重于开发与现有DNA合成以及测序技术更兼容的编码方法。目前的DNA编码方法都有其局限性,例如信息存储密度低、解码恢复不稳定等。深圳华大生命科学研究院自2016开始进行DNA存储的研究,重点关注的也是编码算法的这些局限性,并研发出了Yin-Yang双编码算法。

同时,我们正在研究能否利用信息学工具解决DNA存储中的功能性问题。DNA数据在长期存储过程中,需要进行随机读取、模糊检索和信息修改等操作,读取数据库所有信息会花费大量时间;而常规测序技术需要将信息完全读取,才能进行解码等后续操作。目前已发表的研究成果主要是利用分子生物学工具解决这些问题,效率低、准确性不高,可能会损坏原始样本。

从数据层面、利用信息学工具处理这些问题的优势在于,修改完信息后,不需要每次都重新合成DNA,避免损坏原始样本,而且成本会更低。我们也会研究如何提升测序效率,例如采用单分子测序技术,或者测序过程中,边测序边解码,通过先解码一部分数据,完成“半即时”的数据读取等。

此外,我们还申请了DNA合成的一项专利,旨在提升效率、降低成本。在DNA存储过程中,常规的DNA合成方式采用的是木板印刷原理,需要存储数据时再大量合成DNA;我们的专利采用了活字印刷原理,即提前合成DNA小元件,需要存储数据时,再找出对应元件,完成拼接,形成所需的DNA序列。

DNA存储核心技术——DNA编码算法

04

基因慧:回到您的专业领域,在开发DNA编码算法的过程中,相比一般分析算法,有哪些需要特别考虑的约束条件(例如生化约束等)呢?

平质博士:首先,DNA编码算法需要兼容后续的DNA合成及测序技术,例如,过长的DNA序列无法合成和测序。编码算法的约束条件包括:避免DNA序列的GC含量过高或过低、以及单碱基重复,此外,合成的DNA序列需要进行建库扩增等分子生物学操作,因此,合成的DNA序列不具有稳定的二级结构也是约束条件之一。

第二点是,DNA数据长期存储时可能会产生碱基突变、序列丢失等情况,需要纠错,信息学上的常规方法是利用纠错编码保护数据,从物理层面,也可以将分子拷贝数增高,降低错误率。

今后,在DNA存储研发过程中还需要关注的是,DNA存储正由纯编解码往功能模块实现的方向发展,若在活细胞中进行DNA存储,合成的DNA序列是否会影响活细胞的正常生理功能,活细胞中的酶是否会降解或部分降解合成的DNA序列,都是需要考虑的因素。目前,对于DNA自组装、DNA折纸等技术的研究也正逐渐深入,我们也在考虑是否可以将这些技术应用到DNA存储中。

05

基因慧:能否简单介绍一下常见的DNA编码算法?

平质博士:常见的DNA编码算法有Goldman编码算法、DNA Fountain编码算法等,华大也有自研的Yin-Yang双编码算法。

Goldman编码算法将信息学知识用于DNA存储,引入霍夫曼三叉树概念,将二进制序列转为三进制序列,再转为DNA序列,这种方法的优点是转码后的序列一定不会出现2个或以上的单碱基重复。

DNA Fountain编码算法开创性地将信息学中的喷泉码工具用于DNA存储中,并引入了条件过滤机制,在提升信息密度的同时保证了生成出的序列符合合成与测序的要求。

华大Yin-Yang双编码算法基于某种选中的规则簇(共计6144种),基于“阴”和“阳”两种轮转规则,将两条二进制子序列转换为一条DNA序列,在保证信息存储密度的同时,与合成测序技术的兼容性好,且数据恢复稳定。


图3 华大Yin-Yang双编码算法原理(来源/华大研究院)

06

基因慧:华大Yin-Yang双编码算法的命名很有意思,契合中国文化,它重点解决了哪方面的问题,在整个DNA存储系统中会发挥怎样的作用?

平质博士:华大Yin-Yang双编码算法的研发思路,来源于DNA的双链结构。由于自然界中大部分DNA都是双链结构,我们也在思考,是否可以利用两条二进制序列生成一条DNA序列。参考Goldman编码算法和DNA Fountain编码算法后发现,这个思路是可行的,于是在此基础上研发出了Yin-Yang双编码算法。

它的优势在于,在保证信息存储密度的同时,兼容性好,且数据恢复稳定,原始信息的码元不需要保证平均分布状态。利用Yin-Yang双编码算法,有利于DNA存储后续步骤的顺利进行。

DNA存储核心技术——DNA合成

07

基因慧:目前,DNA合成的成本仍是一大痛点,您对此乐观吗?解决成本问题、实现DNA存储可及的关键点是什么?

平质博士:DNA合成成本下降是必然的。

IT行业的发展遵循摩尔定律;而测序技术则是基于摩尔定律、又打破了摩尔定律。所以我认为,DNA合成也会遵循摩尔定律,甚至往打破摩尔定律的方向发展

对于现有的化学合成法,解决成本问题的关键在于试剂能否实现国产化替代,以及能否利用工程学方法降低试剂用量,从而控制成本。此外,酶促合成法是否能进一步降低成本、提高效率,也是值得关注的方向之一。

在DNA存储过程中,若降低对DNA合成错误率的要求,就可以降低成本,随后可以在DNA存储的后续步骤中纠正错误率,但这样做也会导致信息存储密度降低,所以需要多次探索,在两者间达到平衡。

08

基因慧:回到技术上,DNA合成包括化学合成、酶促合成等不同方法,目前的合成方法有哪些特点?

平质博士:传统DNA合成采用的是化学合成原理,即利用固相载体,通过化学循环反应(一般为亚磷酰胺四步合成法),将碱基单体按既定顺序依次连接起来形成单链DNA。该方法经历了近五十年的发展,成熟度高,反应效率稳定。当然,也有其局限性,比如合成效率难以进一步提升实验室环境要求严格以及试剂毒性可能对环境造成影响等。

酶促合成法是近年来提出的新型DNA合成方法,同样是将碱基单体按既定顺序依次连接起来,但反应是在酶催化下完成的,目前还处于发展早期阶段,有待大量的优化与完善。

表1 常见DNA合成法的对比


09

基因慧:相关专家曾提出不依赖合成完成DNA数据存储,您觉得这个思路落地可能性有多大?

平质博士:在DNA数据存储的过程中,降低对DNA合成的依赖是具有一定可行性的,可以利用一些信息学方式降低DNA合成量,例如图像存储,可以先压缩需要存储的图像,DNA合成量也会随之降低,读取信息时再通过图像增强技术,达到高还原的恢复效果。

DNA存储的展望

10

基因慧:从目前(2022年1月)往后看,多少年后DNA存储可以实现商业化或者规模化应用?

平质博士:我认为未来5至10年左右,DNA存储有可能实现商业化或规模化应用。

2020年DNA存储联盟成立,标志着产业内的头部企业已开始关注DNA存储技术,必然会投入大量资源,推动技术发展;此外,许多数据公司、云计算公司等也非常关注数据存储的效率和新型存储介质的研发。而从国家层面来看,中国、美国和欧洲已经把DNA存储列入战略研究方向。

DNA存储实现商业化的突破口在于DNA合成,因为目前DNA合成的成本和效率与DNA测序有较大差距。当研发出更多高通量和低成本的DNA合成技术后,会更好地推动DNA存储的商业化进程。

11

基因慧:让我们畅想一下,未来DNA存储技术成熟后,最可能的应用领域有哪些?

平质博士:DNA存储的应用场景主要还是超大量数据的长期存储,因为信息存储速度最快的是光电等物理方法,生化方法的存储效率远低于物理储存方法,所以,对于不需要频繁读取信息的冷数据存储来说,DNA是非常合适的存储介质,利用DNA存储可以降低超大量数据的存储成本和维护成本

我认为未来可能会是一个“三步走”模式:首先,利用DNA存储技术进行冷数据存储;其次,开设专门储存温数据的数据中心;最后,从温数据存储中心中抓取所需数据,并经过云存储等热存储方式传输到用户终端。

12

基因慧:在这些技术路径和应用展望中,华大在DNA存储领域可能会做什么,推动行业发展?

平质博士:华大在DNA存储的编解码、合成、存储和测序这4个核心技术都有自主专利,已初步实现自主的技术闭环,未来的研发方向将会是提升合成和测序效率,降低合成和测序成本,并将DNA存储的技术闭环结合成一个集成化系统。

同时,我们会研究DNA存储系统的功能模块,例如信息的增加、删除、修改、查询和加密等。此外,华大还会推动DNA存储行业标准化,并对DNA存储进行应用示范,例如大批量数据的灾备存储、DNA存储与现有存储设备稳定性的对比等,让大众充分了解DNA存储的颠覆性优势。

13

基因慧:数据设备公司在DNA存储技术研发以及商业化的过程中扮演着怎样的角色?

平质博士:数据设备公司(例如西部数据)可能会从现有存储设备的角度出发,提出存储架构、存储方案设计等方面的思路,有利于推动DNA存储技术的发展。

14

基因慧:感谢您接受基因慧的专访,最后您有什么想补充的,或者对基因慧数万读者说的呢?

平质博士:DNA存储是一门多学科交叉的技术,生物学、信息学、数学、计算机、材料、物理等学科的研究人才,都有机会加入DNA存储的研究当中,希望各学科的科研人才能够集思广益,推动DNA存储技术发展,造福社会。

声明:以上文章,仅代表个人观点,仅供研究参考,不作为投融资及医疗等决策依据;知识版权属于基因慧,公众号以及机构转载请征得基因慧书面同意。


临床篇 | /王若光 | | | | | | | | | | | |

产业篇 | 丨 | | | | | | | | | | |

科研篇 | | | | | | | | | |

【声明】为了服务基因及数字生命健康科技推广、产业创新及产学研用连接,基因慧秉持专业、赋能、中立的立场收集、分析、发布信息或专家见解。但由于时效性及行业特殊性,所刊登内容仅供研究参考,不作为决策依据;本文相关信息不代表基因慧的观点;基因慧平台刊登的原创内容的知识产权为“基因慧”商标拥有者及相关权利人所有;欢迎转载,转载请申请并注明来源。欢迎个人及机构投稿及合作。

关于我们

基因慧是一家数字生命健康产业创新服务平台,创立于 2016 年。创始团队深耕行业十余年,创建了产业信息数字化平台YourMap ® ,为政府、研究机构及企业提供产业咨询及科技推广服务,践行“使连接产生价值,用数据看见未来”的理念,与90%知名基因机构建立了合作,逐步拓展生命科技及产业创新服务。

☆ 中国遗传学会生物产业促进委员会委员

☆ 参与组织机构发布多项和

☆ 连续四年发布基因行业蓝皮书

☆ 组织基因检测联盟(筹)、

☆ 主办、

☆ 受邀为、、、等作报告

☆ 广东省精准医学应用学会政策研究应用分会常委

使连接产生价值

用数据看见未来

中国科学院上海生命科学研究院(中国科学院上海生命科学研究院植物生理生态研究所)
赞 ()
分享到:更多 ()
留言与评论(共有 0 条评论)
   
验证码: