华大发布DNA存储评估平台 可针对不同类型文件进行编解码方法的择优方案输出
常见的存储介质磁带、光盘和硬盘等都是通过记录“0”“1”的信息来进行数据存储。在数据大爆炸的今天,现有存储容量已跟不上数据存储需求,DNA数据存储技术应运而生。通过生物技术与信息技术的融合,将DNA作为数字信息的载体。理论上,1kg的DNA就能储存全球的数据。
而把信息存进DNA的过程,核心一步就是把数据从二进制的010101“翻译”成DNA碱基序列的ATCG。针对这一步,国内外的科学家们先后开发了多种转码算法。图片、音频、视频、文本、程序、压缩包,文件多样,需求各异。而在不同的环境和需求下,不同的算法可能会影响编码和解码的准确性,目前还没有统一的评价体系和标准。那么,在实际应用中,哪种“译法”才是最优解呢?
近日,深圳华大生命科学研究院、深圳国家基因库研究团队在《合成生物学》杂志DNA存储专辑中发表了题为《Chamaeleo:DNA存储碱基编解码算法的可拓展集成与系统评估平台》的研究论文。研究团队开发的Chamaeleo平台通过集成现有的经典DNA存储编解码算法,设立相应的评价规则与评价参数,提供了高效的编解码平台,并构建了针对多种场景需求的参数评估与多维度评价体系,可针对不同类型文件进行编解码方法的择优方案输出。
《合成生物学》封面
DNA存储或将开启数据存储新未来
DNA分子作为一种颠覆性的新型信息存储介质,近年来备受关注。与常规存储介质如硬盘、光盘、磁带等相比,它在信息密度和维护成本等方面具有数量级上的显著优势。DNA信息存储从狭义上讲,是以线性碱基序列的形式,合成并保存编码任意数字信息的DNA分子;从广义上讲,意味着数字信息与生命信息的物理融合。
DNA存储的常规流程
随着DNA存储的支撑技术的不断完善,DNA存储在世界范围内获得了越来越多的关注与支持。2018年,美国国家标准技术研究所、国际半导体研究联盟、美国情报高级研究计划局等联合发布《半导体合成生物学路线图》;我国对该颠覆性新兴领域也非常重视,科技部亦早已开始对生物与信息融合技术进行调研,并于2021年发布了“十四五”国家重点研发计划“生物与信息融合(BT 与IT 融合)”重点专项2021 年度项目申报指南。
作为合成生物学的重要分支之一,DNA信息存储近年来涌现了许多研究成果,但由于其新兴领域的特点,尽管编解码方法百花齐放,尚未有统一的评价体系和标准。
Chamaeleo平台:DNA存储编解码与评估解决方案
Chamaeleo是一个DNA存储碱基编解码算法的可拓展集成与系统评估平台。“Chamaeleo”本意指“变色龙”,取变色龙可针对不同环境快速适应进行特征变换之义,旨在促进该领域的开发者进行协同开发,为应用端提供一个辅助的指导工具,以实现不同存储需求的应用。
1)集成6大算法,提供高效转码平台
Chamaeleo平台包含三个主要模块:转码模块、纠错模块和流程模块。除1种基准算法外,集成了5种现有经典算法Church(2012)、Goldman(2013)、Grass(2015)、Blawat(2016)、Erlich (2017),以及由深圳华大生命科学研究院、深圳国家基因库自主研发的“阴阳”(Yin-Yang)双编码算法,根据高聚合低耦合的方式,可满足不同需求下的定制化编码与解码。
纠错模块目前包含了 DNA 存储转码方案中最常用的两种纠错码——Hamming码和RS码,并实现了纠错码与校正序列信息两种功能的嵌入。
流程模块用于实际转码/评估任务的执行。转码模块中的转码算法、纠错模块中的纠错码都会通过实例化的方式,为流程模块中的具体流程所使用。
2)构建转码方案评估体系,按需推荐择优方案
Chamaeleo平台的评价体系集合了目前文献中已报道以及研究者关心的一些重要评价参数,通过预先设置不同格式和类型的测试文件,从基本效率、序列特征等方面对编解码算法给出相应评价。
Chamaeleo从四个层面对碱基编解码算法进行评估
进一步地,针对DNA信息存储主要应用于长期冷数据(无需频繁访问的数据)存储,碱基错误与序列丢失无可避免的问题,评价体系也将对编解码方案的稳健性进行评估。通过随机引入定量的碱基错误和序列丢失,再使用对应方案进行解码,Chamaeleo收集和计算所得的正确解码信息对原始信息的覆盖率,将其作为稳健性评估的指标。
Chamaeleo评估体系工作流程
3)开源运行、支持拓展,促进领域开放协作
Chamaeleo以开源方式运行,以便未来持续加载新的编解码方法和评价指标,促进该领域的开放交流。
Chamaeleo平台的建立,预计将促进领域内学者的交流以及新研究者的融入,有助于形成标准化的行业流程与评价指标,从而推动该领域规范、有序、快速发展。同时,该研究中首次提出基于图论的理论评估方法及 “特征”、“倾向性”等评价指标,旨在促进DNA存储整体评价体系的发展。
研究团队表示,期待在不久的将来,更多DNA存储领域的研究者将其独特的DNA存储转码方法嵌入Chamaeleo开源工具平台中,也希望能通过广泛的交流与讨论,形成更多有指导意义的评价指标和策略,推动DNA信息存储领域编解码方法理论体系的逐渐形成。
深圳华大生命科学研究院、深圳国家基因库研究团队自2017年起启动DNA存储研究,与国内外该领域多家专业性团队展开深度合作,聚焦于DNA存储的编解码方法、标准化可集成系统平台开发及规模化多场景应用示范等方向的研究探索。
除了DNA存储方向的研究,深圳华大生命科学研究院在合成生物学研究领域还取得了诸多突破性成果。其中,该研究院参与的国际协作组通过对酵母染色体从头设计与全合成,获得了与野生型酵母菌高度一致的人工合成酵母菌,相关成果2017年在《科学》(Science)杂志以封面、专刊形式同时发表了7篇论文。这是第一个人工合成的真核生物,也标志着合成生物学正开启着全新的时代。
研究团队目前也完成了新一代DNA合成仪的研制,建成国内首个自动化DNA合成平台。掌握高通量高性能自主知识产权合成仪研制能力并实现性能提升,标志着我国在合成生物学领域关键技术的重要突破,成为生命科学高端设备研发的又一重大进展。