大游中国股份有限公司-BG大游官方网站-DNA存储纠错编码技术专家

用于DNA数据存储的方法和系统与流程

作者:小编 日期:Jul.11.2025 点击数:  

  本申请要求对于美国临时专利申请序列no.62/444,656(2017年1月10日提交,名称为“用于dna数据存储的方法、设备和系统”)和美国临时专利申请序列no.62/547,692(2017年8月18日提交,名称为“用于dna数据存储的分子电子传感器”)的优先权和权益,上述文献的公开内容在此通过引用全文并入本文。

  本公开内容整体涉及电子数据存储和取回,更特别地涉及一种dna(脱氧核糖核酸)信息存储和取回系统,包括:用于读出dna序列的分子传感器、和用于dna序列二进制转换的编码器/解码器算法。

  20世纪数字计算机的到来形成对大量数字或二进制数据档案存储的需要。档案存储意在长期装容数据,例如几年、几十年或更长时间,采取成本极低且支持再次访问数据的稀少需要的方式。虽然档案存储系统的特征可以是能够以极低成本保持无限量数据,例如通过能够长期维持休眠的物理存储介质实现,不过这种系统中的数据写入和恢复可能相对较慢或者在其他方面处理成本高。目前已经开发出的档案数字数据存储的主流形式包括:磁带,和更近的光盘(cd)。不过,随着数据产生增长,需要更高密度、更低成本、更长持续时间的档案数字数据存储系统。

  已发现,在生物学中,活体基因组dna用作数字信息档案存储的形式。在物种存在的时间规模上(可延续几千至几百万年),基因组dna实际上存储了限定物种的基因生物信息。在生物学、物种繁殖和生存中实施的复杂的酶生物化学过程提供了写入、读出和保持这种信息档案的手段。此发现激发如下思路:dna的基本信息存储能力可用作更通用形式的数字信息的高密度、长时间档案存储的基础。

  dna用于信息存储的吸引力在于:由于分子规模的信息存储产生极高信息密度。在理论上,例如,目前记录的所有人类产生的数字信息估计约为1zb(泽字节)(~1021字节),可记录在少于1022个dna碱基(或1摩尔dna碱基的1/60)中,其将具有仅10克的质量。除了高数据密度以外,dna还是非常稳定的分子,其可易于持续数千年而没有实质损坏,并可能可持续更长时间,几千年或甚至几百万年,例如天然观察到的在冻土中冻结的或在琥珀中包封的dna。

  在各种实施例中,公开一种信息存储系统。在各个方案中,该系统包括:dna读出装置,数字数据编码/解码算法,dna写入装置,其中这三种元件的性能共同优化以最小化或减小各种成本指标和增强整体系统性能。在各个方案中,共同优化可包括:通过平衡、避免或校正dna读出和写入错误而减少系统错误率。在其他情况下,共同优化可包括:减少系统中的dna读出或写入时间,例如通过避免使用较慢速度的dna序列基序、和/或通过使用错误校正/避免以补偿由于系统快速操作导致的错误而实现。

  在本公开内容的各个实施例中,设置dna数据读出器用于dna数据存储系统中。特别地,设置分子传感器,其可提取被适合编码到单个dna分子内的数字信息。在特定方案中,这样的传感器可为基于高密度芯片的格式,可提供大规模dna数据存储系统所需的高输出、低成本、快速数据提取能力。在各个示例中,用于读出dna分子中存储数字数据的传感器直接处理各个编码dna分子,使得不需要复杂的样本制备,例如制造dna拷贝或克隆种群。在系统的各个方案中,数据直接存储在合成dna或dna类似物(通过有益于数字数据存储的特征合成,不能通过标准的dna拷贝方法复制)中。

  在dna数据存储系统的各个实施例中,恢复的数据可存储于天然dna中,此外还可存储于多种不同的dna类似物或修饰dna分子中,这提供更多数据写入系统的选择和更有效的数据存储系统。在系统的各个方案中,提取被编码在dna分子中的信息所需的时间较短,例如,在数秒的量级,基本上能够实现对于数据恢复的短周转时间。在各个方案中,系统可对大范围的dna分子长度良好执行,例如从短至几十个碱基至几百个碱基、几千个碱基、和大于几万个碱基。这种能力对于dna写入/合成技术的选择提供了更大的适应性,且不需要在在读出之前进一步制备dna样本以满足读出数字信息的长度限制。

  在本公开内容的各个方案中,用于dna序列读出的分子传感器可采用高度可扩充的、低成本、cmos芯片格式,从而提供高效的批量化制造、和低成本系统和设施、和读出dna中存储数字数据的总体低成本。在各个方案中,从dna数据中读出艾字节规模数字数据所需的系统和装置非常紧凑且能量高效,以支持本地牢靠部署在现场数据中心和支持高可扩充的基于云的档案数据存储服务。

  在各个方案中,根据本公开内容读出dna中存储的数据,在性能、速度、产量和成本上优于读出传统档案存储格式(例如磁带或光盘)中存档的数据。本dna数据存储系统的优点是:提供用于dna数字数据存储系统的实现技术,能够实现实用的艾字节规模存储和泽字节规模存储。

  在各种实施例中,dna档案存储系统的dna写入装置包括:cmos芯片,其进一步包括分子电子传感器装置。在其他的情况下,dna写入装置是cmos芯片,其包括在像素电极上的电压/电流引导的合成部位。

  在各种实施例中,施加于dna存储档案系统的档案操作的各方面,例如,在分子生物学进程中的拷贝、附加、目标删除、目标读出、和检索,在此公开。

  在各种实施例中,一种信息存储系统包括:写入装置,用于合成对成组信息编码的核苷酸序列;读出装置,用于解读该核苷酸序列,通过将该解读的核苷酸序列解码为该成组信息实现;其中,该读出装置包括:分子电子传感器,该传感器包括:一对分开的电极和附接到每个电极的分子复合物以形成分子电子电路,其中,该分子复合物包括桥联分子和探针分子;其中,该分子电子传感器产生当解读该核苷酸序列时在该分子电子传感器的可测的电参数中的能够辨别的信号。

  在各个方案中,该成组信息包括二进制数据。在特定方案中,该核苷酸序列包括dna序列。例如,系统提供dna分子形式的二进制数据存储,并在希望取回时提供存档数据的提取。

  在各种实施例中,系统进一步包括:在该dna序列内的错误探测方案或错误校正方案中的至少一种。在特定方案中,该错误探测方案选自:重复码、校验位、校验和、循环冗余校验、加密散列函数、汉明码;该错误校正方案选自:自动重传请求、卷积码、分组码、混合自动重传请求、里德所罗门码。

  在各种实施例中,系统的该写入装置包括用于dna合成的致动器像素的基于互补金属氧化物半导体(cmos)芯片的阵列,该致动器像素引导包括亚磷酰胺或连接化学的dna合成反应内的电压/电流或光调解的脱保护。

  在各种实施例中,该探针分子包括聚合酶,其中该传感器的该可测的电参数通过该聚合酶的酶活性调制。聚合酶可以包括:天然聚合酶或基因工程聚合酶,选自klenow、phi29、taq、bst、t7,或逆转录酶。

  在各种实施例中,系统的该读出装置进一步包括:缓冲溶液、用于测量该可测电参数的操作参数、和dna模板分子的两个或更多个序列区段,该序列区段当以该多聚酶处理时在通过该缓冲溶液和该操作参数提供的条件下执行时产生在该可测电参数中的能够辨别的信号。在特定方案中,该缓冲溶液包括:修饰脱氧核糖核苷酸三磷酸(dntp)。在各个方案中,该dna模板分子的产生该能够辨别的信号的该序列区段包括以下中的任一项或不同项的组合:dna碱基,修饰dna碱基,dna碱基类似物,多碱基序列或基序,或者dna碱基的均聚物类组。

  在各种实施例中,该传感器的该可测电参数包括:在分开的电极之间而且通过该分子复合物的源漏电流。该分子电子传感器可以是cmos传感器阵列芯片的一部分,其中该cmos传感器阵列芯片进一步包括多个分子电子传感器并支持执行该可测电参数的测量的像素电路。

  在各种实施例中,该分子电子传感器进一步包括:栅电极,其邻近于该分开的电极。在各个方案中,系统中的传感器的该桥联分子包括:双链dna齐聚物、蛋白质阿尔法螺旋、石墨烯纳米带、碳纳米管、抗体、或抗体的fab臂。

  在各种实施例中,公开一种解读在核苷酸序列中编码的成组信息的方法。该方法包括:将该核苷酸序列供应到分子电子传感器,该分子电子传感器能够产生相关于该成组信息的、在该分子电子传感器的可测的电参数中的能够辨别的信号;生成该能够辨别的信号;将该能够辨别的信号转换为该成组信息;其中,该分子电子传感器包括一对分开的电极和附接到每个电极的分子复合物以形成分子电子电路,其中,该分子复合物包括桥联分子和探针分子。在各个方案中,该成组信息包括二进制数据。在特定方案中,该核苷酸序列包括:dna序列。

  在各种实施例中,公开一种将成组信息编码到核苷酸序列中的方法。该方法包括:提供成组信息;将该成组信息转换为一个或多个预定核苷酸,该预定核苷酸能够使用编码方案产生在分子电子传感器的可测电参数中的能够辨别的信号;将该一个或多个核苷酸组装到该核苷酸序列中。在各个方案中,能够产生能够辨别的信号的该一个或多个预定核苷酸包括:与相同核苷酸的变体相比抵制次级结构形态的核苷酸。

  在各种实施例中,转换该成组信息到核苷酸序列中包括:使用二进制编码方案(在此表示为bes)。在各个示例中,该bes包括:bes1、bes2、bes3、bes4、bes5、bes6中的任意一种或多种。

  在各种实施例中,该方法中的该分子电子传感器包括一对分开的电极和附接到每个电极的分子复合物以形成分子电子电路,其中,该分子复合物包括桥联分子和探针分子;其中,该分子电子传感器产生当解读该核苷酸序列时在该分子电子传感器的可测的电参数中的能够辨别的信号。在各个方案中,该方法中的该成组信息包括二进制数据。

  图3通过示意性显示出完美过程针对在读出和写入dna时引入错误的过程而例示出对错误补偿的需要;

  图10a例示出传感相互作用分子与传感器分子复合物相互作用的分子电子传感电路的基本思路;

  图10b例示出基于多聚酶的分子传感器的实施例,用作用于编码到合成dna分子中的数据的读出器;

  图11例示出图10b的基于多聚酶的传感器的实施例,其中,多聚酶轭合到跨越各电极的桥联分子;

  图12例示出传感器电路的实施例,其中,多聚酶直接轭合到电流路径中,其中,两个臂分子提供与电极的连接;

  图13例示出传感器的实施例,其中,多聚酶直接轭合到电极,而没有臂或桥联分子;

  图14显示出一个特定多聚酶分子i.多聚酶i的克列诺片段)的三维详细蛋白质结构;

  图15例示出分子电子传感器的实施例,其中e.coli.多聚酶i的克列诺片段轭合到跨越各电极之间间隙的桥联分子;

  图16例示出分子电子传感器的实施例,其中e.coli.多聚酶i的克列诺片段通过使用两个臂分子将多聚酶联结到电极而直接轭合到电流路径中;

  图17例示出分子电子传感器的实施例,其中e.coli.多聚酶i的克列诺片段直接轭合到电流路径中且直接轭合到金属电极,而没有臂或桥联分子;

  图18例示出分子传感器的实施例,其在本发明的dna数据存储系统的各方面中可用作dna读出装置;

  图19例示出检测设施的示意图,其用于在分子传感器上对dna序列进行电测量,包括后处理到cmos(互补金属氧化物半导体)像素阵列的像素上的分子传感器;

  图20提供电极的三个电子显微(em)图像(以递增的分辨率),其中,金属金点接触部用于桥接在传感器中;

  图21显示出通过以图18的传感器测量dna包含信号而获得的电流(pa)-时间(秒)图线例示出当多聚酶处理模板dna(包括修饰dntp)时使用修饰dntp从每个碱基产生增强信号,在此情况下产生四个能够辨别的信号特征;

  图23例示出使用两个修饰dntp(在此为修饰datp(a*)和dctp(c*))产生两个能够辨别的包含信号,这样提供将二进制位0/1编码到模板dna中的方式;

  图24例示出使用两个不同序列基序(在此为均聚物aa和ccc)产生两个能够辨别的信号,这样提供将二进制位0/1编码到模板dna中的方式。在这种情况下,aa和ccc通过两个能够辨别的序列基序,可用于信息编码和恢复。这样,即使没有dna序列的单个碱基解决方案,可用的信息编码和读出通过可替代地依照能够辨别的序列基序也是可行的。

  图25显示出通过图18的传感器的实施例产生的实际实验数据,其中聚a和聚c的特定序列基序产生可用于编码0/1二进制数据的能够辨别的信号;

  图26a例示出使用两个不同序列基序gatt和aca产生两个能够辨别的信号,提供一种方法将二进制位0/1编码到模板dna中;

  图26b例示出使用三个不同序列基序(在此为gatt、aca、agg)产生三个能够辨别的信号,这样提供以三状态编码对数字数据编码的方式;

  图26c例示的实施例中,当由具有标准dntp的多聚酶处理时,编码dna通过碱基类似物(标准修饰碱基x和y)合成以产生两个能够辨别的信号,这提供以两状态编码对数字数据编码的方式(bes4),例如如图17中所示;

  图26d例示的实施例中,当由具有标准dntp的多聚酶处理时,编码dna通过8种不同碱基和碱基类似物(标准a、c、g、t和修饰碱基x、y、z、w)合成以产生8个能够辨别的信号,这提供以8状态编码对数字数据编码的方式,例如如图29中的方案bes5所示;

  图27a提出不同的引物构造,可用于信息编码dna,使得模板可按照正确引发形式呈现以接合于传感器的多聚酶;

  图27b提出dna模板链构造的实施例,其能够使基于多聚酶的传感器多次询问相同dna数据载荷;

  图28示意性例示出物理dna结构如何与dna数据存储分子的逻辑结构相关;

  图29提出可用于将二进制数据载荷编码到dna序列中的二进制数据编码方案的各种实施例,包括:用于将数据载荷体现为dna序列的二进制编码方案(bes)以及在数字数据与编码dna序列之间初步翻译的示例;

  图30a例示出可用于将各个dna读出传感器以规模化并行阵列的形式设置在芯片上的制造堆叠的实施例;

  图30b例示出高级cmos芯片像素阵列的实施例和阵列中分子电子传感器电路像素的细节;

  图32例示出注释芯片设计布局文件的实施例和用于比较的对应完成芯片的光学显微图像;

  图33显示出图32的制成芯片的sem图像,包括更大分辨率的sem图像的套图,显示出像素和纳米电极,其中多聚酶分子复合物就位;

  图34显示出用于以基于芯片的dna读出传感器读出dna数据的完整系统的示意图;

  图35显示出基于云的dna数据档案存储系统的实施例的示意图,其中,多个图34的dna读出系统聚集以提供数据读出服务器;

  图36例示出dna数据读出传感器的可替代实施例,其中多聚酶与纳米孔离子电流传感器复合,在处理dna时产生在纳米孔离子电流中能够辨别的信号特征;

  图37显示出dna数据读出传感器的实施例,其中,多聚酶与纳米孔离子电流传感器复合,其中多聚酶直接轭合到纳米孔,且其中dntp通过与孔离子电流相互作用并在合并过程中改变孔离子电流的基团进行修饰;

  图38例示出dna数据读出传感器的实施例,其中多聚酶与碳纳米管分子线跨越正、负电极复合,在测得的经过碳纳米管的电流中产生能够辨别的信号特征;

  图39例示出零模式波导传感器与单一多聚酶复合(以截面图显示),产生对应于dna特征的能够辨别的光学信号。

  在各种实施例中,公开一种dna数据存储系统,利用dna分子作为数字信息存储的通常目的方式。在特定方面,一种用于数字信息存储的系统包括:dna读出装置;信息编码/解码算法,和dna写入装置。在其他方面,公开这三种因素的相互关系及其共同优化。

  在各种实施例中,公开一种用于dna数据存储系统的数据读出器。在各种方面,dna读出装置包括:传感器,其从单个dna分子中提取信息。传感器可按基于芯片的形式部署。在各种示例中,公开了支持这种基于芯片的传感器装置的数据读出系统。

  如本文中所用,术语“dna”是指生物dna分子和合成形式,例如,通过核苷酸亚磷酰胺化学、连接化学或其他有机合成方法制成。如本文中所用的dna也是指对碱基、糖、和/或骨干的化学修饰形式,例如在核酸生物化学中本领域技术人员已知的那样。这些包括但不限于:甲基化碱基、腺苷酸化碱基、其他表观遗传标记碱基、和非标准或通用的碱基,例如肌苷或3-硝基吡咯,或其他核苷酸类似物,或ribo碱基,或脱碱基位点,或受损位点。dna还广义地是指dna类似物,例如肽核酸(pna)、锁核酸(lna),等等,包括在生物化学上相似的rna(核糖核酸)分子及其合成和修饰形式。所有这些在生物化学上紧密相关的形式,在本文中的用于dna数据存储系统中的数据存储分子的应用环境中,通过使用术语dna暗示。进一步地,术语dna在此包括单链形式、双螺旋或双链形式、杂化双链形式、包含失配或非标准碱基对的形式、非标准螺旋形式(例如三链形式)、和部分双链的分子(例如单链dna结合于寡引物)、或具有发夹次级结构的分子。通常,如在此所用,术语dna是指一种分子,其包括单链部件,可用作聚合酶的模板以合成与其互补的链。

  如在此写入的dna序列(例如gattaca)是指沿5’至3’取向的dna,除非另外指明。例如,如在此写入的gattaca表示单链dna分子5’-g-a-t-t-a-c-a-3’。通常,在此所用的惯例遵照在分子生物学领域中所用的对写入dna序列的标准惯例。

  如在此所用,术语“多聚酶/聚合酶”是指一种酶,对于模板dna或rna链通过合并dna或dna类似物或者rna或rna类似物而催化形成核苷酸链。术语多聚酶/聚合酶包括但不限于:宽泛类型和突变形式的dna多聚酶/聚合酶(例如klenow、e.colipoli、bst、taq、phi29、t7)、宽泛类型和突变形式的rna多聚酶/聚合酶(例如t7、rnapoli)、宽泛类型和突变的逆转录酶(其对rna模板操作以产生dna,例如amv和mmlv)。

  如在此所用,术语“dntp”是指标准的天然出现的核苷三磷酸(用于生物合成dna,即,datp、dctp、dgtp、dttp)和它们的天然或合成的类似物或修饰形式,包括承载碱基修饰结构、糖修饰结构、或磷酸基修饰结构(例如α-巯基修饰结构或γ磷酸盐修饰结构、或四、五、六或更长的磷酸盐链形式、或是具有额外基团在链中轭合到任意磷酸盐(例如β、γ或更高级磷酸盐)的任意前述结构)的形式。通常,如在此所述,“dntp”是指在其延伸引物时可通过聚合酶合并的或者将进入这种酶的活性凹穴并作为试配候选者瞬时接合以合并的任意核苷三磷酸类似物或修饰形式。

  如在此所用,“缓冲物”、“缓冲溶液”和“试剂溶液”是指:提供可供多聚酶传感器在其中操作和从所供应模板产生信号的环境的溶液。在各种实施例中,溶液是含水的。缓冲物、缓冲溶液或试剂溶液可包括的组分例如为:盐、ph缓冲物、二价阳离子、BG大游娱乐平台洗涤剂、阻滞剂、溶剂、模板引物寡核苷酸、蛋白质,其与多聚酶和多聚酶衬底(例如dntp,dntp的类似物或修饰形式,和dna衬底或模板)复合。

  如在此所用,“二进制数据”或“数字数据”是指:使用标准二进制码或基数2{0,1}字母表编码的数据,使用十六进制基数16字母表编码的数据,使用基数10{0-9}字母表编码的数据,使用美国信息交换标准码(ascii)字符编码的数据,或者使用任意其他不同符号或字符的字母表以线性编码方式编码的数据。

  如在此所用,“数字数据编码形式”是指:一系列的二进制数字、或来自用于编码dna中信息的dna序列特征的初步翻译的其他符号数字或字符,或这种分类dna特征的等同逻辑串。在一些实施例中,拟存档为dna的信息可翻译为二进制的,或者可初始作为二进制数据存在,然后此数据可进一步通过错误校正和组装信息而编码为直接翻译为由能够辨别的dna序列特征提供的码的形式。这后一种关联是信息的初步编码形式。组装和错误校正进程的施加是进一步的次级级别的解码,回到恢复源信息。

  如在此所用,“能够辨别的dna序列特征”是指:数据编码dna分子的特征,当通过传感器多聚酶处理时,产生区别性信号可用于编码信息。这样的特征可例如为不同的碱基,不同的修饰碱基或碱基类似物,不同的序列或序列基序,或这样的组合,以实现当通过传感器多聚酶处理时产生能够辨别的信号的特征。

  如在此所用,“dna序列基序”是指:特定字母序列或体现特定组的这种字母序列的任意成员的样式。例如,以下是作为特定字母序列的序列基序:gattaca,tac,或c。对照而言,以下是作为样式的序列基序:g[a/t]a是体现显性序列组{gaa,gta}的样式,g[2-5]是关于序列组{gg,ggg,gggg,ggggg}的样式。显性序列组在基序的毫无疑义的描述中,而这样的样式简化标示如同描述这种组的常见紧凑方式那样。在各种应用环境中诸如此类的基序序列可描述天然的dna碱基,或者可描述修饰碱基。在各种应用环境中,基序序列可描述模板dna分子的序列,和/或可描述与模板互补的分子上的序列。

  如在此所用,“具有能够辨别的信号的序列基序”(在样式情况下)是指:存在第一基序样式体现第一组显性序列且该序列中的任意项产生第一信号,存在第二基序样式体现第二组显性序列且该序列中的任意项产生第二信号,且第一信号区别于第二信号。例如,如果基序g[a/t]a和基序g[3-5]产生能够辨别的信号,则其意味着:组{gaa,gta}中的任意项产生第一信号,而组{ggg,gggg,ggggg}中的任意项产生第二信号(区别于第一信号)。

  如在此所用,“能够辨别的信号”是指:来自传感器的一个电信号,其在量上(例如峰值振幅、信号持续时间,等等)或在质上(例如峰形状,等等)明显不同于来自传感器的另一电信号,使得该不同对于特定用途可施加影响。在非限制性示例中,来自操作分子传感器的两个电流峰值(对于时间),如果它们的振幅存在约1x10

  安培以上的差别,则能够辨别。这种差别足以使用两个峰值作为两个区别性二进制位读数,例如0和1。在一些情况下,第一峰值可具有正振幅,例如从约1x10-10安培至约20x10-10安培的振幅,而第二峰值可具有负振幅,例如从约0安培至约-5x10-10安培的振幅,使得这些峰值明显不同且可用于编码不同的二进制位,即,0或1。如在此所用,“数据编码dna分子”或“dna数据编码分子”是指:被合成以将数据编码到dna中的分子、或者源自这种分子的拷贝或其他dna。

  如在此所用,“从dna读出数据”是指:测量能够辨别的信号(其与用于将信息编码到dna分子中的dna分子特征相对应)的任意方法。

  如在此所用,电极是指:纳米级别的导电金属元件,在独立成对电极中的两个电极之间具有纳米级别尺寸的间隙,在一些实施例中包括栅电极,其通过电容方式联接到间隙区域,可为埋入式或“背”栅、或者侧栅。电极可在一些应用环境中可被称为源电极和漏电极,或者称为正电极和负电极,这样的术语在电子领域中是常用的。纳米级别电极在成对电极中的各电极之间的间隙宽度将在1~100nm的范围内,并将具有也在此范围内的其他临界尺度(例如宽度、高度、长度)。这样的纳米电极可包括各种材料以提供导电性和机械稳定性,例如金属或半导体或这种材料的组合。用于电极的金属的示例包括钛和铬。

  根据本公开内容的可用于存档且此后访问所存储数据的dna数据存储系统的整体方案参照各个附图公开。

  图1例示出根据本公开内容的dna信息存储系统的实施例,此示例显示出dna存储系统的主要元件,包括:物理系统,其用于在存储过程中处理和保持dna材料并执行对存储档案的操作,例如拷贝。外部计算机提供系统高级控制,供应用于存储的信息和接收被提取信息。信息被编码为dna序列、合成、存储,然后被读出、解码和输出。此外,这样的系统也能够实现dna档案材料样本的物理输入/输出(i/o)。

  图2例示出基本dna存储系统信息阶段和过程,包括:存在于总系统中的主要信息阶段(在图2中图示为框)、以及从一种形式转变为另一形式的基本操作(在图2中由箭头图示)。

  在本公开内容的各个方案中,dna信息存储系统包括:(a)编码器/解码器;dna写入装置;dna读出装置。

  编码器/解码器:在各个方案中,编码器/解码器包括具有两个功能的算法:编码器部分将给定的数字/二进制信息翻译为特定dna序列组输入到dna写入器。解码器部分将由dna读出器所提供类型的给定的dna序列组翻译回数字信息。

  dna写入装置:在各个方案中,dna写入装置包括:采用给定dna序列组并从这些序列合成dna分子的

  装置(例如参见kosuri和church的largescaledenovodnasynthesis:technologiesandapplications.naturemethods,11:499-509,2014)。用于合成dna分子的方法和装置的非限制性示例包括由agilenttechnologiesandtwistbioscience提供的商业技术。对于每个所希望的序列,产生体现该序列的多个dna分子。对于每个所希望的序列,所产生的多个分子可在dna分子拷贝的几十倍、几百倍、几千倍、几百万倍或者甚至几十亿倍的范围内。体现所有所希望序列的所有这些拷贝可聚汇到一个主分子池中。典型地,这样的dna写入系统的写入是不完美的,如果n个分子合成以体现给定的输入序列,则并非所有这些将会实际上实现所希望的序列。例如,它们可包含错误的删除、插入、或不正确的或物理损坏的碱基。dna读出装置:在各个方案中,dna读出装置是采用dna分子池并产生一组测得dna序列用于从此池采样或选择的分子的装置。这样的读出器实际上探查被引入系统中的dna分子的仅一小部分,因而仅一小部分将经历实际读出尝试。进一步地,典型地,这样的dna读出装置可能无法以最大准确性读出被处理的给定dna分子,因而在读数中可能存在错误。结果,同样典型地,测得的序列输出包括各种形式的置信度估计值和错失数据指示物。例如,对于测得的序列中的每个字母,可能存在正确的置信度概率或几率(针对其他dna字母选项),可能存在错失数据指示物而指示出字母特征未知,或者可能存在一组可选的序列候选者,其具有体现一部分读数的不同概率。

  如前所述的根据本公开内容的dna数据存储系统的三个主要元件具有特定作用和相互关系,如在下文中更详细所述。

  信息编码器/解码器基于dna写入器和dna读出器装置的性能而选择,以最小化或减少信息存储/取回过程的成本的一些总体措施。系统成本的一个关键组成是取回信息的总体错误率。错误和成本示意性例示在图3-9中。

  通常,dna写入装置可引入写入错误,而dna读出装置可产生读出错误,因此,将信息存储到系统中并此后将其取回的过程可能导致取回信息中所见的错误率。如图3中示意性所示,需要在系统中补偿错误。图3例示出需要错误校正、错误避免、或一些形式的错误补偿,这是因为,编码信息之后进行信息解码将通常另外不会导致原始信息返回,主要是由于dna读出和写入时的生理化学错误所致。编码器/解码器算法可基于错误性能和dna读出器和dna写入器的性能而选择以最小化或减少此错误率。这些实施例例示在图3-6中。

  图4例示出理想错误补偿的实施例。理想错误补偿是知晓合成器和序列器技术的错误模式的错误补偿方案。错误通过以下方式的组合而减少和/或补偿:避免错误产生,使用dna读出和dna写入系统的错误模式的常识并基于如在用于写入和读出dna序列(如通过读出和写入系统所产生)的经验质量分数中反映出的观测数据不确定性而探测和校正错误。

  图5例示出在dna信息存储系统中的错误的注重成本的管理。通常,特定dna序列,基于与例如错误率、所需时间、试剂消耗、经济成本等相关的成本因素,可具有固有的更大的成本。在本公开内容的各个方案中,与读出和写入技术相关联的成本加以考虑,并通过使用通常使成本最小化的编码/解码方案而减少或优化(例如通过避免高成本、易发生错误、合成缓慢、或读出dna序列缓慢而实现)。

  在各种实施例中,核苷酸可优选地被选择以基于以下因素而合并到核苷酸序列中:其在形成分子的写入过程中的易合成性、在合成分子中形成次级结构的倾向性较小、和/或在数据解码过程中的易读出性。在各个方案中,坏的写入基序和坏的读出基序在选择核苷酸以合并到核苷酸序列中时应避免,其中重点在于将区段合并到核苷酸序列中,当该核苷酸序列被读出以解码被编码信息时,其将产生相互能够辨别的信号。例如,在读出核苷酸序列时,a和t相互能够辨别,c和g相互能够辨别,a、c和g相互能够辨别,aaa和tt相互能够辨别,a、gg和ata相互能够辨别,c、g、aaa、tttt、gtgtg相互能够辨别。这些和许多其他组的核苷酸和核苷酸区段在读出器中提供相互能够辨别的信号,因而当将一组信息编码到核苷酸序列中时可被认为合并到核苷酸序列中。

  此外,存在难以写入的核苷酸区段,当将一组信息编码到核苷酸序列中时应避免使用该核苷酸区段。在各种实施例中,将一组信息编码到核苷酸序列中包括:使用其余的能够辨别的特征中的一种作为编码符号(其例如可对应于二进制0/1、三进制0/1/2、或四进制0/1/2/3的码,等等)、以及使用错误校正编码而以避免难以读出和难以写入的特征的方式限定该一组信息。以此方式,信息存储系统的整体性能得以改善。

  在各种实施例中,公开了将信息存储在核苷酸序列中并取回核苷酸序列中的存储信息的方法。在各个方案中,该方法包括:(a)一种用于合成与给定碱基序列相对应的核苷酸序列(例如合成dna分子)的系统。如前所述,给定碱基序列可以通过仔细选择编码给定组的信息(例如二进制信息)的核苷酸和核苷酸区段进行确定。在各个方案中,该方法包括:(b)一种用于从核苷酸序列(例如从dna链)读出信号的系统,其中,核苷酸序列包括一批能够辨别的序列区段,使得通过这样的组{x,y,z...},出现在分子内的各个序列区段x,y,z当由读出器处理时产生能够辨别的信号。在其他示例中,该方法包括:(c)识别不希望出现的核苷酸和核苷酸区段,基于它们在合成过程中被不正确写入、在合成过程中合并过慢、在合成分子中产生次级结构、或在合成过程中的使用成本过高的倾向性而实现。在各种实施例中,该方法包括:(d)识别不希望出现的核苷酸和核苷酸区段,基于它们当信息从分子中解码时被不正确读出、当信息被解码时读出过慢、等的倾向性而实现。在各个方案中,该方法包括:利用合成方法,包括将一组信息编码到dna分子中,根据错误探测和/或校正码方案,使用编码方法(其中上述(b)的特征组中的一个用作编码的符号字母表且其中此特征组被选择为不使用任何在上述(c)和(d)中所述的不希望出现的特征),使用上述(b)的读出方法取回先前编码到例如dna分子中的信息。

  在各种实施例中,核苷酸序列(例如dna分子)中能够辨别的特征可包括:独立的碱基。坏读出特征可包括独立的特定碱基。坏写入特征也可包括独立的特定碱基,其中编码方案对应于对输入信息串使用错误校正二进制码,其中,二进制符号0和1转变为x和y以实现dna编码。

  图6例示出理想的错误察觉系统,其包括错误补偿方案,察觉dna合成器和序列器技术中固有的错误模式。

  图7例示出双路错误补偿的示例。图的左部分显示出在此特定示例中形成的错误,图的右部分显示出通过错误补偿编码/解码方案产生不具有问题dna序列基序(即,t和c碱基)的输入序列而避免这些错误。在图7的这种例示性示例中,dna写入器倾向于有时删除t,而dna读出器倾向于有时将c读为t。在此示例中,使用利用t和c的编码可导致错误,例如传入的编码数据序列gattaca读出为gatata,其中,一个t在写入时被删除,且发生c→t的读出错误)。不过,如果理想的数据编码绝不具有t或c(例如,在对所有二进制0/1数据简单直接地以二进制dna码a=0且g=1编码的情况下),则在数据存储和取回时将不会产生错误。

  这样,通常,为了减少错误,数字数据编码/解码算法可包括:错误探测和错误校正码,其被选择使产生的错误最少(给定dna写入器和dna读出器的实际错误模式)。这些码的设计可得益于错误模式的现有技术公知常识,即,倾向于写入器和读出器的特定错误。

  在各种实施例中,错误校正码驻留在单个核苷酸序列内。例如,二进制数据的一个区段被编码到一个dna序列中,其中在dna侧上使用错误校正和/或探测方案。这样的方案还可以涉及:将二进制数据的一个区段编码到多个dna序列中,以提供另一水平的信息冗余编码,这类似于通过冗余存储进行的错误校正。错误探测方案包括但不限于:重复码,校验位,校验和,循环冗余校验,加密散列函数,错误校正码,例如汉明码。错误校正方案包括但不限于:自动重传请求,错误校正码(例如卷积码和分组码),杂化自动重传请求,和里德所罗门码。

  在各种实施例中,一种设计优化的或高效的错误校正编码的方法(其中,传入的数字数据被认为是长度n的二进制字)包括以下步骤:提供长度为m的所有dna字的空间,使得存在比二进制字更多的可能dna字(即,4m2n);选择dna字的2n的子组/子集,用作码字,用于编码2n二进制信息字,使得当这些dna码字中的每个扩展为对于给定字的可能dna写入错误的组/集合,然后,该组/集合通过可能读出错误字的组/集合进一步扩展,这些结果形成的2n组/集合的dna字以高概率保持脱离。在这样的情况下,通过读出器读出的任何字可适宜地以极高概率返回关联到理想编码dna字。这种方法构成了错误校正和错误避免信息编码的组合。此外,解码算法也将自然利用由读出器供应的置信度或几率信息来选择相对于编码方案的最大可能性/最高置信度的解码。

  优化dna数据存储系统整体成本的另一关键方面是:写入数据所需时间。例如,许多实施例中的至关重要的时间成本可为数据写入的时间成本。在各种实施例中,避免写入特定的合成缓慢的碱基和序列基序,以缩短写入总时间。在其他方面,例如通过在多个并行的合成反应中减少一些循环过程的每个化学循环(写入一个碱基)所花费的时间,使写入更快,其中容许更高的整体写入错误率。

  类似地,对于读出,可采用更快的读出过程,其代价是更高的读出错误率。在各个示例中,通过避免在编码中引入难以快速读出的特定类型的序列(例如均聚物类),在不增加错误的情况下采用更快的读出过程。在任一种情况下,信息编码/解码算法可通过这些选项共同优化,从而允许更快的读出/写入但避免过多错误模式,或者在编码/解码处理中避免读出/写入较慢的序列基序。

  这些成本优化的实施例例示在图8和9中。图8例示出用于整体成本减少/优化的双路成本补偿的示例。在此示例中,同时存在高成本合成t和错误模式,由此c读出为t。在图8的实施例中,用于整体成本优化结果的错误补偿(其减少合成成本和错误)包括:使用避免高成本dna基序t和c的编码。图9例示出成本优化的编码系统的示例性因素。该因素中包括:当共同优化dna读出和写入系统的编码/解码算法和性能参数部分时dna写入器和读出器的经济成本,速度和错误率。写入器和读出器的性能参数取决于dna序列以及这些系统的其他可调/可选参数,这些参数以及算法选择和参数被共同优化以减少或最小化这些成本。

  通常,在信息存储/取回过程的“成本”的总量度中存在各种因素,包括:错误率、速度、试剂或组分的经济成本、系统鲁棒性或失败之间的时间,等等。读出器和写入器的这些性能另外还通常根据操作参数(例如,一些反应完成所允许的时间、所用化学试剂的纯度、操作温度,等等)而可变。

  在各种实施例中,编码器/解码器算法和写入器和读出器系统的选项和控制参数设定被共同选择和/或共同优化以减少或最小化一些总成本函数或成本函数的集合(见图9)。以此方式,通过避免或削减较高成本的操作方式,该系统的“成本”性能可显著减少。

  在本文的dna信息存储系统的各个实施例中,dna读出装置包括:规模化并行dna序列装置,其能够从每个特定dna分子高速读出碱基,使得对大规模档案信息取回的实际应用而言,存储dna信息的总读出速率可足够快,且量足够高。读出碱基的速率对数据取回设定最短时间,相关于存储dna分子的长度。

  在各种实施例中,分子电子传感器从单个dna分子提取信息,采用提供一读出器用于被存储为dna的数字数据的方式。图10a例示出分子电子传感电路的基本思路,其中传感器分子复合物配全电路,电路参数(例如电流i)随时间(t)测量以提供信号,其中信号变化对应于在传感器环境中传感器分子复合物与相互作用分子的相互作用。如图10a中所示,分子电子传感器包括的电路中,单个分子、或少量分子的复合物形成完整的电路跨越成对纳米级别电极之间的间隙,电子参数通过此单个分子或复合物调制,其中此参数作为信号被测量以指示(传感)在环境中与目标分子相互作用的单个分子或复合物。在各种实施例中,例如如图10a中所示,测得的参数是通过电极的电流(随时间),分子复合物通过特定附接点轭合到电极就位。

  图10b例示出基于多聚酶的分子电子传感器的实施例,在此用作用于dna读出装置。传感器(例如在图10b中所示并包括多聚酶)通过区别性dna分子特征(在图中简写为feat.1、feat.2,等)产生能够辨别的信号。这样的特征可用于将信息编码到合成dna分子中,其可进而通过传感器读出。

  在各种实施例中,独立传感器电路的分子复合物包括单个聚合酶分子,该单个聚合酶分子接合于目标dna分子以当其处理dna模板时产生电信号。在适合的条件下,这样的多聚酶将产生能够辨别的电信号特征,对应于模板dna分子的特定区别性特征,例如在图11中通过信号迹线中的两个不同峰形状例示。这样的能够辨别的信号特征因而能够用于将信息编码到合成dna分子中(通过多种不同编码方案实现,例如图29所示,在下文论述),因此,这样的传感器提供读出器,用于如此编码的数据。

  图11例示的实施例中,多聚酶分子轭合到在成对电极中两个电极之间配全电路的桥联分子。电极之间的电流是测量的电参数。当多聚酶接合于正确模板(例如引发的单链dna分子)时(在存在适合的缓冲溶液和dntp的情况下),多聚酶活性在合成互补链时引起与酶活性的详细动力学相关的测量信号扰动。在此情况下,通过电极的电流随时间的图线提供具有能够辨别特征(例如振幅变化)的信号,对应于被处理dna分子的结构特征。

  图12例示出传感器电路的实施例,其中,多聚酶使用两个“臂“分子连线到成对电极中的电极,从而使多聚酶成为电流路径的至关重要的部分。

  图13显示出传感器电路的另一实施例,其中不存在臂,多聚酶直接轭合到两个电极。在各种实施例中,轭合到多聚酶且轭合到电极的分子复合物通过一系列一个或多个分子自组装过程形成,该过程通过各个轭合基团和轭合反应的高度特定和高效的化学作用驱动。

  图14显示出一个特定多聚酶(即,e.coli.多聚酶i的克列诺(或大)片段)的分子结构的三维表现。

  图15和16例示出分子传感器的实施例,其中,e.coli.多聚酶i的克列诺(或大)片段轭合到抽取分子桥联分子(由电极之间的粗条指示),或者分别利用两个抽取臂分子直接轭合到电路中。图17例示出分子电子传感器的实施例,其中e.coli.多聚酶i的克列诺(klenow)片段直接轭合到电流路径中而且直接轭合到金属电极,而不使用臂或桥联分子。

  图18详细例示出工作传感器200的实施例,其在此用作dna读出装置,用于dna数据信息系统。分子传感器结构200包括两个电极201、202(包括钛或铬)。电极201、202可包括电路中的源电极和漏电极。电极201、202以约10nm的纳米间隙分离。可能需要其他间隙距离以适应其他长度的生物分子桥。在此示例中,桥联分子203包括:长度约20nm的双链dna齐聚物分子(例如60个碱基;6个螺旋圈),在3’、BG大游娱乐平台5’端处具有巯基团204、205,用于使桥联分子203联接到每个金属电极201、202上设置的金触点206、207。在dna齐聚物各端与金触点之间的键是硫-金键,从结合到金的dna桥联分子的5’端上的巯基团可用。在这种传感器中的探针分子包括e.coli.多聚酶i分子210的克列诺片段,其使用多聚酶上的生物素标记部位在共价联结211处化学交联到链霉亲和素蛋白212,其进而通过在合成寡dna203中的生物素标记核苷酸联接到结合部位214。在操作时,传感器200进一步包括dna链220,其由多聚酶210处理。图中模拟分子和原子的相对尺寸。

  在本文中使用的分子电子传感器的各个实施例中,多聚酶可为天然或突变形式的klenow、taq、bst、phi29或t7,或者可为逆转录酶。在各种实施例中,通过引入多聚酶中的特定轭合部位,突变多聚酶形式将能够实现多聚酶在特定部位轭合到桥联分子、臂分子或电极。这样的轭合部位(通过重组方法或合成生物学方法工程设计到蛋白质中)在各种实施例中可包括:半胱氨酸,醛标签部位(例如肽基序cxpxr),四半胱氨酸基序(例如肽基序ccpgcc),或者非天然或非标准的氨基酸(nsaa)部位(例如通过使用扩展基因码而引入p-乙酰苯丙氨酸),或者非天然的可交联氨基酸(例如通过使用rna-或dna-蛋白质交联,其中使用5-溴尿苷)(例如参见gott,j.m.等人的文献:biochemistry,30(25),pp6290–6295(1991))。

  桥联分子或臂分子在各种实施例中可包括:双链dna,其他dna双链体结构(例如dna-pna或dna-lna或dna-rna双链杂化物),肽,蛋白质α-螺旋结构,抗体或抗体fabdomains,石墨烯纳米带或碳纳米管,或任何其他分子电子技术领域技术人员公知的宽阵列的分子连线或导电分子。多聚酶轭合到这样的分子或者这样的分子轭合到电极,可通过轭合化学领域技术人员公知的轭合方法的多样化阵列实现,例如生物素-亲和素联接体,巯基-金联接体,半胱氨酸-马来酰亚胺联接体,金或材料结合肽,点击化学联接体,侦探-侦探捕获蛋白质相互作用联接体,抗体-抗原结合体(例如flag肽标签/反-flag抗体系统)等等。联接到电极可通过材料结合肽实现,或者通过使用sam(自组装单层)或在电极表面上的其他表面衍生作用实现,以实现用于轭合的适合功能基团,例如叠氮化物或胺基团。电极包括导电结构,导电结构可包括任何金属(例如金、银、铂、钯、铝、铬、或钛),这样的金属的任意组合的层(例如金在铬上),或半导体(例如掺杂硅),或者在其他实施例中为:在包括第二材料的支撑体上的第一材料的触点,使得触点所处部位引导分子复合物化学自组装到电极。

  在各种实施例中,传感器(例如图18中所示传感器)中测得的电参数通常可为传感器有源时可测得的传感器电路的任意电性能。在一个实施例中,该参数是当电压(固定或变化的)施加于电极之间时随时间通过电极之间的电流,连续地或在分立的时间采样。在各种实施例中,栅电极以电容方式联接到分子结构,例如为埋入式栅或背栅,其在测量过程中施加栅电压(固定或变化的)。在各种其他实施例中,测得的参数可为两个电极之间的电阻、电导率、或阻抗,随时间连续测量或周期性地采样。在各个方案中,测得的参数包括电极之间的电压。如果存在栅电极,则测得的参数可为栅电压。

  在各种实施例中,分子电子传感器(例如图18的传感器)中测得的参数可包括:联接到电路的电容器上的电容、或积聚的电荷量或电压。测量可为电压频谱测量,使得测量过程包括捕获i-v或c-v曲线。测量可为频率响应测量。在所有这样的测量中,对于所有这样的测得参数,存在这样的实施例,其中在测量过程中栅电极在分子复合物近处施加栅电压(固定或可变的)。这样的栅将典型地物理位于微米距离内,在各种实施例中在分子复合物的200nm距离内。对于点测量,在一些实施例中,将存在基准电极,例如ag/agcl基准电极,或铂电极,在溶液中与传感器接触,并保持外部电势,例如接地,使溶液保持在稳定或可监控的电势下,由此使电测量更好地限定或控制。此外,当进行电参数测量时,各种其他电参数可保持固定在规定值,或以规定方式改变,例如源-漏电极电压,栅电压(若存在栅电极),或源-漏电流。

  使用传感器(例如图18中所示传感器)测量dna分子的能够辨别的特征,要求多聚酶保持在使多聚酶激活的适合的物理和化学条件下,以处理dna模板和产生高于任意背景噪音的能够辨别的信号(即,高信噪比或snr)。为实现这一目的,多聚酶可停留在水性的缓冲溶液中。在各种实施例中,缓冲溶液可包括盐的任意组合,例如,nalco或kcl,ph缓冲物,三羟甲基氨基甲烷盐酸盐,多价阳离子辅因子,mg、mn、ca、co、zn、ni、fe或cu,或其他离子、表面活性剂(例如tween)、螯合剂(例如edta)、还原剂(例如dtt或tcep)、溶剂(例如甜菜碱或dmso)、体积浓缩剂(例如peg)、和在分子生物应用中用于聚合酶且分子生物学领域技术人员公知的任意其他典型缓冲物的组分。传感器信号也可通过这种缓冲剂(保持在特定ph或温度范围内、或者处于特定离子强度)而增强。在各种实施例中,离子强度可被选择以获得有利于电信号产生的溶液中的德拜长度(电荷屏蔽距离),其可例如在约0.3nm至约100nm的范围内,在特定实施例中在约1nm至约10nm的范围内。被配置具有更大德拜长度的这种缓冲剂可更加稀释或者具有较低的离子强度,相对于例行用于标准分子生物学进程(例如聚合酶链反应pcr)中的缓冲物浓度而言为1/10、1/100、1/1000、1/10,000、或1/1,000,000。缓冲物的成分、浓度和条件(例如ph、温度、或离子强度)也可被选择或优化以改变酶动力学,从而在读出dna分子中所存储数据的应用环境中有利地增大传感器的信噪比(snr)、总信号产生率、或总信息产生率。这可包括通过这些方法减缓或加速酶活性,或改变多聚酶的保真度或准确度。这种优化缓冲物选择过程包括从所有这些参数变化的矩阵中选择测试条件,根据经验测量效益图(例如相关于能够辨别的特征的分辨、或相关于当处理模板时的特征辨别总速度),使用各种检索策略(例如在统计学试验设计(doe)方法中应用的检索策略),以得到优化参数组合。

  使用传感器(例如图18的传感器)测量dna分子的能够辨别特征,要求为多聚酶提供dntp供应,使得多聚酶可对模板单链dna分子逐步作用以合成互补链。标准的或天然的dntp是datp,dctp,dgtp,dttp,其提供a,c,g,t碱基单体用于聚合到dna链中,其形式适于酶作用其(作为衬底)上所需。聚合酶(天然的或突变的)也可接受这些天然dntp或修饰形式的类似物,其可增强或实现能够辨别的信号的产生。

  在本文中的dna读出的各个方案中,如果系统以一个碱基/10分钟的速度读出dna分子(对于当前下一代光学染料标记终止序列器而言是代表性的),则读出300碱基的dna分子花费至少3000分钟(50小时),还不算制备样本用于读出所需的任意时间。这样的相对较慢的系统因而有利于存储较大数量的较短读出的信息,例如,30个碱基读出可按5小时读出。不过,这需要较大量的总读出,因而系统必须支持十亿或更多的这种读出,如对于这种序列的情况。当代的光学批量化并行序列器,每6分钟循环读出30亿量级的dna字母,或大致等同于每分钟10亿数位,或每秒2mb,不过对于存储为100碱基的dna字而言,这也将需要600分钟(5小时)。这可见为相对较低的数据读出速率,不过在实践层面内,由于典型书籍可包含1mb的文字数据。总速率是实用的,但对于每个碱基的慢速使其对于读出单本书籍数据时相当低效,理想地被匹配以在5小时中并行读取36000书籍。这样,在这种当前能力中还缺乏可扩充性,而且读出装置的资金成本也较高(可选的dna序列器的成本目前在10-100万美元的范围内)。更重要的是,在这种当前系统上,对人类基因组dna(1000亿碱基)测定序列的成本约为1000美元,这意味着,读出信息的成本为1000美元/200gb,或40美元/gb。这显著高于从磁带存储装置或cd读出信息的成本(其在1美元/10,000gb、或0.0001美元/gb的量级,成本为其1/400,000)。这样,在不考虑其他优点的情况下,读出dna的成本应减少多个数量级(甚至为1/1,000,000),以使其在大规模、长期档案存储上具有吸引力。这样的改进可确实可行,如以下事实证实:自从制造出第一个商业序列器,序列测定成本已经减少至1/1,000,000。

  在各个实施例中,本系统的dna读出器包括与当前可用的光学下一代序列测定设施相比显著更低的设施资金成本、和更高的单位碱基读出速度、和单位运行内读出总数的更大可扩充性。在各个方案中,在此所用的读出装置基于cmos芯片传感器阵列装置以增大速度和可扩充性并减小资金成本。这种装置的实施例包括cmos传感器阵列装置,其中每个传感器像素包含分子电子传感器,能够读出单个分子或dna,而无需任何分子放大或拷贝(例如pcr)。在各种实施例中,cmos芯片包括可扩充像素阵列,其中每个像素包含分子电子传感器,这样的传感器包括桥联分子和聚合酶,被构造为:当酶处理dna模板分子时产生对电流(或相关电参数,例如电压,电导率,等等)的与序列相关的调制。

  在本dna数据存储系统中可用作dna读出装置的分子传感器和芯片组合图示在图18、19、30a、30b、31-33中。如前所述,图18例示出示例性分子传感器,其包括桥和探针分子结构,进一步包括约20nm长(约60个碱基)的双链dna的桥,其中巯基团在5’端用于联接到金属电极上的金触点。图18的实施例包括:聚合酶,其联接到由dna构成的分子连线,其插入纳米电极对中以形成传感器,该传感器当聚合酶处理被引发的dna模板时能够产生与序列相关的信号。

  如图19中所示,这种纳米传感器可通过后处理到cmos传感器像素阵列的像素上而安置,cmos传感器像素阵列进一步包括从大量并行操作传感器中产生这些信号所需的所有支持测量值、读数和控制电路。图19例示出分子传感器中各种电部件和连接的实施例。在图的上部分中,例示出电极衬底结构300的截面,其中与分析器301的附接用于施加电压和测量通过传感器桥联分子的电流。在图的下部分中,例示出电极阵列302的立体图,其可用于桥接电路。每对电极包括第一金属(例如metal-1),和第二金属(例如metal-2)的触点或岛,其处于每个电极端处接近于使各电极分离的间隙。在各个实施例中,metal-1和metal-2可包括相同的金属或不同的金属。在其他方案中,触点是金(au)岛,处于金属电极(包括不同金属)的顶上。在各个试验中,触点包括金(au)珠或金(au)涂层电极尖端,其支持各电极对之间每个间隙上的单个桥联分子的自组装,例如通过巯基-金结合实现。

  图20显示出包括金金属点触点用于dna传感器中桥接结合的电极的电子显微(em)图像。在此示例中,电极处于硅衬底上,并通过电子束光刻(lithography)产生。图20的左部分显示出具有金点触点的钛电极的阵列。在图20的中间,放大em显示出约7nm的电极间隙,其中具有金点触点并具有约15nm的金-金间隔。在图20的右部分,放大em显示出尺寸约10nm的金点,位于电极尖端处。

  图21提供电流-时间图线的传感器测量dna合并信号获得。图线显示出来自传感器的电流信号,传感器被供应以各种引发的单股dna序列模板和dntp用于合并和聚合。在每种情况下,主信号尖峰体现来自分立合并事件的信号,其中聚合酶将另一碱基添加到延伸链。在图21的左上部,模板是20t碱基;在右上部,模板是20g碱基;在左下部,模板是20a碱基;在右下部,模板是20c碱基。观察到的近似合并速率约为10-20碱基/秒,与标准酶动力学一致,除非由于速率限制因素(例如较低的dntp浓度)而导致较低的速率,约1碱基/秒。

  图22例示出使用dntp的修饰形式产生能够辨别的信号的原理,其中所示示例中,所有4个dntp承载区别性的修饰形式而从模板dna的四个碱基产生4种能够辨别的信号。许多这样的修饰形式对于核酸生物化学领域技术人员而言是公知的,所有这样的形式在各个实施例中可实现信号产生。这包括具有对于碱基、糖、或磷酸基的修饰的dntp。例如,dntp的常用的修饰形式包括:在分子上的各个部位的脱氮、硫代、溴代、碘代修饰形式,或者在各种部位包含金属离子或不同的同位素,在各种部位包含多种染料分子,或各种部位的甲基化作用,或者各种部位的生物素化作用。各种修饰形式包括具有延伸磷酸链的形式,超过天然的三磷酸酯,至例如四、五、六、七或更大长度(4或更大,至11或更大)的磷酸酯。其他修饰示例包括:添加到磷酸链的末端磷酸酯或者在合并过程中裂开的任意磷酸酯(除了α-磷酸酯或链中第一个磷酸酯)。多聚酶高度容忍这样的基团,且在它们存在的情况下保持高度活性。这样,这种基团为修饰dntp提供更大能力,有助于形成能够辨别的信号。在各种实施例中,这样的基团可具有不同电荷状态、或不同尺寸、或不同疏水度程度,这可有助于产生不同的信号,或者,这种添加的基团可选择性地与桥联分子上或多聚酶或模板dna上的部位相互作用以产生能够辨别的信号。图22例示出将这样的基团添加到磷酸链上,以产生用于模板四个碱基的合并的能够辨别的信号。

  图23例示出使用两个区别性的修饰dntp(修饰datp如a*所示,修饰dctp如c*所示)提供两个能够辨别的信号,其来自它们针对模板dna的相应互补标准碱基t和g的合并。使用两个修饰dntp提供一种方法,将二进制位0/1编码到模板dna中。这样,dna模板的t和g特征产生能够辨别的信号,并可用于编码能够由此传感器读出的信息。

  图24例示出使用两种不同序列基序(在此为均聚物aa和ccc)产生两种能够辨别的信号,其提供一种方式,将二进制位0/1编码到模板dna中。在此情况下,aa和ccc提供两种能够辨别的序列基序,可用于信息编码和恢复。这样,可用的信息编码和读出是可行的,即使没有dna序列的单个碱基分辨率,而是依赖于能够辨别的序列基序。

  图25显示出从图18的传感器获得的试验数据,其中特定序列基序产生可用于编码0/1二进制数据的信号。图18的传感器包括轭合到dna桥的克列诺多聚酶,其从试验模板dna中的编码dna序列基序20a、3c、30a产生能够辨别的信号。这样的信号通过使用图18的传感器并结合标准1x克列诺缓冲物和相对较高浓度的dttp(10μm)和浓度为1/100的其他dntp而产生。较低浓度的其他dntp(尤其是低浓度的dgtp)有利于通过浓度限制合并速率而从ccc区域实现能够辨别的信号。结果是,聚-a带具有高峰信号特征,聚-c带具有低谷信号特征,它们能够容易地辨别。该峰和谷可用于以所示简单方式编码0/1二进制数据,其中,0通过聚-a带编码并从具有多秒持续时间的高峰信号读出,1通过ccc带编码并从具有多秒持续时间的低谷特征读出。

  图26a例示出二进制编码的实施例,其中,两个不同的序列基序(gatt和aca)产生两个能够辨别的信号,提供一种方法将二进制位0/1编码到模板dna中。

  图26b例示出二进制编码的另一实施例,其中,三个不同的序列基序(gatt、aca、agg)产生三个能够辨别的信号,提供一种方法将数字数据以三状态编码方式编码。

  使用本公开内容的传感器测量dna分子的能够辨别的特征,要求在产生相关联信号的过程中为多聚酶提供引发的单链模板dna分子作为衬底用于互补链的聚合。在编码合成dna分子中的信息的应用环境中,这些模板分子可为完全化学合成的,并因而可设置有超出这些天然dna的化学或结构修饰或性能,其可用于对于各个实施例实现或增强能够辨别的信号的产生。多聚酶(天然的或工程突变的)可作为衬底接收大量这种dna修饰或类似物形式,其中许多形式对于分子生物学领域技术人员是公知的。对模板dna使用这种修饰可用于形成具有能够辨别的信号的特征。图26c显示的情况中,模板dna通过两个碱基类似物x和y(为a和c的类似物)合成。所提供的dntp是标准的datp和dctp,它们当针对模板中的修饰碱基x和y合并时产生增强的能够辨别的信号。这样,使用x和y类似物合成的dna模板可用于编码可通过此传感器读出的信息。图26d显示出对此的进一步延伸,其中,编码dna通过8个不同碱基和碱基类似物(即,四个标准碱基a,c,g,t,和它们的相应的修饰碱基类似物x,y,z,w)合成,当标准dntp针对它们以互补方式合并时产生8种能够辨别的信号。这样,通过这8个碱基和类似物a,c,g,t,x,y,z,w合成的模板dna提供8种能够辨别的信号,因而可用于8状态编码(例如图29中所示,方案bes5)。

  在各种实施例中,作为模板被供应到多聚酶的dna包括一些形式的引发的(双链/单链过渡)部位以用作多聚酶的初始部位。为实现将数字数据存储到dna中的目的,在各种实施例中,这种引发将预组装到编码分子中,使得不需进一步的样本制备引发dna模板分子。

  图27a和27b显示的实施例中,dna数据存储分子具有被预组装的通用的引发结构。

  图27a提供可用于存储模板的引物构造的四个实施例。这些包括(在例示中按降序):(1)引发链,具有杂化到模板的寡引物;(2)引物交联到链以实现稳定性;(3)发夹引物,具有dna的发夹弯曲部或其他联结分子,例如peg(聚乙二醇)聚合物联结物;(4)发夹引物,其交联就位。图27b提供链构造的实施例,能够使基于多聚酶的传感器多次询问相同的数据载荷。对这四个实施例的进一步考虑在本文中详细描述。

  1)预杂化的通用寡引物(例如天然dna的),可选地具有高熔点或高gc含量、或更稳定的杂化形式,例如pna(肽核酸)或lna;

  2)以额外交联碱基(例如溴脱氧尿苷)修饰的寡引物,其共价结合或以其他方式牢固化学联接就位,使得引物脱位的可能性显著减少;

  3)发夹引物,作为dna模板的一部分,使得分子优选地自引发,其中发夹引物可完全由dna构成,或者允许发夹弯曲的发夹环(其在各个实施例中为dna,或可替代的柔性分子,例如peg聚合物链或多碳联结物(例如c3,c6或更长联结物),其附接到杂化寡部分(其可为dna,例如具有高熔点和高gc含量、或更稳定的杂化类似物,例如pna或lna);

  4)发夹引物,其中杂化寡聚物通过额外交联碱基修饰,其共价结合或以其他方式牢固化学联接就位,使得引物脱位的可能性显著减少。在各种实施例中,卤化硫基嘧啶和溴脱氧尿苷(例如5’-溴-2’-脱氧尿嘧啶核苷作为胸苷的替代物)是光敏性卤化碱基,可合并到寡核苷酸中以将它们交联到dna、rna或者蛋白质(其对紫外光曝光)。在各个示例中,交联通过波长为308nm的光实现最大效率。例如参见cleaver,j.e.撰文biophys.j.,8,775-91(1968);zeng,y.等人撰文nucleicacidsres.,34(22),6521-29(2006);brem,h.等人撰文j.ofphotochemistryandphotobiologyb:biology,145,216-223(2015)。

  由于dna模板的次级结构可干扰多聚酶的逐步动作,因而可能有利的是:减少或消除dna数据读出传感器中所用dna数据编码模板分子中的次级结构。减少次级结构干扰的许多方法对于分子生物学领域技术人员是公知的。减少、避免或消除次级结构的方法包括但不限于:使用拥有强大次级结构移位能力的多聚酶(例如phi29或bst或t7,它们的天然或突变形式);添加到缓冲溶液(例如甜菜碱、dmso(二甲基亚砜)、乙二醇或1,2-丙二醇);减小缓冲物的盐浓度;增大溶液的温度;添加单链结合蛋白或者退化结合寡聚物以沿单链杂化。诸如此类的方法具有的有益效果可以是:减少次级结构对于聚合物处理编码dna和产生正确信号的干扰。

  根据本公开内容的可用于减少对于dna数据读出不利的次级结构的另外的方法包括:对于通过合成化学产生的dna分子添加性能。例如,在本公开内容的一些实施例中,编码dna分子自身的数据可通过减少次级结构的碱基类似物合成,其中,例如使用deaza-g(7-deaza-2′-脱氧鸟苷)替代g而削弱g:c碱基配对,或者通过使用链中的锁核酸(lna)而强化骨干以减少次级结构。各种具有这种效果的这样的类似物对于核酸化学领域技术人员是公知的。

  进一步的方法可用于本公开内容中以减少对于dna数据读出传感器不利的次级结构,这是因为,dna编码方案确定模板序列,并因而可能选择编码方案以避免倾向于次级结构的序列。这样的次级结构避免(ssa)编码方案因而是本公开内容的有益的方面。通常,对于如本文中所述的编码方案(其使用能够辨别的信号序列特征作为编码元素,且其程度足以在选择编码规则时存在选项,例如在图29中所示),所有这样的可替代方案可被考虑,产生较少(或最少)次级结构的方案将有利地使用。可替代方案相对于特定数字数据载荷或者在拟编码的这种数据载荷的代表性群体中以统计学方式评估。

  例如,ssa编码的重要性例示在传感器提供三种能够辨别的信号序列特征(aaaaa,ttttt,ccccc)的实施例中。如果所有三种特征用于在相同的链(或在其他链上)编码,则很可能aaaaa和ttttt编码元素(互补)在链内或在dna链之间杂化并导致次级结构。这样,如果可替代地数据完全通过0→aaaaa且1→ccccc(即,完全不使用ttttt)的方案编码,则避免所有这样的潜在的次级结构。这样,这种编码(或其他ssa选择,0→ttttt且1→ccccc)优于使用自互补序列的方案,即使由于放弃三种可用编码元素中的一种使信息密度减小。这样,通常,当存在编码选项时而且当存在形成dna次级结构的可能性时可使用ssa码。如此实施例中所示,所希望的用于减少dna次级结构的ssa码的信息密度可小于能够辨别的信号状态的理论可能值。不过,通过避免与dna次级结构相关的数据损失,这种折衷可引起信息密度的净增益、或相关总成本或速度的改善。

  在各种实施例中,用于减少次级结构的方法包括:使用结合寡聚物来保护单链,其中,寡聚物通过将优选地结合到编码特征的序列或序列成分而选择。这样的结合寡聚物可更有效地保护单链和通常退化寡聚物。例如,在上述具有三种能够辨别的信号序列特征aaaaa,ttttt,ccccc的情况下,所有三种可用作编码特征,它们可通过将模板结合到寡聚物ttttt,aaaaa,ggggg或者它们的增强结合类似物(例如rna、lna或pna形式,而非dna)而在单链形式中受到保护。这样,结合寡聚物的使用(优选地结合到编码特征)是减轻不利次级结构影响的另一方式,不过这样的结合寡聚物必须用于链移位多聚酶,例如天然或突变形式的klenow、bst或phi29,使得寡聚物自身不发生干扰。一种用于避免次级结构的进一步的方法是:以初步双链形式制备信息编码dna,在引物部位处具有缝隙或间隙用于多聚酶初始,分子的其余部分采取双式形式,例如在图27b中通过第二链所示(存在或不存在发夹弯曲部),使得dna分子以大致双式形式存在于溶液中,没有在分子内或分子之间因单链相互作用所致的次级结构。

  在各种实施例中,用于编码信息供同源分子传感器读出的dna分子可通过有利于读出过程以及编码和解码过程的架构制备。dna架构的各种实施例例示在图28中。所示为引发单链dna模板(在图的顶部)的代表性物理形式以及用于数字数据存储系统中的信息编码分子的逻辑形式。示例性形式可包括:左、右衔接头(显示为l衔接头和r衔接头),以利于操控信息码分子;引物(例如预引发或自引发的,显示为引物);左、右缓冲区段(显示为l-缓冲和r-缓冲);和数据载荷区段(datapayload)。

  继续参见图28,衔接头(adapter)可例如包括:用于通用放大过程的引物,用于拷贝被存储数据;或者可包括:杂化捕获部位或其他选择性结合目标,用于从集池中目标性选择分子。在各种实施例中,引物区段包含引物目标/结构,l-缓冲区段可包含用于读出器的信号校准序列、或者在数据载荷区段之前的缓冲序列,其包含信息存储编码序列和相关的错误校正序列(例如校验位)。在各个方案中,r-缓冲可包含另外的校准序列以及当读出数据时防止聚合酶过度接近于模板端部的缓冲序列。在各种实施例中,l衔接头和r衔接头可为与相关联dna区段的存储或操控相关的序列元件,例如用于pcr放大外引发援引物、基于杂化的选择、或者体现对此插件(包括作为载体插入到宿主有机基因组中)的周围载体dna的衔接头。在各种实施例中,衔接头可以包括周围或载体dna,例如在dna数据分子存储在活体宿主基因组中(例如在细菌质粒或存活有机体的其他基因组组分中)的情况下。

  进一步参见图28,l-缓冲和r-缓冲区段可包括支持多聚酶结合踪迹的dna区段、或用于协助解读来自数据载荷区域的信号的各种校准或初始序列。这些缓冲区段可包含分子条码序列,用于辨别特有分子或识别源于相同原始单分子的的复制分子。一种这样的条码方法(在dna寡聚物合成领域对于本领域技术人员是公知的)包括:添加短的随机n-mer序列,其典型地为1至20碱基长,例如通过以碱基的退化混合物(而非特定碱基)执行合成步骤而制成。

  继续参见图28,dna逻辑结构包括数据载荷区段,其中,特定数据被编码。在各种实施例中,数据载荷区段包括实际初步数字数据,其与用于存储方法的元数据一起存储,该元数据可包括与将这种信息片断正确组装为更长串相关的数据、和/或与错误探测和校正相关的数据(例如校验位、校验和、或其他这样的高架数据)。

  在各种实施例中,数据载荷dna结构源自施加于源数字数据载荷(例如二进制数据)的传感器专用信息编码方案,如图29中所示。在此场景中,未存储为dna的原始数字数据将典型地具有作为电子二进制数据(1/0位)的先前表现。在编码的各种实施例中,这种原始数据将:(i)分为各区段;(ii)通过再组装数据而增强;(iii)通过错误校正适于dna存储的编码而变换,以产生实际二进制数据载荷区段,例如在图29的示例中所示。这些实际二进制数据载荷区段然后需要翻译为可用于随后的dna物理存储分子合成的dna载荷序列。在各种实施例中,初步翻译通过二进制编码方案(bes)执行,例如显示在图29中。这些编码方案提供从数字数据格式(例如二进制)初步翻译到dna分子序列格式。

  哪种bes适合,直接相关于传感器(如图11中所示)的能够辨别的信号特征组。图29例示出多个这样的初步编码,其中使用示例性的二进制数据载荷,即,图顶部所示的32位字。示例性的二进制编码方案(bes)显示如下:

  -bes1:四个2位标准编码为四个标准dna字母(1个dna字母/两个二进制位),用于能够辨别这些特征的读出器传感器(例如图22);

  -bes2:两个二进制数字编码为两个碱基(1个dna字母/1个二进制位),用于能够辨别它们的读出器传感器(例如在图23中的t和g之间辨别);

  -bes3:两个二进制数字编码为两个碱基类组:aa和ccc(一个类组的dna字母/一个二进制位),以将两个二进制状态编码用于能够辨别这些特征的读出器传感器(例如在图24中的aa和ccc之间辨别);

  -bes4:使用通过两个修饰碱基x、y构成的dna分子(1个修饰碱基/1个二进制位)编码两个二进制状态,用于能够在模板中辨别这些修饰碱基的读出器传感器(例如辨别图26c中的x和y);

  -bes5:使用通过4个天然碱基和4个修饰碱基构成的dna分子编码8个可能的1/0的3位状态(1个dna碱基或修饰碱基/3位数据),用于能够在所有8种碱基特征之间辨别的传感器(例如在图26d中的a,c,g,t,x,y,z,w之间辨别);

  -bes6:使用两个dna序列基序编码两个二进制状态(1个dna序列基序/1个二进制位),用于能够辨别这些基序的信号的读出器传感器(例如在图26a中的gatt和aca之间辨别)。

  如图29的示例中所见,用于多位的编码方案bes1和bes5的二进制数据载荷的编码缩短了从二进制进行到dna序列的编码串的长度,而多碱基的编码方案bes3和bes6在编码时延长了编码串的长度。当减少合成dna信息编码分子的长度具有高优先级时(例如当对于写入技术的寡聚物长度存在实际限制时),产生较短序列的码方案是优选的。进一步如图29的示例中所见,bes2和bes4方案在从二进制进行到dna序列时保持编码串的长度。进一步参见图29,图的下部分提供当示例性二进制数据载荷字(在图的顶部)通过编码方案bes1、bes2、bes3、bes5转变时获得的dna序列。

  本文中使用的二进制编码方案不限于图29中提出的示例,对图29中所示的多种变化或类似的编码方案也在这些示例中暗示,例如通过取代所用字母、或改变序列基序的长度、序列基序的成分、和/或修饰或类似碱基的选择而实现。还应理解,所有这样的编码方案具有同源传感器,能够辨别编码特征的信号,使得bes的选择直接相关于传感器辨别特征的性能。还应理解,即使图29的示例例示出具有2、4或8个能够辨别的特征的情况,为便于描述1、2或4位的位编码,二进制数据的编码可基于任意数量的能够辨别的信号特征而进行,例如,如图26b的传感器中的3个能够辨别的特征。

  在各种实施例中,作为二进制数据的信息(例如0)可使用三状态a,b,c编码,其中,0编码为a,1编码为b,00编码为c(只要00出现)(即,00不编码为aa)。根据此方案,二进制字0等同于编码形式abcbbbcaba。类似地,不同于二进制的数字数据形式或字母表(例如十六进制、十进制、ascii等等)可同样通过与图29中所示类似的方案编码。这样的方法对于计算机科学领域的技术人员是公知的。比所示更复杂的方案,根据优化信息密度(例如lempel-ziv编码),能够将数据从一个字母表高效地转变和压缩到另一字母表中。

  通常,为了将二进制或其他数字数据载荷串或串集合转变为dna序列串或这种串的集合,许多无损和有损的编码或压缩方法(例如在计算机科学中公知的方法)可用于设计方案,用于将输入的数字数据载荷初步转变为dna序列数据载。