本发明提供一种基于高通量引物设计的DNA存储系统文件选择性访问方法,包括以下步骤:1)基于二进制与DNA碱基的映射关系,将数字信息转化为DNA序列;2)设计高通量引物组并添加至不同文件的DNA序列两端;3)合成DNA并放置在合适的条件下保存;4)基于设计的引物组,通过多重PCR选择性扩增待访问内容的序列;5)通过测序读取DNA序列信息;6)基于DNA碱基与二进制信息的映射关系对测序数据进行解码,恢复文件。本发明通过对引物GC含量、均聚物、自身互补性、ΔG、二级结构进行评估,并且对所有引物自身及引
(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 116959573 A (43)申请公布日 2023.10.27 (21)申请号 4.X (22)申请日 2023.07.25 (71)申请人 上海交通大学 地址 200030 上海市徐汇区华山路1954号 (72)发明人 宋萍翁智司云培 (74)专利代理机构 上海智信专利代理有限公司 31002 专利代理师 余永莉 (51)Int.Cl. G16B 25/20 (2019.01) G06N 3/123 (2023.01) 权利要求书2页 说明书7页 附图4页 (54)发明名称 一种基于高通量引物设计的DNA存储系统文 件选择性访问方法 (57)摘要 本发明提供一种基于高通量引物设计的DNA 存储系统文件选择性访问方法,包括以下步骤: 1)基于二进制与DNA碱基的映射关系,将数字信 息转化为DNA序列;2)设计高通量引物组并添加 至不同文件的DNA序列两端;3)合成DNA并放置在 合适的条件下保存;4)基于设计的引物组,通过 多重PCR选择性扩增待访问内容的序列;5)通过 测序读取DNA序列信息;6)基于DNA碱基与二进制 信息的映射关系对测序数据进行解码 ,恢复文 件。本发明通过对引物GC含量、均聚物、自身互补 性、ΔG、二级结构进行评估,并且对所有引物自 A 身及引物间二聚体形成概率进行打分,进行高通 3 量引物组设计,实现了在DNA数据存储系统中更 7 5 9 多文件的随机访问。 5 9 6 1 1 N C CN 116959573 A 权利要求书 1/2页 1.一种基于高通量引物设计的DNA存储系统文件选择性访问方法,其特征在于,包括以 下步骤: 1)基于二进制与DNA碱基的映射关系,将数字信息转化为DNA序列; 2)设计高通量引物组并添加至不同文件的DNA序列两端,所述高通量引物组的设计方 法包括通过对所有引物的自身二聚体形成概率及引物间二聚体形成概率进行打分,设定最 高阈值来减低引物二聚体形成概率; 3)合成DNA并放置在合适的条件下保存; 4)基于设计的引物组,通过多重PCR选择性扩增待访问内容的序列; 5)通过测序读取DNA序列信息; 6)基于DNA碱基与二进制信息的映射关系对测序数据进行解码,恢复文件。 2.根据权利要求1所述的DNA存储系统文件选择性访问方法,其特征在于,步骤2)中,所 述高通量引物组的设计方法包括以下步骤: a:确定需要设计的引物组数量N; b:基于单引物对的设计方法,生成N组候选引物,每组包括至少3对备选引物; c:从每组中随机选择一对引物,整体作为初始组S ; 0 d:对初始组S 中各引物之间的二聚体形成概率进行打分获得L(S),其计算公式如下: 0 0 其中Pa与Pb分别是引物集合S中的第a条与第b条引物,而我们所计算的二聚体评分L分 别考虑了不同引物间的二聚体形成与相同引物的二聚体形成概率,两者各占一半比重,对 于公式中的score,其计算公式如下: 其中,len代表的是互补序列的长度,而num则是互补碱基中GC的个数,d1和d2则分别是 互补序列在相应引物中与3’端的距离; e:计算得到L(S)后,随机改变当前引物集合S 中的1~n条引物,生成一个暂时的引物 0 n 集合S ,并重新计算S 的二聚体评分L(S ),若L(S )≤L(S),则新的引物集合由暂 temp temp temp temp n 时的集合替代,即S =S ; n+1 temp f:基于上述步骤,不断重复迭代,直到生成的引物集合S 的二聚体评分L(S)低于设定 N N 的阈值,则停止程序,将S 确定为最终使用的引物组合。 N 3.根据权利要求2所述的DNA存储系统文件选择性访问方法,其特征在于,所述步骤b 中,所述单引物对的设计方法包括:通过随机函数产生一对序列长度在15~30nt之间的随 机引物序列,依次对其GC含量、均聚物、自身互补性、结合自由能变化ΔG、二级结构进行评 估。 4.根据权利要求3所述的DNA存储系统文件选择性访问方法,其特征在于,在单引物对 的设计方法中:GC含量应在40%~60%之间;最大均聚物长度应不超过4;在自身互补性检 查中靠近3端的互补碱基最大数目在4~10之间,中间部分的互补碱基最大数目在6~15之 间;对于GC含量、均聚物、自身互补性检查不通过的序列,随机改变序列中的1~n个碱基,并 2 2 CN 116959573 A 权利要求书 2/2页 重新进行GC含量、均聚物、自身互补性评估;对于通过的序列,进一步计算引物在常规PCR条 件下的结合自由能变化ΔG,ΔG应在‑10.5kcal/mol~‑12.5kcal/mol,范围外的序列直接 丢弃;对于通过的序列,进一步考察其二级结构的形成情况,有明显二级结构的引物则直接 丢弃,通过的引物则添加至可用引物库中。 5.根据权利要求4所述的DNA存储系统文件选择性访问方法,其特征在于,所述常规PCR + 条件包括:Na 离子浓度为0.18M,温度T为60℃。 6.根据权利要求2所述的DNA存储系统文件选择性访问方法,其特征在于,所述高通量 引物组在设计时可添加选自:Adapter序列、茎环结构序列、分子标签序列、冗余纠错序列、 Tag序列中的任意一种功能序列。 7.根据权利要求2所述的DNA存储系统文件选择性访问方法,其特征在于,所述高通量 引物组在设计时可修饰选自:RNA、LNA、PNA、XNA、dU、Spacer、PEG、荧光基团、磷酸化基团、反 向dT、甲基化碱基中的任意一种功能基团。 8.根据权利要求1所述的DNA存储系统文件选择性访问方法,其特征在于,步骤5)中,通 过下一代测序、纳米孔测序方法读取DNA序列信息。 9.根据权利要求1所述的DNA存储系统文件选择性访问方法,其特征在于,所述高通量 引物组的设计方法还包括通过序列比对工具对引物的扩增特异性进行验证。 10.根据权利要求1所述的DNA存储系统文件选择性访问方法,其特征在于,PCR的条件 包括: 1)PCR循环步骤可以按照变性‑退火‑延伸的步骤进行,也可以按照变性‑退火‑延伸的 方式扩增; 2)PCR的引物浓度范围在1nM~100μM之间; 3)PCR的退火温度范围在20℃~72℃之间; 4)PCR中使用的聚合酶为低保真聚合酶或高保线)PCR反应液中,Mg 浓度在1mM~100mM之间,dNTP浓度在20μM~20mM之间,DMSO浓度在 + 1%~30%之间,Na 浓度在100mM~10M之间。 3 3 CN 116959573 A 说明书 1/7页 一种基于高通量引物设计的DNA存储系统文件选择性访问 方法 技术领域 [0001] 本发明涉及DNA数据存储领域,更具体地涉及一种基于高通量引物设计的DNA存储 系统文件选择性访问方法。 背景技术 [0002] 随着互联网的普及,我们已经进入大数据时代,全球需要存储的数据飙升,国际数 据组织数据显示,全球大数据存储量从2017年的21.6ZB增至2020年60ZB,预计到2025年,全 球数据存储需求将增长至175ZB。首先,目前使用的传统存储介质使用寿命有限需要对长期 保存的数据进行转存和维护,一般磁性和固态存储介质只能使用3到10年,光盘的寿命也只 有50年。急需一种可以长期稳定保存数据的介质。DNA作为自然界生物存储遗传信息的载 体,具有很强的稳定性,半衰期为521年,在合适的条件下,可以持续存在数十万年。例如,科 学家成功从190万年前的巨猿牙齿化石的牙釉质中提取遗传信息(Nature 2019,576,262– 265)。其次,当前使用的存储介质密度较低,电脑硬盘存储密度是500GB,存储一张5PB的黑 洞照片,需要一万块500GB的硬盘,其重量就达半吨之重。而DNA用于存储数据具有较高的密 7 度,每克可以存储约4.5×10GB数据(ACS Nano 2022,16,17552‑17571),存储相当大小的 黑洞照片大约仅需0.5千克DNA,存储当前全球的所有数据大约只需要1千克。也因为DNA存 储密度高,相应所需占地也会大大减小。此外,和传统的数据存储介质相比,DNA作为数据存 储技术不需要大量的人力、财力投入,易于维护,仅需要保存在低温环境中。因此,DNA因长 保存时间、高存储密度密度、低能源消耗等优点,是下一代存储介质的潜在选择,有望解决 激增的信息量与现有存储能力之间差距,以及存储介质寿命有限的问题。 [0003] 所谓DNA数据存储技术,是将文字、图片、声音和影像等数据编码后存储到人工合 成的DNA序列中,然后通过测序解码来完整读取存储数据的技术。DNA数据存储流程包括编 码、写入、读取、解码四个步骤。首先,通过使用不同的编码方式将将需要存储的信息(文字、 图片、音频或视频)转换为DNA序列。DNA由碱基、脱氧核糖和磷酸构成。组成DNA的碱基有4种 包括腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)和鸟嘌呤(G),按照A与T和G与C配对原则构成双螺 旋结构来保存生物体的遗传信息。在DNA数据存储中,将待存储数据信息转换成二进制的0 和1并翻译成DNA的ATGC碱基序列。例如,A=00,T=01,C=10和G=11。然后,使用化学或基 于酶的方法来合成DNA序列,完成DNA数据写入的过程。对于存入DNA的数据,可以使用 Sanger、Illumina或纳米孔测序技术对DNA序列测序,最后使用不同算法来对测序结果进行 解码。 [0004] 然而,当前DNA数据存储技术快速发展还面临着严峻的挑战,主要是DNA数据合成 写入和读取成本。在时间成本方面,DNA合成一般需要专门基因合成公司(例如,Twist Biosicence),其合成过程一般需要数月,DNA序列测序读取也需要数日;在经济成本方面, 合成1MB大约需要3500美元,读取需要1000美元。但随着DNA合成技术和测序技术的迅猛发 展,DNA存储技术的成本将会持续下降。 4 4 CN 116959573 A 说明书 2/7页 [0005] 大多数先前的DNA数据存储工作是对存储的全部信息进行测序和解码,没有随机 访问,随着数据量的增加,测序成本与时间将相应增加。因此,能够有效地检索特定文件或 任意文件子集对降低DNA存储的价格非常重要。 [0006] 此外,也有部分现有技术可以实现DNA数据存储的随机访问,比如专利(WO2018/ 102064A1,US2019376120A1,EP3513346A1),其引物是基于Tm值设计。其他的引物设计方法 还包括使用NCBI、ThermoFisher等机构提供的引物设计工具,根据一定的参数和算法获得 需要的引物序列,但其结果也是基于Tm推测获得引物,并没有考虑到引物颈环结构和未匹 配单链对DNA杂交影响。而对于文献或网上报道所提供的引物序列,并不一定适用于将要进 行的研究,且由于缺少理论和算法支撑,难以根据存储工作的需要进行扩展改进,并且使用 已申请过专利的引物还需要获得相应的授权。 [0007] 总之,现有技术的缺陷主要在于:1)现有的引物设计方法用于DNA数据存储的选择 性检索的通量有限,最多只做过48个文件的随机访问(参见Nature Biotechnology 2018, 36,242‑248);2)现有引物设计方法多基于单重引物设计,没有考虑到多个引物组间的引物 二聚体情况,以及对DNA存储数据随机读取准确性的影响;3)现有方法没有考虑由于引物结 构引起的文库的非特异性扩增。 发明内容 [0008] 本发明的目的是提供一种基于高通量引物设计的DNA存储系统文件选择性访问方 法,从而解决现有DNA数据存储技术中引物设计方法导致通量较低、随机读取准确性低、以 及非特异性扩增的问题。 [0009] 为了解决上述技术问题,本发明采用以下技术方案: [0010] 提供一种基于高通量引物设计的DNA存储系统文件选择性访问方法,包括以下步 骤:1)基于二进制与DNA碱基的映射关系,将数字信息转化为DNA序列;2)设计高通量引物组 并添加至不同文件的DNA序列两端,所述高通量引物组的设计方法包括通过对所有引物的 自身二聚体形成概率及引物间二聚体形成概率进行打分,设定最高阈值来减低引物二聚体 形成概率;3)合成DNA并放置在合适的条件下保存;4)基于设计的引物组,通过多重PCR选择 性扩增待访问内容的序列;5)通过测序读取DNA序列信息;6)基于DNA碱基与二进制信息的 映射关系对测序数据进行解码,恢复文件。 [0011] 根据本发明的一个优选方案,步骤2)中,所述高通量引物组的设计方法包括以下 步骤:a:确定需要设计的引物组数量N;b:基于单引物对的设计方法,生成N组候选引物,每 组包括至少3对备选引物;c:从每组中随机选择一对引物,整体作为初始组S ;d:对初始组S 0 0 中各引物之间的二聚体形成概率进行打分获得L(S),其计算公式如下: 0 [0012] 其中Pa与Pb分别是引物集合S中的第a条与第b条引物,而我们所计算的二聚体评 分L分别考虑了不同引物间的二聚体形成与相同引物的二聚体形成概率,两者各占一半比 重,对于公式中的score,其计算公式如下: 5 5 CN 116959573 A 说明书 3/7页 [0013] 其中,len代表的是互补序列的长度,而num则是互补碱基中GC的个数,d1和d2则分 别是互补序列在相应引物中与3’端的距离;e:计算得到L(S)后,随机改变当前引物集合S 0 n 中的1~n条引物,生成一个暂时的引物集合S ,并重新计算S 的二聚体评分L(S ),若 temp temp temp L(S )≤L(S),则新的引物集合由暂时的集合替代,即S =S ;f:基于上述步骤,不断 temp n n+1 temp 重复迭代,直到生成的引物集合S 的二聚体评分L(S)低于设定的阈值,则停止程序,将S 确 N N N 定为最终使用的引物组合。 [0014] 根据本发明的一个优选方案,所述步骤b中,所述单引物对的设计方法包括:通过 随机函数产生一对序列长度在15~30nt之间的随机引物序列,依次对其GC含量、均聚物、自 身互补性、结合自由能变化ΔG、二级结构进行评估。 [0015] 优选地,在单引物对的设计方法中:GC含量应在40%~60%之间;最大均聚物长度 应不超过4;在自身互补性检查中靠近3端的互补碱基最大数目在4~10之间,中间部分的互 补碱基最大数目在6~15之间;对于GC含量、均聚物、自身互补性检查不通过的序列,随机改 变序列中的1~n个碱基,并重新进行GC含量、均聚物、自身互补性评估;对于通过的序列,进 一步计算引物在常规PCR条件下的结合自由能变化ΔG,ΔG应在‑10.5kcal/mol~‑ 12.5kcal/mol,范围外的序列直接丢弃;对于通过的序列,进一步考察其二级BG大游结构的形成情 况,有明显二级结构的引物则直接丢弃,通过的引物则添加至可用引物库中。 [0016] + 所述常规PCR条件包括:Na 离子浓度为0.18M,温度T为60℃。 [0017] 优选地,所述高通量引物在设计时可添加选自:Adapter序列、茎环结构序列、分子 标签序列、冗余纠错序列、Tag序列中的任意一种功能序列。 [0018] 优选地,所述高通量引物在设计时可修饰选自:RNA、LNA、PNA、XNA、dU、Spacer、 PEG、荧光基团、磷酸化基团、反向dT、甲基化碱基中的任意一种功能基团。 [0019] 优选地,步骤5)中,通过下一代测序、纳米孔测序等方法读取DNA序列信息。 [0020] 所述高通量引物组的设计方法还包括通过BLAST等序列比对工具对引物的扩增特 异性进行验证。 [0021] PCR的条件包括:1)PCR循环步骤可以按照变性‑退火‑延伸的步骤进行,也可以按 照变性‑退火‑延伸的方式扩增;2)PCR的引物浓度范围在1nM~100μM之间;3)PCR的退火温 度范围在20℃~72℃之间;4)PCR中使用的聚合酶为低保真聚合酶或高保线+ 反应液中,Mg 浓度在1mM~100mM之间,dNTP浓度在20μM~20mM之间,DMSO浓度在1%~30% + 之间,Na 浓度在100mM~10M之间。 [0022] 应当理解的是,基于PCR多重引物进行的DNA数据的存储技术可以实现数据的随机 访问。首先,每一个数据库都会被赋予唯一的引物对,通过找到相应的引物对来进行扩增。 在测序读取时也无需依次读取数据库,可以大大降低读取成本。其次,在使用DNA存储数据 时,长序列读取成本低但其较长的序列并不利于数据的随机访问。因此,对DNA短序列进行 数据存储使用多重PCR引物组可以仅访问需要的数据,有利于随机访问的实现。 [0023] 根据本发明提供的一种基于高通量引物设计的DNA存储系统文件选择性访问方 法,其发明点主要在于,提供了一种高通量引物设计方法,所述高通量引物设计方法基于GC 含量,均聚物长度,自身互补性,引物结合自由能变化ΔG,二级结构评估,引物二聚体形成 6 6 CN 116959573 A 说明书 4/7页 概率等参数设计高通量引物组。 [0024] 本发明通过预先基于单引物对的设计方法,生成N组候选引物,在该候选引物的设 计过程中,GC含量,均聚物长度,自身互补性,引物结合自由能变化ΔG,二级结构评估这些 筛选条件可以看作一个硬性条件,当我们根据这些条件筛选出符合条件的引物,组成引物 库后,再基于引物二聚体形成概率进行打分,从里面筛选出最优的组合。 [0025] 在该高通量引物设计方法中,本发明的关键发明点还在于,首次提供这样一种针 对引物二聚体形成概率的打分公式,通过对所有引物的自身二聚体形成概率及引物间二聚 体形成概率进行打分,根据经验设定最高阈值来减低引物二聚体形成概率,实现了高通量 引物组的设计。 [0026] 综上所述,根据本发明提供的一种基于高通量引物设计的DNA存储系统文件选择 性访问方法,其相对现有技术具有以下有益效果: [0027] 1)本发明在设计时重点考量了引物组间的二聚体形成情况,从而可以设计更高通 量的引物组,从而可以在DNA存储进行更大范围的选择性检索; [0028] 2)本发明基于ΔG的计算设计多重引物的方法,相比于基于Tm值设计引物,可以保 证多个引物与模板的杂交热力学能相近,从而保证多个文件的无偏差的随机访问,可以检 查引物二聚体的情况,同时可以检查非特异性扩增; [0029] 3)本发明可以通过控制引物的浓度或模板量的不同,进而实现对存储文件的放 大、缩小、预览等类似电脑界面的可操作化模式。 [0030] 4)根据本发明提供的方法,基于GC含量,均聚物长度,自身互补性,引物结合自由 能变化ΔG,二级结构评估,引物二聚体形成概率等参数,可以设计出更高通量的引物组,从 而实现在DNA数据存储系统中进行更大范围的选择性检索。 附图说明 [0031] 图1示出了根据本发明提供的一种DNA存储数据流程图; [0032] 图2示出了基于PCR的选择性访问原理图; [0033] 图3示出了单对引物设计原理图; [0034] 图4示出了高通量引物设计原理图; [0035] 图5示出了引物的序列可扩展性; [0036] 图6示出了引物上可修饰的基团种类; [0037] 图7示出了Tag‑引物扩增曲线] 以下结合具体实施例,对本发明做进一步说明。应理解,以下实施例仅用于说明本 发明而非用于限制本发明的范围。如非特殊说明,实施例中所用的技术手段为本领域常规 操作,或按照试剂盒及仪器设备厂商所建议的实验方法。实施例中使用的试剂和材料如无 特殊说明均可从商业途径获得。 [0039] DNA存储流程 [0040] 关于DNA存储从存入到读出的全过程,详情可见图1,主要包括如下几个步骤: [0041] 1)编码。电脑端的任何文件,无论其是文本,是音频,又或是视频,本质都是由0101 7 7 CN 116959573 A 说明书 5/7页 这样的二进制信息构成。DNA存储的第一步便是基于数字信息与碱基之间的映射关系,将二 进制信息转化为DNA序列。对于具体如何操作,已发展了很多不同的编码方式,为方便理解, 此处我们介绍两种简单的映射方法:①A,T,C,G分别对应00,01,10,11;②A/C对应1,T/G对 应0。基于选择的映射方法,便可将文件的数字信息转化为一段长DNA序列。但由于DNA合成 技术的限制,通常需要序列分割为许多小的片段,并添加一段地址(address)序列,以便复 原时确定每一段序列的位置。最后,在序列两端添加正向引物(Forward primer,FP)与反向 引物(Reverseprimer,RP)的退火位点(退火即引物与模板结合的过程),便得到了最终需要 合成的序列(详细的序列组成可参考图2的左上方内容)。 [0042] 2)合成。通过化学合成法或生物酶法合成上一步得到的DNA序列,并放置在相应的 环境下保存。 [0043] 3)读取。读取可分为两个子步骤,分别为建库与测序。首先,选择待访问文件的相 对应引物,通过PCR扩增(聚合酶链反应,用于增加核酸分子的拷贝数)富集靶序列并在其俩 端加上测序接头。随后,通过NovaSeq、MiniOn等测序仪器对构建的文库进行测序。 [0044] 4)解码。针对测序结果,基于此前编码时的映射关系表将序列信息转换为数字信 息,从而恢复保存在DNA序列中的文件信息。 [0045] 在DNA存储中实现选择性访问 [0046] 图2展示了基于多重PCR在DNA存储中实现选择性访问的方法。首先,在编码的DNA 序列中,每个文件的相关序列都对应一对引物。因此,对于想要访问的文件内容,通过使用 其相应的引物组进行PCR,便可实现引物对应文件序列的特异扩增。随后按照普通建库步 骤,在序列两端添加上测序接头,并进行测序。对得到的测序结果进行解码分析,最后便可 获得相应的文件信息。 [0047] 需要注意的是,选择性访问在DNA存储中具有重要意义。试想,若没有此功能,当我 们要访问某一内容时,需要读取DNApool中的所有信息并将其解码,可类比数码世界里的CD 光盘。这一方面需要测得更多的数据,增加了解码文件所需的成本;另一方面,也增加了解 码文件所需的时间。而我们通过多重PCR选择性访问DNApool中的任意内容,则可以类比数 码世界中的硬盘的功能,不仅降低了每个文件的平均解码花费,也节约BG大游了相应的解码时间, 具有重要的意义。 [0048] 单引物组设计流程 [0049] 从上述描述中可以发现,为在DNA存储中实现选择性访问功能,最重要的莫过于引 物的高通量设计。所能设计引物组的最大重数,决定了DNA存储系统的文件容量;而设计引 物的质量,则影响着数据解码的成功率。因此,本发明设计了一种高通量的引物设计方法用 于DNA存储中的文件选择性访问。此处,将首先介绍单对引物的设计流程(如图3所示)。 [0050] 首先,通过随机函数产生一对序列长度在15~30nt之间的随机引物序列,对其GC 含量、均聚物(连续相同碱基称为均聚物,如AAAA)进行评估。例如,GC含量是否在40%~ 60%之间,最大均聚物长度是否超过4。随后,对通过的序列进行互补性评估,判断标准如 下,在近3端位置,与自身或另一引物的互补碱基个数不超过4,而在中间位置则不能超过6。 对于不通过的序列,随机改变序列中的1~n个碱基,并重新进行GC含量、均聚物评估;而对 于通过的序列,需要计算其与模板的结合自由能变化ΔG,ΔG应≈‑11.5kcal/mol,范围为‑ 10.5kcal/mol~‑12.5kcal/mol。对于ΔG在范围外的引物组,直接丢弃并重新生成新序列 8 8 CN 116959573 A 说明书 6/7页 进行优化设计。而对于通过的引物,则需进一步考察其二级结构的形成情况,对于有明显二 级结构的引物则直接丢弃,通过的引物则添加至可用引物库中。 [0051] 高通量引物设计流程 [0052] 下面将介绍高通量引物的设计流程(如图4)。首先,确定需要设计引物的对数N,基 于单引物对的设计思路,生成N组备选引物,其中每个大组包括≥3对备选引物。接下来,每 个大组中随机选择一组引物,作为初始状态,它们的集合记为S 。随后,对S 中所有引物之间 0 0 的二聚体形成概率进行打分L(S),其中二聚体评分L的计算公式如下: 0 [0053] 其中Pa与Pb分别是引物集合S中的第a条与第b条引物,而我们所计算的二聚体评 分L分别考虑了不同引物间的二聚体形成与相同引物的二聚体形成概率,两者各占一半比 重。对于公式中的score,其计算公式如下: [0054] 其中,len代表的是互补序列的长度,而num则是互补碱基中GC的个数。此外,d1和 d2则分别是互补序列在相应引物中与3’端的距离。 [0055] 在计算L(S)后,随机改变当前引物集合S (当前S=S)的1~n条引物,生成一个 0 n n 0 暂时的引物集合S ,并重新计算S 的二聚体评分L(S )。若L(S )≤L(S),则新的引 temp temp temp temp n 物集合由暂时的集合替代,即S =S ;若L(S )L(S),为了不让程序陷入停滞状态, n+1 temp temp n S 存在一定几率替代S ,其概率P与L(S )与L(S)之间的差值有关,差值越大,则S 替 temp n temp n temp 代S 的概率越小。基于上述步骤,不断重复迭代,直到生成的引物集合S 的二聚体评分L(S) n N N 低于设定的阈值,则停止程序,将S 确定为最终使用的引物组合。 N [0056] 引物的可扩展性 [0057] 在我们设计的引物中,可以通过添加不同功能序列,来为引物增加额外的功能(如 图5所示)。例如,在引物的5’端添加adapter(适配子序列)可用于直接在序列两端添加接 头,简化后续的建库步骤。此外,还可以在引物5’端添加分子标签序列,利用分子标签的特 性,从而可以对DNA存储中产生的错误进行分析。还可以在引物5端添加一段序列以提供额 外的信息存储位,并将其作为纠错位,在后续信息解码过程中起到纠错的作用。 [0058] 除添加功能序列外,引物上还可以通过修饰一些功能基团来赋予引物额外的功能 (如图6所示)。例如,通过在引物中间修饰多个dU碱基,结合尿嘧啶‑DNA糖基化酶(UDG酶,可 特异性切割dU)可已减少引物二聚体的形成。此外,通过修饰RNA或LNA、PNA、XNA等核酸类似 物,可改变引物与模板的结合能力,从而提高引物的单碱基分辨率(区分单个碱基的错判)。 还可以同在引物的5端添加修饰有荧光基团与淬灭基团的分子信标,从而可以实现对PCR扩 增过程实时监测的效果。 [0059] 基于Tag‑引物的PCR扩增 [0060] 根据本发明的一个优选实施例,作为引物高可扩展性的展示,我们在图7中展示了 采用前述高通量引物设计方法设计并修饰有Tag序列(5’端的一段额外序列)的引物扩增效 果。此处,引物与模板的结合自由能ΔG≈‑8.4kcal/mol,在正常的PCR条件下,通常扩增效 9 9 CN 116959573 A 说明书 7/7页 果不佳。而在本实施例中,根据高通量引物设计方法设计,并修饰有Tag序列,通过Tag序列 对自由能的调控,在经过初始的几个循环扩增后,引物上的Tag序列也能结合到模板上,此 时引物的结合自由能ΔG≈‑11.5kcal/mol,其扩增曲线为标准的S型曲线,表明了对靶序列 良好的扩增效果。与正常引物相比,其在循环数上仅有微小的延迟(见图7)。基于这个例子, 我们展示了通过本发明的高通量引物设计方法以及添加Tag序列来扩展引物初始自由能Δ G的可设计范围,增加了设计的灵活性。 [0061] 以上所述的,仅为本发明的较佳实施例,并非用以限定本发明的范围,本发明的上 述实施例还可以做出各种变化。凡是依据本发明申请的权利要求书及说明书内容所作的简 单、等效变化与修饰,皆落入本发明专利的权利要求保护范围。本发明未详尽描述的均为常 规技术内容。 10 10 CN 116959573 A 说明书附图 1/4页 图1 图2 11 11 CN 116959573 A 说明书附图 2/4页 图3 12 12 CN 116959573 A 说明书附图 3/4页 图4 图5 图6 13 13 CN 116959573 A 说明书附图 4/4页 图7 14 14
2、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问加。
3、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
4、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
2026版高三一轮总复习(数学)70第八章第2课时两条直线的位置关系.pptx
2023年传媒行业:现象级产品ChatGPT出现,AIGC商业化推进,赋能多元应用.pdf
2023年创梦天地分析报告:深耕自研产品生态,构筑游戏社区未来.pdf
2026版高三一轮总复习(数学)47第五章第3课时平面向量的数量积及其应用.pptx
2026版高三一轮总复习(数学)62第七章第5课时空间直线、平面的垂直.pptx
宁强县2024-2025学年度第二学期期末学业水平检测:八年级英语试题(卷).docx
2021-2022学年高中《读本》导学案★★第7讲:安邦定国:民族复兴的坚强保障导学案.docx
《照明线路的安装及检修》学习任务设计方案6实训室照明电路的安装学习任务设计方案.doc
原创力文档创建于2008年,本站为文档C2C交易模式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中间服务平台,本站所有文档下载所得的收益归上传人所有。原创力文档是网络服务平台方,若您的权利被侵害,请发链接和相关诉求至 电线) ,上传者