本发明专利技术公开了一种DNA存储方法、系统和存储介质,方法包括:对合成DNA进行测序,得到若干测序序列;确定编码表中不存在对应测序碱基序列,获取编码表中与测序碱基序列汉明距离最小的碱基序列替换测序碱基序列;根据编码表对替换后的测序序列解码,获取解码文本;字符编码表中任意两个碱基序列的汉明距离大于第一阈值。本发明专利技术实施例利用与碱基序列的汉明距离对测序得到的测序碱基序列进行纠错,对纠错后的测序碱基序列进行解码得到解码文本。由于编码表中任意两个碱基序列的汉明距离大于第一阈值,使得编码表具有一定的纠错能力,相较于现有的冗余码纠错,大大提高了DNA存储的存储效率。本发明专利技术可广泛应用于分子生物学领域中。
随着云计算、大数据、人工智能和高通量测序等技术的发展,人类已经进入了大数据时代。海量数据存储的需求,对数据存储技术提出了巨大的挑战。现如今的存储技术虽然读取速度快,但是数据存储设备保存数据的时长有限,且占据较大空间,成本也比较高。DNA存储与之相比有如下一些显著优点:节省空间,1克DNA不到指尖上一滴露珠大小,却能够储存700TB的数据,相当于1.4万张50GB的蓝光光盘或233个3TB的硬盘;节约成本,不耗电,不需人工维护;保存时间久;存储数据密度高。通常进行DNA存储的流程是:先把计算机中的二进制文件编码为碱基序列,然后对碱基序列进行合成和扩增,得到合成DNA,当需要使用到合成DNA中的数据,再对碱基序列进行测序,从碱基序列中恢复原本的信息。但是受限于DNA链在合成、存储和测序时易发生碱基缺失、插入和替换错误的这一问题,目前的大部分研究都对原始输入信息添加了众多冗余码,比如内部码解决序列内的碱基错误,外部码解决序
1.一种DNA存储方法,其特征在于,包括:/n对合成DNA进行DNA测序,得到若干测序序列,所述测序序列包括若干测序碱基序列;/n确定编码表中不存在所述测序碱基序列,获取所述编码表中与所述测序碱基序列汉明距离最小的碱基序列替换所述测序碱基序列;/n根据所述编码表对替换后的所述测序序列进行解码,得到解码字符行,所述解码字符行包括字符行索引和字符行字符;/n根据所述字符行索引和字符行字符,获取解码文本;/n其中,所述编码表包括字符编码表和索引编码表,所述字符编码表的任意两个碱基序列的汉明距离大于第一阈值。/n
对合成DNA进行DNA测序,得到若干测序序列,所述测序序列包括若干测序碱基序列;
确定编码表中不存在所述测序碱基序列,获取所述编码表中与所述测序碱基序列汉明距离最小的碱基序列替换所述测序碱基序列;
根据所述编码表对替换后的所述测序序列进行解码,得到解码字符行,所述解码字符行包括字符行索引和字符行字符;
其中,所述编码表包括字符编码表和索引编码表,所述字符编码表的任意两个碱基序列的汉明距离大于第一阈值。
确定所述测序序列的碱基数量小于碱基下限数量,删除所述测序序列;确定所述测序序列的碱基数量大于碱基上限数量,删除所述测序序列;
其中,所述碱基下限数量为测序序列中不存在特殊控制对应的碱基数量;所述碱基上限数量为测序序列中的每个解码字符对应一个特殊控制字符对应的碱基数量。
其中,所述编码表的碱基序列的起始BG大游两个碱基不相同,所述编码表的碱基序列的结尾两个碱基不相同。
4.根据权利要求1所述一种DNA存储方法,其特征在于,所述根据所述字符行索引和字符行字符,获取解码文本,包括:
计算所述解码分组的解码字符行的每个位置的解码字符出现的频率,将出现的频率最高的解码字符作为所述位置的高频解码字符;
根据所述高频解码字符行的字符行索引和所述高频解码字符行的字符行字符,获取解码文本。
5.根据权利要求4所述一种DNA存储方法,其特征在于,所述根据所述字符行索引和字符行字符将所述解码字符行分成若干个解码分组,包括:
根据所述字符行索引对所述解码字符行进行分组,得到若干个索引分组,所述解码字符行的数量小于第二阈值的索引分组为第一类别,所述解码字符行的数量大于等于第二阈值的索引分组为第二类别;
计算所述第一类别的索引分组的解码字符行与每个中心字符行的第一字符相似度的均值的最大值;所述中心字符行为所述第二类别的索引分组中与同一索引分组的其他解码字符行的字符相似度最高的解码字符行,所述第一字符相似度的均值为所述第一类别的索引分...