《生物信息数据库.PPT》由会员分享,可在线阅读,更多相关《生物信息数据库.PPT(68页珍藏版)》请在温州文客信息科技有限公司上搜索。
1、生物信息数据库,一、引言,生物分子数据高速增长,分子生物学及相关领域研究人员迅速获得最新实验数据,建立生物分子数据库,v生物信息数据库应满足多个方面,的主要需求,v(1)时间性v(2)注释,v(3)支撑数据v(4)数据质量v(5)集成性,生物信息数据库几个明显的特征:,(1)数据库的更新速度不断加快,数据量呈指数增长趋势,(2)数据库使用频率增长更快,(3)数据库的复杂程度不断增加,(4)数据库网络化,(5)面向应用,(6)先进的软硬件配置,一个数据库记录(entry)一般由两部分组成:,1.原始序列数据(sequencedata),2.描述这些数据生物学信息的注释(annotation),
2、注释中包含的信息与相应的序列数据同样重要和有应用,价值。,数据的完整性和注释工作量:,1.序列数据广,序列注释不够完整2.库数据面窄,序列注释全面,数据库的动态更新:,1.不断增加2.不断修正,分子生物信息数据库种类繁多。归纳起来,大体可以分为4个大类,即基因组数据库、核酸和蛋白质一级结构数据库、生物大分子(主要是蛋白质)三维空间结构数据库、以及由上述3类数据库和文献资料为基础构建的二次数据库。,基因组数据库来自基因组作图,序列数据库来自序列测定,结构数据库来自X射线衍射和核磁共振等结构测定。这些数据库是分子生物学的基本数据资源,通常称为基本数据库、初始数据库,也称一次数据库。,v生物信息数据
3、库,一级数据库,v数据库中的数据直接来源于实验获得的原始,数据,只经过简单的归类整理和注释,二级数据库,v对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的 。,生物信息数据库,染色体核酸蛋白质,基因组作图序列测定结构测定,基因组图谱DNA序列蛋白质序列蛋白质结构,基因组数据库核酸序列数据库蛋白质序列数据库蛋白质结构数据库,NCBI NationalCenterforBiotechnologyInformation(US)EBI EuropeanBioinformaticsInstitute(EU)HGMP HumanGenomeMap
5、酸序列数据库 (1)欧洲分子生物学实验室的EMBL http:/(2)美国生物技术信息中心的GenBank http:/(3)日本遗传研究所的DDBJ http:/相互合作,每天交换更新核苷酸序列数据, 三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。, 这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段。,美国的核酸数据库GenB
9、ron.missouri.eduhttp:/(美国、加拿大),1990年,JohnHopkins大学建立,后由加拿大儿童医院生物信息,中心管理.,数据内容:,基因单位、PCR位点、细胞遗传标记、EST、contig、重复片段、基因组图谱,与其它分子生物信息网络资源(EMBL、GenBank)的链接,AceDB,线虫基因组数据库。既是一个数据库,又是一个数据库管理系统。提供很好
10、的图形界面,用户能够从大到整个基因组小到序列的各,个层次观察和分析基因组数据。,http:/数据内容:,限制性图谱,基因结构信息,质粒图谱,序列数据,参考文献,3、蛋白质序列数据库,SWISSPROT,1. 瑞士日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI),合作维护(1986年);2. 在EMBL和GenBank数据库上均建立了镜像站点3. 数据库包括了从EMBL翻译而来的蛋白质序列,这些序列经过检验和注释;4. 数据记录包括两部分:序列注释(结构域、功能位点、跨膜区域、二硫键位置、翻译后的修饰、突变体等)5. 数据存在滞后性 数据库的建立SWISSPR
11、OT的网址:sprotTrEMBL的网址:http:/)是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的,SWISS-PROT中的数据来源于不同发源地:,(1) 从核酸数据库经过翻译推导而来; (2) 从蛋白质数据库PIR挑选出合适的数据; (3) 从科学文献中摘录; (4) 研究人员直接提交的蛋白质序列数据,SWISS-PROT有三个明显的特点 :,(1)注释,在SWISS
12、PROT中,数据分为核心数据和注释两大类。,核心数据包括:,序列数据、参考文献、分类信息(蛋白质生物来源的描述),注释包括:,(A)蛋白质的功能描述;,(B)翻译后修饰;,(C)域和功能位点,如钙结合区域、ATP结合位点等;(D)蛋白质的二级结构;,(E)蛋白质的四级结构,如同构二聚体、异构三聚体等;(F)与其它蛋白质的相似性;,(G)由于缺乏该蛋白质而引起的疾病;(H)序列的矛盾、变化等。,(2)最小冗余, 尽量将相关的数据归并,降低数据库的冗余程度。 如果不同来源的原始数据有矛盾,则在相应序列特征表中加以注释。,(3)与其它数据库的连接,对于每一个登录项,有许多指向其它数据库相关数据的
13、指针,这便于用户迅速得到相关的信息。 现有的交叉索引有: 到EMBL核酸序列数据库的索引, 到PROSITE模式数据库的索引, 到生物大分子结构数据库PDB的索引等 。,TrEMBL (http:/是与SWISS-PROT相关的一个数据库。,包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。,TrEMBL有两个部分:,(1)SP-TrEMBL(SWISS-PROT TrEMBL),包含最终将要集成到SWISS-PROT的数据,所有的SP-TrEMBL序列都
16、家族分类,一半以上还按蛋白质超家族进行了分类。,除了蛋白质序列数据之外,PIR还包含以下,信息:,(1)蛋白质名称、蛋白质的分类、蛋白质的来,源;,(2)关于原始数据的参考文献;,(3)蛋白质功能和蛋白质的一般特征,包括基因,表达、翻译后处理、活化等;,(4)序列中相关的位点、功能区域。,PIR提供三种类型的检索服务:,一是基于文本的交互式查询,用户通过关键字进行数据查询。,二是标准的序列相似性搜索,包括BLAST、FastA等。,三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。,三个子数据库,输入蛋白质代码1zni后search,Exampl
18、chem.ucl.ac.uk/bsm/pdbsum,PDB(ProteinDataBank),PDB中含有通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构蛋白质核酸糖类其它复合物, 一种是隐式序列信息(implicitsequence),PDB的隐式序列即为立体化学数据,包括每个原子的名称和原子的三维坐标。,一种是显式序列信息(explicitsequence) 在PDB文件中,以关键字SEQRES作 为显式序列标记,以该关键字打头的 每一行都是关于序列的信息。,以胰岛素(insulin)为例,进入网站后,在搜索栏键入关键词insulin 后点击search键,得到如下页面
20、icationofProtein),英国医学研究委员会分子生物学实验室和蛋白质工程中心开发的基于,web的蛋白质结构数据库分类、检索和分析系统;,SCOP的网址:http:/scop.mrclmb.cam.ac.uk/scop/,CATH(class,architecture,topology,homology),英国伦敦大学开发维护;,CATH的网址:http:/二级数据库简介,二级数据库的形式:大多以web界面为基础,具有文字信息、表格、图形、图表等方式显示数据库内容;一级数据库与二级数据库之间并无明确的界限。(例,如:GDB、
21、AceDB、SCOP、CATH等都已经具有二级数据库的特色),1、基因组信息二级数据库,TransFac (真核生物基因转录调控因子数据库),德国生物工程研究所开发维护,始建于1988年。,包括顺式调控位点、基因、转录因子、细胞来源、分类和,调控位点核苷酸分布6个子库。,TransFac的网址:http:/,2、蛋白质序列二级数据库,Prosite (蛋白质序列功能位点数据库),始建于1990年代初,由瑞典生物信息学研究所SIB负责维,护。,基于对蛋白质家族中同源序列多重序列比对得到的保守区,域,这些区域通常与生物学功能相关。,数据库包括两个数据库文件:数据文件Prosite;说明文件,Pro
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
工信部备案号:浙ICP备20026746号-2 公安局备案号:浙公网安备469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。BG大游