本篇内容主要讲解“dbSNP数据库的简单介绍”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“dbSNP数据库的简单介绍”吧!
专业领域包括成都做网站、成都网站设计、商城网站制作、微信营销、系统平台开发, 与其他网站设计及系统开发公司不同,创新互联的整合解决方案结合了帮做网络品牌建设经验和互联网整合营销的理念,并将策略和执行紧密结合,为客户提供全网互联网整合方案。
dbsnp有很多的版本,目前最新版本为151。在该数据库中,需要理解以下两种ID
NCBI Assay ID(ss)
Reference SNP ID(rs)
对于每一个提交到dbSNP数据库的SNP位点, 首先会赋予一个唯一的ss ID。 由于不同研究结构提交的SNP会存在冗余,提取SNP位点上下游区域的序列,比对参考基因组,如果多个ss ID 比对上相同的位置,说明这几个SNP位点是冗余的,会赋予一个新的reference SNP ID, 以rs
开头。
对于每个rs
ID, 数据库汇总会记录对应的物种,基因型,等位基因频率,位置,文献等相关信息。以rs1425711270
为例,链接如下
https://www.ncbi.nlm.nih.gov/projects/SNP/snp_ref.cgi?rs=1425711270
首先会给出一个综合信息,RefSNP
中给出了的物种,dbSNP数据库的版本号等信息;Allele
中给出了突变类型,碱基变化情况等信息;HGVS Names
给出了根据HGVS命名规则指定的突变信息。
剩余的信息分成了多个模块,每个模块对应不同的内容。看几个主要的模块的信息
这部分给出了SNP位点在不同版本的基因组上的位置信息,可以看到,对于hg19和hg38两个不同版本,位置差别还是挺大的。
这部分给出SNP位点的序列
这部分可以看到rs
号对应的多个ss
ID
这部分会给出SNP对应的染色体和基因信息,还有对转录本和蛋白质的影响。
们经常会使用dbsnp数据库中的VCF文件,以human 为例,下载地址为
ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606/VCF/
提供了common和All 两种,All包含所有的SNP位点,common只包含了MAF大于0.01的生殖细胞变异位点,通常下载All.vcf.gz
。注意下载的时候把对应的md5和tbi文件下载下来,md5用于检测下载的文件是否完整,如果vcf.gz的md5码和.md5
文件中的不一致,说明下载不完整;tbi
文件是vcf文件的索引,方便gatk等程序读取。
到此,相信大家对“dbSNP数据库的简单介绍”有了更深的了解,不妨来实际操作一番吧!这里是创新互联网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!