找回密码
 立即注册

QQ登录

只需一步,快速开始

  • QQ空间
  • 回复
  • 收藏

NGS基因测序常见数据库汇总

归去来兮 2024-4-15 03:40 PM 209人围观 杂谈


今天我们来梳理一下NGS测序报告解读常见的数据库:


人群数据库


RefSeqGene数据库(http://www.ncbi.nlm.nih.gov/refseq/rsg)

参考序列(Reference Sequence, RefSeq)数据库是公开可用的核苷酸序列(DNA、RNA)及其蛋白产物的集合,于2000年由美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI)开发,并负责维护该资源。

RefSeq数据库是一个分类学上多样化的、非冗余的(non-redundant)、注释丰富、统一的序列集合。RefSeq可用于基因组学研究、基因表达分析、功能注释和各种其他研究应用。RefSeq数据库包含各种生物体的参考序列,包括但不限于细菌、古细菌、植物、动物、真菌和病毒。

RefSeq包含了基因组、转录本、蛋白质的参考序列。RefSeq数据库采用严格的管理方法,以保证基因序列的准确性。RefSeq为每个序列提供全面的注释,包括基因位置、外显子/内含子区域、可变剪接变异、翻译后修饰和功能域的相关详细信息。RefSeq数据库合并了来自不同来源的数据,例如经验观察、计算预测、学术引用,为参考序列提供可靠的注释。

RefSeq数据库会定期更新,以整合新的基因组、转录组和蛋白质组信息,从而保证学者们可以使用最新的参考序列。该数据库有助于与其他NCBI 资源(包括GenBank和PubMed)进行交叉引用,从而使用户能够深入研究补充信息和相关数据。

UCSC基因组浏览器数据库(https://genome.ucsc.edu/)

UCSC是生物领域里最常用最广泛使用的数据库,由 University of California Santa Cruz 创立维护,它包含了大量基因组数据,包括基因注释信息(ENCODE )、基因组间的比对信息、重复序列、同源序列、 参考序列(mRNA, EST )、表型、表达谱、 调控信息、保守性、变异、重复区域等一系列信息。UCSC包含人类、大小鼠、果蝇、斑马鱼、线虫、酵母等多种常见动物的基因组信息。也包括了一系列的分析工具,帮助用户浏览基因信息、查看已有基因组注释,下载基因序列。在生物信息分析过程中,会需要 fasta、GTF 或 BED 等格式的数据文件,而 UCSC是这些文件的主要下载来源之一,其中Hg19为常用的人类全基因组参考序列。

ExAC数据库(http://gnomad.broadinstitute.org)

ExAC数据库的全称是(the Exome Aggregation Consortium),外显子组整合数据库,是gnomAD数据库的第一个版本,只包含了外显子测序的数据,该数据库旨在汇总和协调各种大规模测序项目的外显子组测序数据,并为科学界提供更广泛的摘要数据,该数据库已被整合到gnomAD数据库。

dbSNP数据库(https://www.ncbi.nlm.nih.gov/snp/)

dbSNP(Single Nucleotide Polymorphism Database)是由美国国立生物技术信息中心(NCBI)维护的一个重要数据库,用于存储人类和其他一些生物的单核苷酸多态性(SNP)信息。SNP是基因组中最常见的遗传变异形式,它们通常是单个核苷酸的变化,可能会导致个体间遗传差异。

dbSNP数据库收集和整合了来自各种研究文献、数据库和计划的SNP信息,提供了丰富的遗传变异数据资源。这些数据包括SNP的位置信息、等位基因、遗传变异类型、遗传多态性的频率以及与人类健康和疾病相关的信息。研究人员可以利用dbSNP数据库来获取特定SNP的信息、验证SNP的存在性以及了解SNP与特定表型特征或疾病之间的关联。

dbSNP中的数据有两种主要类型:由用户提交,可以通过“提交的SNP”(ss)标识符来识别;由多个提交的数据和来自其他来源的数据组合而成的数据,可以通过“reference SNP” (rs)标识符识别。

gnomAD数据库(http://gnomad.broadinstitute.org)

基因组聚合数据库 (Genome Aggregation Database, gnomAD)是一个致力于从各种大规模测序项目中收集和协调外显子组和基因组测序数据,并为更广泛的科学界提供汇总数据的研究者联盟。gnomAD是目前收录范围最广的基因组变异数据库之一,包含了全世界各人种的变异数据。gnomAD 与有较长历史的dbSNP的主要不同点在于,dbSNP包括了通过各种各样研究方法不同的项目而发现的基因组变异,dbSNP对这些变异加以整理,给予ID,但 gnomAD 为了能够正确算出等位的频率,对所纳入样本的二代测序数据进行了统一标准的解析,这是 gnomAD 的一大特点。另外,对于50bp以上的基因组结构变异, gnomAD 也有着较高质量的数据。

gnomAD(v3.1.1)基于GRCh38,其中短变异(short variant)数据集涵盖了76,156个互不相关个体的基因组测序数据,是各种疾病特异性研究和群体遗传研究的一部分。

gnomAD(v2.1.1)基于GRCh37,其中短变异数据集涵盖了125,748个外显子和15,708个基因组,这些基因组来自作为各种疾病特异性研究和群体遗传研究的一部分的不相关的个体,总计141,456个。

1000 Genomes (https://www.internationalgenome.org/)

1000 Genome Project 的目标是发现在人群中频率大于1%的变异位点,对来自不同人群的大量样本进行测序,识别到了许多的变异位点,为人类遗传变异的研究提供了一个综合的资源。


疾病数据库


HGMD 数据库(http://www.hgmd.org)

HGMD 是人类遗传性疾病突变位点金标准数据库,通过遗传咨询专家阅读高质量的文献,收集和整理相关变异位点信息构建。该数据库提供变异位点对应的转录本、变异类型、致病性、相关表型、参考文献、人群频率、功能预测、结构域等信息。

HGMD专业版提供变异位点对应的HGVS编号、蛋白质的变化、等级分类、Hg19和Hg38基因组坐标、蛋白结构域、人群频率、软件预测结果等。

OMIM数据库(https://www.ncbi.nlm.nih.gov/omim/)

OMIM,即在线人类孟德尔遗传(Online Mendelian Inheritance in Man),是一个综合的、权威的研究人类表型和基因型关系的数据库,收录了所有已知的孟德尔疾病,和超过16000个基因的信息(涵盖一大半人类已知的基因)。

OMIM并不是创造了这些数据,而是对已发表的研究结果的非常系统的整理与整合,并每日更新、免费获取。OMIM中的一个常见的疾病的页面,其内容类似一篇综述,包含:表型与基因的关系、临床简介、疾病基本信息与描述、临床特征、诊断、临床管理、发病机制、分子遗传、群体遗传、动物模型、背景历史、研究进展和参考文献。

ClinVar数据库(https://www.ncbi.nlm.nih.gov/clinvar/)

clinvar数据库是一个人类遗传变异及其与疾病关联信息的公共数据库,收录了包括单核苷酸变异(SNP)、插入缺失(Indel)等在内的各种遗传变异,目前已经成为了人类遗传变异及其与疾病关联信息的最权威和最全面的公共数据库,是人类基因组信息的重要组成部分之一。

该数据库的主要特点如下:

1、数据来源:clinvar数据库主要来源于各种文献报道,包括科研论文、临床诊断报告、重要数据库汇总等。

2、数据形式:clinvar数据库为非关系型数据库,使用XML格式进行存储,数据分为变异基因型、疾病与遗传变异之间的关联、变异性质、变异对宿主基因的影响程度、证据等多个维度进行描述。

3、数据质量:clinvar数据库对各种遗传变异的收录要求较高,要求进行规范的表述、严格的证据支持、清晰的证据链路等,从而保证数据的准确性、权威性。

InterVar数据库(http://wintervar.WGlab.org/)

InterVar同样是位点致病性评判数据库,可以实现对ACMG 28条判读标准中的18条进行自动化评分,其余10条由于需要后续证据输入或者参数调整(例如Sanger测序验证结果或家系验证等)。

ClinGen数据库(https://www.clinicalgenome.org/)

ClinGen是美国国立卫生研究院(NIH)资助的数据库资源,用于精准医学,研究基因和变异的临床相关性。ClinGen提供了变异的剂量敏感性,有助于辨别突变的显隐性异常模式。更重要的是ClinGen结合临床、遗传模式、人群、功能证据及专家评审,根据ACMG/AMP指南对变异进行致病性分类,结果保存在ClinVar中。实验室和临床医生也可以使用ClinGen的”variant curation tools”来**评估尚未经过专家审查的变异致病性的证据。


综合性肿瘤数据库


OncoKB(https://www.oncokb.org/)

该数据库由Memorial Sloan Kettering Cancer Center开发并维护,以肿瘤患者基因突变为核心,收录突变对应的靶向药物使用、生物学与肿瘤学效应,以及突变在人群中分布频率和临床预后特征等信息。OncoKB数据来源包括FDA、NCCN、ASCO、ESMO会议论文、肿瘤领域专家共识和论文文献,以及cBioPortal,COSMI等公共数据库,每条信息经过临床基因组学注释委员会(Clinical Genomics Annotation Committee, CGAC)的定期审阅与修订。

进入OncoKB官网主页,可以看到OncoKB根据不同证据水平将肿瘤中基因突变信息分为四个数据等级,其中:

1级数据为,被FDA推荐的,可以作为FDA批准的某药物治疗肿瘤疗效biomarkers的突变;

2级数据是,NCCN或其他专家共识的,在肿瘤标准治疗中可以作为经FDA批准的某药物疗效biomarkers的突变;

3A级数据为,令人信服的临床试验证明的,可以作为某药物治疗肿瘤疗效潜在靶标的突变;

3B级别数据为,经调查表明某FDA批准或未批准药物在肿瘤标准治疗中可以作为药物疗效biomarkers,但尚未被专家共识认可的突变;

4级数据为,高质量细胞或动物实验文献研究报道的,作为某药物治疗肿瘤疗效潜在靶标的突变。

另外有R1/R2级数据,为肿瘤耐药相关突变信息,R1为肿瘤标准治疗中可以作为FDA批准的药物耐药指标的突变信息,R2为某药物治疗肿瘤产生耐药的相关突变信息临床研究证据。

COSMIC数据库(https://cancer.sanger.ac.uk/cosmic)

COSMIC是世界上最大最全面的有关肿瘤的体细胞突变以及其影响的资源库。该数据库是一个在人类癌症中发现的体细胞获得性突变的在线数据库。体细胞突变是在非生殖细胞中发生的,不是由儿童遗传的。COSMIC是癌症中体细胞突变目录(Catalogue Of Somatic Mutations In Cancer)的首字母缩写,它从科学文献中的论文和桑格研究所癌症基因组计划的大规模实验筛选中提取数据。该数据库可供学术研究人员免费使用,并可向其他人商业许可。目前COSMIC被全球超过50,000用户使用。该数据库收录了蛋白编码区和非编码区的点突变23,000,000+、基因拷贝数变异1,207,190+、融合基因19,422+、甲基化差异位点7,930,489+。同时COSMIC数据库每季度进行更新

COSMIC数据库包含数千种与癌症发展有关的体细胞突变。该数据库从两个主要来源收集信息:

(1)从文献中收集已知癌症基因的突变。经历人工治疗的基因列表通过它们在癌症基因普查中的存在来确定。

(2)纳入数据库的数据来自癌症基因组计划进行的癌症样本的全基因组重测序研究。

TCGA数据(https://www.cancer.gov/ccg/research/genome-sequencing/tcga)

TCGA(The cancer genome atlas,癌症基因组图谱)由 National Cancer Institute(NCI,美国国家癌症研究所) 和 National Human Genome Research Institute(NHGRI,美国国家人类基因组研究所)于 2006 年联合启动的项目, 收录了各种人类癌症(包括亚型在内的肿瘤)的临床数据,基因组变异,mRNA表达,miRNA表达,甲基化等数据,是癌症研究者很重要的数据来源。

TCGA存储的数据包括SNV、转录组分析、生物样本信息、原始测序数据、CNV、DNA甲基化、临床信息等。这些数据可分为三个级别:

Level 1: 原始的测序数据(fasta,fastq等)


Level 2:比对好的bam文件



Level 3:为经过处理及标准化的数据


PharmGKB数据库(https://www.pharmgkb.org/)

PharmGKB数据库(Pharmacogenetics and Pharmacogenomics Knowledge Base,药物遗传学和药物基因组学知识库)是目前最权威最完善的药物基因组专用数据库。PhramGKB由美国国立卫生研究院(NIH)创建,收录了有关人类遗传变异如何影响对药物反应的信息。

药物基因组学 (Pharmacogenomics,PGx) 是研究遗传变异如何导致药物反应变异的学科。在后基因组时代技术进步的推动下,药物基因组学研究具有优化药物疗效和最小化毒性的潜力。它弥合了科学发现和临床应用之间的差距,并为精准医学提供了令人兴奋的前景。PharmGKB成立于 2000 年,旨在收集、整理和传播来自多种来源的药物基因组学知识,包括科学文献、药物标签和临床指南。它是药物基因组学信息的中央知识库,包括药物剂量指南、药物标签注释、临床和变异注释、以药物为中心的途径、药物基因摘要以及基因、药物和疾病之间的关系。 

来源: Super Lab
我有话说......