TCGA肿瘤基因数据的访问<二>
TCGA(The Cancer Genome Atlas)项目完成后,最终和其它的一些肿瘤医学项目一起归档在 GDC Portal网站,方便人们访问。
网址是 https://portal.gdc.cancer.gov
其中除了TCGA的数据还有其它一些医学项目产生的基因测序数据,以及临床信息数据。
网站首页如下:
左侧可以点击Projects 根据项目类型,实验类型,基因突变类型搜索样本或数据信息, 也可以在搜索框内直接搜索人体组织部位,基因名或者项目名直接查询, 点击Projects 出现页面如下:
这里列出了所有的Projects 中的病人突变频率最高的一些基因名称,可以看到TP53的突变最常见,这是一个抑癌基因,位于hg19 chr17:7,571,720-7,590,868.
右侧的饼图是不同项目中的病人(Case)数目所占比例,最高的是FM-AD这个项目,应该是在TCGA之后发起的项目,目前也已完成。全称是Foundation Medicine Adult Cancer Clinical Dataset,Foundation Medicine是一家做肿瘤基因检测的公司,已经于2018年6月被罗氏制药收购。
数据的信息列表如下:
第一列是项目名称,第二列是疾病类型,第三列是发生部位,第四列是来源的主项目,第五列是病人例数,后面是这个项目包含的不同的数据类型例数。
左侧用于筛选的选中栏包括
Primary Site
Program
Disease Type
Data Category (数据类型, 主要是病人临床信息,测得的基因数据,分析得到的肿瘤病人身上突变的分类,以及基因表达异常和甲基化信息等)
Experimental Strategies (实验策略,包括全基因组测序,基因杂交芯片,转录组测序等等)
如果是NGS测序得到的数据(Sequence Reads一般是Fastq或Unmapped BAM格式),那么分析的流程可以参考:
https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/DNA_Seq_Variant_Calling_Pipeline/
https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/Expression_mRNA_Pipeline/
这些原始的Fastq,以及比对产生的BAM,以及突变的VCF格式数据都是限制访问的,必须要注册GDC的账号,经过许可才能下载。
我们可以获取的是这些数据经过整合之后的更下游的数据,个人觉得是因为上游的原始数据以及重分析过程本来是比较耗费硬件或资源的,大多数研究人员是不太可能重分析如此大量的数据。
如果要访问这些数据,可以点击Repository
如图,可以看到bam和vcf.gz 文件是controlled, 一些xlsx文件是open的
可以从左侧的浮选框, Access选中open, Workflow Type选中我们需要的数据结果。
其中MuSE,MuTect2,SomaticSniper,VarScan2是分析SNV(点突变)的工具名称,
DNAcopy和GISTIC是分析CNV(拷贝数变异)的工具,
HTSeq和STAR都是分析转录组数据的基因表达(mRNA)的工具,
BSGSC则是用于分析miRNA(微小RNA)的表达的,
miRNA是一种长度在22nt左右的RNA,主要功能是基因沉默,可以调控mRNA的表达。
Liftover则是用于分析基因组上的甲基化位点和甲基化水平的工具。https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/Methylation_LO_Pipeline/
- 点赞
- 收藏
- 关注作者
评论(0)