TCGA肿瘤基因数据的访问<二>

举报
benymorre 发表于 2019/06/01 15:34:39 2019/06/01
【摘要】 TCGA(The Cancer Genome Atlas)项目完成后,最终和其它的一些肿瘤医学项目一起归档在 GDC Portal网站,方便人们访问。网址是 https://portal.gdc.cancer.gov其中除了TCGA的数据还有其它一些医学项目产生的基因测序数据,以及临床信息数据。网站首页如下:左侧可以点击Projects 根据项目类型,实验类型,基因突变类型搜索样本或数据信...

TCGA(The Cancer Genome Atlas)项目完成后,最终和其它的一些肿瘤医学项目一起归档在 GDC Portal网站,方便人们访问。



网址是  https://portal.gdc.cancer.gov


其中除了TCGA的数据还有其它一些医学项目产生的基因测序数据,以及临床信息数据。

网站首页如下:


Screenshot 2019-06-01 at 2.23.57 PM.png


左侧可以点击Projects 根据项目类型,实验类型,基因突变类型搜索样本或数据信息, 也可以在搜索框内直接搜索人体组织部位,基因名或者项目名直接查询, 点击Projects 出现页面如下:


Screenshot 2019-06-01 at 2.32.32 PM.png


这里列出了所有的Projects 中的病人突变频率最高的一些基因名称,可以看到TP53的突变最常见,这是一个抑癌基因,位于hg19  chr17:7,571,720-7,590,868.


右侧的饼图是不同项目中的病人(Case)数目所占比例,最高的是FM-AD这个项目,应该是在TCGA之后发起的项目,目前也已完成。全称是Foundation Medicine Adult Cancer Clinical Dataset,Foundation Medicine是一家做肿瘤基因检测的公司,已经于2018年6月被罗氏制药收购。


数据的信息列表如下:


Screenshot 2019-06-01 at 2.32.58 PM.png



第一列是项目名称,第二列是疾病类型,第三列是发生部位,第四列是来源的主项目,第五列是病人例数,后面是这个项目包含的不同的数据类型例数。

左侧用于筛选的选中栏包括


Primary Site

Program

Disease Type

Data Category  (数据类型, 主要是病人临床信息,测得的基因数据,分析得到的肿瘤病人身上突变的分类,以及基因表达异常和甲基化信息等)

Experimental Strategies (实验策略,包括全基因组测序,基因杂交芯片,转录组测序等等)


Screenshot 2019-06-01 at 2.33.19 PM.png



Screenshot 2019-06-01 at 2.33.37 PM.png


Screenshot 2019-06-01 at 2.33.49 PM.png


Screenshot 2019-06-01 at 2.34.05 PM.png


Screenshot 2019-06-01 at 2.34.16 PM.png


如果是NGS测序得到的数据(Sequence Reads一般是Fastq或Unmapped BAM格式),那么分析的流程可以参考:

https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/DNA_Seq_Variant_Calling_Pipeline/

https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/Expression_mRNA_Pipeline/


这些原始的Fastq,以及比对产生的BAM,以及突变的VCF格式数据都是限制访问的,必须要注册GDC的账号,经过许可才能下载。

我们可以获取的是这些数据经过整合之后的更下游的数据,个人觉得是因为上游的原始数据以及重分析过程本来是比较耗费硬件或资源的,大多数研究人员是不太可能重分析如此大量的数据。


如果要访问这些数据,可以点击Repository


Screenshot 2019-06-01 at 2.36.57 PM.png


Screenshot 2019-06-01 at 2.40.41 PM.png


如图,可以看到bam和vcf.gz 文件是controlled, 一些xlsx文件是open的


Screenshot 2019-06-01 at 3.25.06 PM.png


可以从左侧的浮选框, Access选中open, Workflow Type选中我们需要的数据结果。

其中MuSE,MuTect2,SomaticSniper,VarScan2是分析SNV(点突变)的工具名称,

DNAcopy和GISTIC是分析CNV(拷贝数变异)的工具,

HTSeq和STAR都是分析转录组数据的基因表达(mRNA)的工具,

BSGSC则是用于分析miRNA(微小RNA)的表达的,

miRNA是一种长度在22nt左右的RNA,主要功能是基因沉默,可以调控mRNA的表达。

Liftover则是用于分析基因组上的甲基化位点和甲基化水平的工具。https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/Methylation_LO_Pipeline/

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。