TCGA肿瘤样本基因信息库<一>

举报
benymorre 发表于 2019/05/23 18:25:48 2019/05/23
【摘要】 最近开始分析TCGA这个数据库中的一些SNV信息(single nucleotide variation).先整理出第一篇知识列表,如下:TCGA的全称和目的TCGA中的样本来源和编号TCGA中各样本的突变类型肿瘤的突变频率举例1. TCGA的全称和目的全称- The Cancer Genome Atlas, 译作癌症基因组图谱,是美国国立癌症研究所(NCI,National Cancer ...

最近开始分析TCGA这个数据库中的一些SNV信息(single nucleotide variation).

先整理出第一篇知识列表,如下:


  1. TCGA的全称和目的

  2. TCGA中的样本来源和编号

  3. TCGA中各样本的突变类型

  4. 肿瘤的突变频率举例




1. TCGA的全称和目的


全称- The Cancer Genome Atlas, 译作癌症基因组图谱,是美国国立癌症研究所(NCI,National Cancer Institute)和美国国立人类基因组研究所(NHGIRI,National Human Genome Research Institute)启动的肿瘤研究项目。主要是通过大规模的基因组测序和分析技术去研究癌症致病的分子基础,提高我们对癌症的诊断,治疗和预防能力。


2. TCGA中的样本来源和编号

TCGA中的样本来自美国以及全世界的各个医院,主要由亚利桑那州,菲尼克斯的International Genomics Consortium (IGC) 和俄亥俄州的哥伦布市的Nationwide Children's Hospital (NCH) 的生物标本核心资源库(Biospecimen Core Resource ,BCR)提供,包含了37种肿瘤类型,总样本接近15000例子。


初期样本编号采用一种 7个字段的barcode进行管理


barcode.png


第一个字段是项目简称,都是TCGA

第二个字段是TSS号, Tissue source site, 指代肿瘤组织来源, 参考 

https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/tissue-source-site-codes

第三个字段是参与人的编号,即肿瘤病人编号

第四个字段是样本类型,主要分为正常组织和实体瘤组织,01-09是肿瘤, 10-19是正常, 20-29是对照样本, https://docs.gdc.cancer.gov/Encyclopedia/pages/TCGA_Barcode/

第五个字段是将一块组织切分后的每一小部分的组织的编号

第六个字段plate是该块样品测序的时候在测序仪器的点样孔的位置

第七个字段是进行测序和样品特征分析的单位编号


3. TCGA中各样本的突变类型

突变类型主要由点突变(SNV/INDEL),CNV(也叫做CNA, Copy number alterations/variations), SV(gene fusion, 基因融合), 融合参考 https://bbs.huaweicloud.com/blogs/5e9159221fc111e9bd5a7ca23e93a891

CNV,将会在下一篇博客中介绍。 


4. 肿瘤的突变频率举例

已知一个人的基因组有3137161264(hg19基因组), 在肺腺癌病人中EGFR突变比较常见, 那么患同一位点突变的比例有多少呢?

这个问题可以直接统计TCGA-LUAD(LUAD是Lung adenocarcinoma的简称)中的数据得到。


EGFR的基因全长为3363bp, 编码的氨基酸序列长度为1120 aa.  hg19坐标: chr7:55,086,725-55,275,031(+);  hg38坐标:chr7:55019278-55205617(+)


在chr7:55191822 这个位点发生c.2573T>G   突变的人数比例实际上却只有1.81%, 当然这实际上是很高的数值了, 这个突变发生后导致第858个aa发生了变化,正常是L氨基酸,突变后编码的氨基酸是R, 所以叫做L858R突变。

当然后来综合更多的肿瘤数据集,发现这个点的突变在肺腺癌人群中的比例为4.18%(112/2678), 参考

http://www.cbioportal.org/results/mutations?Action=Submit&RPPA_SCORE_THRESHOLD=2.0&Z_SCORE_THRESHOLD=2.0&cancer_study_list=luad_broad%2Cluad_mskcc_2015%2Cluad_tcga_pub%2Cluad_tcga_pan_can_atlas_2018%2Cluad_tcga%2Cluad_tsp%2Clung_msk_2017&case_set_id=all&data_priority=0&gene_list=EGFR&geneset_list=%20&tab_index=tab_visualize


 当然,在这个突变位点附近还有一个T790M突变也常在肺癌病人中发现。


关于TCGA的常见知识先总结到这里。



【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。