TCGA肿瘤样本基因信息库<一>
最近开始分析TCGA这个数据库中的一些SNV信息(single nucleotide variation).
先整理出第一篇知识列表,如下:
TCGA的全称和目的
TCGA中的样本来源和编号
TCGA中各样本的突变类型
肿瘤的突变频率举例
1. TCGA的全称和目的
全称- The Cancer Genome Atlas, 译作癌症基因组图谱,是美国国立癌症研究所(NCI,National Cancer Institute)和美国国立人类基因组研究所(NHGIRI,National Human Genome Research Institute)启动的肿瘤研究项目。主要是通过大规模的基因组测序和分析技术去研究癌症致病的分子基础,提高我们对癌症的诊断,治疗和预防能力。
2. TCGA中的样本来源和编号
TCGA中的样本来自美国以及全世界的各个医院,主要由亚利桑那州,菲尼克斯的International Genomics Consortium (IGC) 和俄亥俄州的哥伦布市的Nationwide Children's Hospital (NCH) 的生物标本核心资源库(Biospecimen Core Resource ,BCR)提供,包含了37种肿瘤类型,总样本接近15000例子。
初期样本编号采用一种 7个字段的barcode进行管理
第一个字段是项目简称,都是TCGA
第二个字段是TSS号, Tissue source site, 指代肿瘤组织来源, 参考
https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/tissue-source-site-codes
第三个字段是参与人的编号,即肿瘤病人编号
第四个字段是样本类型,主要分为正常组织和实体瘤组织,01-09是肿瘤, 10-19是正常, 20-29是对照样本, https://docs.gdc.cancer.gov/Encyclopedia/pages/TCGA_Barcode/
第五个字段是将一块组织切分后的每一小部分的组织的编号
第六个字段plate是该块样品测序的时候在测序仪器的点样孔的位置
第七个字段是进行测序和样品特征分析的单位编号
3. TCGA中各样本的突变类型
突变类型主要由点突变(SNV/INDEL),CNV(也叫做CNA, Copy number alterations/variations), SV(gene fusion, 基因融合), 融合参考 https://bbs.huaweicloud.com/blogs/5e9159221fc111e9bd5a7ca23e93a891
CNV,将会在下一篇博客中介绍。
4. 肿瘤的突变频率举例
已知一个人的基因组有3137161264(hg19基因组), 在肺腺癌病人中EGFR突变比较常见, 那么患同一位点突变的比例有多少呢?
这个问题可以直接统计TCGA-LUAD(LUAD是Lung adenocarcinoma的简称)中的数据得到。
EGFR的基因全长为3363bp, 编码的氨基酸序列长度为1120 aa. hg19坐标: chr7:55,086,725-55,275,031(+); hg38坐标:chr7:55019278-55205617(+)
在chr7:55191822 这个位点发生c.2573T>G 突变的人数比例实际上却只有1.81%, 当然这实际上是很高的数值了, 这个突变发生后导致第858个aa发生了变化,正常是L氨基酸,突变后编码的氨基酸是R, 所以叫做L858R突变。
当然后来综合更多的肿瘤数据集,发现这个点的突变在肺腺癌人群中的比例为4.18%(112/2678), 参考
当然,在这个突变位点附近还有一个T790M突变也常在肺癌病人中发现。
关于TCGA的常见知识先总结到这里。
- 点赞
- 收藏
- 关注作者
评论(0)