人类基因组中的基因
在人类基因组计划完成后,数据库中储存的染色体序列及注释信息包含22条常染色体(chr 1-22), 两条性染色体(chrX, chrY),还有一个线粒体(chrM)。
在ENSEMBL数据库中已有的编码蛋白质的基因个数为22,210个。
使用R语言的biomaRt工具包,可以查看这些基因在哪些染色体上,以及各染色体上各基因包含内含子,外显子的全长。除了ensembl数据库,常用的基因序列和蛋白的数据库还有RefSeq和UniprotKB。
在R版本3.5及以上,可以使用以下方法安装biomaRt
if ( !requireNamespace("BiocManager"))
install.package("BiocManager")
BiocManager::install("biomaRt")
在R版本3.4以下, 使用以下方法安装biomaRt
source("https://bioconductor.org/biocLite.R")
biocLite("biomaRt")
在R语言中,加载biomaRt包,使用以下方法可以获得ensembl中的基因注释信息, 最终得到的基因数为65,602个, 原因在于除了编码蛋白质的基因以外,还有一些非编码RNA的基因。
library(biomaRt)
ensmart = useMart("ensembl", dataset = "hsapiens_gene_ensembl")
getBM(c("ensembl_gene_id", "strand", "chromosome_name", "start_position", "end_position"), filter=c("chromosome_name", "start", "end"), values = list(1, 10363215, 10364710), mart=ensmart) #使用过滤条件
getBM(attributes=c("hgnc_symbol", "entrezgene","ensembl_gene_id", "strand", "chromosome_name", "start_position", "end_position"), filter=c("chromosome_name", "start", "end"), values = list(1, 10363215, 10364710), mart=ensmart)
out.df <- getBM(attributes=c("hgnc_symbol", "entrezgene","ensembl_gene_id", "strand", "chromosome_name", "start_position", "end_position"), values = "*", mart=ensmart)
write.table(out.df, file="ensembl_gene.txt", quote=F, row.names=F, col.names=T, sep="\t")
有文献报道,目前为止人类研究最多的10个基因是 TP53, TNF, EGFR, VEGFA, APOE, IL6, TGFB1, MTHFR, ESR1, AKT1
使用which和%in%的方法,可以在R中直接查找到这些基因的位置和ensembl ID
out.df[which(out.df$hgnc_symbol %in% c("TP53", "TNF", "EGFR", "VEGFA", "APOE", "IL6", "TGFB1", "MTHFR", "ESR1", "AKT1")), ]
结果如下:
index hgnc_symbol entrezgene ensembl_gene_id strand chromosome_name start_position end_position
6156 TNF 7124 ENSG00000230108 1 CHR_HSCHR6_MHC_SSTO_CTG1 31566312 31569081
8587 TP53 7157 ENSG00000141510 -1 17 7661779 7687550
12442 TNF 7124 ENSG00000228978 1 CHR_HSCHR6_MHC_APD_CTG1 31643520 31645322
19477 IL6 3569 ENSG00000136244 1 7 22725884 22732002
19953 TNF 7124 ENSG00000206439 1 CHR_HSCHR6_MHC_QBL_CTG1 31565793 31568564
25491 TNF 7124 ENSG00000228849 1 CHR_HSCHR6_MHC_DBB_CTG1 31557707 31560476
25587 VEGFA 7422 ENSG00000112715 1 6 43770184 43786487
27886 TNF 7124 ENSG00000228321 1 CHR_HSCHR6_MHC_MANN_CTG1 31615015 31617784
28626 ESR1 2099 ENSG00000091831 1 6 151656691 152129619
28981 APOE 348 ENSG00000130203 1 19 44905754 44909393
29805 TNF 7124 ENSG00000223952 1 CHR_HSCHR6_MHC_MCF_CTG1 31651872 31654641
31422 AKT1 207 ENSG00000142208 -1 14 104769349 104795751
38201 TNF 7124 ENSG00000204490 1 CHR_HSCHR6_MHC_COX_CTG1 31562973 31565742
40484 EGFR 1956 ENSG00000146648 1 7 55019021 55211628
47957 TNF 7124 ENSG00000232810 1 6 31575567 31578336
49227 MTHFR 4524 ENSG00000177000 -1 1 11785723 11806920
51288 TGFB1 7040 ENSG00000105329 -1 19 41301587 41353911
这些基因在染色体上的坐标 都是采用的hg38基因组, 在UCSC genome browser中 EGFR的基因位置如图:
这个Genome browser中显示的是EGFR的另一个转录本的基因位置,在ensembl中获得的是最常见的EGFR转录本的范围。
关于基因的转录本,以后的博客会继续解释。
- 点赞
- 收藏
- 关注作者
评论(0)