- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

人类基因组中的基因

benymorre 发表于 2018/12/01 22:05:37 2018/12/01

【摘要】在人类基因组计划完成后，数据库中储存的染色体序列及注释信息包含22条常染色体（chr 1-22），两条性染色体（chrX， chrY），还有一个线粒体（chrM）。在ENSEMBL数据库中已有的编码蛋白质的基因个数为22,210个。使用R语言的biomaRt工具包，可以查看这些基因在哪些染色体上，以及各染色体上各基因包含内含子，外显子的全长。除了ensembl数据库，常用的基因序列和蛋白的...

在人类基因组计划完成后，数据库中储存的染色体序列及注释信息包含22条常染色体（chr 1-22），两条性染色体（chrX， chrY），还有一个线粒体（chrM）。

在ENSEMBL数据库中已有的编码蛋白质的基因个数为22,210个。

使用R语言的biomaRt工具包，可以查看这些基因在哪些染色体上，以及各染色体上各基因包含内含子，外显子的全长。除了ensembl数据库，常用的基因序列和蛋白的数据库还有RefSeq和UniprotKB。

在R版本3.5及以上，可以使用以下方法安装biomaRt

if ( !requireNamespace("BiocManager"))

install.package("BiocManager")

BiocManager::install("biomaRt")

在R版本3.4以下，使用以下方法安装biomaRt

source("https://bioconductor.org/biocLite.R")

biocLite("biomaRt")

在R语言中，加载biomaRt包，使用以下方法可以获得ensembl中的基因注释信息，最终得到的基因数为65,602个，原因在于除了编码蛋白质的基因以外，还有一些非编码RNA的基因。

library(biomaRt)

ensmart = useMart("ensembl", dataset = "hsapiens_gene_ensembl")

getBM(c("ensembl_gene_id", "strand", "chromosome_name", "start_position", "end_position"), filter=c("chromosome_name", "start", "end"), values = list(1, 10363215, 10364710), mart=ensmart) #使用过滤条件

getBM(attributes=c("hgnc_symbol", "entrezgene","ensembl_gene_id", "strand", "chromosome_name", "start_position", "end_position"), filter=c("chromosome_name", "start", "end"), values = list(1, 10363215, 10364710), mart=ensmart)

out.df <- getBM(attributes=c("hgnc_symbol", "entrezgene","ensembl_gene_id", "strand", "chromosome_name", "start_position", "end_position"), values = "*", mart=ensmart)

write.table(out.df, file="ensembl_gene.txt", quote=F, row.names=F, col.names=T, sep="\t")

有文献报道，目前为止人类研究最多的10个基因是 TP53, TNF, EGFR, VEGFA, APOE, IL6, TGFB1, MTHFR, ESR1, AKT1

使用which和%in%的方法，可以在R中直接查找到这些基因的位置和ensembl ID

out.df[which(out.df$hgnc_symbol %in% c("TP53", "TNF", "EGFR", "VEGFA", "APOE", "IL6", "TGFB1", "MTHFR", "ESR1", "AKT1")), ]

结果如下：

index hgnc_symbol entrezgene ensembl_gene_id strand chromosome_name start_position end_position

6156 TNF 7124 ENSG00000230108 1 CHR_HSCHR6_MHC_SSTO_CTG1 31566312 31569081

8587 TP53 7157 ENSG00000141510 -1 17 7661779 7687550

12442 TNF 7124 ENSG00000228978 1 CHR_HSCHR6_MHC_APD_CTG1 31643520 31645322

19477 IL6 3569 ENSG00000136244 1 7 22725884 22732002

19953 TNF 7124 ENSG00000206439 1 CHR_HSCHR6_MHC_QBL_CTG1 31565793 31568564

25491 TNF 7124 ENSG00000228849 1 CHR_HSCHR6_MHC_DBB_CTG1 31557707 31560476

25587 VEGFA 7422 ENSG00000112715 1 6 43770184 43786487

27886 TNF 7124 ENSG00000228321 1 CHR_HSCHR6_MHC_MANN_CTG1 31615015 31617784

28626 ESR1 2099 ENSG00000091831 1 6 151656691 152129619

28981 APOE 348 ENSG00000130203 1 19 44905754 44909393

29805 TNF 7124 ENSG00000223952 1 CHR_HSCHR6_MHC_MCF_CTG1 31651872 31654641

31422 AKT1 207 ENSG00000142208 -1 14 104769349 104795751

38201 TNF 7124 ENSG00000204490 1 CHR_HSCHR6_MHC_COX_CTG1 31562973 31565742

40484 EGFR 1956 ENSG00000146648 1 7 55019021 55211628

47957 TNF 7124 ENSG00000232810 1 6 31575567 31578336

49227 MTHFR 4524 ENSG00000177000 -1 1 11785723 11806920

51288 TGFB1 7040 ENSG00000105329 -1 19 41301587 41353911

这些基因在染色体上的坐标都是采用的hg38基因组，在UCSC genome browser中 EGFR的基因位置如图：

这个Genome browser中显示的是EGFR的另一个转录本的基因位置，在ensembl中获得的是最常见的EGFR转录本的范围。

关于基因的转录本，以后的博客会继续解释。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

人类基因组中的基因

在ENSEMBL数据库中已有的编码蛋白质的基因个数为22,210个。

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

人类基因组中的基因

在ENSEMBL数据库中已有的编码蛋白质的基因个数为22,210个。

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品