人类基因组中的基因

举报
benymorre 发表于 2018/12/01 22:05:37 2018/12/01
【摘要】 在人类基因组计划完成后,数据库中储存的染色体序列及注释信息包含22条常染色体(chr 1-22), 两条性染色体(chrX, chrY),还有一个线粒体(chrM)。在ENSEMBL数据库中已有的编码蛋白质的基因个数为22,210个。使用R语言的biomaRt工具包,可以查看这些基因在哪些染色体上,以及各染色体上各基因包含内含子,外显子的全长。除了ensembl数据库,常用的基因序列和蛋白的...


在人类基因组计划完成后,数据库中储存的染色体序列及注释信息包含22条常染色体(chr 1-22), 两条性染色体(chrX, chrY),还有一个线粒体(chrM)。


在ENSEMBL数据库中已有的编码蛋白质的基因个数为22,210个。


使用R语言的biomaRt工具包,可以查看这些基因在哪些染色体上,以及各染色体上各基因包含内含子,外显子的全长。除了ensembl数据库,常用的基因序列和蛋白的数据库还有RefSeq和UniprotKB。


在R版本3.5及以上,可以使用以下方法安装biomaRt


if ( !requireNamespace("BiocManager"))

        install.package("BiocManager")

BiocManager::install("biomaRt")


在R版本3.4以下, 使用以下方法安装biomaRt


source("https://bioconductor.org/biocLite.R")

biocLite("biomaRt")


在R语言中,加载biomaRt包,使用以下方法可以获得ensembl中的基因注释信息, 最终得到的基因数为65,602个, 原因在于除了编码蛋白质的基因以外,还有一些非编码RNA的基因。


library(biomaRt)

ensmart = useMart("ensembl", dataset = "hsapiens_gene_ensembl")

getBM(c("ensembl_gene_id", "strand", "chromosome_name", "start_position", "end_position"), filter=c("chromosome_name", "start", "end"), values = list(1, 10363215, 10364710), mart=ensmart)  #使用过滤条件


getBM(attributes=c("hgnc_symbol", "entrezgene","ensembl_gene_id", "strand", "chromosome_name", "start_position", "end_position"), filter=c("chromosome_name", "start", "end"), values = list(1, 10363215, 10364710), mart=ensmart)


out.df <- getBM(attributes=c("hgnc_symbol", "entrezgene","ensembl_gene_id", "strand", "chromosome_name", "start_position", "end_position"), values = "*", mart=ensmart)



write.table(out.df, file="ensembl_gene.txt", quote=F, row.names=F, col.names=T, sep="\t")


有文献报道,目前为止人类研究最多的10个基因是 TP53, TNF, EGFR, VEGFA, APOE, IL6, TGFB1, MTHFR, ESR1, AKT1

使用which和%in%的方法,可以在R中直接查找到这些基因的位置和ensembl ID


out.df[which(out.df$hgnc_symbol %in% c("TP53", "TNF", "EGFR", "VEGFA", "APOE", "IL6", "TGFB1", "MTHFR", "ESR1", "AKT1")), ]


结果如下:


index      hgnc_symbol entrezgene ensembl_gene_id strand          chromosome_name    start_position end_position

6156          TNF       7124     ENSG00000230108      1 CHR_HSCHR6_MHC_SSTO_CTG1    31566312     31569081

8587         TP53       7157     ENSG00000141510     -1                       17    7661779      7687550

12442         TNF       7124     ENSG00000228978      1  CHR_HSCHR6_MHC_APD_CTG1    31643520     31645322

19477         IL6       3569     ENSG00000136244      1                        7    22725884     22732002

19953         TNF       7124     ENSG00000206439      1  CHR_HSCHR6_MHC_QBL_CTG1    31565793     31568564

25491         TNF       7124     ENSG00000228849      1  CHR_HSCHR6_MHC_DBB_CTG1    31557707     31560476

25587       VEGFA       7422     ENSG00000112715      1                        6    43770184     43786487

27886         TNF       7124     ENSG00000228321      1 CHR_HSCHR6_MHC_MANN_CTG1    31615015     31617784

28626        ESR1       2099     ENSG00000091831      1                        6    151656691    152129619

28981        APOE        348     ENSG00000130203      1                       19    44905754     44909393

29805         TNF       7124     ENSG00000223952      1  CHR_HSCHR6_MHC_MCF_CTG1    31651872     31654641

31422        AKT1        207     ENSG00000142208     -1                       14    104769349    104795751

38201         TNF       7124     ENSG00000204490      1  CHR_HSCHR6_MHC_COX_CTG1    31562973     31565742

40484        EGFR       1956     ENSG00000146648      1                        7    55019021     55211628

47957         TNF       7124     ENSG00000232810      1                        6    31575567     31578336

49227       MTHFR       4524     ENSG00000177000     -1                        1    11785723     11806920

51288       TGFB1       7040     ENSG00000105329     -1                       19    41301587     41353911


这些基因在染色体上的坐标 都是采用的hg38基因组, 在UCSC genome browser中 EGFR的基因位置如图:


Screenshot 2018-12-01 at 9.59.26 PM.png


这个Genome browser中显示的是EGFR的另一个转录本的基因位置,在ensembl中获得的是最常见的EGFR转录本的范围。


关于基因的转录本,以后的博客会继续解释。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。