- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Python生物信息学③提取差异基因

DrugAI 发表于 2021/07/15 05:30:49 2021/07/15

【摘要】 python做生信分析的流程使用的数据集是GSE5583，来自于2006年的基因芯片结果，该芯片目的是提取野生型和HDAC1小鼠胚胎干细胞用于Affymetrix微阵列上的差异RNA。 #导入包import matplotlib.pyplot as pltimport osimport numpy as npimport pandas as pdfrom scipy i...

python做生信分析的流程

使用的数据集是GSE5583，来自于2006年的基因芯片结果，该芯片目的是提取野生型和HDAC1小鼠胚胎干细胞用于Affymetrix微阵列上的差异RNA。


  
   
    
     
    
    
     
      #导入包
     
    
   
    
     
    
    
     
      import matplotlib.pyplot as plt
     
    
   
    
     
    
    
     
      import os
     
    
   
    
     
    
    
     
      import numpy as np
     
    
   
    
     
    
    
     
      import pandas as pd
     
    
   
    
     
    
    
     
      from scipy import stats
     
    
   
    
     
    
    
     
      import seaborn as sns
     
    
   
    
     
    
    
     
      %matplotlib inline


  
   
    
     
    
    
     
      #载入数据
     
    
   
    
     
    
    
     
      data = pd.read_table("GSE5583.txt",header = 0,index_col = 0)
     
    
   
    
     
    
    
     
      data.head()  #查看前5行

每一行是一个基因，每一列是一个样本，这也是比较经典的芯片数据集

标准化

常见的log2（）标准化


  
   
    
     
    
    
     
      data2 = np.log2(data+0.0001)
     
    
   
    
     
    
    
     
      data2.head()


  
   
    
     
    
    
     
      # 每个阵列的箱线图
     
    
   
    
     
    
    
     
      plt.show(data2.plot(kind = 'box', title = 'GSE5583 Boxplot', rot = 90))

目的是查看不同样本之间是否有总体差异。


  
   
    
     
    
    
     
      # Density
     
    
   
    
     
    
    
     
      plt.show(data2.plot(kind = 'density', title = 'GSE5583 Density'))

可以看出样本之间没有总体差异，可以做差异分析。


  
   
    
     
    
    
     
      #每个基因（行）wt样本的表达平均值
     
    
   
    
     
    
    
     
      wt = data2.loc[:, 'WT.GSM130365' : 'WT.GSM130367'].mean(axis = 1)
     
    
   
    
     
    
    
     
      wt.head()


  
   
    
     
    
    
     
      #每个基因（行）的ko样本的表达平均值
     
    
   
    
     
    
    
     
      ko = data2.loc[:,'KO.GSM130368':'KO.GSM130370'].mean(axis = 1)
     
    
   
    
     
    
    
     
      ko.head()


  
   
    
     
    
    
     
      fold = ko - wt
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      #折叠变化的直方图
     
    
   
    
     
    
    
     
      plt.hist(fold)
     
    
   
    
     
    
    
     
      plt.title("Histogram of fold-change")
     
    
   
    
     
    
    
     
      plt.show()

查看基因差异的P值分布


  
   
    
     
    
    
     
      from scipy import stats
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      pvalue = []
     
    
   
    
     
    
    
     
      for i in range(0, number_of_genes):
     
    
   
    
     
    
    
     
       ttest = stats.ttest_ind(data2.iloc[i,0:3], data2.iloc[i,3:6])
     
    
   
    
     
    
    
     
       pvalue.append(ttest[1])
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      # Histogram of the p-values
     
    
   
    
     
    
    
     
      plt.hist(-np.log(pvalue))
     
    
   
    
     
    
    
     
      plt.title("Histogram of p-value")
     
    
   
    
     
    
    
     
      plt.show()

参考：

https://www.jianshu.com/p/91c98585b79b

文章来源: drugai.blog.csdn.net，作者：DrugAI，版权归原作者所有，如需转载，请联系作者。

原文链接：drugai.blog.csdn.net/article/details/88877273

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Python生物信息学③提取差异基因

python做生信分析的流程

标准化

查看基因差异的P值分布

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

Python生物信息学③提取差异基因

python做生信分析的流程

标准化

查看基因差异的P值分布

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品