扩增子分析工具Qiime2安装与使用

举报
benymorre 发表于 2019/09/30 16:13:53 2019/09/30
【摘要】 Qiime2 的作者是Rob Knight和Greg Caporaso, 主要用于微生物16S rRNA的基因的扩增子分析,用于物种的分类和群落结构分析。以下主要介绍Qiime2 的安装以及分析过程安装1.sh Miniconda3-latest-Linux-x86_64.sh2.编辑 .bashrc, 查看其中是否有以下内容# added by Miniconda3 installere...

Qiime2 的作者是Rob Knight和Greg Caporaso, 主要用于微生物16S rRNA的基因的扩增子分析,用于物种的分类和群落结构分析。


以下主要介绍Qiime2 的安装以及分析过程


安装

1.
sh Miniconda3-latest-Linux-x86_64.sh

2.
编辑 .bashrc,  查看其中是否有以下内容
# added by Miniconda3 installer
export PATH="/home/username/miniconda3/bin:$PATH"

如果没有,需加上,然后执行source命令
source ~/.bashrc

3.
conda install conda=4.3
conda install pyzmq
conda config --set ssl_verify False

4.
conda create -n qiime2-2017.12 --file https://data.qiime2.org/distro/core/qiime2-2017.12-conda-linux-64.txt
或者
wget https://data.qiime2.org/distro/core/qiime2-2017.12-conda-linux-64.txt
conda create -n qiime2-2017.12 --file qiime2-2017.12-conda-linux-64.txt


如果是2019版的Qiime2, 按照以下方法安装

wget https://data.qiime2.org/distro/core/qiime2-2019.7-py36-linux-conda.yml
conda env create -n qiime2-2019.7 --file qiime2-2019.7-py36-linux-conda.yml
# OPTIONAL CLEANUP
rm qiime2-2019.7-py36-linux-conda.yml

参考   https://docs.qiime2.org/2019.7/install/native/#install-qiime-2-within-a-conda-environment


安装好Qiime2之后,启用Qiime2的运行环境

source activate qiime2-2017.12


分析主要有数据导入,根据barcode区分样品, 碱基数据纠错和降噪, 过滤, 划分OTU, 多样性分析, 物种分类, 群落结构分析,PCoA(主坐标分析)等等, 示意图如下


Qiime2.png


1. 数据导入

如果是从NCBI的SRA下载的数据需要用 fastq-dump进行数据格式转化

$BIN/sratoolkit.2.8.2-1-centos_linux64/bin/fastq-dump --defline-seq '@$sn[_$rn]/$ri' --split-3 SRR8581470.sra -O 16S_data/


数据导入方式如下:

qiime tools import --type 'SampleData[PairedEndSequencesWithQuality]' --input-path /fastq_data/ --output-path paired-end-demux.qza


在最新版的Qiime2中, 又加了个参数 --input-format PairedEndFastqManifestPhred33

这里面的manifest格式,可以参考 https://www.jianshu.com/p/1c2cce847581  和 https://docs.qiime2.org/2019.7/tutorials/importing/#sequence-data-with-sequence-quality-information-i-e-fastq


根据官方教程导入EMP数据例子如下:

qiime tools import \
   --type EMPSingleEndSequences \
   --input-path emp-single-end-sequences \
   --output-path emp-single-end-sequences.qza


导入的数据可以是已经区分了barcode的,也可以是没有区分barcode的, 区分barcode也可以使用其它工具,比如:

https://github.com/jfjlaros/demultiplex

https://github.com/mfcovington/auto_barcode

https://github.com/gateswell/SplitBarcode

https://github.com/chris-mcginnis-ucsf/MULTI-seq

  

2.区分barcode

使用demux 命令, 需要sample-metadata.tsv 文件, 格式参考 https://data.qiime2.org/2019.7/tutorials/moving-pictures/sample_metadata

qiime demux emp-single \
  --i-seqs emp-single-end-sequences.qza \
  --m-barcodes-file sample-metadata.tsv \
  --m-barcodes-category BarcodeSequence \
  --o-per-sample-sequences demux.qza


可以看一下各个样本的基本信息,使用demux summarize 命令

qiime demux summarize \
  --i-data demux.qza \
  --o-visualization demux.qzv


.qza是分析过程文件,包含原始数据,分析过程和结果,保证了文件格式的标准,可重复分析

.qzv 与qza文件类似,包括分析方法和结果,方便追溯图表的产生,它包括表格,交互图像,静态图像, 在  https://view.qiime2.org/  可查看

这两种文件都可以用 qiime tools export 导出, 然后就可以在本地查看。

3.碱基数据纠错和生成OTU序列

Qiime2 提供了dada2和deblur两种方法降噪, 这里只列举dada2的使用方法, 具体可参考 https://docs.qiime2.org/2019.7/tutorials/moving-pictures/

划分OTU,也就是生成各个微生物物种的代表性16S rDNA序列, 但是这时候还并不知道每条代表序列是具体来自哪种微生物, 后续与数据库比对,进行分类才能得出。

qiime dada2 denoise-single \
   --i-demultiplexed-seqs demux.qz
   --p-trim-left 0 \
   --p-trunc-len 120 \
   --o-representative-sequences rep-seqs-dada2.qza \
   --o-table table-dada2.qza \


在最新版的Qiime2 中还有--o-denoising-stats 这个参数可用,用于生成一些统计的结果


4.代表性序列的统计和可视化

先对上一步的结果重命名, 然后再进一步统计,作图

mv rep-seqs-dada2.qza rep-seqs.qza
mv table-dada2.qza table.qza

qiime feature-table summarize \
   --i-table table.qza \
   --o-visualization table.qzv \
   --m-sample-metadata-file sample-metadata.tsv
   
   
qiime feature-table tabulate-seqs \
   --i-data rep-seqs.qza \
   --o-visualization rep-seqs.qzv


导出数据的方法如下:

mkdir rep_seq_results
mkdir rep_views

qiime tools export rep-seqs.qza --output-dir rep_seq_results/

qiime tools export rep-seqs.qzv --output-dir rep_views/


5. 系统进化分析


使用qiime phylogeny 


6.多样性分析


使用 qiime diversity 进行各种类型的多样性分析, 也可以进行alpha多样性稀释曲线分析


7.主成分分析,主坐标分析

使用qiime emperor


8.物种分类

使用qiime feature-classifier 和 qiime taxa , classifier使用的参考序列库,这里是greengene。 另外还有两个序列库,RDP和Silva,也可以自己制作成分类用的参考数据集。

qiime feature-classifier classify-sklearn \
  --i-classifier gg-13-8-99-515-806-nb-classifier.qza \
  --i-reads rep-seqs.qza \
  --o-classification taxonomy.qza

qiime metadata tabulate \
  --m-input-file taxonomy.qza \
  --o-visualization taxonomy.qzv

qiime taxa barplot \
  --i-table table.qza \
  --i-taxonomy taxonomy.qza \
  --m-metadata-file sample-metadata.tsv \
  --o-visualization taxa-bar-plots.qzv


9. 群落结构分析

使用qiime composition和 qiime taxa

qiime feature-table filter-samples \
  --i-table table.qza \
  --m-metadata-file sample-metadata.tsv \
  --p-where "[body-site]='gut'" \
  --o-filtered-table gut-table.qza

qiime composition add-pseudocount \
  --i-table gut-table.qza \
  --o-composition-table comp-gut-table.qza


qiime composition ancom \
  --i-table comp-gut-table.qza \
  --m-metadata-file sample-metadata.tsv \
  --m-metadata-column subject \
  --o-visualization ancom-subject.qzv


或者

qiime taxa collapse \
  --i-table gut-table.qza \
  --i-taxonomy taxonomy.qza \
  --p-level 6 \
  --o-collapsed-table gut-table-l6.qza

qiime composition add-pseudocount \
  --i-table gut-table-l6.qza \
  --o-composition-table comp-gut-table-l6.qza

qiime composition ancom \
  --i-table comp-gut-table-l6.qza \
  --m-metadata-file sample-metadata.tsv \
  --m-metadata-column subject \
  --o-visualization l6-ancom-subject.qzv


本文第5-9的操作命令可在 https://docs.qiime2.org/2019.7/tutorials/moving-pictures/ 找到,更多教程参考 https://docs.qiime2.org/2019.7/tutorials/


退出Qiime2的运行环境,输入以下命令

source deactivate


Qiime现在已经有一个官方参考文献: 

Bolyen E, Rideout JR, Dillon MR, Bokulich NA, Abnet CC, Al-Ghalith GA, Alexander H, Alm EJ, Arumugam M, Asnicar F, Bai Y, Bisanz JE, Bittinger K, Brejnrod A, Brislawn CJ, Brown CT, C***n BJ, Caraballo-Rodríguez AM, Chase J, Cope EK, Da Silva R, Diener C, Dorrestein PC, Douglas GM, Durall DM, Duvallet C, Edwardson CF, Ernst M, Estaki M, Fouquier J, Gauglitz JM, Gibbons SM, Gibson DL, Gonzalez A, Gorlick K, Guo J, Hillmann B, Holmes S, Holste H, Huttenhower C, Huttley GA, Janssen S, Jarmusch AK, Jiang L, Kaehler BD, Kang KB, Keefe CR, Keim P, Kelley ST, Knights D, Koester I, Kosciolek T, Kreps J, Langille MGI, Lee J, Ley R, Liu YX, Loftfield E, Lozupone C, Maher M, Marotz C, Martin BD, McDonald D, McIver LJ, Melnik AV, Metcalf JL, Morgan SC, Morton JT, Naimey AT, Navas-Molina JA, Nothias LF, Orchanian SB, Pearson T, Peoples SL, Petras D, Preuss ML, Pruesse E, Rasmussen LB, Rivers A, Robeson MS, Rosenthal P, Segata N, Shaffer M, Shiffer A, Sinha R, Song SJ, Spear JR, Swafford AD, Thompson LR, Torres PJ, Trinh P, Tripathi A, Turnbaugh PJ, Ul-Hasan S, van der Hooft JJJ, Vargas F, Vázquez-Baeza Y, Vogtmann E, von Hippel M, Walters W, Wan Y, Wang M, Warren J, Weber KC, Williamson CHD, Willis AD, Xu ZZ, Zaneveld JR, Zhang Y, Zhu Q, Knight R, and Caporaso JG. 2019. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology 37: 852–857. https://doi.org/10.1038/s41587-019-0209-9


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。