扩增子分析工具Qiime2安装与使用
Qiime2 的作者是Rob Knight和Greg Caporaso, 主要用于微生物16S rRNA的基因的扩增子分析,用于物种的分类和群落结构分析。
以下主要介绍Qiime2 的安装以及分析过程
安装
1. sh Miniconda3-latest-Linux-x86_64.sh 2. 编辑 .bashrc, 查看其中是否有以下内容 # added by Miniconda3 installer export PATH="/home/username/miniconda3/bin:$PATH" 如果没有,需加上,然后执行source命令 source ~/.bashrc 3. conda install conda=4.3 conda install pyzmq conda config --set ssl_verify False 4. conda create -n qiime2-2017.12 --file https://data.qiime2.org/distro/core/qiime2-2017.12-conda-linux-64.txt 或者 wget https://data.qiime2.org/distro/core/qiime2-2017.12-conda-linux-64.txt conda create -n qiime2-2017.12 --file qiime2-2017.12-conda-linux-64.txt
如果是2019版的Qiime2, 按照以下方法安装
wget https://data.qiime2.org/distro/core/qiime2-2019.7-py36-linux-conda.yml conda env create -n qiime2-2019.7 --file qiime2-2019.7-py36-linux-conda.yml # OPTIONAL CLEANUP rm qiime2-2019.7-py36-linux-conda.yml 参考 https://docs.qiime2.org/2019.7/install/native/#install-qiime-2-within-a-conda-environment
安装好Qiime2之后,启用Qiime2的运行环境
source activate qiime2-2017.12
分析主要有数据导入,根据barcode区分样品, 碱基数据纠错和降噪, 过滤, 划分OTU, 多样性分析, 物种分类, 群落结构分析,PCoA(主坐标分析)等等, 示意图如下
1. 数据导入
如果是从NCBI的SRA下载的数据需要用 fastq-dump进行数据格式转化
$BIN/sratoolkit.2.8.2-1-centos_linux64/bin/fastq-dump --defline-seq '@$sn[_$rn]/$ri' --split-3 SRR8581470.sra -O 16S_data/
数据导入方式如下:
qiime tools import --type 'SampleData[PairedEndSequencesWithQuality]' --input-path /fastq_data/ --output-path paired-end-demux.qza
在最新版的Qiime2中, 又加了个参数 --input-format PairedEndFastqManifestPhred33
这里面的manifest格式,可以参考 https://www.jianshu.com/p/1c2cce847581 和 https://docs.qiime2.org/2019.7/tutorials/importing/#sequence-data-with-sequence-quality-information-i-e-fastq
根据官方教程导入EMP数据例子如下:
qiime tools import \ --type EMPSingleEndSequences \ --input-path emp-single-end-sequences \ --output-path emp-single-end-sequences.qza
导入的数据可以是已经区分了barcode的,也可以是没有区分barcode的, 区分barcode也可以使用其它工具,比如:
https://github.com/jfjlaros/demultiplex
https://github.com/mfcovington/auto_barcode
https://github.com/gateswell/SplitBarcode
https://github.com/chris-mcginnis-ucsf/MULTI-seq
2.区分barcode
使用demux 命令, 需要sample-metadata.tsv 文件, 格式参考 https://data.qiime2.org/2019.7/tutorials/moving-pictures/sample_metadata
qiime demux emp-single \ --i-seqs emp-single-end-sequences.qza \ --m-barcodes-file sample-metadata.tsv \ --m-barcodes-category BarcodeSequence \ --o-per-sample-sequences demux.qza
可以看一下各个样本的基本信息,使用demux summarize 命令
qiime demux summarize \ --i-data demux.qza \ --o-visualization demux.qzv
.qza是分析过程文件,包含原始数据,分析过程和结果,保证了文件格式的标准,可重复分析
.qzv 与qza文件类似,包括分析方法和结果,方便追溯图表的产生,它包括表格,交互图像,静态图像, 在 https://view.qiime2.org/ 可查看
这两种文件都可以用 qiime tools export 导出, 然后就可以在本地查看。
3.碱基数据纠错和生成OTU序列
Qiime2 提供了dada2和deblur两种方法降噪, 这里只列举dada2的使用方法, 具体可参考 https://docs.qiime2.org/2019.7/tutorials/moving-pictures/
划分OTU,也就是生成各个微生物物种的代表性16S rDNA序列, 但是这时候还并不知道每条代表序列是具体来自哪种微生物, 后续与数据库比对,进行分类才能得出。
qiime dada2 denoise-single \ --i-demultiplexed-seqs demux.qz --p-trim-left 0 \ --p-trunc-len 120 \ --o-representative-sequences rep-seqs-dada2.qza \ --o-table table-dada2.qza \
在最新版的Qiime2 中还有--o-denoising-stats 这个参数可用,用于生成一些统计的结果
4.代表性序列的统计和可视化
先对上一步的结果重命名, 然后再进一步统计,作图
mv rep-seqs-dada2.qza rep-seqs.qza mv table-dada2.qza table.qza qiime feature-table summarize \ --i-table table.qza \ --o-visualization table.qzv \ --m-sample-metadata-file sample-metadata.tsv qiime feature-table tabulate-seqs \ --i-data rep-seqs.qza \ --o-visualization rep-seqs.qzv
导出数据的方法如下:
mkdir rep_seq_results mkdir rep_views qiime tools export rep-seqs.qza --output-dir rep_seq_results/ qiime tools export rep-seqs.qzv --output-dir rep_views/
5. 系统进化分析
使用qiime phylogeny
6.多样性分析
使用 qiime diversity 进行各种类型的多样性分析, 也可以进行alpha多样性稀释曲线分析
7.主成分分析,主坐标分析
使用qiime emperor
8.物种分类
使用qiime feature-classifier 和 qiime taxa , classifier使用的参考序列库,这里是greengene。 另外还有两个序列库,RDP和Silva,也可以自己制作成分类用的参考数据集。
qiime feature-classifier classify-sklearn \ --i-classifier gg-13-8-99-515-806-nb-classifier.qza \ --i-reads rep-seqs.qza \ --o-classification taxonomy.qza qiime metadata tabulate \ --m-input-file taxonomy.qza \ --o-visualization taxonomy.qzv qiime taxa barplot \ --i-table table.qza \ --i-taxonomy taxonomy.qza \ --m-metadata-file sample-metadata.tsv \ --o-visualization taxa-bar-plots.qzv
9. 群落结构分析
使用qiime composition和 qiime taxa
qiime feature-table filter-samples \ --i-table table.qza \ --m-metadata-file sample-metadata.tsv \ --p-where "[body-site]='gut'" \ --o-filtered-table gut-table.qza qiime composition add-pseudocount \ --i-table gut-table.qza \ --o-composition-table comp-gut-table.qza qiime composition ancom \ --i-table comp-gut-table.qza \ --m-metadata-file sample-metadata.tsv \ --m-metadata-column subject \ --o-visualization ancom-subject.qzv
或者
qiime taxa collapse \ --i-table gut-table.qza \ --i-taxonomy taxonomy.qza \ --p-level 6 \ --o-collapsed-table gut-table-l6.qza qiime composition add-pseudocount \ --i-table gut-table-l6.qza \ --o-composition-table comp-gut-table-l6.qza qiime composition ancom \ --i-table comp-gut-table-l6.qza \ --m-metadata-file sample-metadata.tsv \ --m-metadata-column subject \ --o-visualization l6-ancom-subject.qzv
本文第5-9的操作命令可在 https://docs.qiime2.org/2019.7/tutorials/moving-pictures/ 找到,更多教程参考 https://docs.qiime2.org/2019.7/tutorials/
退出Qiime2的运行环境,输入以下命令
source deactivate
Qiime现在已经有一个官方参考文献:
Bolyen E, Rideout JR, Dillon MR, Bokulich NA, Abnet CC, Al-Ghalith GA, Alexander H, Alm EJ, Arumugam M, Asnicar F, Bai Y, Bisanz JE, Bittinger K, Brejnrod A, Brislawn CJ, Brown CT, C***n BJ, Caraballo-Rodríguez AM, Chase J, Cope EK, Da Silva R, Diener C, Dorrestein PC, Douglas GM, Durall DM, Duvallet C, Edwardson CF, Ernst M, Estaki M, Fouquier J, Gauglitz JM, Gibbons SM, Gibson DL, Gonzalez A, Gorlick K, Guo J, Hillmann B, Holmes S, Holste H, Huttenhower C, Huttley GA, Janssen S, Jarmusch AK, Jiang L, Kaehler BD, Kang KB, Keefe CR, Keim P, Kelley ST, Knights D, Koester I, Kosciolek T, Kreps J, Langille MGI, Lee J, Ley R, Liu YX, Loftfield E, Lozupone C, Maher M, Marotz C, Martin BD, McDonald D, McIver LJ, Melnik AV, Metcalf JL, Morgan SC, Morton JT, Naimey AT, Navas-Molina JA, Nothias LF, Orchanian SB, Pearson T, Peoples SL, Petras D, Preuss ML, Pruesse E, Rasmussen LB, Rivers A, Robeson MS, Rosenthal P, Segata N, Shaffer M, Shiffer A, Sinha R, Song SJ, Spear JR, Swafford AD, Thompson LR, Torres PJ, Trinh P, Tripathi A, Turnbaugh PJ, Ul-Hasan S, van der Hooft JJJ, Vargas F, Vázquez-Baeza Y, Vogtmann E, von Hippel M, Walters W, Wan Y, Wang M, Warren J, Weber KC, Williamson CHD, Willis AD, Xu ZZ, Zaneveld JR, Zhang Y, Zhu Q, Knight R, and Caporaso JG. 2019. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology 37: 852–857. https://doi.org/10.1038/s41587-019-0209-9
- 点赞
- 收藏
- 关注作者
评论(0)