Sentieon | 300X WES临床级全外单机只要15分钟

举报
湾联科技 发表于 2026/04/17 14:23:24 2026/04/17
【摘要】 在 64 核测试服务器上 16G 数据量的人类 WES 数据(294X)平均分析仅耗时 15.43 min,极大缩短了分析时间。

封面-03.jpg

一、前言

在基因组学研究中,全外显子组测序(Whole Exome Sequencing, WES)已成为解码基因编码区域变异的常规工具,能够全面捕获人类基因组中约 2% 的外显子区域序列,从而在单核苷酸水平识别与疾病相关的功能变异,提供比全基因组测序(WGS)更经济、更深入的靶向分析手段,尤其适用于孟德尔遗传病及复杂疾病相关编码变异的发现。研究表明,WES 在多种遗传疾病中展现出重要的诊断价值——例如在神经发育障碍中其诊断率可达 25% – 40%,是临床遗传检测的一线选择之一。

然而,随着测序通量的提升与样本量的增加,基于传统 GATK 的分析流程在处理大规模 WES 数据时日益面临耗时漫长、计算资源消耗大的瓶颈,许多临床与科研团队需面对数天甚至数周的分析周期,影响了诊断时效与结果交付。

为应对这一挑战,Sentieon 开发了涵盖从比对、去重、碱基质量校正到变异检测的一体化 WES 分析加速模块,通过高度优化的算法与并行计算架构,大幅缩短全流程分析时间,为高通量WES数据提供了高效、可靠的生信分析解决方案。




二、Sentieon-cli dnascope 流程总览

Sentieon® Genomics 软件包含一个改进的算法来执行胚系 DNA 分析的变异检测步骤。DNAscope 使用的流程类似于 DNAseq® 中描述的流程,但在比对和变异检测方面都有所不同。

DNAscope 接受模型文件以提高处理速度和准确性,除了检测 SNP 和小 indel 外,它还可以进行结构变异检测。DNAscope 的核心优势在于结合机器学习模型进行高精度变异检测,而该模型是专门为二倍体样本设计的。因此,官方明确推荐将带有机器学习模型的 DNAscope 用于人类或其他哺乳动物样本的测序数据集。

图片1.png

图1 推荐用于 DNA 变异检测分析的生物信息学流程

在这个生物信息学流程中,您需要以下输入文件:

  • FASTA 文件:包含与待分析样本对应的参考基因组核苷酸序列。
  • FASTQ 文件:一个或多个包含待分析样本核苷酸序列的文件。这些文件包含来自 DNA 测序的原始读数。软件支持输入使用 GZIP 压缩的 FASTQ 文件。软件仅支持包含 Sanger 格式(Phred+33)质量分数的文件。
  • 机器学习模型文件:可从 https://github.com/Sentieon/sentieon-models 获取特定测序平台机器学习模型文件。
  • (可选)包含变异检测区间的 BED 文件。推荐用于全外显子组或靶向测序数据。
  • (可选)您想在流程中包含的单核苷酸多态性数据库(dbSNP)数据。数据以 VCF 文件的形式使用;您可以使用 bgzip 压缩并索引的 VCF 文件。

DNAscope 的典型生物信息学分析流程包括以下步骤:

  1. 将读数映射到参考基因组:此步骤将 FASTQ 文件中的读段比对并映射到 FASTA 文件中的参考基因组上。该步骤确保了数据能够被置于基因组上下文背景中(确定其路径)。
  2. 计算数据指标:此步骤生成关于数据质量和流程分析质量的统计摘要。
  3. 去除或标记重复:此步骤检测表明同一 DNA 分子被多次测序的读数。这些重复序列不具有信息价值,不应作为额外的证据进行计数。
  4. 使用带机器学习模型的 DNAscope 进行变异检测:这一步识别您的数据相对于参考基因组显示变异的位点,并计算每个样本在该位点的基因型。

1.  使用 FASTQ 文件作为输入

针对 FASTQ 格式文件,通过运行单条命令即可完成序列比对、预处理,并检测单核苷酸变异、插入缺失变异及结构变异。

sentieon-cli dnascope [-h] \
  -r REFERENCE \
  --r1-fastq R1_FASTQ ... \
  --r2-fastq R2_FASTQ ... \
  --readgroups READGROUPS ... \
  -m MODEL_BUNDLE \
  [-d DBSNP] \
  [-b INTERVAL_FILE] \
  [--interval_padding 0] \
  [-t NUMBER_THREADS] \
  [--pcr_free] \
  [-g] \
  [--duplicate_marking markdup] \
  [--assay WGS] \
  [--consensus] \
  [--dry_run] \
  [--bam_format] \
  SAMPLE_VCF

使用 FASTQ 文件作为输入时,DNAscope 流程需要以下参数:

  • -r REFERENCE:参考序列 FASTA 文件的位置。同时需要参考序列的 fasta 索引文件 “.fai” 以及 bwa 索引文件。
  • --r1_fastq R1_FASTQ:R1 端的输入 FASTQ 文件。可以多次指定。没有对应 R2_FASTQ 文件的 R1_FASTQ 文件将被视为单端测序数据。请注意,该流程执行单样本处理,所有 fastq 文件应来自同一个样本。
  • --r2_fastq R2_FASTQ:R2 端的输入 FASTQ 文件。可以多次指定。
  • --readgroups READGROUPS:每个 FASTQ 文件的读段组信息。流程将要求 --r1_fastq 参数和 --readgroups 参数具有相同数量的输入。示例参数为:--readgroups "@RG\tID:HG002-1\tSM:HG002\tLB:HG002-LB-1\tPL:ILLUMINA"
  • -m MODEL_BUNDLE:模型包文件的位置。模型包文件可在 sentieon-models 代码仓库中找到。
  • SAMPLE_VCF:用于输出 SNV 和小插入缺失(indel)的 VCF 文件的位置。流程要求输出文件后缀为 .vcf.gz。不包含后缀的文件路径将用作其他输出文件的基础名称。

DNAscope 流程接受以下可选参数:

  • -d DBSNP:用于在 VCF 中标记已知变异的单核苷酸多态性数据库(dbSNP)的位置,文件格式为 VCF (.vcf) 或 bgzip 压缩的 VCF (.vcf.gz)。仅支持一个文件。提供此文件将用其 dbSNP 的 refSNP ID 号对变异进行注释。需要 VCF 索引文件。
  • -b INTERVAL_FILE:用于限制变异检测的参考基因组区间,格式为 BED 文件。提供此文件将把变异检测限制在 BED 文件内的区间。如果不提供 BED 文件,软件将处理全基因组。
  • --interval_padding INTERVAL_PADDING:在输入区间的边缘添加 INTERVAL_PADDING 个碱基的填充区域。默认值为 0。
  • -t NUMBER_THREADS:软件将用于运行并行进程的计算线程数。此参数为可选;如果省略,流程将使用服务器所有的线程。
  • --pcr_free:使用 --pcr_indel_model NONE 调用变异,适用于通过 PCR-free 文库制备方法构建的文库。仍会执行去重以识别光学重复。
  • -g:除了 VCF 输出文件外,还以 gVCF 格式输出变异。工具将输出一个 bgzip 压缩的 gVCF 文件及其对应的索引文件。
  • --duplicate_marking DUP_MARKING:重复序列标记的设置。markdup 将标记重复读段。rmdup 将删除重复读段。none 将跳过重复标记。默认设置为 markdup
  • --assay ASSAY:用于指标收集的检测类型设置,WGS 或 WES。默认设置为 WGS
  • --consensus:在重复标记期间生成一致性读段。
  • -h:打印命令行帮助信息并退出。
  • --dry_run:打印流程命令,但不实际执行。
  • --bam_format:使用 BAM 格式而非 CRAM 格式作为输出比对文件。

2.  使用未排序 BAM 或 CRAM 文件作为输入

针对未排序的 BAM 文件或 CRAM 文件,通过运行单条命令即可完成比对、预处理,并检测单核苷酸变异、插入缺失变异及结构变异。

sentieon-cli dnascope [-h] \
  -r REFERENCE \
  -i SAMPLE_INPUT ... \
  --align \
  [--input_ref INPUT_REF] \
  -m MODEL_BUNDLE \
  [-d DBSNP] \
  [-b BED] \
  [--interval_padding INTERVAL_PADDING] \
  [-t NUMBER_THREADS] \
  [--pcr_free] \
  [-g] \
  [--duplicate_marking DUP_MARKING] \
  [--assay ASSAY] \
  [--consensus] \
  [--dry_run] \
  [--bam_format] \
  SAMPLE_VCF

当使用 uBAM 或 uCRAM 文件作为输入时,DNAscope 流程需要以下新增参数:

  • 必要参数:

    • -i SAMPLE_INPUT:输入样本文件,格式为 uBAM 或 uCRAM。可以通过在 -i参数后提供多个文件来指定一个或多个输入文件。
    • --align:指示流程对输入的读段进行比对。
  • 新增可选参数:

    • --input_ref INPUT_REF:用于解码输入文件(uCRAM)的参考序列 fasta 文件。在使用 uCRAM 输入时是必需的。此参考文件可以与 -r参数使用的参考文件不同。

3.  使用已排序的 BAM 或 CRAM 文件

针对已经排序的 BAM 或 CRAM 文件,通过运行单条命令即可完成预处理,并检测单核苷酸变异、插入缺失变异及结构变异。

sentieon-cli dnascope [-h] \
  -r REFERENCE \
  -i SAMPLE_INPUT ... \
  -m MODEL_BUNDLE \
  [-d DBSNP] \
  [-b BED] \
  [--interval_padding INTERVAL_PADDING] \
  [-t NUMBER_THREADS] \
  [--pcr_free] \
  [-g] \
  [--duplicate_marking DUP_MARKING] \
  [--assay ASSAY] \
  [--consensus] \
  [--dry_run] \
  [--bam_format] \
  SAMPLE_VCF

若不指定 --align和 --collate_align参数,流程将直接基于输入的测序序列进行变异检测。

Sentieon-cli dnascope_wes.sh流程github地址:

https://github.com/Insvast/bioinformatics




三、流程输出

1.  输出文件列表

当使用默认参数处理全基因组测序(WGS)FASTQ 数据,并设定输出文件为 sample.vcf.gz时,会生成以下文件:

  • sample.vcf.gz:SNV 和插入缺失(indel)的变异检测结果,覆盖由 -b 参数指定的 BED 文件所定义的基因组区域。
  • sample_deduped.cram或 sample_deduped.bam:经过比对、坐标排序和重复标记的读段数据,源自输入的 FASTQ 文件。
  • sample_svs.vcf.gz:由 DNAscope 和 SVSolver 生成的结构变异检测结果。
  • sample_metrics:一个目录,包含所分析样本的质量控制(QC)指标。
  • sample_metrics/coverage*:所处理样本的覆盖度指标。仅适用于 WGS 样本。
  • sample_metrics/{sample}.txt.alignment_stat.txt:来自 AlignmentStat 算法的比对统计指标。
  • sample_metrics/{sample}.txt.base_distribution_by_cycle.txt:来自 BaseDistributionByCycle 算法的碱基分布(按测序循环) 指标。
  • sample_metrics/{sample}.txt.dedup_metrics.txt:来自 Dedup 算法的去重指标。
  • sample_metrics/{sample}.txt.gc_bias*:来自 GCBias 算法的 GC 偏好性指标。仅适用于 WGS 样本。
  • sample_metrics/{sample}.txt.insert_size.txt:来自 InsertSizeMetricAlgo 算法的插入片段大小指标。
  • sample_metrics/{sample}.txt.mean_qual_by_cycle.txt:来自 MeanQualityByCycle 算法的平均测序质量(按测序循环) 指标。
  • sample_metrics/{sample}.txt.qual_distribution.txt:来自 QualDistribution 算法的测序质量分布指标。
  • sample_metrics/{sample}.txt.wgs.txt:来自 WgsMetricsAlgo 算法的全基因组测序指标。仅适用于 WGS 样本。
  • sample_metrics/{sample}.txt.hybrid-selection.txt:来自 HsMetricAlgo 算法的杂交捕获相关指标。
  • sample_metrics/multiqc_report.html:由 MultiQC 工具汇总的综合性质量控制指标报告。



四、实际运行测试

本次测试以人类数据为例,下载 SRP329754 项目数据并进行 dnascope 分析流程,评估其在实际中的性能表现。

1.  服务器配置:

  • CPU 为 Intel(R) Xeon(R) Platinum 8358P CPU @ 2.60GHz 64 核心
  • 内存为 512GB DDR4
  • 系统为 Ubuntu 22.04.3 LTS

2.  软件下载安装

  • https://ftp.insvast.com/user/Sentieon/release/sentieon-genomics-202503.03.tar.gz(适配 X86 架构 CPU 服务器,例如 Intel、 AMD、 曙光)
  • https://ftp.insvast.com/user/Sentieon/release/arm-sentieon-genomics-202503.03.tar.gz(适配 ARM 架构 CPU 服务器, 例如华为鲲鹏、 阿⾥倚天、 Ampere)
  • 软件下载链接用户名:insvast;密码:Ins@1234

3.  参考基因组

本次分析采用 UCSC hg19 作为人类参考基因组:

https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.13_GRCh37/GCF_000001405.13_GRCh37_genomic.fna.gz

4.  分析运行

dnascope_wes.sh 210 ./210 /WES-test/data/210_R1.fastq.gz  /WES-test/data/210_R2.fastq.gz  /WES-test/refseq/hg19.fa raw keep  keep  2 /WES-test/refseq/MGI_Exome_Capture_V5_fixed.bed false

dnascope_wes.sh 69 ./69 /WES-test/data/69_R1.fastq.gz  /WES-test/data/69_R2.fastq.gz  /WES-test/refseq/hg19.fa raw keep  keep  2 /WES-test/refseq/MGI_Exome_Capture_V5_fixed.bed false




五、分析结果展示

1.  输出文件

34347acc-33f3-446a-b8dd-d71ffd063925.png

2.  qc结果展示


S210
S69
[Total] Raw Reads (All reads)
174018654
175532558
[Total] QC Fail reads
0
0
[Total] Raw Data(Mb)
29513.66
29343.35
[Total] Paired Reads
139031504
147210368
[Total] Mapped Reads
173940344
175484524
[Total] Fraction of Mapped Reads
99.96%
99.97%
[Total] Mapped Data(Mb)
29501.94
29336.25
[Total] Fraction of Mapped Data(Mb)
99.96%
99.98%
[Total] Properly paired
133742970
144067426
[Total] Fraction of Properly paired
76.86%
82.07%
[Total] Read and mate paired
138931672
147150094
[Total] Fraction of Read and mate paired
79.84%
83.83%
[Total] Singletons
21522
12240
[Total] Read and mate map to diff chr
4557730
2596934
[Total] Read1
69515752
73605184
[Total] Read2
69515752
73605184
[Total] Read1(rmdup)
15761633
18869429
[Total] Read2(rmdup)
15761525
18869118
[Total] forward strand reads
89536187
88441568
[Total] backward strand reads
84404157
87042956
[Total] PCR duplicate reads
107430036
109423787
[Total] Fraction of PCR duplicate reads
61.76%
62.36%
[Total] Map quality cutoff value
20
20
[Total] MapQuality above cutoff reads
169946341
171121552
[Total] Fraction of MapQ reads in all reads
97.66%
97.49%
[Total] Fraction of MapQ reads in mapped reads
97.70%
97.51%
[Insert size] Average
288.32
300.24
[Insert size] Median
289
303
[Target] Target Reads
136622510
137462492
[Target] Fraction of Target Reads in all reads
78.51%
78.31%
[Target] Fraction of Target Reads in mapped reads
78.55%
78.33%
[Target] Target Data(Mb)
20336.51
20046.92
[Target] Target Data Rmdup(Mb)
9050.95
8545.6
[Target] Fraction of Target Data in all data
68.91%
68.32%
[Target] Fraction of Target Data in mapped data
68.93%
68.33%
[Target] Len of region
69059980
69059980
[Target] Average depth 294.48 290.28
[Target] Average depth(rmdup)
131.06
123.74
[Target] Coverage (>0.2*(Average depth)x)
93.56%
91.98%
[Target] Coverage (>0.5*(Average depth)x)
68.28%
67.77%
[Target] Coverage (>0x)
99.38%
99.25%
[Target] Coverage (>=4x)
99.10%
98.83%
[Target] Coverage (>=10x)
98.66%
97.99%
[Target] Coverage (>=30x)
97.20%
95.98%
[Target] Coverage (>=100x)
83.00%
81.46%

multiqc_report.html 界面展示:

8e426860-81bc-4655-bac9-e42511d2028d.png

本次测试的 2 个人类样本数据产出稳定(单样本~8GB),有效率 >99.86% 且Q30 高达 93.7% 以上,测序质量与准确度极佳。GC含量(~43.1%)与插入片段分布表现出高度的样本间一致性,唯一比对率稳定在 99.9% 左右,证明文库质量优异,完全符合差异表达或变异检测等高标准下游分析要求。

3.  用时统计


S210
S69
fastq文件质控时间(min)
3.7
3.65
DNAscope变异检测时间(min)
27.72
26.3
总时间(min)
31.43
29.95

如果不需要sv结果可以在分析参数中指定 --skip-svs,能进一步压缩分析时间:


S210
S69
fastq文件质控时间(min)
3.45
3.72
比对时间(min)
4.67
4.87
去重时间(min)
0.73
0.83
统计metrics质控信息时间(min)
0.35
0.37
DNAscope变异检测时间(min)
6.03
9.02
GVCFtyper生成单样本vcf时间(min)
0.2
0.22
总时间(min)
15.43
19.03

在 64 核测试服务器上 16G 数据量的人类 WES 数据(294X)平均分析仅耗时 15.43 min,极大缩短了分析时间,加快科研成果转化。Sentieon 在不断的优化算法的运行效率,为科研工作者提供更快速、更经济的基因检测方案。

若您刚好有需要检测的数据,不妨来申请试用 Sentieon 吧!

Sentieon-cli dnascope 官方文档:

https://support.sentieon.com/docs/sentieon_cli/#dnascope




Sentieon软件介绍

Sentieon为完整的纯软件基因变异检测二级分析方案,其分析流程完全忠于BWA、GATK、MuTect2、STAR、Minimap2、Fgbio、picard等金标准的数学模型。在匹配开源流程分析结果的前提下,大幅提升WGS、WES、Panel、UMI、ctDNA、RNA等测序数据的分析效率和检出精度,并匹配目前全部第二代、三代测序平台。

640.jpgSentieon软件团队拥有丰富的软件开发及算法优化工程经验,致力于解决生物数据分析中的速度与准确度瓶颈,为来自于分子诊断、药物研发、临床医疗、人群队列、动植物等多个领域的合作伙伴提供高效精准的软件解决方案,共同推动基因技术的发展。

截至2026年4月份,Sentieon已经在全球范围内为1860+用户提供服务,用户处理超过7400+PB数据量,被世界一级影响因子刊物如NEJM、Cell、Nature等广泛引用,引用次数超过1900篇。此外,Sentieon连续数年摘得了Precision FDA、Dream Challenges等多个权威评比的桂冠,在业内获得广泛认可。

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。