计算机系统可靠性分析评测技术【全讲解】

举报
灰小猿 发表于 2021/08/14 12:21:25 2021/08/14
【摘要】 ​ 目录计算机可靠性概述计算机可靠性模型串联系统并联系统N模冗余系统Hello,你好哇,我是灰小猿,一个超会写bug的程序猿!今天在这里和大家记录一下关于计算机系统可靠性分析的相关技术和常用方法。同时它也是分析和评价计算机系统性能的一项重要指标,一台计算机的好坏就看它啦!计算机可靠性概述在一般情况下,计算机系统的硬件故障通常是由元器件的失败引起的,在对元器件进行了寿命试验并根据实际资料的统计...

 

目录

计算机可靠性概述

计算机可靠性模型

串联系统

并联系统

N模冗余系统


Hello,你好哇,我是灰小猿,一个超会写bug的程序猿!

今天在这里和大家记录一下关于计算机系统可靠性分析的相关技术和常用方法。同时它也是分析和评价计算机系统性能的一项重要指标,一台计算机的好坏就看它啦!


计算机可靠性概述

在一般情况下,计算机系统的硬件故障通常是由元器件的失败引起的,在对元器件进行了寿命试验并根据实际资料的统计得出:元器件的可靠性一般可以分为三个阶段:

第一阶段:即开始阶段,元器件的工作处于不稳定期,这个时候的失败率较高。

第二阶段:这个时候的元器件是进入正常工作的时期,因此相对于之前第一阶段和之后的第三阶段,失败率最低,基本保持一个常数状态,

第三阶段:在这个时候,也就是元器件使用了一段时间之后,元器件开始老化,因此失败率又重新提高,

以上三个阶段中,元器件失败率的变化曲线是处于一个先高后低再高的形式,因此对于这种变化也有一个很形象的名称叫作“浴盆曲线”,因此我们应当尽可能的保持计算机元器件处于第二阶段,在第一阶段时就应该对元器件进行老化筛选,到了第三阶段,计算机基本业绩处于了淘汰阶段。

而对于计算机系统的可靠性,则是指从它开始运行(t=0)到某时刻t这段时间能够正常运行的概率。用R(t)表示,所谓失败率,则是指单位时间内失败的元件数与元件总数的比例,用λ表示,当λ为常数时,可靠性与失败率的关系为:

两次故障之间系统能正常工作的时间的平均值称为平均无故障时间(MTBF)即:

MTBF=1/λ

通常用平均修复时间(MTRF)来表示计算机的可维修性,即计算机的维修效率,它所指的是从故障发生到机器修复平均所需要的时间,计算机的可用性指的是计算机的使用效率,它以系统在执行任务的任意时刻能正常工作的效率A来表示,即:

计算机的RAS是指用可靠性R、可用性A和可维护性S这3个指标去衡量一个计算机系统。

但其实在实际的应用过程中,引起计算机故障的原因除了必要的元器件因素以外,还有组装工艺、逻辑设计等因素,因此对于不同厂家生产的兼容机即使采用了相同的元器件,其可靠性和MTBF也是可能相差很大的。


计算机可靠性模型

我们知道计算机系统是一个非常复杂的系统,同时影响其复杂性的因素也十分的多,因此很难对齐直接进行可靠性的分析,但在计算机系统中,通过建立适当的数学模型,把大系统分割成若干子系统,就可以简化其分析过程,常见的系统可靠性数学模型有以下三种:


串联系统

假设一个系统由N个子系统构成,当且仅当所有的子系统都能正常工作时,系统才能正常工作,这种系统类似于我们物理上学习的串联电路,因此这种系统也被称为串联系统。如下图所示:

设系统中各个子系统的可靠性分别用R1,R2,...,Rn来表示,则系统的可靠性就等于这n个子系统的可靠性的乘积。

如果系统的各个子系统的失败率分别用λ1、λ2、λ3...λn来表示,则系统的失败率就等于所以子系统失败率的和。


并联系统

假如一个系统由N个子系统组成,那么只要有一个子系统能够正常工作,那么整个系统就能正常工作,这样的系统类似于电路中的并联电路,所以这种系统也被叫做并联系统,结构如下图所示:

设系统中各个子系统的可靠性分别用R1,R2,...,Rn来表示,则系统的可靠性就等于:

假如所有子系统的失败率都为λ,则系统的失败率μ为:

在这里需要注意的是:在并联系统中只有一个子系统是真正需要的,其余N-1个子系统称为冗余子系统,随着冗余子系统数量的增加,系统的平均无故障时间自然也就增加了。


N模冗余系统

N模冗余系统是由N(N=2n+1)个相同的子系统和一个表决器组成的,表决器把N个子系统中占多数相同结果的输出作为系统的输出。结构如图所示:

在N个子系统中,只要有n+1及以上个子系统能够正常工作,那么系统就能正常工作并输出正常的系统。假设表决器是完全可靠的,每个子系统的可靠性为R0,则N模冗余系统的可靠性为:

以上就是进行计算机系统可靠性分析的三种数学模型。

同时提高计算机的可靠性一般采取如下两项措施:

  1. 提高元器件的质量,改进加工工艺与工艺结构,完善电路设计

  2. 发展容错技术,使得在计算机硬件有故障的情况下,计算机仍然能够继续运行,并且得出正确的结果。


好了,关于计算机可靠性的相关分析评测就分享到这里,之后还会对计算机系统的性能评价进行分析总结。

觉得不错记得点赞关注哟!

大灰狼陪你一起进步!

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。