到底什么是SRE

举报
kaliarch 发表于 2022/10/07 18:14:40 2022/10/07
【摘要】 可靠性是我们服务中难以体现的价值之一。确保我们团队中的每个人都知道这些的真正意义是什么是很重要的,这将有助于他们为我们的服务带来适当的可靠性。否则,当出现第一个问题时,他们将开始在自己的上下文中使用“可靠性”一词。在我介绍我们服务的可靠性之前,我们必须定义它是什么。它对不同的人意味着不同的东西。例如,在系统的不同部分工作的人以不同的方式感知。数据库管理员将可靠视为准确的数据。他通过标准化数据...

可靠性是我们服务中难以体现的价值之一。确保我们团队中的每个人都知道这些的真正意义是什么是很重要的,这将有助于他们为我们的服务带来适当的可靠性。否则,当出现第一个问题时,他们将开始在自己的上下文中使用“可靠性”一词。
在我介绍我们服务的可靠性之前,我们必须定义它是什么。它对不同的人意味着不同的东西。例如,在系统的不同部分工作的人以不同的方式感知。

  • 数据库管理员将可靠视为准确的数据。他通过标准化数据来消除冗余副本,从而使存储更加可靠。
  • 网络工程师认为可靠的消息传递是有保证的。他使用可靠协议(TCP)和不可靠协议(UDP)。
  • 研究人员将可靠定义为准确的网站内容。越多可用、低延迟和高吞吐量,它就越可靠。

原则

  • 最重要的特点是值得信赖。
  • 我们的用户决定可靠性,不管监控系统说什么。
  • 追求不断提高的可靠服务。(如果您的客户愿意为此付出代价,那么将可用性从99.99%提高到99.999%是非常昂贵的。)

可用性与可靠性

我们大多数人混淆了可用性和可靠性。
两者都不一样吗?
是的,两者都是不同的,这些是我们服务的价值观。
可用性是服务或资源对其使用者完全可用的时间。
好的,但是如果您的服务是可用的,但是用户不能正确地访问它该怎么办。
哪里算?
这些都是可靠性,因为客户无法使用您提供的服务,他们无法利用您辛苦构建的任何功能。
这是一个昂贵的目标,往往无法实现。一个更现实的目标是,系统应满足其用户的期望,并努力维护他们的信任。

Latency是刺激和反应之间的时间间隔,或者从更一般的观点来看,是消费者从服务中询问信息和他收到反应之间的时间延迟。
Throughput(性能)是通过通信链路成功发送/接收的实际数据量。

让我们考虑我们有一个服务,即www.knoldus.com,我们要在我们的服务上搜索博客,那么首先,www.knoldus.com必须是可用的(可用性),以便它能够监听搜索操作并返回响应,假设返回响应所用的时间是0.5秒(延迟),并且接收到的响应是正确的,没有失败(吞吐量),即在10000个请求中,它给出了9900个正确的响应。

维护服务中的可靠性

也许最容易说服任何人使用我们的服务是可靠性。为了在服务中保持可靠性,我们需要确保可靠性的所有3个组成部分都必须表现良好。可用性、延迟和吞吐量,所有这些都有助于创建可靠的服务。
可靠性(高)=可用性(高)+延迟(低)+吞吐量(高)
在建立你的服务时,你应该记住这些东西。

  • 在思想中构建失败。
  • 总是考虑缩放。
  • 降低风险。
  • 监控可用性。
  • 以可预测和定义的方式响应可用性问题。

结论

网站可靠性工程师的主要职责是识别和管理可能对计划或业务操作产生不利影响的资产风险。他们帮助谁构建或实施软件,以提高系统的可靠性。请在下一个博客上关注我们,了解更多网站可靠工程师的角色和职责。

【版权声明】本文为华为云社区用户原创内容,未经允许不得转载,如需转载请自行联系原作者进行授权。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。