写在前面

本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和文献引用请见100个问题搞定大数据理论体系

解答

SLA( Service- Level Agreement),也就是服务等级协议,指的是系統服务提供者( Provider)对客户( Customer)的一个服务承诺。
这是衡量一个大型分布式系统是否“健康”的常见方法。

最常见的 4 个 SLA 指标:
1.可用性(Availabilty)
2.准确性(Accuracy)
3.系统容量(Capacity)
4.延退(Latency)

补充

SLA

可用性(Availability)

可用性指的是系统服务能正常运行所占的时间百分比。

对于许多系统而言,四个9的可用性(99.99% Availability,或每年约50分钟的系统中断时间)即可以被认为是高可用性( High availability)。

“99.9% Availability”指的是一天当中系统服务将会有大约86秒的服务间断期。

服务间断也许是因为系统维护,也有可能是因为系统在更新升级系统服务。

86秒这个数字是怎么算出来的呢?

99.9%意味着有0.1%的可能性系统服务会被中断,而一天中有24小时x60分钟x60秒,也就是有(24×60×60×0.001)=86.4秒的可能系统服务被中断了。
而上面所说的四个9的高可用性服务就是承诺可以将一天当中的服务中断时间缩短到只有(24×60×60x0.0001)=8.64秒。

准确性( Accuracy)

准确性指的是我们所设计的系统服务中,是否允许某些数据是不准确的或者是丢失了的。

如果允许这样的情况发生,用户可以接受的概率(百分比)是多少? 这该怎么衡量呢?

不同的系统平台可能会用不同的指标去定义准确性。很多时候,系统架构会以错误率(Error Rate)来定义这一项SLA。

怎么计算错误率呢?

可以用导致系统产生内部错误(Internal Error)的有效请求数,除以这期间的有效请求总数。

例如,我们在一分钟内发送100个有效请求到系统中,其中有5个请求导致系统返回内部错误,那我们可以说这一分钟系统的错误率是5/100=5%。

系统容量(Capacity)

在数据处理中,系统容量通常指的是系统能够支持的预期负載量是多少,一般会以每秒的请求数为单位来表示。

我们常常可以看见,某个系统的架构可以处理的QPS(Queries Per Second)是多少又或者RPS(Requests Per Second)是多少。

这里的QPS或者是RPS就是指系统每秒可以响应多少请求数。

延迟(Latency)

延迟指的是系统在收到用户的请求到响应这个请求之间的时间间隔。

在定义延迟的SLA时,我们常常看到系统的SLA会有p95或者是p99这样的延迟声明。

这里的p指的是percentile,也就是百分位的意思。

如果说一个系统的p95延迟是1秒的话,那就表示在100个请求里面有95个请求的响应时间会少于1秒,而剩下的5个请求响应时间会大于1秒。

Q.E.D.


Apache Spark Contributor