华为是如何定义IT产品质量标准的？

聊聊架构 · 公众号 · 架构 · 2017-05-16 21:27

正文

请到「今天看啥」查看全文

但是分解成客观标准，就会是每秒钟多少帧数据？分辨率多少像素？然而，拿每秒多少帧能够评价质量来说，我们一开始研究时，根据电影每秒 24 帧就可以骗过眼睛，感觉到是连续的画面，得出也许应该是 24 帧。但是后来意识到屏幕刷新率实际上要做到每秒 60 帧，才能让人感受不到卡顿。然而，如果真的想做到人眼察觉不出来，目前看得 120 帧每秒，这在李安导演的新电影里面有所尝试。所以，这里面对于让眼睛觉得画面在动，和彻底骗过眼睛，这中间的差距是非常难测准的，因此也就很难确定标准在哪里。

我们再拿分辨率这个问题来说，分辨率和眼睛距离屏幕的距离颇有关系。iPhone 最早提出的视网膜（retina）概念，早期看起来好像非常正确，但是在之后几年业界手机大幅度刷新屏幕分辨率，包括主流 VR 体验也提到了颗粒度问题，说明了要想真的让人眼看不出分辨率问题也并非易事。而且这里还没有考虑有的人视力就是好（听说非洲的马赛族猎手视力达到 8.0）。因此标准制定要想真的用客观标准拟合主观体验，需要考虑很多的因素，做很多的实验，并在给定的场景下，给定的约束条件下，才会比较有意义。

第三个问题是 试验和数据要同时解决三个问题：可重复性，公平性。因此，实验设计必须考究。

比如说 GPS 的定位成功率、定位时长等指标，乍一看可以在固定地点随时来做试验，可重复性应该比较好。但是 GPS 的卫星在任意时刻的数量，角度，方位都是有差异的。进而，不同的天气情况，比如说雾霾，对于 GPS 信号的影响也不容小看。因此户外测试的可重复性（尤其是眼科严苛环境下）就非常值得仔细考量。而不同设备怎么摆放才能保证信号来源是公平的？也是 GPS 户外测试的一个重点。因此最初的实验设计，和最终的设计结果可能会有很大的区别。其中有很多妥协，很多无奈。

进而，这个可重复性还有个重要的解释，就是置信度，也就是说结果是否足够可信呢？。因为，既然是测量，难免存在差异性。那么怎么保证可重复性？一般来说需要考虑样本量，测量精确度，以及成本的平衡。这里说的样本量，就是概率论里面提到的样本量。因为不同的被测对象，可能存在个体差异；而即使是一个被测对象，多次测量也存在波动；即使能控制波动，我们的检测手段也存在测量误差，因此提高样本量，会有助于得到更精确的结果。当然，精确不仅仅靠大样本量，还靠着检测手段的高精确性，以及我们对于误差的容忍范围。最终，以合适的代价（成本），落在一个合理的置信区间里面，这个结果就是可重复的，公平的。

在这里想多说一句的是，在制定标准过程中的点点滴滴，让我感受到：我们提出的每一个测量方法，每一个数据都经过了精雕细琢，反复讨论确认,。确认它是否确实有效，确认它是否能够重复，确认他是否能够推导出合乎逻辑的结论。只有结论正确的时候，前面做的一切工作才会有意义。这不就是大科学家工作的那种态度和氛围吗？精益求精，精雕细琢，要的就是这种精神。只有在这种情况下，长期的积累时候，人和人之间就会看到差距。关于这种精神，请查看公众号历史文章“生活态度：活在当下”，可以看到更多的介绍。

第四个问题是 严酷程度。到底是以用户实际使用的感受来定标准，还是以极端情况的使用感受来评价？

我们以 4G 通话为例，当 4G 推出 2-3 年后，信号覆盖已经非常好了，似乎用户很少会遇到通话问题，那么是否可以按照用户遇到问题的概率来评价质量？从这个角度看来，用户一年下来遇到问题的概率也许只有 0.01%，看起来用户体验应该还不错？但是这个角度有问题，要反过来想。因为当用户遇到问题的时候，比如在自己家里信号不太好，而且这个手机天线正好也不太行，那么他遇到通话问题的概率就可能一下子飙升到百分之几十，甚至百分之百。此时的用户感受只能用很差来形容了。因此质量标准，应该对于到底什么时候质量会无法接受，尤其是无法比拼过标杆，要有清晰的评价。简单来说，这想法就是跑到死，通过产品最终崩溃的时刻，反推质量标准。