正文
但是分解成客观标准,就会是每秒钟多少帧数据? 分辨率多少像素?然而,拿每秒多少帧能够评价质量来说,我们一开始研究时,根据电影每秒 24 帧就可以骗过眼睛,感觉到是连续的画面,得出也许应该是 24 帧。但是后来意识到屏幕刷新率实际上要做到每秒 60 帧,才能让人感受不到卡顿。然而,如果真的想做到人眼察觉不出来,目前看得 120 帧每秒,这在李安导演的新电影里面有所尝试。所以,这里面对于让眼睛觉得画面在动,和彻底骗过眼睛,这中间的差距是非常难测准的,因此也就很难确定标准在哪里。
我们再拿分辨率这个问题来说,分辨率和眼睛距离屏幕的距离颇有关系。iPhone 最早提出的视网膜(retina)概念,早期看起来好像非常正确,但是在之后几年业界手机大幅度刷新屏幕分辨率,包括主流 VR 体验也提到了颗粒度问题,说明了要想真的让人眼看不出分辨率问题也并非易事。而且这里还没有考虑有的人视力就是好(听说非洲的马赛族猎手视力达到 8.0)。因此标准制定要想真的用客观标准拟合主观体验,需要考虑很多的因素,做很多的实验,并在给定的场景下,给定的约束条件下,才会比较有意义。
第三个问题是
试验和数据要同时解决三个问题:可重复性,公平性。因此,实验设计必须考究。
比如说 GPS 的定位成功率、定位时长等指标,乍一看可以在固定地点随时来做试验,可重复性应该比较好。但是 GPS 的卫星在任意时刻的数量,角度,方位都是有差异的。进而,不同的天气情况,比如说雾霾,对于 GPS 信号的影响也不容小看。因此户外测试的可重复性(尤其是眼科严苛环境下)就非常值得仔细考量。而不同设备怎么摆放才能保证信号来源是公平的?也是 GPS 户外测试的一个重点。因此最初的实验设计,和最终的设计结果可能会有很大的区别。其中有很多妥协,很多无奈。
进而,这个可重复性还有个重要的解释,就是置信度,也就是说结果是否足够可信呢?。 因为,既然是测量,难免存在差异性。那么怎么保证可重复性? 一般来说需要考虑样本量,测量精确度,以及成本的平衡。这里说的样本量,就是概率论里面提到的样本量。因为不同的被测对象,可能存在个体差异;而即使是一个被测对象,多次测量也存在波动;即使能控制波动,我们的检测手段也存在测量误差,因此提高样本量,会有助于得到更精确的结果。当然,精确不仅仅靠大样本量,还靠着检测手段的高精确性,以及我们对于误差的容忍范围。最终,以合适的代价(成本),落在一个合理的置信区间里面,这个结果就是可重复的,公平的。
在这里想多说一句的是,在制定标准过程中的点点滴滴,让我感受到:我们提出的每一个测量方法,每一个数据都经过了精雕细琢,反复讨论确认,。确认它是否确实有效,确认它是否能够重复,确认他是否能够推导出合乎逻辑的结论。只有结论正确的时候,前面做的一切工作才会有意义。这不就是大科学家工作的那种态度和氛围吗?精益求精,精雕细琢,要的就是这种精神。只有在这种情况下,长期的积累时候,人和人之间就会看到差距。关于这种精神,请查看公众号历史文章“生活态度:活在当下”,可以看到更多的介绍。
第四个问题是
严酷程度。到底是以用户实际使用的感受来定标准,还是以极端情况的使用感受来评价?
我们以 4G 通话为例,当 4G 推出 2-3 年后,信号覆盖已经非常好了,似乎用户很少会遇到通话问题,那么是否可以按照用户遇到问题的概率来评价质量?从这个角度看来,用户一年下来遇到问题的概率也许只有 0.01%,看起来用户体验应该还不错?但是这个角度有问题,要反过来想。因为当用户遇到问题的时候,比如在自己家里信号不太好,而且这个手机天线正好也不太行,那么他遇到通话问题的概率就可能一下子飙升到百分之几十,甚至百分之百。此时的用户感受只能用很差来形容了。因此质量标准,应该对于到底什么时候质量会无法接受,尤其是无法比拼过标杆,要有清晰的评价。简单来说,这想法就是跑到死,通过产品最终崩溃的时刻,反推质量标准。