Karolis Urbonas
“用数据说话”,这句话常被大家挂在口边。
自大学起,那些希望我们养成批判、逻辑思维的老师,就一遍遍向我们灌输“观点”、“经验主义”与“客观事实”的区别,引导学生如何正确看待“严师出高徒”、“原汤化原食”、“君子坦荡荡,小人长戚戚”、“天将降大任于斯人也,必先……”等等古代“智慧”结晶。
因此在潜意识里,会有人认为,高质量数据代表的就是事实,而基于可靠数据的分析与结论,也应当是客观、理性的。
但往往并不如此。
举个例子,数据分析师会有意无意地有所倾向、偏颇,这很难避免;还会受到来自周围同僚、上司的压力或是期望,又或是项目赶时间。除此之外,数据分析和解读的过程也存在天然的风险,导致最后的“说谎”行为。即便数据科学家的初衷十足高尚,最后的结果也未必能保证真实、客观。
闲话少说,一起来看看用数据说谎的三种方法。
总是用平均数
平均数是有史以来被滥用最严重的参数,到处都有人利用它来创造谎言。
当平均数被提供,请注意:除非数据是标准分布(基本上从来都不是),否则它不能代表任何反映真实情况的有价值信息。这背后的原因很简单,用通俗的话来讲,就是大家常说的“我上司收入 100 万,我收入 20 万,两人的平均收入是 60 万”。在理论上讲,平均数根本无法反映数据的结构分布,而该信息至关重要。平均值并不是一个非常可靠的度量参数,它对边缘数值以及任何偏离标准分布的样本都非常敏感。
统计学家弄明白这一点已经有几十年,但企业、各类机构、政府仍然把平均数作为核心统计参数,并基于它来对涉及十亿、百亿、千亿规模的问题做决策,并且掩盖真实问题。
解决方案是什么呢?
不要用平均数!从今儿起不再用它,并有意识地考虑数据分布,不要弄出来一个只对个别情形有参考意义的统计报告。第一步,可以从使用中位数开始,并且用 top 99%、bottom 1% 数值来对数据进行概括。
平均数作为各门学科的权威参数已经太久,它有太多不加质疑的盲目追随者,我们几乎已经可以把它看做是宗教。这事儿到底是怎么发生的呢?很久很久以前,自然科学的标准分布假设(注:使用平均数的前提)蔓延到了其他领域,比如商务分析以及其他商业数据应用。这毒害了好几代的数据分析师。
证实性偏见(ConfirmationBias)
这又是一个很经典的误导途径,与心理学紧密相连。它发生于你搞清楚将解决的问题之前,当然,这一步也会影响该效应。数据分析师看待需要解决的问题的方式或角度,能在根本上改变原本的客观立场。一旦牵涉到情感(不论是表达出来的,还是潜在的),显而易见的,该效应会大幅加强。对于该效应,一般很难甄别,这也是区别普通数据分析师和大师级分析师的主要分水岭。
一个十分典型的场景,是在时间不足的情形下被要求完成数据分析。这会产生尽快下结论的压力——通常会有重要决策要根据分析结果来制定。这时会有许多偏见、偏差一股脑儿地涌入项目中,证实性偏见却是数据分析师最心甘情愿上钩的一种。数据分析师随后根据心里已有的假设,忙着在最短时间内回答或解决研究问题。这意味着第一个出现的伪相关就有可能被当做是答案。该情况下,分析师会主动寻找能证实原先假设的证据,而可能对其它证据视而不见。这便是“用数据来配合假设”。
这发生于数据分析师先入为主,认定该问题有一个“正确”的时候。当分析师有意寻找符合该假设的证据,该偏见便成功地把分析过程引到歧路。随后,分析师对数据的压缩、调整,仅是为了贴合与假设一致的结论。这里,非常重要的措施,是在一开始就定义严格的研究要求,并收集支持正反两面结论的数据和证据。
数据科学家对于在数据中找出某种模式、合理解释,常常会心痒难耐。这时,他们很可能会忽视一个事实:并没有足够的数据来下结论、或回答问题。后者是完全正常的。这时候,也可能问题本身需要重新定义。
并不存在的模式