勃林格殷格翰中国官方帐号

从统计学看,神奇女侠和加勒比海盗吸粉能力哪家强

作者:勃林格殷格翰中国 阅读:897次 时间:2017-06-30 15:01:02

最近上映的大片可真不少:有诙谐搞笑的《银河护卫队》,还有励志感人的《摔跤吧!爸爸》,不管是轻松浪漫的《美好的意外》,还是惊悚冒险的《异形:契约》,都能抓住不同的受众。但是对于哪部电影更受欢迎,小编却与小伙伴们产生了分歧。作为一名统计师,小编决定用数据和统计推断理论来给出哪部电影最受欢迎。

以眼下最时髦的《神奇女侠》和《加勒比海盗5》为例,哪一部电影更受魔都人民欢迎?为了回答这个问题,首先需要确定一种大家都认可的、能够用于比较的标准。于是小编跟小伙伴们商量,把观影人数作为衡量受欢迎程度的主要标准。通俗点讲,哪一部电影看的人更多,就说明更受欢迎。

经典的统计推断(假设检验)实际上是小概率反证法思想。比方说,要证明苹果和橘子是不同的水果,先假设两者是同一种水果,发现两者的果实完全不同(橘子有橘瓣,苹果为整个果实),因此两者是同一种水果的可能性极小,推翻假设并认为两者是不同的水果。

一、假设检验

那该怎么去论证《神奇女侠》更受欢迎还是《加勒比海盗5》更受欢迎呢?第一步,我们先假设:两部电影的平均观看人数没有差异。

小编上网搜索了一下,上海大大小小的电影院一共约300家,查看所有影院的情况显然太困难,小编决定随机选取15家影院作为样本,计算这15家影院的平均观影人数。

第二步,基于假设,作合理推测。如果上述假设正确,那么基于这15家影院得到的两部电影的平均观看人数差异应在0附近。考虑到地点、人群、影院规模等因素的影响,选取的15个影院样本不同,得到的平均观影人数差异会有不同,但大体上服从一个均值为0的正态分布,即差异较小的情况居多,差异较大的情况较少,详见下图。

1.png

第三步,有了假设和推测,小编和小伙伴要出门去电影院实地调查啦。喝着果汁,吹着空调,在15家电影院踩点了一天,结果发现,平均而言观看《神奇女侠》的人数比《加勒比海盗5》多了45个人。小编掐指一算,如果两部电影的平均观看人数真的是一样的,只会有1%的可能会出现两部电影相差45人以上的结果。考虑到这其中观察到《神奇女侠》比《加勒比海盗5》多和《加勒比海盗5》比《神奇女侠》多的情形应该是对称的,只会有0.5%的可能会出现《神奇女侠》比《加勒比海盗5》多45人以上的结果。这小概率事情也能让咱们撞上?如果不是我们的运气好到爆棚的话,问题又出在哪里呢?

2.png

还记的咱们最初的假设吗?罪魁祸首就是它!在两者相等的假设下,观察到差异很大原本是小概率事件,却在调查中发生了。这时候,我们就要开始怀疑我们最初的那个假设还站得住脚吗?

顺利成章,第四步,也是假设检验理论的最后一步,调查的证据支持我们推翻一开始的假设,从而得出两部电影受欢迎程度不一样的结果。更进一步,小编和小伙伴的结论是:《神奇女侠》比《加勒比海盗5》更加受欢迎。

二、磨人的“P值”

统计学中的P值正是基于这样一套反证的思路而得出的一个概念。用统计的术语讲,P值就是在假设两个待比较对象相等的情况下,观察到某个差异值或者更大差异值的概率

在咱们比较电影的例子里,小编和小伙伴观察到《神奇女侠》比《加勒比海盗5》的平均观看人数多了45人,在两部电影观看人数一样的假设下,观察到45这个差异值的概率最多为0.01,即P值为0.01,包含了《神奇女侠》比《加勒比海盗5》多和《加勒比海盗5》比《神奇女侠》多的两种情形(如上图);因为这个概率实在太小了,以至于我们认为观影人数一致的假设就是不正确的,所以我们能够推翻一开始的假设,从而得出两部电影的观影人数不一样并且《神奇女侠》比《加勒比海盗5》受欢迎的结论。

那么,P值该跟谁比较呢?很多读者朋友得到P值之后会毫不犹豫地拿它跟常用的0.05比较,似乎只要比0.05小就万事大吉了,毕竟“显著性差异”嘛。其实,这是统计推断最常见的误区。

一方面,P值一定要跟0.05比较吗?在统计推断的反证思想中,多少是小概率(显著性水平),决策者或推断者因承担风险能力的高低不同而不同。比方说,有人拒绝在淘宝购物以避免购买劣质品,有人购物统统找淘宝,即使有时买到劣质品也可以承受。因此0.05并不是一个金标准,只是一个约定俗成的界值,常用的还有0.1、0.01等。而且为了客观性,预先设立显著性水平是非常重要的,等到计算出P值以后再设立显著性水平会引起决策的偏差

另一方面,P 值很小就一定是有意义的显著性差异吗?试想一下,若两部电影一天的观看人数都达到了100000人,基于45人的差异值虽然得到了小P值(0.01),但这样的优势还有意义吗?《神奇女侠》比《加勒比海盗5》受欢迎的结论会被大众认可吗?当然不会。除了P值,实际差异才应是关注的重点

最后,P值一定是可靠吗?统计推断的模型假设是至关重要的。在本例中对数据(即观影人数)的分布进行了正态分布假设,P值也是基于正态分布模型才能计算出来的。如果数据分布的假设是不正确的,那么P值实际是没有任何意义的,因为计算P值的基础就是不对的。推断者和统计师需要协力合作确保统计模型假设是正确的。

假设检验是临床试验的基础,样本量的计算和后续分析都基于此。在优效性试验的设计阶段,新药被认为与安慰剂或对照药物有相同疗效。基于严谨计算的样本量,若最后结果分析得到差异显著并且具有临床意义,则可推翻假设,得到新药较优的结论

读完这篇文章,大家还觉得p值神秘玄乎吗?

(样本量与数据仅为文章叙述服务)

本文原创作者: Ep

数据之门非典型理想主义开锁匠


分享:1
向上