其他

其实你一直都不懂“它”——最熟悉的陌生人P值

2017-05-17 研究客 研究客

几乎在每一篇量化论文中,我们都可以看到一串字符“P≤.05”,我们习以为常认为P≤.05,就是拒绝H0,表明研究对象有差异有影响,但是P值究竟是何方神圣,为什么H0和H1都要看它的“脸色”?如何得到p值?它和置信区间又有什么关系?这些问题的答案全都在这里!5分钟,带你了解最熟悉的陌生人——P值!全文长度1600字。


1


P值是什么

我们的H0假设通常是针对理论上的总体的,而实际上我们在进行检验时都只是抽取了理论总体中的一部分样本。比如我们要研究年龄对亲社会意愿的影响,那么这个命题在理论上针对的应该是全世界各个年龄段的所有人。然而,我们不可能真的把全世界人的数据都搜集到,只能抽取一部分被试来进行分析。

所以,我们在根据样本的结果,来决定接受还是拒绝总体的H0假设时,允许一定的误差存在。比如说,我们抽取了一部分样本,来计算年龄对亲社会意愿的回归系数,算出来为0.1。这个0.1只是通过样本计算出来的、对理论总体中年龄对亲社会意愿回归系数的一个估计值,我们并不会因为它≠0,就直接认定理论总体的回归系数也是≠0,即拒绝H0的。这时我们采取的思路是:“如果理论总体上回归系数为0,即H0为真,那么样本得到回归系数为0.1的概率(p值)是多少?”这个概率就是P值。

2


如何获取P值

事实上,样本在计算回归系数的同时,还能计算出与之对应的标准误,回归系数除以标准误能够得到t值,根据这个t值可以查到与之对应的p值。这就是p值的获取方法。

根据上述方法,我们可以得到两个推论:

(1)不同的样本也许能得到相同的估计值0.1,但完全有可能得到的标准误是不同的。比如说第一个样本得到的标准误是0.1,那么计算出来的t值就是1;第二个样本得到的标准误是0.05,那么计算出来的t值就是2。显然,这两个样本的p值也不同;

(2)样本量越大,标准误越小,在回归系数相同的情况下,t值也就越大,p值越小。这也就是为何样本量越大越容易显著的原因。

3


P值和H0的关系

统计的基本思路是:先假设H0为真,以此为前提去计算样本估计值出现的概率p值,之后再根据这个p值来决定是否拒绝H0。

统计学上认为:

(1)概率小于0.05的事件为小概率事件;

(2)一次试验理论上不会出现小概率事件。

当理论总体的回归系数为0时,即在H0为真的前提下,样本的回归系数计算出来等于0.1的概率(p值)是>0.05的,那么就说在接受H0的条件下,我的样本估计值得到0.1并不是小概率事件,是完全可能出现的,那么这个误差是可以接受的,我就不会拒绝H0;但如果我在H0为真的前提下,样本回归系数为0.1的概率(p值)是<0.05的,那么就是说我在接受H0的条件下,出现了理论上不可能出现的样本估计值,我就应该拒绝H0。

4


P值与置信区间的关系

 至于置信区间,它与p值是一致的。如果我的回归系数估计值为0.1,标准误为0.02,那么我们可以直接计算t值,0.1/0.02=5,来与1.96比较(1.96是常用的p=0.05的临界值)。因为t>1.96,所以p<0.05。

然而我还可以用另一种方法来检验,即得到一个回归系数估计值的95%置信区间[0.1-1.96×0.02,0.1+1.96×0.02],即[0.0608,0.1392]。这个区间意思是指,虽然根据样本我只能计算出样本估计值为0.1,计算不出理论总体的回归系数值,但是根据标准误我可以大约得到一个区间,使得理论总体的回归系数值有95%的可能性落在这个区间里。区间内不包含0可见,理论值有95%的可能性是没机会等于0的,也就是说我的H0假设理论值为0是应该被拒绝的。其实可以看到,“区间是否包含0”与“p值是否大于0.05”在计算上、意义上是完全一致的。比如说上面这个例子,因为0.1/0.02>1.96,那么区间的下限(0.1-1.96×0.02)也势必会大于0,那么区间内也一定不会包含0。所以,只要区间包含0,那么p值就一定大于0.05;只要区间不包含0,那么p值就一定小于0.05。

如此出神入化、通俗易懂的解释,是否让你将P值这个最熟悉的陌生人所一眼看穿呢!

更多“亚洲一哥”定量研究实用干货、微课,敬请关注“研究客”,想要聆听“亚洲一哥”系统全面的训练与指导,2017遇见不可估“量”的你,欢迎点击最下方图片浏览详细信息。

领略有趣、有用、有价值的定量研究世界,跟着一哥就够了!




定量研究往期干货优选:


关于研究假设的所有困惑,看这一篇也许就够了!


 为什么研究中的变量方差越大越好


ACADEMIC TRAINING

精品课程


点击上方图片,了解更多课程详情


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存