区间估计：置信区间、枢轴变量的概念及区间估计的方法

Original NK冬至首席数据科学家 2022-07-01

收录于合集

#数据科学 40 个

#统计学 10 个

#数据产品 62 个

#数据技术 18 个

“ 区间估计，是点估计外，另一种重要的参数估计的方法。”

之前的统计学系列文章中，我们介绍了《总体样本与统计量》、《卡方分布、t分布等抽样分布》、《极大似然估计与参数估计》等内容。其中矩估计和极大似然估计都属于点估计。今天我们分享一下区间估计的概念和方法。

—

置信区间和枢轴变量的定义

首先介绍一下置信区间和枢轴变量的概念。

（1）置信区间

之前的文章中介绍过区间估计的定义，就是给出的参数估计是个区间，比如某省人的平均身高是160cm~173cm之间。这就是一个区间估计。

很容易想象到，估计的区间越小，越精准。但是明显，相应的，真实参数值落在区间里的概率也就越小了。这是矛盾的，两者不可得兼，需要平衡。

因此，区间估计时，两个参数很重要：区间长度和参数落在区间的概率（即置信度）。即：

P（θ1≤θ≤θ2）=1-α

区间 [ θ1,θ2 ] 就是要估计的区间，1-α就是置信度。为啥用1-α呢？因为后面α会用到。

（2）枢轴变量

枢轴变量是整个区间估计的核心，但概念稍微难理解一些。

首先看看定义：从θ的一个点估计出发，构造与θ相关的一个函数G，使得G的分布是已知的，而且与θ无关。通常称这种函数为枢轴变量。

通俗点讲，其实枢轴变量就是一个函数，这个函数的目的是把目前未知的分布转化成我们已知的分布（比如正态分布、卡方分布、t分布等）。

转化成已知分布干嘛呢？因为已知分布中，概率密度函数是已知的，因此可以基于置信度求得已知分布的区间。已知分布的区间知道了，再根据构造的枢轴变量，反推要估计的区间，即完成了区间估计的过程。

—

区间估计方法

这里我们先按照比较容易的情况（一个正态总体）为例，看看如何进行区间估计。

既然是一个正态总体了，所以要进行区间估计的参数无非两个：均值和方差。首先，有下面的概况表：

啥意思呢？对于总体均值和方差，无非有以下几种情况。针对不同情况，我们需要构造不同的枢轴变量，因此也服从了不同的分布。（细心的朋友应该能发现，这些枢轴变量在《抽样分布》中，我们介绍过。当初大家可能不理解，他们的作用其实主要就是用在区间估计）

（1）总体方差已知，估计总体均值

在这种情况下，我们构造的枢轴变量是：

这个服从标准正态分布。为啥用这个函数作为枢轴变量呢？仔细看内容便知道，函数共有4个参数：样本均值X（已知，可以用过样本求出来），总体均值μ（未知，是我们要估计的参数），样本标准差σ（已知，可以通过样本求出来），样本量n（已知，即样本个数）。

因此，只有总体均值μ未知。而右侧的分布是已知的，那我们就可以用右侧正态分布的特征求出来总体均值的区间：

（2）总体方差未知，估计总体均值

在这种情况下，我们构造的枢轴变量是：

对，这个枢轴变量之前也介绍过。为啥构造这个枢轴变量呢？如果理解了上面的例子，就很容易理解这个了。因为总体方差是未知的，而（1）中用到了总体方差，所以就出现了两个未知变量（总体方差和总体均值），所以就没法求了。

而这里构造的服从t分布的枢轴变量，包括的四个参数，有三个是已知的，只有总体均值是未知的，所以可以利用t分布求总体均值的区间估计。

具体的估计范围不写了，直接看上面黑板截图的内容即可。

（3）总体均值已知，估计总体方差

这种情况下构造的枢轴变量是：

道理和上面两个例子一样，就不展开了。具体的区间估计范围也是参照黑板截图。

（4）总体均值未知，估计总体方差

最后一种情况，构造的枢轴变量是：

这里和（3）中的枢轴变量的唯一差别，是括号中减的是样本均值还是总体均值。如果是样本均值，则服从自由度是n-1的卡方分布；如果是总体均值，则服从自由度是n的卡方分布。

关于区间估计的内容，就先分享这些。后续分享统计学中假设检验相关的内容，欢迎继续关注

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半

英美所谓联合声明无端指责中国，干涉中国内政，中方强烈不满、坚决反对！

区间估计：置信区间、枢轴变量的概念及区间估计的方法

您可能也对以下帖子感兴趣

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半

英美所谓联合声明无端指责中国，干涉中国内政，中方强烈不满、坚决反对！

生成图片，分享到微信朋友圈

区间估计：置信区间、枢轴变量的概念及区间估计的方法

您可能也对以下帖子感兴趣