方差是统计学中非常重要的概念,用于表征数据的离散程度。它的计算涉及到多个参数,比较复杂,但是有一个简化公式,可以快速计算出方差值。那么,这个简化公式是怎么推导出来的呢?本文将从多个角度分析这个问题。
1. 基本概念
在推导方差的简化公式之前,我们需要先了解一些基本概念。方差是用来衡量一组数据的离散程度的,计算公式如下:
$$ Var(X) = \frac{\sum_{i=1}^{n}(X_i-\overline{X})^2}{n-1} $$
其中,$X_i$ 是第 $i$ 个数据点,$\overline{X}$ 是这组数据的平均值,$n$ 是数据的总数。从公式中可以看出,求方差需要先求出这组数据的平均值,然后用每个数据点与平均值之间的差的平方来计算。
2. 推导方法
方差的计算公式比较繁琐,因此有人提出了一种简化公式,称为修正样本方差,计算公式如下:
$$s^2=\frac{\sum_{i=1}^{n}(X_i-\overline{X})^2}{n} $$
这个公式与原始方差公式最大的区别在于分母是 $n$ 而不是 $n-1$,因此计算起来更加方便。那么这个公式是怎么推导出来的呢?其实也很简单,可以通过以下几个步骤得到。
- 利用平均数的定义
$$ \overline{X} =\frac{\sum_{i=1}^{n}X_i}{n} $$
将其代入原始方差公式中:
$$ Var(X) = \frac{\sum_{i=1}^{n}(X_i-\frac{\sum_{i=1}^{n}X_i}{n})^2}{n-1} $$
- 将分子展开
$$ Var(X) = \frac{\sum_{i=1}^{n}(X_i^2-2X_i\overline{X}+\overline{X}^2)}{n-1} $$
将平均数的展开式代入:
$$ Var(X) = \frac{\sum_{i=1}^{n}(X_i^2-2X_i(\frac{\sum_{i=1}^{n}X_i}{n})+(\frac{\sum_{i=1}^{n}X_i}{n})^2)}{n-1} $$
- 化简分子
$$ Var(X) = \frac{\sum_{i=1}^{n}(nX_i^2-2X_i\sum_{j=1}^{n}X_j+\sum_{j=1}^{n}X_j^2)}{n(n-1)} $$
移项可以得到:
$$ Var(X) = \frac{\sum_{i=1}^{n}(n-1)X_i^2-2\sum_{i=1}^{n}\sum_{j=i+1}^{n}X_iX_j}{n(n-1)} $$
这就是原始方差公式的简化形式,分母为 $n(n-1)$。形式虽然简单了,但是计算起来仍然比较复杂,需要进行多次乘法和加法运算。
因此,有人又提出了一个修正样本方差的公式,将分母改为 $n$,并在分子中减去一个修正参数,得到如下公式:
$$s^2=\frac{\sum_{i=1}^{n}(X_i-\overline{X})^2}{n-1}=\frac{n}{n-1}\times\frac{\sum_{i=1}^{n}(X_i-\overline{X})^2}{n}$$
这个公式虽然舍弃了分母的 $n(n-1)$ 这一项,但是仍然需要计算分子的 $\sum_{i=1}^{n}(X_i-\overline{X})^2$,因此并没有真正简化方差计算的过程。
3. 计算结果
最终,我们来看一下用原式和修正样本方差公式计算同一组数据的结果。假设这组数据如下所示:
$$ 6, 3, 7, 4, 10 $$
先用原始方差公式计算方差:
$$ Var(X) = \frac{(6-6.0)^2+(3-6.0)^2+(7-6.0)^2+(4-6.0)^2+(10-6.0)^2}{5-1}=9.2 $$
然后使用修正样本方差公式计算方差:
$$ s^2=\frac{(6-6.0)^2+(3-6.0)^2+(7-6.0)^2+(4-6.0)^2+(10-6.0)^2}{5} = 7.3 $$
可以看到,修正样本方差公式得到的方差值要比原始方差公式要小一些。这是因为修正样本方差公式的分母比较大,因此计算出来的值会相对较小。
扫码咨询 领取资料