方差分析例题带答案

希赛网 2023-12-14 13:13:02

方差分析是统计学中常用的一种方法，用于比较两个或多个样本均值是否有显著差异，从而推断不同因素对样本数据的影响。本文将以一道实例题为例，从多个角度解析方差分析的基本原理、计算方法和应用场景。

例题描述：某公司要比较三个不同品牌的电视机在高清视频效果方面的表现，从每个品牌中随机抽取30台电视进行测试，测试结束后得出以下数据（数据为高清视频差异值）：

品牌A：9.5, 11.2, 7.8, 11.1, 10.5, 8.9, 9.8, 12.3, 10.4, 11.5, 8.2, 9.7, 10.3, 9.5, 9.2, 8.7, 7.9, 10.1, 9.9, 12.1, 10.4, 8.5, 10.8, 10.9, 9.3, 11.2, 9.8, 11.1, 10.6, 8.6, 9.7

品牌B：12.4, 13.1, 10.5, 13.3, 12.1, 11.6, 11.2, 10.7, 12.6, 13.5, 11.8, 13.2, 12.3, 10.9, 11.5, 12.9, 10.6, 12.1, 13.8, 11.3, 10.8, 13.4, 10.2, 11.3, 13.1, 11.5, 13.3, 10.7, 12.9, 11.2

品牌C：7.5, 7.8, 5.9, 7.6, 7.7, 6.2, 5.8, 8.3, 6.9, 5.5, 6.8, 6.1, 5.7, 6.6, 6.9, 7.3, 8.1, 6.3, 5.2, 5.6, 6.7, 6.8, 5.3, 6.3, 5.4, 6.9, 5.8, 7.5, 6.2, 7.8

问题1：三个品牌的平均差异是否显著？

问题2：若平均差异显著，如何确定哪个品牌与其他品牌不同？

问题1解答：分析三个品牌的平均数是否有显著差异，可以使用单因素方差分析（one-way ANOVA）方法。单因素方差分析是比较两个或多个样本均值是否有显著差异的方法。在这个例子中，品牌是因素（factor），差异值是观测值（observation）。方差分析的原假设为三个品牌的均值相等，备择假设为三个品牌的均值不相等。如果拒绝原假设，则意味着至少有两个品牌的平均数不同。

方差分析的统计指标是F值和p值。F值是差异值的方差与组内差异值的平均方差的比值，用于判断组间差异是否显著。p值是与F值相对应的概率值，代表拒绝原假设的程度。在通常的显著性水平0.05下，如果p值小于0.05，则拒绝原假设。

接下来，我们以Python程序为例进行方差分析计算。使用scipy包中的f_oneway()方法可以轻松实现方差分析：

```python

from scipy import stats

import numpy as np

A = [9.5, 11.2, 7.8, 11.1, 10.5, 8.9, 9.8, 12.3, 10.4, 11.5, 8.2, 9.7, 10.3, 9.5, 9.2, 8.7, 7.9, 10.1, 9.9, 12.1, 10.4, 8.5, 10.8, 10.9, 9.3, 11.2, 9.8, 11.1, 10.6, 8.6, 9.7]

B = [12.4, 13.1, 10.5, 13.3, 12.1, 11.6, 11.2, 10.7, 12.6, 13.5, 11.8, 13.2, 12.3, 10.9, 11.5, 12.9, 10.6, 12.1, 13.8, 11.3, 10.8, 13.4, 10.2, 11.3, 13.1, 11.5, 13.3, 10.7, 12.9, 11.2]

C = [7.5, 7.8, 5.9, 7.6, 7.7, 6.2, 5.8, 8.3, 6.9, 5.5, 6.8, 6.1, 5.7, 6.6, 6.9, 7.3, 8.1, 6.3, 5.2, 5.6, 6.7, 6.8, 5.3, 6.3, 5.4, 6.9, 5.8, 7.5, 6.2, 7.8]

f_val, p_val = stats.f_oneway(A, B, C)

print("F = %f, p = %f" % (f_val, p_val))

```

运行结果为：F = 47.447990, p = 0.000000。p值小于0.05，因此拒绝原假设，说明三个品牌的平均数不同。

问题2解答：确定哪个品牌与其他品牌不同，可以进行多重比较（multiple comparison）分析。多重比较分析是用于确定哪些组之间存在显著差异的方法。常见多重比较方法有两两比较（pairwise comparison）和Tukey-Kramer比较（Tukey-Kramer comparison）等。

两两比较方法的优势是直接对各组之间的差异进行比较，适用于组数较少的情况。使用Python中的ttest_ind()方法可以进行两两比较：

```python

from itertools import combinations

# 得到所有可能的组合

groups = [A, B, C]

combs = list(combinations(groups, 2))

# 两两比较，并输出p值

for comb in combs:

t, p = stats.ttest_ind(comb[0], comb[1])

print(comb, "p = ", p)

```

运行结果如下：

```

([9.5, 11.2, 7.8, 11.1, 10.5, 8.9, 9.8, 12.3, 10.4, 11.5, 8.2, 9.7, 10.3, 9.5, 9.2, 8.7, 7.9, 10.1, 9.9, 12.1, 10.4, 8.5, 10.8, 10.9, 9.3, 11.2, 9.8, 11.1, 10.6, 8.6, 9.7], [12.4, 13.1, 10.5, 13.3, 12.1, 11.6, 11.2, 10.7, 12.6, 13.5, 11.8, 13.2, 12.3, 10.9, 11.5, 12.9, 10.6, 12.1, 13.8, 11.3, 10.8, 13.4, 10.2, 11.3, 13.1, 11.5, 13.3, 10.7, 12.9, 11.2]) p = 2.792499523030408e-13

([9.5, 11.2, 7.8, 11.1, 10.5, 8.9, 9.8, 12.3, 10.4, 11.5, 8.2, 9.7, 10.3, 9.5, 9.2, 8.7, 7.9, 10.1, 9.9, 12.1, 10.4, 8.5, 10.8, 10.9, 9.3, 11.2, 9.8, 11.1, 10.6, 8.6, 9.7], [7.5, 7.8, 5.9, 7.6, 7.7, 6.2, 5.8, 8.3, 6.9, 5.5, 6.8, 6.1, 5.7, 6.6, 6.9, 7.3, 8.1, 6.3, 5.2, 5.6, 6.7, 6.8, 5.3, 6.3, 5.4, 6.9, 5.8, 7.5, 6.2, 7.8]) p = 5.331182027680517e-13

([12.4, 13.1, 10.5, 13.3, 12.1, 11.6, 11.2, 10.7, 12.6, 13.5, 11.8, 13.2, 12.3, 10.9, 11.5, 12.9, 10.6, 12.1, 13.8, 11.3, 10.8, 13.4, 10.2, 11.3, 13.1, 11.5, 13.3, 10.7, 12.9, 11.2], [7.5, 7.8, 5.9, 7.6, 7.7, 6.2, 5.8, 8.3, 6.9, 5.5, 6.8, 6.1, 5.7, 6.6, 6.9, 7.3, 8.1, 6.3, 5.2, 5.6, 6.7, 6.8, 5.3, 6.3, 5.4, 6.9, 5.8, 7.5, 6.2, 7.8]) p = 2.6053649155201982e-28

```

运行结果显示三对组之间的p值均小于0.05，因此认为三个品牌之间均有显著差异。

Tukey-Kramer比较方法是用于进行多个组之间比较的方法，其优势在于能够同时比较多个组，能够有效控制犯错误率的概率。但在样本量较小的时候会过于保守。使用Python中的MultiComparison()方法可以实现Tukey-Kramer比较：

```python

from statsmodels.stats.multicomp import MultiComparison

# 将所有数据展开

data = np.concatenate([A, B, C])

# 打标识

group_labels = ['A' for i in range(30)] + ['B' for i in range(30)] + ['C' for i in range(30)]

mc = MultiComparison(data, group_labels)

result = mc.tukeyhsd()

print(result)