为什么样本方差是除以 n-1 而不是 n？

一组数据的方差定义是：\(S_1^2=\frac {\Sigma_1^n (X_i-\bar X)^2)}n\)。

但是如果从总体中选出样本，计算样本方差，公式就变成了：

\[S_2^2=\frac {\Sigma_1^n (X_i-\bar X)^2)}{n-1}
\]

为什么样本方差只除以 n-1 呢？因为我们从总体里取出样本，计算出这个样本的均值和方差，并不是关心样本本身，是为了以此反推总体的均值和方差，所以他们要尽可能接近。样本的均值与总体的均值是肯定是期望相等的（\(E(\bar X)=E(\mu)\)），但是样本方差如果用除以 n 的方式来计算，那他和总体的方差并不相等，而是偏小的（\(E(S_1^2)\le E(\sigma ^2)\)）。

\[E(S_1^2)=\frac {\Sigma_1^n E((X_i-\bar X)^2)}n = \frac { E(\Sigma_1^n(X_i-\mu+\mu-\bar X)^2)}n
\]

\[= \frac {E(\Sigma_1^n (X_i-\mu)^2-2\Sigma_1^n (X_i-\mu)(\bar X-\mu)+n(\bar X-\mu)^2)}n
\]

\[=\frac {E(\Sigma_1^n (X_i-\mu)^2-2n (\bar X-\mu)(\bar X-\mu)+n(\bar X-\mu)^2)}n
\]

\[=\frac {E(\Sigma_1^n (X_i-\mu)^2-n (\bar X-\mu)^2)}n
\]

\[=E(\frac {\Sigma_1^n (X_i-\mu)^2}n)-{E( (\bar X-\mu)^2)}
\]

\[=Var(X)-Var(\bar X)=\sigma^2-\frac {\sigma^2}n=\frac {n-1}n{\sigma^2}\le\sigma^2
\]

所以，除非数据个个相等，不然 \(E(S_1^2)\) 总是比真正的 \(\sigma^2\) 略小。而他们的差距也正是\(\frac {n-1}n\)，所以把除数改成 \(n-1\) 就刚刚好，这就是总体方差的无偏估计。

还有一种“自由度”的理解方式，我不是很理解：样本方差与样本均值，都是随机变量，都有自己的分布，也都可能有自己的期望与方差。取分母n-1，可使样本方差的期望等于总体方差，即这种定义的样本方差是总体方差的无偏估计。简单理解，因为算方差用到了均值，所以自由度就少了1，自然就是除以(n-1)了。再不能理解的话，形象一点，对于样本方差来说，假如从总体中只取一个样本，即n=1，那么样本方差公式的分子分母都为0，方差完全不确定。这个好理解，因为样本方差是用来估计总体中个体之间的变化大小，只拿到一个个体，当然完全看不出变化大小。反之，如果公式的分母不是n-1而是n，计算出的方差就是0——这是不合理的，因为不能只看到一个个体就断定总体的个体之间变化大小为0。我不知道是不是说清楚了，详细的推导相关书上有，可以查阅。