方差和标准差计算#

方差的公式#

对于一组数据 \(x_1, x_2, \dots, x_n\),其方差 \(\sigma^2\) 计算如下:

\[\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2\]

其中:

  • \(n\) 是数据的数量(样本个数)。

  • \(x_i\) 是第 \(i\) 个数据点。

  • \(\mu\) 是所有数据点的均值,计算公式为: \(\mu = \frac{1}{n} \sum_{i=1}^{n} x_i\)

  • \((x_i - \mu)^2\) 是每个数据点与均值的差值的平方。

计算过程的步骤#

  1. 求均值:首先,计算所有数据的平均值(即均值)。

  2. 计算差值:求每个数据点与均值之间的差值。

  3. 差值平方:对每个差值取平方,消除正负偏差。

  4. 求均值:将所有差值的平方相加,取平均值,即为方差。

举例#

假设有一组数据:\(x = [1, 2, 3]\)

1. 计算均值 \(\mu\)#

\[\mu = \frac{1 + 2 + 3}{3} = 2\]

2. 计算每个数据点与均值的差值#

  • \(1 - 2 = -1\)

  • \(2 - 2 = 0\)

  • \(3 - 2 = 1\)

3. 计算差值的平方#

  • \((-1)^2 = 1\)

  • \(0^2 = 0\)

  • \(1^2 = 1\)

4. 计算方差#

\[\sigma^2 = \frac{1 + 0 + 1}{3} = \frac{2}{3} \approx 0.67\]

因此,方差 \(\sigma^2 \approx 0.67\)

样本方差 vs 总体方差#

上面的公式计算的是 总体方差,它用于处理整个数据集。在处理样本数据时,方差的公式略有不同,被称为 样本方差

\[S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2\]

样本方差的分母是 \(n-1\) 而不是 \(n\),这样做是为了纠正由于样本量有限造成的偏差。

标准差的定义#

标准差是方差的平方根,用来衡量数据点与均值之间的平均距离。与方差一样,标准差也是衡量数据离散程度的重要指标,但与方差相比,标准差与数据本身的单位保持一致。

标准差的公式#

对于一组数据 \(x_1, x_2, \dots, x_n\),其标准差 \(\sigma\) 是方差 \(\sigma^2\) 的平方根,计算公式为:

\[\sigma = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2}\]

其中:

  • \(\sigma\) 是标准差。

  • \(n\) 是数据的数量(样本个数)。

  • \(x_i\) 是第 \(i\) 个数据点。

  • \(\mu\) 是均值: \( \mu = \frac{1}{n} \sum_{i=1}^{n} x_i \)

  • \((x_i - \mu)^2\) 是每个数据点与均值差值的平方。

计算标准差的步骤#

  1. 计算均值:先求出所有数据的均值 \(\mu\)

  2. 计算方差:计算每个数据点与均值的差值平方,并取平均值,得到方差 \(\sigma^2\)

  3. 开方:对方差取平方根,得到标准差。

举例#

假设有一组数据:\( x = [1, 2, 3] \)

  1. 计算均值\( \mu = \frac{1 + 2 + 3}{3} = 2 \)

  2. 计算每个数据点与均值的差值平方

    • \((1 - 2)^2 = (-1)^2 = 1\)

    • \((2 - 2)^2 = 0^2 = 0\)

    • \((3 - 2)^2 = 1^2 = 1\)

  3. 计算方差\( \sigma^2 = \frac{1 + 0 + 1}{3} = \frac{2}{3} \approx 0.67 \)

  4. 计算标准差\( \sigma = \sqrt{0.67} \approx 0.82 \)

因此,这组数据的标准差 \(\sigma \approx 0.82\)

样本标准差 vs 总体标准差#

与方差类似,标准差也分为 总体标准差样本标准差。样本标准差的公式为:

\[S = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2}\]

这里的分母是 \(n-1\),用于处理样本数据时调整偏差,称为 贝塞尔校正