方差和标准差计算#
方差的公式#
对于一组数据 \(x_1, x_2, \dots, x_n\),其方差 \(\sigma^2\) 计算如下:
其中:
\(n\) 是数据的数量(样本个数)。
\(x_i\) 是第 \(i\) 个数据点。
\(\mu\) 是所有数据点的均值,计算公式为: \(\mu = \frac{1}{n} \sum_{i=1}^{n} x_i\)
\((x_i - \mu)^2\) 是每个数据点与均值的差值的平方。
计算过程的步骤#
求均值:首先,计算所有数据的平均值(即均值)。
计算差值:求每个数据点与均值之间的差值。
差值平方:对每个差值取平方,消除正负偏差。
求均值:将所有差值的平方相加,取平均值,即为方差。
举例#
假设有一组数据:\(x = [1, 2, 3]\)
1. 计算均值 \(\mu\)#
2. 计算每个数据点与均值的差值#
\(1 - 2 = -1\)
\(2 - 2 = 0\)
\(3 - 2 = 1\)
3. 计算差值的平方#
\((-1)^2 = 1\)
\(0^2 = 0\)
\(1^2 = 1\)
4. 计算方差#
因此,方差 \(\sigma^2 \approx 0.67\)。
样本方差 vs 总体方差#
上面的公式计算的是 总体方差,它用于处理整个数据集。在处理样本数据时,方差的公式略有不同,被称为 样本方差:
样本方差的分母是 \(n-1\) 而不是 \(n\),这样做是为了纠正由于样本量有限造成的偏差。
标准差的定义#
标准差是方差的平方根,用来衡量数据点与均值之间的平均距离。与方差一样,标准差也是衡量数据离散程度的重要指标,但与方差相比,标准差与数据本身的单位保持一致。
标准差的公式#
对于一组数据 \(x_1, x_2, \dots, x_n\),其标准差 \(\sigma\) 是方差 \(\sigma^2\) 的平方根,计算公式为:
其中:
\(\sigma\) 是标准差。
\(n\) 是数据的数量(样本个数)。
\(x_i\) 是第 \(i\) 个数据点。
\(\mu\) 是均值: \( \mu = \frac{1}{n} \sum_{i=1}^{n} x_i \)
\((x_i - \mu)^2\) 是每个数据点与均值差值的平方。
计算标准差的步骤#
计算均值:先求出所有数据的均值 \(\mu\)。
计算方差:计算每个数据点与均值的差值平方,并取平均值,得到方差 \(\sigma^2\)。
开方:对方差取平方根,得到标准差。
举例#
假设有一组数据:\( x = [1, 2, 3] \)
计算均值: \( \mu = \frac{1 + 2 + 3}{3} = 2 \)
计算每个数据点与均值的差值平方:
\((1 - 2)^2 = (-1)^2 = 1\)
\((2 - 2)^2 = 0^2 = 0\)
\((3 - 2)^2 = 1^2 = 1\)
计算方差: \( \sigma^2 = \frac{1 + 0 + 1}{3} = \frac{2}{3} \approx 0.67 \)
计算标准差: \( \sigma = \sqrt{0.67} \approx 0.82 \)
因此,这组数据的标准差 \(\sigma \approx 0.82\)。
样本标准差 vs 总体标准差#
与方差类似,标准差也分为 总体标准差 和 样本标准差。样本标准差的公式为:
这里的分母是 \(n-1\),用于处理样本数据时调整偏差,称为 贝塞尔校正。