【可决系数计算公式】在统计学中,可决系数(R²)是一个用来衡量回归模型对因变量变异解释程度的指标。它反映了自变量与因变量之间的关系紧密程度,数值范围在0到1之间,数值越大表示模型拟合效果越好。
一、可决系数的基本概念
可决系数是通过比较回归平方和(SSR)与总平方和(SST)之间的比例来计算的。其核心思想是:模型能够解释的数据变异部分占总变异的比例。
- 总平方和(SST):数据点与均值之间的差异平方和,反映数据的总体波动。
- 回归平方和(SSR):模型预测值与均值之间的差异平方和,反映模型解释的变异。
- 残差平方和(SSE):实际观测值与模型预测值之间的差异平方和,反映模型未解释的变异。
二、可决系数的计算公式
可决系数(R²)的计算公式如下:
$$
R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}
$$
其中:
- $ SSR = \sum (\hat{y}_i - \bar{y})^2 $
- $ SSE = \sum (y_i - \hat{y}_i)^2 $
- $ SST = \sum (y_i - \bar{y})^2 $
三、关键术语说明
名称 | 公式表达 | 含义说明 |
总平方和 | $ SST = \sum (y_i - \bar{y})^2 $ | 数据点与均值的差异平方和,反映总体波动 |
回归平方和 | $ SSR = \sum (\hat{y}_i - \bar{y})^2 $ | 模型预测值与均值的差异平方和,反映模型解释的变异 |
残差平方和 | $ SSE = \sum (y_i - \hat{y}_i)^2 $ | 实际观测值与模型预测值的差异平方和,反映未解释的变异 |
可决系数 | $ R^2 = \frac{SSR}{SST} $ | 表示模型对因变量变异的解释程度,取值范围0~1 |
四、应用实例
假设某研究者收集了以下数据:
观测值 | 自变量 x | 因变量 y | 预测值 $\hat{y}$ |
1 | 1 | 2 | 1.5 |
2 | 2 | 3 | 2.5 |
3 | 3 | 4 | 3.5 |
4 | 4 | 5 | 4.5 |
5 | 5 | 6 | 5.5 |
计算步骤如下:
1. 计算平均值:$\bar{y} = 4$
2. 计算SST:$ \sum (y_i - 4)^2 = (2-4)^2 + (3-4)^2 + (4-4)^2 + (5-4)^2 + (6-4)^2 = 4 + 1 + 0 + 1 + 4 = 10 $
3. 计算SSR:$ \sum (\hat{y}_i - 4)^2 = (1.5-4)^2 + (2.5-4)^2 + (3.5-4)^2 + (4.5-4)^2 + (5.5-4)^2 = 6.25 + 2.25 + 0.25 + 0.25 + 2.25 = 11.25 $
4. 计算R²:$ R^2 = \frac{11.25}{10} = 1.125 $(注:此结果异常,可能为模型设定不当或数据问题)
五、注意事项
- 当R²接近1时,表示模型拟合效果好;当R²接近0时,表示模型解释力差。
- 在多元线性回归中,R²可能会随着变量增加而上升,因此需使用调整后的R²进行更准确评估。
- 若出现R²大于1的情况,通常意味着模型存在错误,如计算失误或数据异常。
通过以上内容可以看出,可决系数是评估回归模型质量的重要工具,合理使用并结合其他指标可以更全面地判断模型的适用性和准确性。