对测试结果进行详细分析,并编写测试报告,包括模型性能评估、错误分析及改进建议。
针对Logistic模型
1、模型性能
precision recall f1-score support
0(没有严重逾期) 0.95 0.99 0.97 26779
1(有严重逾期) 0.58 0.13 0.21 1737
2、错误分析
0(没有严重逾期):
精确率较高,说明模型在预测类别0时,预测为正的样本中实际为正的比例较高。
召回率非常高,说明模型能够很好地识别出类别0的样本。
F1 分数较高,说明模型在类别0上的综合性能较好。
可能的问题是可能存在漏报和误报的情况,例如,没有严重预期的样本作为严重预期处理,反之亦然。
1(有严重逾期):
精确率较低,说明模型在预测类别1时,预测为正的样本中实际为正的比例较低,存在较多的假正例(False Positives)
召回率非常低,说明模型在识别类别1的样本时表现很差,存在较多的假负例(False Negatives)。
F1分数非常低,说明模型在类别1上的综合性能较差,精确率和召回率都不理想。
数据集中类别0的样本数量远多于类别1,存在明显的数据不平衡问题。这样可能导致大量的漏报和误报情况。
3、改进建议
一、数据不平衡处理:减少多数类(类别0)的样本数量,使数据集更加平衡。
二、特征工程:使用特征选择方法(如递归特征消除RFE、特征重要性排序等)筛选出对模型性能贡献较大的特征。
三、模型优化:Logistic回归模型可能不足以捕捉复杂的非线性关系,可以尝试其他更复杂的模型,如随机森林(Random Forest)、梯度提升树(Gradient Boosting)、XGBoost等。