2.2.4 大学生低碳生活行为影响因素分析

请根据题目要求，在下方空白处填入正确的代码（点击 💡 按钮查看提示）

数据集说明

文件名：大学生低碳生活行为的影响因素数据集.xlsx

序号	所用时间	性别	年级	生源地	月生活费	是否进行过绿色低碳生活方式	是否了解低碳生活
1	130秒	1	2	2	2	1	1
2	82秒	1	2	3	2	1	1
3	230秒	1	2	3	2	1	2
4	96秒	1	2	2	2	2	2
6	157秒	1	2	2	2	1	1
7	98秒	1	2	2	2	1	1
9	94秒	1	2	2	2	1	1
11	98秒	2	2	1	2	1	2
12	108秒	1	2	2	2	1	2
13	136秒	1	2	2	3	1	2

共 10 条数据，仅展示前 10 条

代码填空

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import joblib
from xgboost import XGBRegressor
# 加载数据集
data = 
# 显示数据集的前五行
print()
# 删除不必要的列并处理分类变量
data_cleaned = (=['序号', '所用时间'])  # 删除不必要的列
data_cleaned = pd.get_dummies(data_cleaned, drop_first=True)  # 将分类变量转换为哑变量/指示变量
# 定义目标变量和特征
target = '5.您进行过绿色低碳的相关生活方式吗?'  # 确保这是目标变量
# 定义自变量和因变量
X = (=)
y = 
# 将数据拆分为训练集和测试集（测试集占20%）
X_train, X_test, y_train, y_test = (, random_state=42)
# 初始化线性回归模型
model = 
# 训练线性回归模型
# 保存训练好的模型
model_filename = '2.2.4_model.pkl'
joblib.
# 进行预测
y_pred = 
# 将结果保存到文本文件中
results = pd.DataFrame({'实际值': y_test, '预测值': y_pred})
results_filename = '2.2.4_results.txt'
(, index=False, sep='\t')  # 使用制表符分隔值保存到文本文件
# 将测试结果保存到报告文件中
report_filename = '2.2.4_report.txt'
with open(report_filename, 'w') as f:
    f.write(f'均方误差: {}\n')
    f.write(f'决定系数: {}\n')
# 分析并纠正错误（示例：使用XGBoost）
# 初始化XGBoost模型（设定树的数量为1000，学习率为0.05，每棵树的最大深度为5，）
xgb_model = (, subsample=0.8, colsample_bytree=0.8)
# 训练XGBoost模型
# 使用XGBoost模型进行预测
y_pred_xg = 
# 将XGBoost结果保存到文本文件中
results_xg_filename = '2.2.4_results_xg.txt'
results_xg = pd.DataFrame({'实际值': y_test, '预测值': y_pred_xg})
results_xg.to_csv(results_xg_filename, index=False, sep='\t')  # 使用制表符分隔值保存到文本文件
# 将XGBoost测试结果保存到报告文件中
report_filename_xgb = '2.2.4_report_xgb.txt'
with open(report_filename_xgb, 'w') as f:
    f.write(f'均方误差: {}\n')
    f.write(f'决定系数: {}\n')