根据提供的汽车燃油效率数据集(auto-mpg.csv),补全代码完成数据预处理任务,并设计一套数据清洗规范和标注流程规范。
预处理任务包括:
1. 正确加载数据集,并显示前五行的数据及数据类型;
2. 检查数据集中的缺失值并删除缺失值所在的行;
3. 将"horsepower"列转换为数值类型,并处理转换中的异常值;
4. 对数值型数据进行标准化处理,确保数据在同一量纲下进行分析;
5. 根据业务需求和数据特性,选择对燃油效率预测最有用的特征;
6. 将"mpg"设为目标变量并标注;
7. 对数据进行标注和划分;
8. 保存处理后的数据,并命名为:2.1.1_cleaned_data.csv。
制定数据清洗规范(每正确回答1个规范点得1分,最高得2分)
1. 数据加载与初步检查
加载数据集:
使用 pandas 的 read_csv 方法加载数据集。
确保文件路径正确,文件格式为 CSV。
初步检查:
使用 head() 方法查看数据集的前几行,确保数据加载正确。
使用 dtypes 方法检查每列的数据类型,确保数据类型正确。
2. 缺失值处理
检查缺失值:
使用 isnull().sum() 方法检查每列的缺失值数量。
如果某列存在大量缺失值,考虑是否需要删除该列或填充缺失值。
处理缺失值:
如果缺失值较少,可以选择删除包含缺失值的行。
如果缺失值较多,可以考虑使用均值、中位数或众数填充缺失值。
3. 数据类型转换
对于 horsepower 列,使用 pd.to_numeric 将其转换为数值类型,并处理转换中的异常值。
确保数据类型正确:
确保所有数值型列(如 displacement、horsepower、weight、acceleration 等)的数据类型为 float 或 int。
确保分类变量(如 cylinders、model year、origin 等)的数据类型为 int 或 category。
4. 数据标准化
标准化数值型数据:
使用 StandardScaler 或 MinMaxScaler 对数值型特征进行标准化处理,确保数据在同一量纲下进行分析。
标准化后的数据应具有均值为 0 和标准差为 1 的特性。
5. 特征选择
选择特征:
根据业务需求和数据特性,选择对燃油效率预测最有用的特征。推荐的特征包括:
cylinders:气缸数量
displacement:排量
horsepower:马力
weight:重量
acceleration:加速度
model year:车型年份
origin:产地
制定数据标注规范(每正确回答1个规范点得1分,最高得3分)
1. 目标变量标注
设置目标变量:
将 mpg 列设为目标变量 y,用于预测汽车的燃油效率。
2. 数据划分
划分数据集:
使用 train_test_split 方法将数据划分为训练集和测试集,通常测试集占 20%。
设置随机种子(如 random_state=42)以确保结果可复现。
3. 数据保存
保存处理后的数据:
将处理后的数据保存为 CSV 文件,文件名应具有明确的命名规范,如 2.1.1_cleaned_data.csv。
确保保存的文件中不包含索引列。
4. 文档记录
记录标注流程:
在代码中添加详细的注释,说明每一步的操作和目的。
保存一个文档,记录数据标注的流程和规范,包括数据来源、处理步骤、特征选择和目标变量的定义。