← 返回总目录

📚 2.1.1 汽车燃油效率预测

2.1.1 数据清洗与标注规范
根据提供的汽车燃油效率数据集(auto-mpg.csv),补全代码完成数据预处理任务,并设计一套数据清洗规范和标注流程规范。

预处理任务包括:
1. 正确加载数据集,并显示前五行的数据及数据类型;
2. 检查数据集中的缺失值并删除缺失值所在的行;
3. 将"horsepower"列转换为数值类型,并处理转换中的异常值;
4. 对数值型数据进行标准化处理,确保数据在同一量纲下进行分析;
5. 根据业务需求和数据特性,选择对燃油效率预测最有用的特征;
6. 将"mpg"设为目标变量并标注;
7. 对数据进行标注和划分;
8. 保存处理后的数据,并命名为:2.1.1_cleaned_data.csv。
制定数据清洗规范(每正确回答1个规范点得1分,最高得2分) 1. 数据加载与初步检查 加载数据集: 使用 pandas 的 read_csv 方法加载数据集。 确保文件路径正确,文件格式为 CSV。 初步检查: 使用 head() 方法查看数据集的前几行,确保数据加载正确。 使用 dtypes 方法检查每列的数据类型,确保数据类型正确。 2. 缺失值处理 检查缺失值: 使用 isnull().sum() 方法检查每列的缺失值数量。 如果某列存在大量缺失值,考虑是否需要删除该列或填充缺失值。 处理缺失值: 如果缺失值较少,可以选择删除包含缺失值的行。 如果缺失值较多,可以考虑使用均值、中位数或众数填充缺失值。 3. 数据类型转换 对于 horsepower 列,使用 pd.to_numeric 将其转换为数值类型,并处理转换中的异常值。 确保数据类型正确: 确保所有数值型列(如 displacement、horsepower、weight、acceleration 等)的数据类型为 float 或 int。 确保分类变量(如 cylinders、model year、origin 等)的数据类型为 int 或 category。 4. 数据标准化 标准化数值型数据: 使用 StandardScaler 或 MinMaxScaler 对数值型特征进行标准化处理,确保数据在同一量纲下进行分析。 标准化后的数据应具有均值为 0 和标准差为 1 的特性。 5. 特征选择 选择特征: 根据业务需求和数据特性,选择对燃油效率预测最有用的特征。推荐的特征包括: cylinders:气缸数量 displacement:排量 horsepower:马力 weight:重量 acceleration:加速度 model year:车型年份 origin:产地 制定数据标注规范(每正确回答1个规范点得1分,最高得3分) 1. 目标变量标注 设置目标变量: 将 mpg 列设为目标变量 y,用于预测汽车的燃油效率。 2. 数据划分 划分数据集: 使用 train_test_split 方法将数据划分为训练集和测试集,通常测试集占 20%。 设置随机种子(如 random_state=42)以确保结果可复现。 3. 数据保存 保存处理后的数据: 将处理后的数据保存为 CSV 文件,文件名应具有明确的命名规范,如 2.1.1_cleaned_data.csv。 确保保存的文件中不包含索引列。 4. 文档记录 记录标注流程: 在代码中添加详细的注释,说明每一步的操作和目的。 保存一个文档,记录数据标注的流程和规范,包括数据来源、处理步骤、特征选择和目标变量的定义。