背题助手 - 2.1.1 汽车燃油效率预测

2.1.1 数据清洗与标注规范

根据提供的汽车燃油效率数据集（auto-mpg.csv），补全代码完成数据预处理任务，并设计一套数据清洗规范和标注流程规范。

预处理任务包括：
1. 正确加载数据集，并显示前五行的数据及数据类型；
2. 检查数据集中的缺失值并删除缺失值所在的行；
3. 将"horsepower"列转换为数值类型，并处理转换中的异常值；
4. 对数值型数据进行标准化处理，确保数据在同一量纲下进行分析；
5. 根据业务需求和数据特性，选择对燃油效率预测最有用的特征；
6. 将"mpg"设为目标变量并标注；
7. 对数据进行标注和划分；
8. 保存处理后的数据，并命名为：2.1.1_cleaned_data.csv。

制定数据清洗规范（每正确回答1个规范点得1分，最高得2分） 1. 数据加载与初步检查加载数据集：使用 pandas 的 read_csv 方法加载数据集。确保文件路径正确，文件格式为 CSV。初步检查：使用 head() 方法查看数据集的前几行，确保数据加载正确。使用 dtypes 方法检查每列的数据类型，确保数据类型正确。 2. 缺失值处理检查缺失值：使用 isnull().sum() 方法检查每列的缺失值数量。如果某列存在大量缺失值，考虑是否需要删除该列或填充缺失值。处理缺失值：如果缺失值较少，可以选择删除包含缺失值的行。如果缺失值较多，可以考虑使用均值、中位数或众数填充缺失值。 3. 数据类型转换对于 horsepower 列，使用 pd.to_numeric 将其转换为数值类型，并处理转换中的异常值。确保数据类型正确：确保所有数值型列（如 displacement、horsepower、weight、acceleration 等）的数据类型为 float 或 int。确保分类变量（如 cylinders、model year、origin 等）的数据类型为 int 或 category。 4. 数据标准化标准化数值型数据：使用 StandardScaler 或 MinMaxScaler 对数值型特征进行标准化处理，确保数据在同一量纲下进行分析。标准化后的数据应具有均值为 0 和标准差为 1 的特性。 5. 特征选择选择特征：根据业务需求和数据特性，选择对燃油效率预测最有用的特征。推荐的特征包括： cylinders：气缸数量 displacement：排量 horsepower：马力 weight：重量 acceleration：加速度 model year：车型年份 origin：产地制定数据标注规范（每正确回答1个规范点得1分，最高得3分） 1. 目标变量标注设置目标变量：将 mpg 列设为目标变量 y，用于预测汽车的燃油效率。 2. 数据划分划分数据集：使用 train_test_split 方法将数据划分为训练集和测试集，通常测试集占 20%。设置随机种子（如 random_state=42）以确保结果可复现。 3. 数据保存保存处理后的数据：将处理后的数据保存为 CSV 文件，文件名应具有明确的命名规范，如 2.1.1_cleaned_data.csv。确保保存的文件中不包含索引列。 4. 文档记录记录标注流程：在代码中添加详细的注释，说明每一步的操作和目的。保存一个文档，记录数据标注的流程和规范，包括数据来源、处理步骤、特征选择和目标变量的定义。

📚 2.1.1 汽车燃油效率预测