2.1.1

请根据题目要求,在下方空白处填入正确的代码(点击 💡 按钮查看提示)

数据集说明
文件名:auto-mpg.csv
mpgcylindersdisplacementhorsepowerweightaccelerationmodel yearorigincar name
188nan1303504.012.0701chevrolet chevelle malibu
158350.01653693.011.5701buick skylark 320
188318.01503436.011.0701plymouth satellite
168304.01503433.012.0701amc rebel sst
178302.01403449.010.5701ford torino
158429.01984341.010.0701ford galaxie 500
148454.02204354.09.0701chevrolet impala
148440.02154312.08.5701plymouth fury iii
148455.0225nan10.0701pontiac catalina
158390.01903850.08.5701amc ambassador dpl
共 398 条数据,仅展示前 10 条
代码填空
import pandas as pd # 加载数据集并显示数据集的前五行 1分 data = print("数据集的前五行:") print() # 显示每一列的数据类型 print(data.dtypes) # 检查缺失值并删除缺失值所在的行 2分 print("\n检查缺失值:") print(..) data = # 将 'horsepower' 列转换为数值类型,并(删除)处理转换中的异常值 1分 data['horsepower'] = (data['horsepower'], errors='coerce') data = # 显示每一列的数据类型 print(data.horsepower.dtypes) # 检查清洗后的缺失值 print("\n检查清洗后的缺失值:") print(data.isnull().sum()) from sklearn.preprocessing import StandardScaler # 对数值型数据进行标准化处理 1分 numerical_features = ['displacement', 'horsepower', 'weight', 'acceleration'] scaler = StandardScaler() data[numerical_features] = from sklearn.model_selection import train_test_split # 选择特征、自变量和目标变量 2分 selected_features = X = y = # 划分数据集为训练集和测试集(训练集占8成) 1分 X_train, X_test, y_train, y_test = (, random_state=42) # 将特征和目标变量合并到一个数据框中 cleaned_data = X.copy() cleaned_data['mpg'] = y # 保存清洗和处理后的数据(不存储额外的索引号) 1分 ('2.1.1_cleaned_data.csv', ) # 打印消息指示文件已保存 print("\n清洗后的数据已保存到 2.1.1_cleaned_data.csv")
提示: