← 返回总目录

📚 2.1.5 健康咨询客户数据

2.1.5 数据清洗与标注规范
根据提供的健康咨询客户数据集(健康咨询客户数据集.csv),完成数据预处理任务,并制定数据清洗规范和标注规范。
制定数据清洗规范(每正确回答1个规范点得1分,最高得2分) 1、加载数据集:使用 pandas 库加载数据集,显示前五行的数据及数据类型 2、检查缺失值:检查数据集中的缺失值并删除缺失值所在的行 3、处理异常值:将"horsepower"列转换为数值类型,并处理转换中的异常值。 4、数据去重:删除重复的数据 5、数据标准化:对数值型数据进行标准化处理,确保数据在同一量纲下进行分析。 6、保存清洗后的数据: 将经过清洗和处理后的数据保存为csv文件,以便后续使用。 制定数据标注规范(每正确回答1个规范点得1分,最高得3分) 1、选择数据源:选择数据来源 2、描述数据:对数据进行描述,行列数,类型,取值范围等 3、选择特征:选择用于自变量的的特征 4、选择目标标量:在数据集中选择目标变量,或者创建一个目标变量 5、划分训练集和测试集:将数据集划分为训练集和测试集,以便进行模型的训练和评估 6、输出报告和结果:通过评估模型输出模型的得分,并保存处理过的数据