根据提供的健康咨询客户数据集(健康咨询客户数据集.csv),完成数据预处理任务,并制定数据清洗规范和标注规范。
制定数据清洗规范(每正确回答1个规范点得1分,最高得2分)
1、加载数据集:使用 pandas 库加载数据集,显示前五行的数据及数据类型
2、检查缺失值:检查数据集中的缺失值并删除缺失值所在的行
3、处理异常值:将"horsepower"列转换为数值类型,并处理转换中的异常值。
4、数据去重:删除重复的数据
5、数据标准化:对数值型数据进行标准化处理,确保数据在同一量纲下进行分析。
6、保存清洗后的数据: 将经过清洗和处理后的数据保存为csv文件,以便后续使用。
制定数据标注规范(每正确回答1个规范点得1分,最高得3分)
1、选择数据源:选择数据来源
2、描述数据:对数据进行描述,行列数,类型,取值范围等
3、选择特征:选择用于自变量的的特征
4、选择目标标量:在数据集中选择目标变量,或者创建一个目标变量
5、划分训练集和测试集:将数据集划分为训练集和测试集,以便进行模型的训练和评估
6、输出报告和结果:通过评估模型输出模型的得分,并保存处理过的数据