根据提供的医疗数据集(medical_data.csv),完成数据预处理任务,并制定数据清洗规范和标注规范。
制定数据清洗规范(每正确回答1个规范点得1分,最高得2分)
1、加载数据集:使用 pandas 库加载数据集,显示前五行的数据及数据类型
2、检查缺失值:检查数据集中的缺失值并删除缺失值所在的行
3、处理日期格式:将日期字段转换为标准日期格式 yyyy-mm-dd
4、重命名列:重命名列名
5、删除异常值:删除异常的值
6、检查缺失值:检查数据集中的缺失值并删除缺失值所在的行
7、数据标准化:对数值型数据进行标准化处理,确保数据在同一量纲下进行分析。
8、保存清洗后的数据: 将经过清洗和处理后的数据保存为csv文件,以便后续使用。
制定数据标注规范(每正确回答1个规范点得1分,最高得3分)
1、选择数据源:选择数据来源
2、描述数据:对数据进行描述,行列数,类型,取值范围等
3、选择特征:选择用于自变量的的特征
4、选择目标标量:在数据集中选择目标变量,或者创建一个目标变量
5、划分训练集和测试集:将数据集划分为训练集和测试集,以便进行模型的训练和评估
6、输出报告和结果:通过评估模型输出模型的得分,并保存处理过的数据