← 返回总目录

📚 2.1.4 医疗数据

2.1.4 数据清洗与标注规范
根据提供的医疗数据集(medical_data.csv),完成数据预处理任务,并制定数据清洗规范和标注规范。
制定数据清洗规范(每正确回答1个规范点得1分,最高得2分) 1、加载数据集:使用 pandas 库加载数据集,显示前五行的数据及数据类型 2、检查缺失值:检查数据集中的缺失值并删除缺失值所在的行 3、处理日期格式:将日期字段转换为标准日期格式 yyyy-mm-dd 4、重命名列:重命名列名 5、删除异常值:删除异常的值 6、检查缺失值:检查数据集中的缺失值并删除缺失值所在的行 7、数据标准化:对数值型数据进行标准化处理,确保数据在同一量纲下进行分析。 8、保存清洗后的数据: 将经过清洗和处理后的数据保存为csv文件,以便后续使用。 制定数据标注规范(每正确回答1个规范点得1分,最高得3分) 1、选择数据源:选择数据来源 2、描述数据:对数据进行描述,行列数,类型,取值范围等 3、选择特征:选择用于自变量的的特征 4、选择目标标量:在数据集中选择目标变量,或者创建一个目标变量 5、划分训练集和测试集:将数据集划分为训练集和测试集,以便进行模型的训练和评估 6、输出报告和结果:通过评估模型输出模型的得分,并保存处理过的数据