1.1.3 信用数据审核

请根据题目要求,在下方空白处填入正确代码(点击 💡 按钮查看提示)

数据集说明
文件名:credit_data.csv
  • 核心字段:CustomerID、Age、Income、LoanAmount、CreditScore、Default
  • 任务目标:完整性审核 + 合理性审核 + 清洗并导出结果
请完成下方填空,程序应输出统计结果并生成 cleaned_credit_data.csv
导入库并读取数据
import pandas as pd import numpy as np import matplotlib.pyplot as plt # 读取数据集 data = pd.read_csv('credit_data.csv')
1. 数据完整性审核
# 数据缺失值统计 2分 missing_values = data. # 数据重复值统计 2分 duplicate_values = data. # 输出结果 print("缺失值统计:") print(missing_values) print("重复值统计:") print(duplicate_values)
2. 数据合理性审核
data['is_age_valid'] = .(18, 70) # Age数据的合理性审核 2分 data['is_income_valid'] = > # Income数据的合理性审核 2分 data['is_loan_amount_valid'] = < ( * 5) # LoanAmount数据的合理性审核 2分 data['is_credit_score_valid'] = .(300, 850) # CreditScore数据的合理性审核 2分 # 合理性检查结果 validity_checks = data[['is_age_valid', 'is_income_valid', 'is_loan_amount_valid', 'is_credit_score_valid']].all(axis=1) data['is_valid'] = validity_checks # 输出结果 print("数据合理性检查:") print(data[['is_age_valid', 'is_income_valid', 'is_loan_amount_valid', 'is_credit_score_valid', 'is_valid']].describe())
3. 数据清洗和异常值处理
# 标记不合理数据 invalid_rows = data[~data['is_valid']] # 删除不合理数据行 cleaned_data = data[data['is_valid']] # 删除标记列 cleaned_data = cleaned_data.drop(columns=['is_age_valid', 'is_income_valid', 'is_loan_amount_valid', 'is_credit_score_valid', 'is_valid']) # 保存清洗后的数据 .(, index=False) print("数据清洗完成,已保存为 'cleaned_credit_data.csv'")
提示: