1.1.3 信用数据审核

请根据题目要求，在下方空白处填入正确代码（点击 💡 按钮查看提示）

数据集说明

文件名：credit_data.csv

核心字段：CustomerID、Age、Income、LoanAmount、CreditScore、Default
任务目标：完整性审核 + 合理性审核 + 清洗并导出结果

请完成下方填空，程序应输出统计结果并生成 cleaned_credit_data.csv

导入库并读取数据

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 读取数据集
data = pd.read_csv('credit_data.csv')

1. 数据完整性审核

# 数据缺失值统计 2分 missing_values = data. # 数据重复值统计 2分 duplicate_values = data. # 输出结果 print("缺失值统计:") print(missing_values) print("重复值统计:") print(duplicate_values)

2. 数据合理性审核

data['is_age_valid'] = .(18, 70) # Age数据的合理性审核 2分 data['is_income_valid'] = > # Income数据的合理性审核 2分 data['is_loan_amount_valid'] = < ( * 5) # LoanAmount数据的合理性审核 2分 data['is_credit_score_valid'] = .(300, 850) # CreditScore数据的合理性审核 2分 # 合理性检查结果 validity_checks = data[['is_age_valid', 'is_income_valid', 'is_loan_amount_valid', 'is_credit_score_valid']].all(axis=1) data['is_valid'] = validity_checks # 输出结果 print("数据合理性检查:") print(data[['is_age_valid', 'is_income_valid', 'is_loan_amount_valid', 'is_credit_score_valid', 'is_valid']].describe())

3. 数据清洗和异常值处理

# 标记不合理数据 invalid_rows = data[~data['is_valid']] # 删除不合理数据行 cleaned_data = data[data['is_valid']] # 删除标记列 cleaned_data = cleaned_data.drop(columns=['is_age_valid', 'is_income_valid', 'is_loan_amount_valid', 'is_credit_score_valid', 'is_valid']) # 保存清洗后的数据 .(, index=False) print("数据清洗完成，已保存为 'cleaned_credit_data.csv'")