流程
2022-06-20 20:03:42 4 举报
AI智能生成
408专用
作者其他创作
大纲/内容
分支主题
确定分类或回归
数据集YX
训练集,验证集划分(test0.33 random42)
选择算法,及评价指标:回归:MSE,分类:准确率
import numpy as npimport pandas as pdtrain = pd.read_csv(r\"C:\\Users\\Administrator\\Desktop\\train.csv\")data[:10]
train.info()
train['feature_1'].value_counts() train['feature_2'].value_counts() train['feature_3'].value_counts()
子主题
data =pd.read_csv(r\"C:\\Users\\Administrator\\Desktop\\train.csv\
historical_transactions = pd.read_csv(r\"C:\\Users\\Administrator\\Desktop\\historical_transactions.csv\")historical_transactions[:5]
historical_transactions_3month =historical_transactions.loc[historical_transactions['month_lag'] > -4]historical_transactions_3month.info()
del historical_transactionsimport gcgc.collect()
## 参考代码# 统计分布计算historical_transactions_3month['purchase_amount'].describe()
## 参考代码# 直方图historical_transactions_3month['purchase_amount'].hist()
合并新合成的特征数据集至train.csv数据集,得到新的训练数据;合并过程中,可能存在部分持卡人在近3个月内无消费行为的情况,导致存在缺失值。因此可以将合并后数据集中缺失值填充为0。
# ############################################################################## Plot feature importanceimport numpy as npfeature_importance = est.feature_importances_# make importances relative to max importancefeature_importance = 100.0 * (feature_importance / feature_importance.max())sorted_idx = np.argsort(feature_importance)pos = np.arange(sorted_idx.shape[0]) + .5
通过绘制特征重要性分布图,分析模型特征重要性
train_add_history_3month.to_csv(\"./data/loyalty/train_add_hist_3month.csv\
保存
例子
流程
0 条评论
回复 删除
下一页