【机器学习库】--sklearn
2021-04-22 10:19:12 0 举报
AI智能生成
机器学习库
作者其他创作
大纲/内容
降维
模型选择
预处理
分类
逻辑回归
逻辑回归算法
MSE(平方均值损失函数)
交叉熵(分类预测损失函数)
本质是多元线性回归
逻辑回归的二分类
为什么阈值是0.5的二分类
逻辑回归的多分类
本质
回归
1.1. 广义线性模型
最小二乘法
岭回归
最小二乘法
惩罚项
如何把握正确率和泛化能力的关系
sklearn
Ridge
使用场景
只要数据线性相关,用LinearRegression拟合的不是很好,需要正则化,可以考虑使用RidgeCV回归, 如何输入特征的维度很高,而且是稀疏线性关系的话, RidgeCV就不太合适,考虑使用Lasso回归类家族
参数介绍
clf.predict(X)
clf.fit(X, y)
solver:求解器,有auto, svd, cholesky, sparse_cg, lsqr几种,一般我们选择auto
tol: 控制求解的精度
copy_X:复制或者重写
normalize:输入的样本特征归一化,默认false
fit_intercept:默认为true,数据可以拦截,没有中心化
alpha:上面提到的两项之间的权重
max_iter:最大迭代次数
Lasso
参数介绍
random_state : int, RandomState instance, 或者 None (默认值)
selection : str, 默认 ‘cyclic’
positive : bool, 可选
warm_start : bool, 可选
tol : float, 可选
max_iter : int, 可选
precompute : True | False | array-like, 默认=False
copy_X : boolean, 可选, 默认 True
normalize : boolean, 可选, 默认 False
fit_intercept : boolean
alpha : float, 可选,默认 1.0
使用场景
对于高维度的特征数据
线性关系是稀疏的
一堆特征里面找出主要的特征
Elastic Net
参数介绍
eps:float,可选
l1_ratio:浮点数或浮点数组,可选
n_alphas:int,可选
alphas:numpy数组,可选
fit_intercept:boolean
normalize:布尔值,可选,默认为False
precompute:True | 错误| 'auto'| 阵列状
max_iter:int,可选
tol:float,可选
cv:int,交叉验证生成器或可迭代的,可选的
copy_X:boolean,optional,默认为True
n_jobs:整数,可选
子主题
random_state:int,RandomState实例或None,可选,默认无
使用场景
Lasso太多特征被稀疏为0
Ridge回归也正则化的不够(回归系数衰减太慢)
LinearRegression
使用场景
线性相关数据首选
参数介绍
n_jobs:int,optional,默认值1
copy_X:boolean,optional,默认为True
normalize:布尔值,可选,默认为False
fit_intercept:boolean,optional,默认为True
polynomial features
1.2. 线性和二次判别分析
1.3. 内核岭回归
1.4. 支持向量机
1.5. 随机梯度下降
1.6. 最近邻
1.7. 高斯过程
1.8. 交叉分解
1.9. 朴素贝叶斯
1.10. 决策树
1.11. 集成方法
1.12. 多类和多标签算法
1.13. 特征选择
1.14. 半监督学习
1.15. 等式回归
1.16. 概率校准
1.17. 神经网络模型(有监督)
过拟合
防止过拟合的方法
模型的参数越少越好
模型参数W的值越小越好
正则化
聚类
0 条评论
下一页