首页  思维导图  详情

【机器学习库】--sklearn

2021-04-22 10:19:12   1  举报





AI智能生成

机器学习库

机器学习

作者其他创作

大纲/内容

降维

模型选择

预处理

分类

逻辑回归

逻辑回归算法

MSE(平方均值损失函数)

交叉熵(分类预测损失函数)

本质是多元线性回归

逻辑回归的二分类

为什么阈值是0.5的二分类

逻辑回归的多分类

本质

回归

1.1. 广义线性模型

最小二乘法

岭回归

最小二乘法

惩罚项

如何把握正确率和泛化能力的关系

sklearn

Ridge

使用场景

只要数据线性相关，用LinearRegression拟合的不是很好，需要正则化，可以考虑使用RidgeCV回归, 如何输入特征的维度很高,而且是稀疏线性关系的话， RidgeCV就不太合适,考虑使用Lasso回归类家族

参数介绍

clf.predict(X)

clf.fit(X, y)

solver：求解器，有auto, svd, cholesky, sparse_cg, lsqr几种，一般我们选择auto

tol: 控制求解的精度

copy_X：复制或者重写

normalize：输入的样本特征归一化，默认false

fit_intercept：默认为true，数据可以拦截，没有中心化

alpha：上面提到的两项之间的权重

max_iter：最大迭代次数

Lasso

参数介绍

random_state : int, RandomState instance, 或者 None (默认值)

selection : str, 默认 ‘cyclic’

positive : bool, 可选

warm_start : bool, 可选

tol : float, 可选

max_iter : int, 可选

precompute : True | False | array-like, 默认=False

copy_X : boolean, 可选, 默认 True

normalize : boolean, 可选, 默认 False

fit_intercept : boolean

alpha : float, 可选，默认 1.0

使用场景

对于高维度的特征数据

线性关系是稀疏的

一堆特征里面找出主要的特征

Elastic Net

参数介绍

eps：float，可选

l1_ratio：浮点数或浮点数组，可选

n_alphas：int，可选

alphas：numpy数组，可选

fit_intercept：boolean

normalize：布尔值，可选，默认为False

precompute：True | 错误| 'auto'| 阵列状

max_iter：int，可选

tol：float，可选

cv：int，交叉验证生成器或可迭代的，可选的

copy_X：boolean，optional，默认为True

n_jobs：整数，可选

子主题

random_state：int，RandomState实例或None，可选，默认无

使用场景

Lasso太多特征被稀疏为0

Ridge回归也正则化的不够(回归系数衰减太慢)

LinearRegression

使用场景

线性相关数据首选

参数介绍

n_jobs：int，optional，默认值1

copy_X：boolean，optional，默认为True

normalize：布尔值，可选，默认为False

fit_intercept：boolean，optional，默认为True

polynomial features

1.2. 线性和二次判别分析

1.3. 内核岭回归

1.4. 支持向量机

1.5. 随机梯度下降

1.6. 最近邻

1.7. 高斯过程

1.8. 交叉分解

1.9. 朴素贝叶斯

1.10. 决策树

1.11. 集成方法

1.12. 多类和多标签算法

1.13. 特征选择

1.14. 半监督学习

1.15. 等式回归

1.16. 概率校准

1.17. 神经网络模型（有监督）

过拟合

防止过拟合的方法

模型的参数越少越好

模型参数W的值越小越好

正则化

聚类

 收藏

立即使用

如果没有今天，明天会不会有昨天

 收藏

立即使用

记忆宫殿

 收藏

立即使用

第七章产品生命周期管理

 收藏

立即使用

NPDP产品经理认证

pandaboy Liu

职业： Data Analyst

去主页





0 条评论

下一页

为你推荐

查看更多

