【机器学习库】--sklearn
2021-04-22 10:19:12 0 举报
AI智能生成
机器学习库
作者其他创作
大纲/内容
降维
模型选择
预处理
scikit-learn
分类
逻辑回归
逻辑回归算法
MSE(平方均值损失函数)
交叉熵(分类预测损失函数)
本质是多元线性回归
逻辑回归的二分类
为什么阈值是0.5的二分类
逻辑回归的多分类
本质
回归
1.1. 广义线性模型
最小二乘法
岭回归
惩罚项
如何把握正确率和泛化能力的关系
sklearn
Ridge
使用场景
参数介绍
clf.predict(X)
tol: 控制求解的精度
copy_X:复制或者重写
normalize:输入的样本特征归一化,默认false
fit_intercept:默认为true,数据可以拦截,没有中心化
alpha:上面提到的两项之间的权重
max_iter:最大迭代次数
Lasso
fit_intercept : boolean
对于高维度的特征数据
线性关系是稀疏的
一堆特征里面找出主要的特征
Elastic Net
eps:float,可选
l1_ratio:浮点数或浮点数组,可选
n_alphas:int,可选
alphas:numpy数组,可选
fit_intercept:boolean
normalize:布尔值,可选,默认为False
precompute:True | 错误| 'auto'| 阵列状
max_iter:int,可选
tol:float,可选
cv:int,交叉验证生成器或可迭代的,可选的
copy_X:boolean,optional,默认为True
n_jobs:整数,可选
子主题
random_state:int,RandomState实例或None,可选,默认无
Lasso太多特征被稀疏为0
Ridge回归也正则化的不够(回归系数衰减太慢)
LinearRegression
线性相关数据首选
n_jobs:int,optional,默认值1
fit_intercept:boolean,optional,默认为True
polynomial features
1.2. 线性和二次判别分析
1.3. 内核岭回归
1.4. 支持向量机
1.5. 随机梯度下降
1.6. 最近邻
1.7. 高斯过程
1.8. 交叉分解
1.9. 朴素贝叶斯
1.10. 决策树
1.11. 集成方法
1.12. 多类和多标签算法
1.13. 特征选择
1.14. 半监督学习
1.15. 等式回归
1.16. 概率校准
1.17. 神经网络模型(有监督)
过拟合
防止过拟合的方法
模型的参数越少越好
模型参数W的值越小越好
正则化
聚类
0 条评论
回复 删除
下一页