scikit-learn
2016-08-26 17:41:11 0 举报
AI智能生成
scikit-learn是一个用于机器学习的Python库,提供了大量简单高效的工具,可以用于数据预处理、特征选择、模型构建和评估等任务。它包含了各种经典的机器学习算法,如线性回归、逻辑回归、决策树、随机森林、支持向量机等,同时也支持深度学习、聚类分析等多种高级功能。scikit-learn具有简洁的API设计,易于学习和使用,是Python机器学习领域最受欢迎的开源库之一。无论是初学者还是专业研究人员,都可以通过scikit-learn快速实现自己的机器学习应用。
作者其他创作
大纲/内容
Supervised learning监督学习
classification分类
regression回归
Generalized Linear Models广义线性模型
Ordinary Least Squares普通最小二乘法
残差平方和最小
样本数量n,特征数量p
n>>p
较小方差
n=p
过拟合
n<<p
结果无意义
特征间有相互关系,共线性
Ridge Regression岭回归
子主题
Lasso
Linear and Quadratic Discriminant Analysis线性和二次判别分析
Kernel ridge regression核岭回归
Support Vector Machines支持向量机
支持向量机
分隔超平面
支持向量:离分隔超平面最近的点
最大化支持向量到分隔面的距离
Stochastic Gradient Descent (SGD)随机梯度下降
优点
高效
易于实现
缺点
需要大量参数和迭代
对特征缩放敏感
Nearest Neighbors近邻
寻找近邻
NearestNeighbors
KDTree
Gaussian Processes高斯过程
Naive Bayes
条件概率/贝叶斯准则
Decision Trees
决策树
Ensemble methods集成方法
Multiclass and multilabel algorithms多类和多重算法
Feature selection特征选择
移除低方差特征
设定一个阈值,某特征由0和1组成,若0占比大于这个阈值,则移除该特征
单因素特征选择
递归特征消除
SelectFromModel特征选择
基于L1的特征选择
随机稀疏模型
基于树的特征选择
Semi-Supervised半监督
Isotonic regression保序回归
Probability calibration概率校准
Neural network models (supervised)神经网络模型
sk
Logistic回归
Sigmoid函数
单位阶跃函数
求最佳拟合参数
梯度上市算法
AdaBoost元算法
对其它算法组合
Unsupervised learning无监督学习
Gaussian Mixture Model高斯混合模型
数据点被assign到cluster的概率
Manifold learning流形学习
流形学习适合非线性降维,数据集维度人为虚高
数据降维
随机数据投影
子主题
Clustering聚类
k均值(k-means)聚类
发现k个不同簇,每个簇的中心采用簇中所含值的均值
随机k个点
将数据集中每个点分配
更新质心为簇的均值
Mini Batch K-Means
每次计算时随机抽取小批量的数据子集减少时间
Affinity Propagation
节点传递消息:吸引度和归属度
Mean Shift
均值偏移
Spectral Clustering
基于图论
Hierarchical clustering
层次
DBSCAN
基于密度
Birch
Biclustering双聚类
Decomposing signals in components组件信号分解
Principal component analysis (PCA)
Covariance estimation协方差估计
Novelty and Outlier Detection奇点和孤立点检测
Novelty Detection异常检测
Outlier Detection孤点检测
Density Estimation密度估计
Histograms直方图
Kernel Density Estimation核密度估计
Neural network models (unsupervised)神经网络模型
Restricted Boltzmann machines限制玻尔兹曼机
Model selection and evaluation模型选择和评估
交叉验证:评估性能
train_test_split
调整估计器的超参数
模型评估
量化预测质量
score
Metric
模型持久性
scores图
验证曲线
学习曲线
Dataset transformations数据集转换
管道和特征组合,合并估计
数据预处理
标准化
符合高斯分布
归一化
先归一化训练集,再用训练集归一化的均值和标准偏差处理测试集
均值方差归一化Zero-mean normalization
正太分布
最大最小归一化Min-max normalization
最大最小值已知
图像处理像素0-255
非线性归一化Non-linear normaliztions
log,exp,arctan, sigmoid
取决于输入输入范围
Length-one normalization
将特征转换为单位向量
不考虑向量大小,只考虑方向
不考虑情感强弱,只考虑类型
二值化
Imputation
缺失值差补
mean
median
most_frequent
PolynomialFeatures
转换成多项式
(X1,X2) -> (X1,X2,X1X1,X1X2,X2X2)
FunctionTransformer
转换器
Dataset loading utilities数据集加载工具
Strategies to scale computationally: bigger data大数据
Computational Performance计算性能
Prediction Latency预测延迟时间
特征量数目
输入数据表征
模型复杂度
特征提取方法
Prediction Throughput预测生产量
多进程
增加机器
0 条评论
下一页