简介
Scikit-learn是Python编程语言的免费机器学习库。Scikit-learn基于 NumPy、SciPy 和 matplotlib Python科学计算库构建,是一个简单高效的预测数据分析工具。Scikit-learn具有各种分类、回归和聚类算法,包括支持向量机、随机森林、梯度提升、k-平均聚类和DBSCAN(基于密度的聚类算法)。由于Scikit-learn用户友好的界面和许多可用的算法,是最常见的经典机器学习框架之一。Scikit-learn遵循开源BSD许可协议。
发展历史
scikit-learn始于2007年法国数学科学家David Cournapeau的一个 Google Summer of Code项目。起初该项目名称源自成为“SciKit”(SciPy Toolkit)的想法,是想作为SciPy 的一个独立开发和发行的第三方扩展。后来,Matthieu Brucher加入了该项目, 并将其作为自己论文的一部分。
2010年,法国计算机科学与自动化研究所的Fabian Pedregosa、Gael Varoquaux、Alexandre Gramfort和Vincent Michel接管了这个项目,并在2010年2月1日发布了第一个公开版本(v0.1 beta)。目前,scikit-learn最新版本是 1.3.0。
scikit-learn 工具
Scikit learn为各种机器学习任务提供了一些工具,用于构建、拟合和评估模型:
说明 |
应用 |
算法 |
|
分类(Classification) |
标识对象所属的类别 |
垃圾邮件检测,图像识别 |
梯度增强、最近邻、随机森林、逻辑回归 |
回归(Regression) |
预测与对象相关联的连续值属性 |
药物反应、股票价格 |
梯度增强、最近邻、随机森林、脊回归等 |
聚类(Clustering) |
自动将相似对象归类成组 |
客户细分、实验结果分组 |
K-Means、HDBSCAN、分层聚类等 |
降维(Dimensionality reduction) |
减少需要考虑的随机变量的数量 |
可视化、提高效率 |
PCA,特征选择,非负矩阵分解 |
模型选择(Model selection) |
比较、验证和选择参数与模型 |
通过参数调整提高精度 |
网格搜索、交叉验证、度量等 |
预处理(Preprocessing) |
特征提取和归一化 |
转换输入数据,如用于机器学习算法的文本 |
预处理、特征提取等 |
小结
Scikit–learn是一个用于机器学习的Python库,是一种简单高效的数据挖掘和数据分析工具,具有各种分类、回归和聚类算法,包括支持向量机、随机森林、梯度增强和k-means。
Scikit learn 可用于有监督和无监督的机器学习算法,是最常见的经典机器学习框架之一。随着机器学习领域的不断发展,scikit-learn 将会会发挥越来越重要的作用。
评论留言