Python 机器学习工具包SKlearn的安装与使用

 更新时间:2021年05月14日 15:36:26   作者:youcans  
Sklearn(全称 SciKit-Learn),是基于 Python 语言的机器学习工具包。本文将简单的介绍SKlearn安装与使用,想要入坑机器学习的同学可以参考下

1、SKlearn 是什么

  Sklearn(全称 SciKit-Learn),是基于 Python 语言的机器学习工具包。

  Sklearn 主要用Python编写,建立在 Numpy、Scipy、Pandas 和 Matplotlib 的基础上,也用 Cython编写了一些核心算法来提高性能。

  Sklearn 包括六大功能模块:

  • 分类(Classification):识别样本属于哪个类别,常用算法有 SVM(支持向量机)、nearest neighbors(最近邻)、random forest(随机森林)
  • 回归(Regression):预测与对象相关联的连续值属性,常用算法有 SVR(支持向量机)、 ridge regression(岭回归)、Lasso
  • 聚类(Clustering):对样本进行无监督的自动分类,常用算法有 k-Means(k均值)、spectral clustering(特征聚类)、mean-shift(均值漂移)
  • 数据降维(Dimensionality reduction):减少相关变量维数,常用算法有 PCA(主成分分析)、feature selection(特征选择)、non-negative matrix factorization(非负矩阵分解)
  • 模型选择(Model Selection):比较,验证,选择参数和模型,常用模块有 grid search(网格搜索)、cross validation(交叉验证)、 metrics(度量)
  • 数据处理 (Preprocessing):特征提取和归一化,常用模块有 preprocessing(预处理),feature extraction(特征提取)
  • 这六个功能模块涉及 4类算法,分类、回归 属于监督学习,聚类属于非监督学习。

  官网地址:https://scikit-learn.org/

  官方文档中文版: https://www.scikitlearn.com.cn/

  内置数据集:https://scikit-learn.org/stable/datasets.html

2、SKlearn 的安装

  Sklearn 的安装要求:Python 3.5 以上版本,需要安装 NumPy、SciPy、Pandas 工具包的支持,部分内容需要使用 Matplotlib、joblib 工具包。

  pip 安装命令:  

pip3 install -U scikit-learn
pip3 install -U scikit-learn -i https://pypi.douban.com/simple

  注意 Sklearn 建议安装 Numpy+mkl,可以在网址http://www.lfd.uci.edu/~gohlke/pythonlibs/ 找到你需要的numpy+mkl版本,下载后 pip3安装:

pip install numpy-1.11.1+mkl-cp27-cp27m-win_amd64.whl

3、SKlearn 内置数据集

  Sklearn 内置了一些标准数据集可以用于练习和测试,都是经常被引用的经典问题,数据网址:https://scikit-learn.org/stable/datasets.html  
  Sklearn 标准数据集主要包括:

测试问题数据集

  • 波士顿房价:Boston house prices dataset
  • 鸢尾花问题:Iris plants dataset
  • 糖尿病数据:Diabetes dataset
  • 手写数字的识别:Optical recognition of handwritten digits dataset
  • 体能训练:Linnerrud dataset
  • 葡萄酒鉴别:Wine recognition dataset
  • 威斯康星州癌症诊断:reast cancer wisconsin (diagnostic) dataset

实际问题数据集

  • 人脸数据:The Olivetti faces dataset
  • 20个新闻文本数据:The 20 newsgroups text dataset
  • 标记的人脸数据:The Labeled Faces in the Wild face recognition dataset
  • 森林覆盖类型:Forest covertypes
  • 路透社新闻数据:RCV1 dataset
  • 网络入侵检测数据:Kddcup 99 dataset
  • 加州住房数据:California Housing dataset

4、Sklearn 数模笔记的计划

  粗略看看 Sklearn 的文档,是一个功能强大和丰富的机器学习库,远远超出了数学建模学习的范围。
  基于数模教学的目的,本系列主要对应数模学习中的分类、聚类、降维问题,并不打算全面讲解 Sklearn 的各种算法,而是以典型问题为例来介绍原理简单、使用广泛的基本方法,以便新手入门。

以上就是Python 机器学习工具包SKlearn的安装与使用的详细内容,更多关于Python SKlearn的安装与使用的资料请关注脚本之家其它相关文章!

相关文章

  • 浅析python,PyCharm,Anaconda三者之间的关系

    浅析python,PyCharm,Anaconda三者之间的关系

    Python是一种跨平台的计算机程序设计语言,简单来说,python就是类似于C,Java,C++等,一种编程语言。这篇文章主要介绍了浅析python,PyCharm,Anaconda三者之间的关系,需要的朋友可以参考下
    2019-11-11
  • Python中Socket编程底层原理解析与应用实战

    Python中Socket编程底层原理解析与应用实战

    Socket编程是网络通信的基础,Python通过内置的socket模块提供了强大的网络编程接口,本文将结合实际案例,详细介绍Python中Socket编程的基本概念、常用方法和实际应用,需要的朋友可以参考下
    2024-08-08
  • 基于python实现分析识别文章/内容中的高频词和关键词

    基于python实现分析识别文章/内容中的高频词和关键词

    要分析一篇文章的高频词和关键词,可以使用 Python 中的 nltk 库和 collections 库或者jieba库来实现,本篇文章介绍基于两种库分别实现分析内容中的高频词和关键词,需要的朋友可以参考下
    2023-09-09
  • Python利用pandas计算多个CSV文件数据值的实例

    Python利用pandas计算多个CSV文件数据值的实例

    下面小编就为大家分享一篇Python利用pandas计算多个CSV文件数据值的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-04-04
  • Python Numpy 数组的初始化和基本操作

    Python Numpy 数组的初始化和基本操作

    Python 是一种高级的,动态的,多泛型的编程语言。接下来通过本文给大家介绍Python Numpy 数组的初始化和基本操作,感兴趣的朋友一起看看吧
    2018-03-03
  • Python进行图片验证码识别方法步骤

    Python进行图片验证码识别方法步骤

    这篇文章主要给大家介绍了关于Python进行图片验证码识别的相关资料,基于Python和OpenCV的验证码识别系统具有重要的研究意义和实际应用价值,文中通过代码介绍的非常详细,需要的朋友可以参考下
    2023-09-09
  • Python基础面向对象之继承与派生详解

    Python基础面向对象之继承与派生详解

    这篇文章主要为大家介绍了Python基础面向对象之继承与派生详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-11-11
  • 基于python模拟TCP3次握手连接及发送数据

    基于python模拟TCP3次握手连接及发送数据

    这篇文章主要介绍了基于python模拟TCP3次握手连接及发送数据,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-11-11
  • Python 包含汉字的文件读写之每行末尾加上特定字符

    Python 包含汉字的文件读写之每行末尾加上特定字符

    这篇文章主要介绍了Python 包含汉字的文件读写之每行末尾加上特定字符的相关资料,需非常不错,具有参考借鉴价值,要的朋友可以参考下
    2016-12-12
  • 使用Python的turtle模块画国旗

    使用Python的turtle模块画国旗

    这篇文章主要为大家详细介绍了用Python的turtle模块画国旗,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-09-09

最新评论