Python机器学习库scikit-learn入门开发示例

更新时间：2022年07月28日 10:51:07 作者：m0_65187443

scikit-learn是一个开源Python语言机器学习工具包，它涵盖了几乎所有主流机器学习算法的实现，并且提供了一致的调用接口。它基于Numpy和scipy等Python数值计算库，提供了高效的算法实现

1.数据采集和标记

先采集数据，再对数据进行标记。其中采集数据要就有代表性，以确保最终训练出来模型的准确性。

2.特征选择

选择特征的直观方法：直接使用图片的每个像素点作为一个特征。

数据保存为样本个数×特征个数格式的array对象。scikit-learn使用Numpy的array对象来表示数据，所有的图片数据保存在digits.images里，每个元素都为一个8×8尺寸的灰阶图片。

3.数据清洗

把采集到的、不合适用来做机器学习训练的数据进行预处理，从而转换为合适机器学习的数据。

目的：减少计算量，确保模型稳定性。

4.模型选择

对于不同的数据集，选择不同的模型有不同的效率。因此在选择模型要考虑很多的因素，来提高最终选择模型的契合度。

5.模型训练

在进行模型训练之前，要将数据集划分为训练数据集和测试数据集，再利用划分好的数据集进行模型训练，最后得到我们训练出来的模型参数。

6.模型测试

模型测试的直观方法：用训练出来的模型预测测试数据集，然后将预测出来的结果与真正的结果进行比较，最后比较出来的结果即为模型的准确度。

scikit-learn提供的完成这项工作的方法：

clf . score ( Xtest , Ytest)

除此之外，还可以直接把测试数据集里的部分图片显示出来，并且在图片的左下角显示预测值，右下角显示真实值。

7.模型保存与加载

当我们训练出一个满意的模型后即可将模型保存下来，这样当下次需要预测时，可以直接利用此模型进行预测，不用再一次进行模型训练。

8.实例

数据采集和标记

#导入库
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
"""
sk-learn库中自带了一些数据集
此处使用的就是手写数字识别图片的数据
"""
# 导入sklearn库中datasets模块
from sklearn import datasets
# 利用datasets模块中的函数load_digits()进行数据加载
digits = datasets.load_digits()
# 把数据所代表的图片显示出来
images_and_labels = list(zip(digits.images, digits.target))
plt.figure(figsize=(8, 6))
for index, (image, label) in enumerate(images_and_labels[:8]):
    plt.subplot(2, 4, index + 1)
    plt.axis('off')
    plt.imshow(image, cmap=plt.cm.gray_r, interpolation='nearest')
    plt.title('Digit: %i' % label, fontsize=20);

特征选择

# 将数据保存为 样本个数x特征个数 格式的array对象 的数据格式进行输出
# 数据已经保存在了digits.data文件中
print("shape of raw image data: {0}".format(digits.images.shape))
print("shape of data: {0}".format(digits.data.shape))

模型训练

# 把数据分成训练数据集和测试数据集（此处将数据集的百分之二十作为测试数据集）
from sklearn.model_selection import train_test_split
Xtrain, Xtest, Ytrain, Ytest = train_test_split(digits.data, digits.target, test_size=0.20, random_state=2);
# 使用支持向量机来训练模型
from sklearn import svm
clf = svm.SVC(gamma=0.001, C=100., probability=True)
# 使用训练数据集Xtrain和Ytrain来训练模型
clf.fit(Xtrain, Ytrain);

模型测试

"""
sklearn.metrics.accuracy_score(y_true, y_pred, normalize=True, sample_weight=None)
normalize：默认值为True，返回正确分类的比例；如果为False，返回正确分类的样本数
"""
# 评估模型的准确度(此处默认为true，直接返回正确的比例，也就是模型的准确度)
from sklearn.metrics import accuracy_score
# predict是训练后返回预测结果，是标签值。
Ypred = clf.predict(Xtest);
accuracy_score(Ytest, Ypred)

模型保存与加载

"""
将测试数据集里的部分图片显示出来
图片的左下角显示预测值，右下角显示真实值
"""
# 查看预测的情况
fig, axes = plt.subplots(4, 4, figsize=(8, 8))
fig.subplots_adjust(hspace=0.1, wspace=0.1)
for i, ax in enumerate(axes.flat):
    ax.imshow(Xtest[i].reshape(8, 8), cmap=plt.cm.gray_r, interpolation='nearest')
    ax.text(0.05, 0.05, str(Ypred[i]), fontsize=32,
            transform=ax.transAxes,
            color='green' if Ypred[i] == Ytest[i] else 'red')
    ax.text(0.8, 0.05, str(Ytest[i]), fontsize=32,
            transform=ax.transAxes,
            color='black')
    ax.set_xticks([])
    ax.set_yticks([])

# 保存模型参数
import joblib
joblib.dump(clf, 'digits_svm.pkl');

保存模型参数过程中出现如下错误：

原因：sklearn.externals.joblib函数是用在0.21及以前的版本中，在最新的版本，该函数应被弃用。

解决方法：将 from sklearn.externals import joblib改为 import joblib

# 导入模型参数，直接进行预测
clf = joblib.load('digits_svm.pkl')
Ypred = clf.predict(Xtest);
clf.score(Xtest, Ytest)

到此这篇关于Python机器学习库scikit-learn入门开发示例的文章就介绍到这了,更多相关Python scikit-learn内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python打印数据类型的全过程
这篇文章主要介绍了Python打印数据类型的全过程，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2022-05-05
Python中的数据分析详解
这篇文章主要介绍了Python中的数据分析详解,对数据进行分析，数据分析是指根据分析目的，用适当的统计分析方法及工具，对收集来的数据进行处理与分析，提取有价值的信息，发挥数据的作用,需要的朋友可以参考下
2023-07-07
python中not not x 与bool(x) 的区别
这篇文章主要介绍了python中not not x 与 bool(x) 的区别，我们就来做一个选择，就是 not not x 和 bool(x) 用哪个比较好？下面一起进入文章看看吧
2021-12-12
pandas中的DataFrame按指定顺序输出所有列的方法
下面小编就为大家分享一篇pandas中的DataFrame按指定顺序输出所有列的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-04-04
详解python使用pip安装第三方库(工具包)速度慢、超时、失败的解决方案
这篇文章主要介绍了详解python使用pip安装第三方库(工具包)速度慢、超时、失败的解决方案，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2018-12-12
python snownlp情感分析简易demo(分享)
下面小编就为大家带来一篇python snownlp情感分析简易demo(分享)。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2017-06-06
Python+Pytorch实战之彩色图片识别
这篇文章主要为大家详细介绍了如何利用Python+Pytorch实现彩色图片识别功能，文中的示例代码讲解详细，感兴趣的小伙伴可以了解一下
2022-09-09
python优化数据预处理方法Pandas pipe详解
在本文中，我们将重点讨论一个将多个预处理操作组织成单个操作的特定函数：pipe。我将通过示例方式来展示如何使用它，让我们从数据创建数据帧开始吧
2021-11-11
tensorflow实现读取模型中保存的值 tf.train.NewCheckpointReader
今天小编就为大家分享一篇tensorflow实现读取模型中保存的值 tf.train.NewCheckpointReader，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-02-02
Python Process创建进程的2种方法详解
这篇文章主要介绍了Python Process创建进程的2种方法详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2021-01-01