Python机器学习应用之基于决策树算法的分类预测篇

 更新时间:2022年01月18日 17:10:16   作者:柚子味的羊  
所谓决策树,就是一个类似于流程图的树形结构,树内部的每一个节点代表的是对一个特征的测试,树的分支代表该特征的每一个测试结果,而树的每一个叶子节点代表一个类别。树的最高层是就是根节点

一、决策树的特点

1.优点

  • 具有很好的解释性,模型可以生成可以理解的规则。
  • 可以发现特征的重要程度。
  • 模型的计算复杂度较低。

2.缺点

  • 模型容易过拟合,需要采用减枝技术处理。
  • 不能很好利用连续型特征。
  • 预测能力有限,无法达到其他强监督模型效果。
  • 方差较高,数据分布的轻微改变很容易造成树结构完全不同。

二、决策树的适用场景

  • 决策树模型多用于处理自变量与因变量是非线性的关系。
  • 梯度提升树(GBDT),XGBoost以及LightGBM等先进的集成模型均采用决策树作为基模型。(多粒度联森林模型)
  • 决策树在一些明确需要可解释性或者提取分类规则的场景中被广泛应用。在医疗辅助系统中为了方便专业人员发现错误,常常将决策树算法用于辅助病症检测。

三、demo

#%%demo
##  基础函数库导入
import numpy as np 

## 导入画图库
import matplotlib.pyplot as plt
import seaborn as sns

## 导入决策树模型函数
from sklearn.tree import DecisionTreeClassifier
from sklearn import tree
import pydotplus 
from IPython.display import Image
##Demo演示DecisionTree分类
## 构造数据集
x_fearures = np.array([[-1, -2], [-2, -1], [-3, -2], [1, 3], [2, 1], [3, 2]])
y_label = np.array([0, 1, 0, 1, 0, 1])
## 调用决策树回归模型
tree_clf = DecisionTreeClassifier()
## 调用决策树模型拟合构造的数据集
tree_clf = tree_clf.fit(x_fearures, y_label)
## 可视化构造的数据样本点
plt.figure()
plt.scatter(x_fearures[:,0],x_fearures[:,1], c=y_label, s=50, cmap='viridis')
plt.title('Dataset')
plt.show()
## 可视化决策树
import graphviz
dot_data = tree.export_graphviz(tree_clf, out_file=None)
graph = pydotplus.graph_from_dot_data(dot_data)
graph.write_pdf("D:\Python\ML\DecisionTree.pdf") 
# 模型预测
## 创建新样本
x_fearures_new1 = np.array([[0, -1]])
x_fearures_new2 = np.array([[2, 1]])

## 在训练集和测试集上分布利用训练好的模型进行预测
y_label_new1_predict = tree_clf.predict(x_fearures_new1)
y_label_new2_predict = tree_clf.predict(x_fearures_new2)

print('The New point 1 predict class:\n',y_label_new1_predict)
print('The New point 2 predict class:\n',y_label_new2_predict)

运行结果

训练集决策树

明天继续,还有一个决策树在真实数据集上的应用,明天出。先搞课题~

到此这篇关于Python机器学习应用之基于决策树算法的分类预测篇的文章就介绍到这了,更多相关Python 决策树算法内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python中mediapipe库踩过的坑实战记录

    python中mediapipe库踩过的坑实战记录

    MediaPipe是由google制作的开源的、跨平台的机器学习框架,可以将一些模型部署到不同的平台和设备上使用的同时,也能保住检测速度,下面这篇文章主要给大家介绍了关于python中mediapipe库踩过的坑的相关资料,需要的朋友可以参考下
    2023-04-04
  • tensorflow/core/platform/cpu_feature_guard.cc:140] Your CPU supports instructions that this T

    tensorflow/core/platform/cpu_feature_guard.cc:140] Your CPU

    这篇文章主要介绍了tensorflow/core/platform/cpu_feature_guard.cc:140] Your CPU supports instructions that this T的相关知识,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-06-06
  • Python 实现取多维数组第n维的前几位

    Python 实现取多维数组第n维的前几位

    今天小编就为大家分享一篇Python 实现取多维数组第n维的前几位,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-11-11
  • TensorFlow神经网络构造线性回归模型示例教程

    TensorFlow神经网络构造线性回归模型示例教程

    这篇文章主要为大家介绍了TensorFlow构造线性回归模型示例教程,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步
    2021-11-11
  • python入门学习之自带help功能初步使用示例

    python入门学习之自带help功能初步使用示例

    这篇文章主要为大家介绍了python入门学习自带help功能初步使用示例,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-03-03
  • Python实现简易五子棋游戏

    Python实现简易五子棋游戏

    这篇文章主要为大家详细介绍了Python实现简易五子棋游戏,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-05-05
  • Python基础之赋值,浅拷贝,深拷贝的区别

    Python基础之赋值,浅拷贝,深拷贝的区别

    这篇文章主要介绍了Python基础之赋值,浅拷贝,深拷贝的区别,文中有非常详细的代码示例,对正在学习python基础的小伙伴们也有非常好的帮助,需要的朋友可以参考下
    2021-04-04
  • 使用Python的time库格式化时间的方法

    使用Python的time库格式化时间的方法

    通过使用Python的time库,我们可以方便地进行时间处理、格式化、解析和计算等操作,本文介绍了time库的一些常见功能和使用方法,包括格式化时间、解析时间戳、获取当前时间、计算时间差等,感兴趣的朋友一起看看吧
    2023-11-11
  • Pandas数值排序 sort_values()的使用

    Pandas数值排序 sort_values()的使用

    本文主要介绍了Pandas数值排序 sort_values()的使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-07-07
  • pandas || df.dropna() 缺失值删除操作

    pandas || df.dropna() 缺失值删除操作

    这篇文章主要介绍了pandas || df.dropna() 缺失值删除操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-03-03

最新评论