python基于ID3思想的决策树

更新时间：2018年01月03日 10:34:52 作者：leeliyang

这篇文章主要为大家详细介绍了python基于ID3思想的决策树，具有一定的参考价值，感兴趣的小伙伴们可以参考一下

这是一个判断海洋生物数据是否是鱼类而构建的基于ID3思想的决策树，供大家参考，具体内容如下

# coding=utf-8
import operator
from math import log
import time


def createDataSet():
  dataSet = [[1, 1, 'yes'],
        [1, 1, 'yes'],
        [1, 0, 'no'],
        [0, 1, 'no'],
        [0, 1, 'no'],
        [0,0,'maybe']]
  labels = ['no surfaceing', 'flippers']
  return dataSet, labels


# 计算香农熵
def calcShannonEnt(dataSet):
  numEntries = len(dataSet)
  labelCounts = {}
  for feaVec in dataSet:
    currentLabel = feaVec[-1]
    if currentLabel not in labelCounts:
      labelCounts[currentLabel] = 0
    labelCounts[currentLabel] += 1
  shannonEnt = 0.0
  for key in labelCounts:
    prob = float(labelCounts[key]) / numEntries
    shannonEnt -= prob * log(prob, 2)
  return shannonEnt


def splitDataSet(dataSet, axis, value):
  retDataSet = []
  for featVec in dataSet:
    if featVec[axis] == value:
      reducedFeatVec = featVec[:axis]
      reducedFeatVec.extend(featVec[axis + 1:])
      retDataSet.append(reducedFeatVec)
  return retDataSet


def chooseBestFeatureToSplit(dataSet):
  numFeatures = len(dataSet[0]) - 1 # 因为数据集的最后一项是标签
  baseEntropy = calcShannonEnt(dataSet)
  bestInfoGain = 0.0
  bestFeature = -1
  for i in range(numFeatures):
    featList = [example[i] for example in dataSet]
    uniqueVals = set(featList)
    newEntropy = 0.0
    for value in uniqueVals:
      subDataSet = splitDataSet(dataSet, i, value)
      prob = len(subDataSet) / float(len(dataSet))
      newEntropy += prob * calcShannonEnt(subDataSet)
    infoGain = baseEntropy - newEntropy
    if infoGain > bestInfoGain:
      bestInfoGain = infoGain
      bestFeature = i
  return bestFeature


# 因为我们递归构建决策树是根据属性的消耗进行计算的，所以可能会存在最后属性用完了，但是分类
# 还是没有算完，这时候就会采用多数表决的方式计算节点分类
def majorityCnt(classList):
  classCount = {}
  for vote in classList:
    if vote not in classCount.keys():
      classCount[vote] = 0
    classCount[vote] += 1
  return max(classCount)


def createTree(dataSet, labels):
  classList = [example[-1] for example in dataSet]
  if classList.count(classList[0]) == len(classList): # 类别相同则停止划分
    return classList[0]
  if len(dataSet[0]) == 1: # 所有特征已经用完
    return majorityCnt(classList)
  bestFeat = chooseBestFeatureToSplit(dataSet)
  bestFeatLabel = labels[bestFeat]
  myTree = {bestFeatLabel: {}}
  del (labels[bestFeat])
  featValues = [example[bestFeat] for example in dataSet]
  uniqueVals = set(featValues)
  for value in uniqueVals:
    subLabels = labels[:] # 为了不改变原始列表的内容复制了一下
    myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet,
                                bestFeat, value), subLabels)
  return myTree


def main():
  data, label = createDataSet()
  t1 = time.clock()
  myTree = createTree(data, label)
  t2 = time.clock()
  print myTree
  print 'execute for ', t2 - t1


if __name__ == '__main__':
  main()

最后我们测试一下这个脚本即可，如果想把这个生成的决策树用图像画出来，也只是在需要在脚本里面定义一个plottree的函数即可。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

python判断字符串或者集合是否为空的实例
今天小编就为大家分享一篇python判断字符串或者集合是否为空的实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-01-01
vscode autopep8无法格式化python代码问题解决
这篇文章主要为大家介绍了vscode autopep8无法格式化python代码问题解决,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
2023-09-09
python神经网络Densenet模型复现详解
这篇文章主要为大家介绍了python神经网络Densenet模型复现详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2022-05-05
python仿evething的文件搜索器实例代码
这篇文章主要介绍了python仿evething的文件搜索器，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2019-05-05
使用paramiko远程执行命令、下发文件的实例
下面小编就为大家带来一篇使用paramiko远程执行命令、下发文件的实例。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2017-10-10
Python基础教程之错误和异常的处理方法
程序在运行时,如果python解释器遇到一个错误,会停止程序的执行,并且提示一些错误信息,这就是异常,下面这篇文章主要给大家介绍了关于Python基础教程之错误和异常的处理方法,需要的朋友可以参考下
2022-05-05
Python光学仿真wxpython透镜演示系统初始化与参数调节
这篇文章主要为大家介绍了Python光学仿真wxpython透镜演示系统的初始化与参数调节，同样在学习wxpython透镜演示系统的入门同学可以借鉴参考下，希望能够有所帮助
2021-10-10
keras 多任务多loss实例
这篇文章主要介绍了keras 多任务多loss实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-06-06
Python re.findall中正则表达式(.*?)和参数re.S使用
本文主要介绍了Python re.findall中正则表达式(.*?)和参数re.S使用，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2022-08-08
Python pickle类库介绍（对象序列化和反序列化）
这篇文章主要介绍了Python pickle类库介绍（对象序列化和反序列化）,本文讲解了pickle库的作用、pickle的运行过程、使用实例、修改picklable类型的默认行为等内容,需要的朋友可以参考下
2014-11-11

python基于ID3思想的决策树

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具