Python Logistic逻辑回归算法使用详解

 更新时间:2024年04月30日 10:05:16   作者:Want595  
这篇文章主要介绍了Python Logistic逻辑回归算法使用的方法和原理,Logistic虽然不是十大经典算法之一,但却是数据挖掘中常用的有力算法,所以这里也专门进行了学习,需要的朋友可以参考下

相关导入

from google.colab import drive
drive.mount("/content/drive")

Mounted at /content/drive

Logistic回归

优点:计算代价不高,易于理解和实现

缺点:容易欠拟合,分类精度可能不高

适用数据类型:数值型和标称型数据

Sigmoid函数

训练算法-使用梯度上升找到最佳参数

def loadDataSet():
  dataMat = []
  labelMat = []
  fr = open('/content/drive/MyDrive/Colab Notebooks/MachineLearning/《机器学习实战》/Logistic回归/Logistic回归/testSet.txt')
  for line in fr.readlines():
    lineArr = line.strip().split()
    dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])
    labelMat.append(int(lineArr[2]))
  return dataMat, labelMat
from math import *
def sigmoid(inX):
  return 1.0/(1+exp(-inX))
from numpy import *
def gradAscent(dataMatIn, classLabels):
  dataMatrix = mat(dataMatIn)
  labelMat = mat(classLabels).transpose()
  m, n = shape(dataMatrix)
  alpha = 0.001
  maxCycles = 500
  weights = ones((n, 1))
  for k in range(maxCycles):
    h = sigmoid(dataMatrix * weights)
    error = (labelMat - h)
    weights = weights + alpha * dataMatrix.transpose() * error
  return weights

这是一个使用梯度上升算法进行逻辑回归的函数。主要步骤如下:

  • 导入numpy库,用于矩阵运算。
  • 定义函数gradAscent,接受输入参数dataMatIn和classLabels。
  • 将dataMatIn和classLabels转化为矩阵,并进行转置,得到dataMatrix和labelMat。
  • 获取dataMatrix的行数m和列数n。
  • 设置学习率alpha为0.001,并设定最大迭代次数maxCycles为500。
  • 初始化权重weights为全1的n行1列矩阵。
  • 进行maxCycles次迭代:

a. 计算当前权重对应的预测结果h,通过sigmoid函数将dataMatrix与weights相乘得到。

b. 计算误差error,即真实标签labelMat与预测结果h的差。

c. 更新权重weights,通过乘以学习率alpha,再乘以dataMatrix的转置,再乘以误差error。

  • 返回最终的权重weights。

总结:该函数通过梯度上升算法求解逻辑回归模型的权重参数,其中使用了sigmoid函数作为激活函数,并通过迭代优化权重参数,使得模型的预测结果与真实标签尽可能接近。最终返回的权重参数可以用于预测新的数据样本的类别。

dataArr, labelMat = loadDataSet()

weights = gradAscent(dataArr, labelMat)

分析数据-画出决策边界

import matplotlib.pyplot as plt
def plotBestFit(weights):
  dataMat, labelMat = loadDataSet()
  dataArr = array(dataMat)
  n = shape(dataArr)[0]
  xcord1 = []
  ycord1 = []
  xcord2 = []
  ycord2 = []
  for i in range(n):
    if int(labelMat[i]) == 1:
      xcord1.append(dataArr[i,1])
      ycord1.append(dataArr[i,2])
    else:
      xcord2.append(dataArr[i,1])
      ycord2.append(dataArr[i,2])
  fig = plt.figure()
  ax = fig.add_subplot(111)
  ax.scatter(xcord1, ycord1, s=30, c='red', marker='s')
  ax.scatter(xcord2, ycord2, s=30, c='green')
  x = arange(-3, 3, 0.1)
  y = (-weights[0]-weights[1]*x) / weights[2]
  ax.plot(x, y)
  plt.xlabel('X1')
  plt.ylabel('X2')
  plt.show()

plotBestFit(weights.getA()) 

训练算法-随机梯度上升

def stocGradAscent0(dataMatrix, classLabels):
  m, n = shape(dataMatrix)
  alpha = 0.01
  weights = ones(n)
  for i in range(m):
    h = sigmoid(sum(dataMatrix[i] * weights))
    error = classLabels[i] - h
    weights = weights + alpha * error * dataMatrix[i]
  return weights
dataArr, labelMat = loadDataSet()
weights = stocGradAscent0(array(dataArr), labelMat)

改进算法-优化梯度算法

def stocGradAscent1(dataMatrix, classLabels, numIter=150):
  m, n = shape(dataMatrix)
  weights = ones(n)
  for j in range(numIter):
    dataIndex = list(range(m))
    for i in range(m):
      alpha = 4/(1+j+i)+0.01
      randIndex = int(random.uniform(0, len(dataIndex)))
      h = sigmoid(sum(dataMatrix[randIndex] * weights))
      error = classLabels[randIndex] - h
      weights = weights + alpha * error * dataMatrix[randIndex]
      del(dataIndex[randIndex])
  return weights

这段代码实现了逻辑回归的随机梯度上升算法。逻辑回归是一种二分类的机器学习算法,用于预测二分类问题的结果。该算法通过最大化似然函数来更新权重,从而使得模型的预测结果与实际结果最接近。

算法的输入包括数据集的特征矩阵(dataMatrix)、数据集的标签(classLabels)和迭代次数(numIter),默认为150次。其中,特征矩阵是一个m行n列的矩阵,m表示样本的数量,n表示特征的数量;标签是一个长度为m的向量,表示每个样本的分类标签。

算法的输出是更新后的权重(weights),这些权重用于预测新样本的分类结果。

算法的主要步骤如下:

  • 初始化权重为一个长度为n的向量,每个元素的初始值为1。
  • 对于给定的迭代次数,重复以下步骤:

a. 初始化一个包含样本索引的列表(dataIndex)。

b. 对于每个样本,重复以下步骤:

i. 计算学习率(alpha),其中alpha的值随着迭代次数和样本的索引i和j的变化而变化。这里使用的是固定的学习率,并加上一个小的常数以避免除零错误。

ii. 从dataIndex中随机选择一个样本的索引(randIndex)。

iii. 计算样本的预测概率(h)。这里使用的是sigmoid函数将线性组合转换为[0, 1]之间的概率值。

iv. 计算误差(error),即实际标签(classLabels)与预测概率(h)之间的差值。

v. 更新权重(weights)。根据梯度上升算法,使用学习率(alpha)乘以误差(error)乘以样本的特征值(dataMatrix[randIndex]),然后将得到的结果加到权重(weights)上。

vi. 从dataIndex中删除已经使用过的样本索引(randIndex)。

  • 返回更新后的权重。

该算法每次迭代都使用一个随机的样本来更新权重,因此被称为随机梯度上升算法。相比于批量梯度上升算法,随机梯度上升算法的计算效率更高,但收敛速度较慢,并且对于噪声数据更敏感。

dataArr, labelMat = loadDataSet()
weights = stocGradAscent1(array(dataArr), labelMat, 500)
plotBestFit(weights)

到此这篇关于Python Logistic算法使用详解的文章就介绍到这了,更多相关Python Logistic算法内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python远程登录代码

    python远程登录代码

    因为 python 已内建了一个 pop3 的函式库,所以我们直接用它来完成邮件的下载和处理。事实上, 如果我们不用 poplib 的话,我们还是可以完成那个例子中的所有作业:就是通过模拟 telnet的协定。
    2008-04-04
  • 详解Python中的数据精度问题

    详解Python中的数据精度问题

    这篇文章主要为大家详细介绍了Python中常常遇到的一些数据精度问题以及它们的解决方法,文中的示例代码讲解详细,感兴趣的小伙伴可以了解一下
    2022-10-10
  • 对pytorch中不定长序列补齐的操作

    对pytorch中不定长序列补齐的操作

    这篇文章主要介绍了对pytorch中不定长序列补齐的操作,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-05-05
  • Python列表切片操作实例总结

    Python列表切片操作实例总结

    这篇文章主要介绍了Python列表切片操作,结合实例形式总结分析了Python列表切片常见操作技巧与注意事项,需要的朋友可以参考下
    2019-02-02
  • Python3之外部文件调用Django程序操作model等文件实现方式

    Python3之外部文件调用Django程序操作model等文件实现方式

    这篇文章主要介绍了Python3之外部文件调用Django程序操作model等文件实现方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-04-04
  • Python实现从Markdown到PDF的转换的方法

    Python实现从Markdown到PDF的转换的方法

    Markdown,以其简洁的语法和易于阅读的特性,成为了许多作家、开发者和学生记录思想、编写教程或撰写报告的首选格式,然而,在分享或打印这些文档时,Markdown的纯文本形式可能无法满足对版式和布局的专业需求,本文将介绍如何用Python代码轻松实现从Markdown到PDF的转换
    2024-07-07
  • python中图片文件路径格式如何使用

    python中图片文件路径格式如何使用

    这篇文章主要介绍了python中图片文件路径格式如何使用问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-08-08
  • Python-pip配置国内镜像源快速下载包的方法详解

    Python-pip配置国内镜像源快速下载包的方法详解

    pip如果不配置国内镜像源的话,下载包的速度非常慢,毕竟默认的源在国外呢,这篇文章主要介绍了Python-pip配置国内镜像源快速下载包的方法详解,需要的朋友可以参考下
    2024-01-01
  • Pytorch中的masked_fill基本知识操作

    Pytorch中的masked_fill基本知识操作

    本文主要介绍了PyTorch中的masked_fill函数的基本知识和使用方法,masked_fill函数接受一个输入张量和一个布尔掩码作为主要参数,掩码的形状必须与输入张量相同,掩码操作根据掩码中的布尔值在输出张量中填充指定的值或保留输入张量中的值
    2024-10-10
  • python全栈要学什么 python全栈学习路线

    python全栈要学什么 python全栈学习路线

    在本文中小编给大家整理了关于python全栈要学什么以及python全栈学习路线的知识点内容,需要的朋友们参考下。
    2019-06-06

最新评论