Python读取数据集并消除数据中的空行方法

 更新时间:2018年07月12日 10:26:15   作者:AlistarHu  
今天小编就为大家分享一篇Python读取数据集并消除数据中的空行方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

如下所示:

# -*- coding: utf-8 -*-
# @ author hulei 2016-5-3
from numpy import *
import operator
from os import listdir
 
import sys
reload(sys)
sys.setdefaultencoding('utf8')
 
# x,y=getDataSet_dz('iris.data.txt',4)
 
def getDataSet(filename,numberOfFeature):  #将数据集读入内存 
 fr = open(filename)
 numberOfLines = len(fr.readlines())   #get the number of lines in the file file.readlines()是把文件的全部内容读到内存,并解析成一个list
 returnMat = zeros((numberOfLines,numberOfFeature))  #prepare matrix to return 3代表数据集中特征数目###
 classLabelVector = []      #prepare labels return 
 fr = open(filename)
 index = 0
 for line in fr.readlines():
  line = line.strip()     #strip() 参数为空时,默认删除空白符(包括'\n', '\r', '\t', ' ')
  listFromLine = line.split(',')   #split 以什么为标准分割一次 分成数组中的每个元素
  returnMat[index,:] = listFromLine[0:numberOfFeature] 
  #classLabelVector.append(int(listFromLine[-1])) #append() 方法向列表的尾部添加一个新的元素
  if listFromLine[-1] == 'Iris-setosa' :
   classLabelVector.append(1)
  elif listFromLine[-1] == 'Iris-versicolor' :
   classLabelVector.append(2)
  else:
  #elif listFromLine[-1] == 'Iris-virginica' :
   classLabelVector.append(3)
  index += 1
 return returnMat,classLabelVector
 
def getDataSet_dz(filename,numberOfFeature): #改进版,可以消除数据中的空白行
 numberOfLines = 0
 mx = []  #将数据集 去除空行后存入
 fr = open(filename)
 for line in fr.readlines():  
  line = line.strip() 
  if line != '' : #去除空白行 
   numberOfLines+=1
   mx.append( line.split(',') )
 returnMat = zeros((numberOfLines,numberOfFeature))
 classLabelVector = [] 
 for index in range(numberOfLines) :
  returnMat[index,:] = mx[index][0:numberOfFeature] 
  if mx[index][-1] == 'Iris-setosa' :
   classLabelVector.append(1)
  elif mx[index][-1] == 'Iris-versicolor' :
   classLabelVector.append(2)
  else:
  #elif listFromLine[-1] == 'Iris-virginica' :
   classLabelVector.append(3)
 return returnMat,classLabelVector

以上这篇Python读取数据集并消除数据中的空行方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • 简述:我为什么选择Python而不是Matlab和R语言

    简述:我为什么选择Python而不是Matlab和R语言

    这篇文章主要介绍了简述:我为什么选择Python而不是Matlab和R语言,具有一定参考价值,需要的朋友可以了解下。
    2017-11-11
  • 一文教会你用nginx+uwsgi部署自己的django项目

    一文教会你用nginx+uwsgi部署自己的django项目

    uWSGI是一个Web服务器,它实现了WSGI协议、uwsgi、http等协议,下面这篇文章主要给大家介绍了关于用nginx+uwsgi部署自己的django项目的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
    2022-08-08
  • python 如何停止一个死循环的线程

    python 如何停止一个死循环的线程

    这篇文章主要介绍了python 如何停止一个死循环的线程,帮助大家更好的理解和使用python,感兴趣的朋友可以了解下
    2020-11-11
  • pytorch 膨胀算法实现大眼效果

    pytorch 膨胀算法实现大眼效果

    在PS中,我们可以利用液化工具对人像进行瘦脸、放大眼睛等系列的常规操作。今天我们来了解一下这些操作的算法原理,并用pytorch 膨胀算法来实现大眼效果,感兴趣的可以了解一下
    2021-11-11
  • Python利用AutoGrad实现自动计算函数斜率和梯度

    Python利用AutoGrad实现自动计算函数斜率和梯度

    AutoGrad 是一个老少皆宜的 Python 梯度计算模块。对于大学生、机器学习爱好者而言,你只需要传递给它Numpy这样的标准数据库下编写的损失函数,它就可以自动计算损失函数的导数(梯度)。本文将从普通斜率计算开始,介绍到如何只使用它来实现一个逻辑回归模型
    2022-07-07
  • python3.7环境下安装Anaconda的教程图解

    python3.7环境下安装Anaconda的教程图解

    这篇文章主要介绍了python3.7环境下安装Anaconda的教程,本文图文并茂给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2019-09-09
  • python命令行执行脚本找不到模块ModuleNotFoundError问题

    python命令行执行脚本找不到模块ModuleNotFoundError问题

    这篇文章主要介绍了python命令行执行脚本找不到模块ModuleNotFoundError问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-06-06
  • openCV实践项目之银行卡卡号识别功能

    openCV实践项目之银行卡卡号识别功能

    最近在恶补opencv,在前期不太那么认真的学习状态下,着手搞了一下这个小项目实战,基于模板匹配下的银行卡卡号识别,下面这篇文章主要给大家介绍了关于openCV实践项目之银行卡卡号识别功能的相关资料,需要的朋友可以参考下
    2022-11-11
  • Python搭建自己IP代理池的方法实现

    Python搭建自己IP代理池的方法实现

    本文主要介绍了Python搭建自己IP代理池的方法实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-02-02
  • Python django框架 web端视频加密的实例详解

    Python django框架 web端视频加密的实例详解

    这篇文章主要介绍了Python django框架 web端视频加密,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-11-11

最新评论