Pandas之read_csv()读取文件跳过报错行的解决

 更新时间:2020年04月21日 16:09:48   作者:wf592523813  
这篇文章主要介绍了Pandas之read_csv()读取文件跳过报错行的解决,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

读取文件时遇到和列数不对应的行,此时会报错。若报错行可以忽略,则添加以下参数:

样式:

pandas.read_csv(***,error_bad_lines=False)

pandas.read_csv(filePath) 方法来读取csv文件时,可能会出现这种错误:

ParserError:Error tokenizing data.C error:Expected 2 fields in line 407,saw 3.

是指在csv文件的第407行数据,期待2个字段,但在第407行实际发现了3个字段。

原因:header只有两个字段名,但数据的第407行却出现了3个字段(可能是该行数据包含了逗号,或者确实有三个部分),导致pandas不知道该如何处理。

解决办法:把第407行多出的字段删除,或者通过在read_csv方法中设置error_bad_lines=False来忽略这种错误:

改为

pandas.read_csv(filePath,error_bad_lines=False)

来忽略掉其中出现错乱(例如,由于逗号导致多出一列)的行。

KeyError错误:

报这种错是由于使用了DataFrame中没有的字段,例如id字段,原因可能是:

.csv文件的header部分没加逗号分割,此时可使用df.columns.values来查看df到底有哪些字段:

print(df.columns.values)

.在操作DataFrame的过程中丢掉了id字段的header,却没发现该字段已丢失。

例如:

df=df[df['id']!='null']#取得id字段不为null的行
df=df['id']#赋值后df为Series,表示df在id列的值,而不再是一个DataFrame,于是丢掉了id的头,此时若再使用df['id']将报错。

取列的值,与取列的区别:

df=df['id']#取id列的值,赋值后df为Series类型,可用print(type(df))来查看其类型
df=df[['id']]#只取df的id列作为一个新的DataFrame,赋值后df仍然是一个DataFrame
df=df[['id','age']]#取df的id和age列作为一个新的DataFrame,赋值后df仍然是一个DataFrame

过滤行

df=df[df['id']!='null']#过滤掉id字段取值为'null'的行

注意,此处的'null'是一个字符串,若df中某行id字段的值不是字符串型,或者为空,将报TypeError:invalid type comparison错,因为只有相同类型的值才能进行比较。

解决办法:如果不能保证id列都是string类型,则需要去掉该过滤条件。

补充知识:pandas 使用read_csv读取文件时产生错误:EOF inside string starting at line

解决方法:使用参数 quoting

df = pd.read_csv(csvfile, header = None, delimiter="\t", quoting=csv.QUOTE_NONE, encoding='utf-8')

以上这篇Pandas之read_csv()读取文件跳过报错行的解决就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • python 绘图模块matplotlib的使用简介

    python 绘图模块matplotlib的使用简介

    这篇文章主要介绍了python 绘图模块matplotlib的使用简介,帮助大家更好的理解和学习使用python,感兴趣的朋友可以了解下
    2021-03-03
  • python 数据清洗之数据合并、转换、过滤、排序

    python 数据清洗之数据合并、转换、过滤、排序

    这篇文章主要介绍了python 数据清洗之数据合并、转换、过滤、排序的相关资料,需要的朋友可以参考下
    2017-02-02
  • python利用多线程+队列技术爬取中介网互联网网站排行榜

    python利用多线程+队列技术爬取中介网互联网网站排行榜

    这篇文章主要介绍了python利用多线程+队列技术爬取中介网互联网网站排行榜,文章基于python的相关内容展开详细介绍,具有一定的参考价值,需要的小伙伴可以参考一下
    2022-05-05
  • Windows上使用virtualenv搭建Python+Flask开发环境

    Windows上使用virtualenv搭建Python+Flask开发环境

    在自己本机的开发环境下,我们完全可以使用virtualenv来hold住多个Python环境,这样就可以留出一个专门服役于Flask框架,哈哈,这里我们就来看看如何在Windows系统上使用virtualenv搭建Python+Flask开发环境
    2016-06-06
  • Python占用的内存优化教程

    Python占用的内存优化教程

    这篇文章主要给大家介绍了关于Python占用的内存优化教程,文中通过示例代码介绍的非常详细,对大家学习或者使用Python具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧
    2019-07-07
  • Python使用matplotlib绘制三维图形示例

    Python使用matplotlib绘制三维图形示例

    这篇文章主要介绍了Python使用matplotlib绘制三维图形,结合实例形式分析了Python基于matplotlib库绘制三维图形的相关操作技巧与注意事项,需要的朋友可以参考下
    2018-08-08
  • Keras模型转成tensorflow的.pb操作

    Keras模型转成tensorflow的.pb操作

    这篇文章主要介绍了Keras模型转成tensorflow的.pb操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-07-07
  • Python进程间通讯与进程池超详细讲解

    Python进程间通讯与进程池超详细讲解

    进程彼此之间互相隔离,要实现进程间通信(IPC),multiprocessing模块主要通过队列方式,队列:队列类似于一条管道,元素先进先出,需要注意的一点是:队列都是在内存中操作,进程退出,队列清空,另外,队列也是一个阻塞的形态
    2022-12-12
  • Python语法学习之正则表达式的量词汇总

    Python语法学习之正则表达式的量词汇总

    通过正则的规则匹配到的信息都是一个单独的字符存到输出结果中的,如何更够根据字符串中的词组进行匹配呢?因此本文将带大家学习一下正则表达式中的量词符号与组的概念,感兴趣的可以了解一下
    2022-04-04
  • Python Vaex实现快速分析100G大数据量

    Python Vaex实现快速分析100G大数据量

    Vaex是一个开源的DataFrame库,它可以对表格数据集进行可视化、探索、分析,甚至机器学习,这些数据集和你的硬盘驱动器一样大。本文就来聊聊如何利用Vaex实现快速分析100G大数据量,需要的可以参考一下
    2023-03-03

最新评论