关于使用OpenCsv导入大数据量报错的问题

 更新时间:2021年08月25日 11:06:43   作者:潮鸣s  
这篇文章主要介绍了使用OpenCsv导入大数据量报错的问题 ,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下

导入100W的Csv数据,使用OpenCsv解析工具解析Csv,发现报错

报错内容

com.opencsv.exceptions.CsvMalformedLineException: Unterminated quoted field at end of CSV line. Beginning of lost text: [XXXXX...]
 at com.opencsv.CSVReader.readNext(CSVReader.java:355) ~[opencsv-4.6.jar!/:na]

解析代码

CSVParser csvParser = new CSVParserBuilder().build();
try (CSVReader readerCsv = new CSVReaderBuilder(new InputStreamReader(csv)).withCSVParser(csvParser).build()) {
    String[] lines;
    while ((lines = readerCsv.readNext()) != null) {
        doRead(lines);
    }
} catch (CsvValidationException e) {
    throw new IOException(e);
}

报错位置发生在英文逗号处,一开始怀疑是英文逗号解析问题
Csv 文本报错位置

"2018-04-28 00:40:43","xxx,XXXXX"

去掉当前位置英文逗号导入仍旧失败
后来查看源码发现默认的 CSVParser 会对反斜杠""进行处理

这导致了解析Csv逻辑与源文件不同
后来使用了 RFC4180Parser 问题解决

RFC4180Parser rfc4180Parser = new RFC4180ParserBuilder().build();
try (CSVReader readerCsv = new CSVReaderBuilder(new InputStreamReader(csv)).withCSVParser(rfc4180Parser).build()) {
    String[] lines;
    while ((lines = readerCsv.readNext()) != null) {
        doRead(lines);
    }
} catch (CsvValidationException e) {
    throw new IOException(e);
}

参考文档:(RFC4180标准文档)https://datatracker.ietf.org/doc/html/rfc4180

到此这篇关于使用OpenCsv导入大数据量报错的问题 的文章就介绍到这了,更多相关OpenCsv导入大数据量报错内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • 详解Django中异步任务之django-celery

    详解Django中异步任务之django-celery

    这篇文章主要介绍了详解Django中异步任务之django-celery,本文通过场景分析实例图文相结合给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-11-11
  • Python unittest单元测试框架实现参数化

    Python unittest单元测试框架实现参数化

    这篇文章主要介绍了Python unittest单元测试框架实现参数化,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-04-04
  • python+selenium打印当前页面的titl和url方法

    python+selenium打印当前页面的titl和url方法

    今天小编就为大家分享一篇python+selenium打印当前页面的titl和url方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-06-06
  • python计算机视觉opencv图像金字塔轮廓及模板匹配

    python计算机视觉opencv图像金字塔轮廓及模板匹配

    这篇文章主要为大家介绍了python计算机视觉opencv图像金字塔图像轮廓及模板匹配的学习讲解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步
    2021-11-11
  • Django python雪花算法实现方式

    Django python雪花算法实现方式

    在Django项目中添加自定义模块或应用来封装雪花算法,步骤包括创建应用,编写算法实现代码至utils.py文件,及配置settings.py,此方法可方便在项目中随处调用雪花算法,适用于需要唯一ID生成的场景
    2024-09-09
  • python批量下载图片的三种方法

    python批量下载图片的三种方法

    用python批量下载一个网页中的图片,需要用到扩展库来解析html代码
    2013-04-04
  • python NumPy ndarray二维数组 按照行列求平均实例

    python NumPy ndarray二维数组 按照行列求平均实例

    今天小编就为大家分享一篇python NumPy ndarray二维数组 按照行列求平均实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-11-11
  • 聊聊python中的load、loads实现反序列化的问题

    聊聊python中的load、loads实现反序列化的问题

    在python自动化中,我们传递一些参数是需要从文件中读取过来的,读取过来的字典并非python对象数据类型而是string类型。本文给大家分享python中的load、loads实现反序列化的问题,感兴趣的朋友一起看看吧
    2021-10-10
  • python3.6 tkinter实现屏保小程序

    python3.6 tkinter实现屏保小程序

    这篇文章主要为大家详细介绍了python3.6 tkinter实现屏保小程序,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2019-07-07
  • Python中捕获键盘的方式详解

    Python中捕获键盘的方式详解

    这篇文章主要介绍了Python中捕获键盘的方式,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-03-03

最新评论