java spark文件读取乱码问题的解决方法

更新时间：2024年10月28日 10:35:51 作者：cah黎明就在眼前

这篇文章主要为大家详细介绍了java spark文件读取乱码问题的相关解决方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下

一、问题

环境为jdk1.8，spark3.2.1，读取hadoop中GB18030编码格式的文件出现乱码。

二、心酸历程

为了解决该问题，尝试过很多种方法，但都没有成功

1、textFile+Configuration方式——乱码

        String filePath = "hdfs:///user/test.deflate";
        //创建SparkSession和SparkContext的实例
        String encoding = "GB18030";

        SparkSession spark = SparkSession.builder()
                .master("local[*]").appName("Spark Example")
                .getOrCreate();

        JavaSparkContext sc = JavaSparkContext.fromSparkContext(spark.sparkContext());
        Configuration entries = sc.hadoopConfiguration();
        entries.set("textinputformat.record.delimiter", "\n");
        entries.set("mapreduce.input.fileinputformat.inputdir",filePath);entries.set("mapreduce.input.fileinputformat.encoding", "GB18030");
        
        JavaRDD<String> rdd = sc.textFile(filePath);

2、spark.read().option方式——乱码

        Dataset<Row> load = spark.read().format("text").option("encoding", "GB18030").load(filePath);

        load.foreach(row -> {
            System.out.println(row.toString());
            System.out.println(new String(row.toString().getBytes(encoding),"UTF-8"));
            System.out.println(new String(row.toString().getBytes(encoding),"GBK"));


        });

3、newAPIHadoopFile+Configuration——乱码

        JavaPairRDD<LongWritable, Text> longWritableTextJavaPairRDD = sc.newAPIHadoopFile(filePath, TextInputFormat.class, LongWritable.class, Text.class, entries );

        System.out.println("longWritableTextJavaPairRDD  count ="+longWritableTextJavaPairRDD.count());
        longWritableTextJavaPairRDD.foreach(k->{

            System.out.println(k._2);
        });

4、newAPIHadoopFile+自定义类——乱码

        JavaPairRDD<LongWritable, Text> longWritableTextJavaPairRDD = sc.newAPIHadoopFile(filePath, GBKInputFormat.class, LongWritable.class, Text.class, entries );

        System.out.println("longWritableTextJavaPairRDD  count ="+longWritableTextJavaPairRDD.count());
        longWritableTextJavaPairRDD.foreach(k->{

            System.out.println(k._2);
        });

代码中GBKInputFormat.class是TextInputFormat.class复制将内部UTF-8修改为GB18030所得

5、newAPIHadoopRDD+自定义类——乱码

        JavaPairRDD<LongWritable, Text> longWritableTextJavaPairRDD1 = sc.newAPIHadoopRDD(entries, GBKInputFormat.class, LongWritable.class, Text.class);
        System.out.println("longWritableTextJavaPairRDD  count ="+longWritableTextJavaPairRDD1.count());
        longWritableTextJavaPairRDD1.foreach(k->{
            System.out.println(k._2());
        });

三、最终解决

上述方法感觉指定的字符编码并没有生效不知道为什么，如有了解原因的还请为我解惑，谢谢

最终解决方案如下

       JavaPairRDD<LongWritable, Text> longWritableTextJavaPairRDD = sc.newAPIHadoopFile(filePath, TextInputFormat.class, LongWritable.class, Text.class, new Configuration());

        System.out.println("longWritableTextJavaPairRDD  count ="+longWritableTextJavaPairRDD.count());
        longWritableTextJavaPairRDD.foreach(k->{
            System.out.println(new String(k._2.copyBytes(), encoding));
        });

        JavaPairRDD<LongWritable, Text> longWritableTextJavaPairRDD1 = sc.newAPIHadoopRDD(entries, TextInputFormat.class, LongWritable.class, Text.class);

        System.out.println("longWritableTextJavaPairRDD  count ="+longWritableTextJavaPairRDD1.count());
        longWritableTextJavaPairRDD1.foreach(k->{
            System.out.println(new String(k._2().copyBytes(),encoding));
            System.out.println(new String(k._2.copyBytes(),encoding));
        });

主要是new String(k._2().copyBytes(),encoding)得以解决

到此这篇关于java spark文件读取乱码问题的解决方法的文章就介绍到这了,更多相关java spark文件读取乱码内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

spring mvc 使用kaptcha配置生成验证码实例
本篇文章主要介绍了spring mvc 使用kaptcha生成验证码实例，详细的介绍了使用Kaptcha 生成验证码的步骤，有兴趣的可以了解一下
2017-04-04
java全角、半角字符的关系以及转换详解
这篇文章主要介绍了
2013-11-11
java之如何定义USB接口
这篇文章主要介绍了java之如何定义USB接口问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2023-05-05
Spring MVC传递接收参数方式小结
大家在开发中经常会用到Spring MVC Controller来接收请求参数，主要常用的接收方式就是通过实体对象以及形参等方式、有些用于GET请求，有些用于POST请求，有些用于两者，下面介绍几种常见的Spring MVC传递接收参数的方式
2021-11-11
浅析JDK和Tomcat的安装与配置方法
这篇文章主要介绍了JDK和Tomcat的安装与配置方法，本文给大家介绍的非常详细，具有一定的参考借鉴价值，需要的朋友参考下吧
2018-12-12
Java Vector实现班级信息管理系统
这篇文章主要为大家详细介绍了Java Vector实现班级信息管理系统，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2022-02-02
Spring框架中部署log4j.xml的详细步骤
Log4j是一个常用的日志记录工具，它可以帮助我们记录应用程序的运行日志并进行灵活的配置，在Spring框架中，我们可以很方便地部署log4j.xml配置文件来管理日志记录，这篇文章主要介绍了Spring框架中部署log4j.xml的详细步骤并提供相应的代码示例,需要的朋友可以参考下
2023-09-09
PageHelper在springboot+mybatis框架中的使用步骤及原理解析
这篇文章主要介绍了PageHelper在springboot+mybatis框架中的使用步骤及原理解析,本文通过实例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2023-03-03
springboot+Vue实现分页的示例代码
本文主要介绍了springboot+Vue实现分页的示例代码，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2021-06-06
详解如何使用IntelliJ IDEA生成UML图
在软件开发中,UML（统一建模语言）是一种用于描述、构建和文档化软件系统的图形化语言,它帮助开发者以可视化的方式理解系统的结构和行为,手动绘制 UML 图可能既耗时又容易出错,所以本文给大家介绍了如何使用IntelliJ IDEA生成UML图,需要的朋友可以参考下
2024-10-10