java中的编码转换过程(以utf8和gbk为例)

 更新时间:2023年04月13日 10:14:46   作者:请叫我徐先生  
这篇文章主要介绍了java中的编码转换过程(以utf8和gbk为例),具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教

java中的编码转换(以utf8和gbk为例)

在正常javaweb开发中经常会发现字符转换的需求,会存在中文字符转换乱码的现象,如何解决以及其转换原理我至今懵懵懂懂,于是专门写了个测试代码进行尝试,总算理清了编码,先上结论,总结如下:

utf8中存放有各种语言编码,当前主流开发中会使用utf8进行编码解码,该方式不会产生乱码,产生乱码有以下几种情况

  • 1、gbk(中文)、iso-8859-1(无中文)等其他方式进行编码,则只能用其对应方式进行解码,否则为乱码
  • 2、使用utf8进行编码用其他方式解码则会导致乱码,需进行一次转换
  • 3、使用无对应字符(中文)的字符集(iso-8859-1)编码会导致乱码,且无法还原解码

以下是针对以上情况的代码测试

1.如何编码就如何解码

/**
 * 测试编码转换 中文 => utf-8 编码 - 解码
 */
@Test
public void test0() {
    String test = "测试";
    System.out.println(Arrays.toString(test.getBytes(StandardCharsets.UTF_8)));//[-26, -75, -117, -24, -81, -107]
    System.out.println(new String(test.getBytes(StandardCharsets.UTF_8), StandardCharsets.UTF_8));//测试
}
/**
 * 测试编码转换 中文 => gbk 编码 - 解码
 */
@Test
public void test1() throws UnsupportedEncodingException {
    String test = "测试";
    System.out.println(Arrays.toString(test.getBytes("gbk")));//[-78, -30, -54, -44]
    System.out.println(new String(test.getBytes("gbk"), "GBK"));//测试
}

utf8编码 - 错误形式解码

/**
 * 测试编码转换 中文 => utf-8 编码- gbk解码
 */
@Test
public void test2() throws UnsupportedEncodingException {
    String test = "测试";
    System.out.println(Arrays.toString(test.getBytes(StandardCharsets.UTF_8)));//[-26, -75, -117, -24, -81, -107]
    System.out.println(new String(test.getBytes(StandardCharsets.UTF_8), "gbk"));//娴嬭瘯
}

正确做法,按错误的解码形式(gbk)作为中转,将其按错误形式(gbk)重新还原编码(utf8-encode),再使用utf8进行一次正确解码(utf8-decode)即可得到原来的字符

/**
 * 测试编码转换 中文 => utf-8 编码 - gbk 解码 ===> gbk 编码 - utf-8解码
 * "测试" => (utf8-encode)[-26, -75, -117, -24, -81, -107] => (gbk-decode)娴嬭瘯
 * "娴嬭瘯" => (utf8-encode)[-26, -75, -117, -24, -81, -107] => (utf8-decode)"测试"
 */
@Test
public void test3() throws UnsupportedEncodingException {
    String test = "测试";
    String test_gbk_utf8 = new String(test.getBytes(StandardCharsets.UTF_8), "gbk");
    System.out.println(test_gbk_utf8);//娴嬭瘯
    String test_utf8_gbk = new String(test_gbk_utf8.getBytes("gbk"), StandardCharsets.UTF_8);
    System.out.println(test_utf8_gbk);//测试

}

3.无对应字符编码

@Test
    public void test4() throws UnsupportedEncodingException {
        String test = "测试";
        System.out.println(Arrays.toString(test.getBytes(StandardCharsets.ISO_8859_1)));//[63, 63]
        System.out.println(new String(test.getBytes(StandardCharsets.ISO_8859_1), StandardCharsets.ISO_8859_1));//??
    }

该情况下即使使用原先的编码方式进行解码也无法还原字符了,属于不可逆的状态

java编码格式的转换以及乱码恢复

如何在java中进行编码格式转换

下面这行代码的含义是: 获取目标字符串str的gbk编码格式的二进制码,然后将二进制码按照utf8编码格式重新编码成字符串,当然,下面这种写法百分百会乱码,因为编码格式不一致.

new String(str.getBytes("gbk"),"utf8")

首先什么情况会乱码

如果要传输一个字符串,首先要按照一定的编码格式将字符串转换成字节流,当字节流传输到接收方的时候再将字节流按照某种编码格式转换成字符串.乱码也正是产生在重新转换成字符串的过程中.以下是我对中文乱码的测试:

  String str="彩虹";
        String [] a=new String[] {"gbk","unicode","utf8","gb2312"};
        for (int i=0;i<a.length;i++){
            for (int j=0;j<a.length;j++){
                System.out.println("二进制格式:   "+a[i]+"编码格式:  "+a[j]);
                System.out.println("编码后的字符串:  "+new String(str.getBytes(a[i]),a[j]));
 
            }
        }

二进制格式:   gbk编码格式:  gbk
编码后的字符串:  彩虹
二进制格式:   gbk编码格式:  unicode
编码后的字符串:  닊뫧
二进制格式:   gbk编码格式:  utf8
编码后的字符串:  �ʺ�
二进制格式:   gbk编码格式:  gb2312
编码后的字符串:  彩虹
二进制格式:   unicode编码格式:  gbk
编码后的字符串:  �_i唝
二进制格式:   unicode编码格式:  unicode
编码后的字符串:  彩虹
二进制格式:   unicode编码格式:  utf8
编码后的字符串:  ��_i�y
二进制格式:   unicode编码格式:  gb2312
编码后的字符串:  ��_i�y
二进制格式:   utf8编码格式:  gbk
编码后的字符串:  褰╄櫣
二进制格式:   utf8编码格式:  unicode
编码后的字符串:  ꧨ馹
二进制格式:   utf8编码格式:  utf8
编码后的字符串:  彩虹
二进制格式:   utf8编码格式:  gb2312
编码后的字符串:  褰╄��
二进制格式:   gb2312编码格式:  gbk
编码后的字符串:  彩虹
二进制格式:   gb2312编码格式:  unicode
编码后的字符串:  닊뫧
二进制格式:   gb2312编码格式:  utf8
编码后的字符串:  �ʺ�
二进制格式:   gb2312编码格式:  gb2312
编码后的字符串:  彩虹

可以看出,如果二进制编码格式和字符串的编码格式不同就会引起乱码.

为什么gbk,gb2312转换没有乱码?

gbk和gb2312之间的转换没有乱码是因为gbk是gb2312的增强版本,支持更多的汉字编码,所以如果二进制编码格式是gbk而解码格式是gb2312,这种情况是有可能出现部分汉字乱码的.

乱码的数据可以转变回来吗?

上述结果中的乱码其实可以大致分为两种,一种是复杂的汉字和图形组合,一种是"?".

如果希望恢复的乱码数据中有问号,那么这条数据恢复的可能性就不大了.因为除了"?"的其他乱码其实都是有自己的编码规则的,只要逆向的解码并按照正确的编码格式重新编码就可以恢复.但是"?"除外,因为当字节流按照某种编码格式重新编译的时候,字节数据中无法按照该编码格式转换成有意义字符的字节都会转换成"?",所以就算逆向的编码成字节流,所有的"?"都会转换成同一字节,也就失去了他本身的意义.

如果乱码中不包含"?",那么还是有希望转换回去的,我以上述乱码中的 "褰╄櫣" 为例重新进行了一次转换,代码如下:

       String str="褰╄櫣";
        String [] charset=new String[] {"gbk","unicode","utf8","gb2312"};
        for (int i=0;i<charset.length;i++){
            for (int j=0;j<charset.length;j++){
                System.out.println("二进制格式:   "+charset[i]+"编码格式:  "+charset[j]);
                System.out.println("编码后的字符串:  "+new String(str.getBytes(charset[i]),charset[j]));
 
            }
        }

二进制格式:   gbk编码格式:  gbk
编码后的字符串:  褰╄櫣
二进制格式:   gbk编码格式:  unicode
编码后的字符串:  ꧨ馹
二进制格式:   gbk编码格式:  utf8
编码后的字符串:  彩虹
二进制格式:   gbk编码格式:  gb2312
编码后的字符串:  褰╄��
二进制格式:   unicode编码格式:  gbk
编码后的字符串:  ��0%Dj�
二进制格式:   unicode编码格式:  unicode
编码后的字符串:  褰╄櫣
二进制格式:   unicode编码格式:  utf8
编码后的字符串:  ���0%Dj�
二进制格式:   unicode编码格式:  gb2312
编码后的字符串:  ���0%Dj�
二进制格式:   utf8编码格式:  gbk
编码后的字符串:  瑜扳晞娅�
二进制格式:   utf8编码格式:  unicode
编码后的字符串:  냢閄�
二进制格式:   utf8编码格式:  utf8
编码后的字符串:  褰╄櫣
二进制格式:   utf8编码格式:  gb2312
编码后的字符串:  瑜扳��娅�
二进制格式:   gb2312编码格式:  gbk
编码后的字符串:  褰╄?
二进制格式:   gb2312编码格式:  unicode
编码后的字符串:  ꧨ�
二进制格式:   gb2312编码格式:  utf8
编码后的字符串:  彩�?
二进制格式:   gb2312编码格式:  gb2312
编码后的字符串:  褰╄?

可以看到 其中一种转换方式成功的将乱码转变回了正常的中文汉字

二进制格式:   gbk编码格式:  utf8
编码后的字符串:  彩虹

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Java数字和字符串拼接原理及案例

    Java数字和字符串拼接原理及案例

    这篇文章主要介绍了Java数字和字符串拼接原理及案例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-09-09
  • java实现导出数据为zip压缩文件

    java实现导出数据为zip压缩文件

    这篇文章主要为大家详细介绍了java如何实现导出数据为zip压缩文件,并且解压后为json文件,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下
    2023-11-11
  • SpringBoot Event实现异步消费机制的示例代码

    SpringBoot Event实现异步消费机制的示例代码

    这篇文章主要介绍了SpringBoot Event实现异步消费机制,ApplicationEvent以及Listener是Spring为我们提供的一个事件监听、订阅的实现,内部实现原理是观察者设计模式,文中有详细的代码示例供大家参考,需要的朋友可以参考下
    2024-04-04
  • Spring Boot整合JPA使用多个数据源的方法步骤

    Spring Boot整合JPA使用多个数据源的方法步骤

    这篇文章主要给大家介绍了关于Spring Boot整合JPA使用多个数据源的方法步骤,文中通过示例代码介绍的非常详细,对大家学习或者使用Spring Boot具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧
    2019-08-08
  • 解决IDEA开发工具右侧没有Maven工具栏的问题

    解决IDEA开发工具右侧没有Maven工具栏的问题

    这篇文章主要给大家解决了IDEA开发工具右侧没有Maven工具栏的问题,文中有详细的解决步骤,如果有遇到一样问题的小伙伴,可以参考阅读本文
    2023-09-09
  • 详解JAVA之运算符

    详解JAVA之运算符

    这篇文章主要介绍了详解Java中运算符以及相关的用法讲解,一起跟着小编学习下吧,希望能够给你带来帮助
    2021-11-11
  • 调用Process.waitfor导致的进程挂起问题及解决

    调用Process.waitfor导致的进程挂起问题及解决

    这篇文章主要介绍了调用Process.waitfor导致的进程挂起问题及解决,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2021-12-12
  • SpringBoot版本升级容易遇到的一些问题

    SpringBoot版本升级容易遇到的一些问题

    由于项目需求,需要将nacos 1.4.6版本升级到2.x版本,由此引发的springboot、springcloud、springcloud Alibaba一系列版本变更,本文给大家总结一下SpringBoot版本升级容易遇到的一些问题,需要的朋友可以参考下
    2023-12-12
  • spring boot 配置动态刷新实现详解

    spring boot 配置动态刷新实现详解

    这篇文章主要介绍了spring boot 配置动态刷新实现详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-09-09
  • java 对称二叉树的判断

    java 对称二叉树的判断

    这篇文章主要介绍了java 对称二叉树的判断,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-02-02

最新评论