Java中字符编码格式详解

 更新时间:2016年03月24日 08:56:00   作者:leesf  
在java应用软件中,会有多处涉及到字符集编码,有些地方需要进行正确的设置,有些地方需要进行一定程度的处理。本文主要给大家讲解java中字符的编码格式等相关问题

一、前言

  在分析Comparable和Comparator的时候,分析到了String类的compareTo方法,String底层是用char[]数组来存放元素,在比较的时候是比较的两个字符串的字符,字符用char来存储,此时,突然想到,Java里面的char可以存放中文吗?后来发现是可以的,并且由此也引出了Java中字符的编码格式问题。

二、Java存储格式

  在Java中,如下代码获取了字符'张'的各种编码格式。

import java.io.UnsupportedEncodingException;
public class Test {
 public static String getCode(String content, String format) throws UnsupportedEncodingException {
  byte[] bytes = content.getBytes(format);
  StringBuffer sb = new StringBuffer();
  for (int i = 0; i < bytes.length; i++) {
   sb.append(Integer.toHexString(bytes[i] & 0xff).toUpperCase() + " ");
  }
  
  return sb.toString();
 }
 public static void main(String[] args) throws UnsupportedEncodingException {
  System.out.println("gbk : " + getCode("张", "gbk"));
  System.out.println("gb2312 : " + getCode("张", "gb2312"));
  System.out.println("iso-8859-1 : " + getCode("张", "iso-8859-1"));
  System.out.println("unicode : " + getCode("张", "unicode"));
    System.out.println("utf-16 : " + getCode("张", "utf-16"));
  System.out.println("utf-8 : " + getCode("张", "utf-8"));
  }
}

  运行结果:

gbk : D5 C5 
gb2312 : D5 C5 
iso-8859-1 : 3F 
unicode : FE FF 5F 20 
utf-16 : FE FF 5F 20 
utf-8 : E5 BC A0 

  说明:从结果我们可以知道,字符'张'的gbk与gb2312编码是相同的,unicode与utf-16编码时相同的,但是其iso-8859-1、unicode、utf-8编码都是不相同的。那么,在JVM中,字符'张'是按照哪种编码格式进行存储的呢?下面开始我们的分析。

三、探秘思路

 1. 查看.class文件常量池的存储格式

  测试代码如下  

public class Test {
 public static void main(String[] args) {
  String str = "张";  
 }
}

  使用javap -verbose Test.class进行反编译,发现常量池情况如下:

  再使用winhex打开class文件,发现字符'张'在常量池的存储如下

  说明:上面两张可以在class文件中是以utf-8的格式存储的。

  但是在运行时是否是utf-8格式呢?继续我们的探秘之旅。

  2. 在程序中一探究竟

  使用如下代码 

public class Test { 
 public static void main(String[] args) {
  String str = "张";
  System.out.println(Integer.toHexString(str.codePointAt(0)).toUpperCase());
 }
}

  运行结果:

5F20

  说明:根据结果我们知道在运行时JVM是使用的utf-16格式进行存储,utf-16一般是使用2个字节进行存储,如果遇到两个字节无法表示的字符则会使用4个字节表示。之后会另外有篇幅进行介绍,并且我们查看Character类源码时,会发现就是使用的utf-16进行编码的,从两面都找到了我们想要的答案。

  3. char类型可以存放中文吗?

  根据上面的探索我们已经知道了Java的class文件中字符是以utf-8进行编码的,在JVM运行时则是以utf-16进行编码存储的。而字符'张'可以用两个字节来表示,而char在Java中也是两个字节,故可以存放。

四、总结

  经过上面的分析,我们知道:

  1. 字符在class文件中是以utf-8格式进行编码的,而在JVM运行时是采用utf-16格式进行编码的。

  2. char类型是两个字节,可以用来存放中文。

  在此次调用的过程中又查阅了好多关于字符方面的资料,受益匪浅,并且发现特别有意思,接下来会进行分享,所以特此预告下一篇将会进一步来介绍编码以及编码在Java中的问题。敬请期待

相关文章

  • java面向对象设计原则之接口隔离原则示例详解

    java面向对象设计原则之接口隔离原则示例详解

    这篇文章主要为大家介绍了java面向对象设计原则之接口隔离原则的示例详解,有需要的朋友可以借鉴参考下希望能够有所帮助,祝大家多多进步早日升职加薪
    2021-10-10
  • Java数据结构之顺序表详解

    Java数据结构之顺序表详解

    这篇文章主要介绍了Java数据结构之顺序表详解,线性表在逻辑上是线性结构,也就说是连续的一条直线。但是在物理结构上并不一定是连续的,线性表在物理上存储时,通常以数组和链式结构的形式存储,需要的朋友可以参考下
    2023-07-07
  • Java8 将List转换为用逗号隔开的字符串的多种方法

    Java8 将List转换为用逗号隔开的字符串的多种方法

    这篇文章主要介绍了Java8 将List转换为用逗号隔开的字符串的几种方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-03-03
  • 详细说明关于Java的数据库连接(JDBC)

    详细说明关于Java的数据库连接(JDBC)

    这篇文章主要介绍了详细说明关于Java的数据库连接JDBC,JDBC是用Java语言向数据库发送SQL语句,需要的朋友可以参考下面文章内容
    2021-09-09
  • idea git未提交代码文件名字变色(图解)

    idea git未提交代码文件名字变色(图解)

    这篇文章主要介绍了idea git未提交代码文件名字变色,本文通过图文并茂的形式给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-04-04
  • Mybatis 开发注解快速入门

    Mybatis 开发注解快速入门

    mybatis是一个支持普通SQL查询,存储过程和高级映射的优秀持久层框架。这篇文章主要介绍了Mybatis 开发注解快速入门的相关资料,需要的朋友可以参考下
    2016-11-11
  • 利用session实现简单购物车功能

    利用session实现简单购物车功能

    这篇文章主要为大家详细介绍了利用session实现简单购物车功能,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-02-02
  • Spring Gateway基础教程

    Spring Gateway基础教程

    本文主要总结Spring Gateway的基础用法,内容包括网关、Spring Gateway工作流程、Spring Cloud Gateway搭建、路由配置方式、负载均衡实现、断言工厂这几个部分,感兴趣的朋友跟随小编一起看看吧
    2023-11-11
  • mybatis foreach 属性及其三种使用情况详解

    mybatis foreach 属性及其三种使用情况详解

    这篇文章主要介绍了mybatis foreach 属性及其三种使用情况详解,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-01-01
  • Spring boot 打jar包分离lib的正确配置方式

    Spring boot 打jar包分离lib的正确配置方式

    spring boot打jar包分离lib后,配置文件的方式,在网上可以搜到很多答案,但是都不够完善,今天小编给大家带来了Spring boot 打jar包分离lib的正确配置方式,感兴趣的朋友一起看看吧
    2018-02-02

最新评论