MySQL字符集中文乱码解析

 更新时间:2023年09月12日 09:20:38   作者:张松坡坡坡坡  
这篇文章主要给大家解析了MySQL字符集中文乱码的问题,文章通过代码示例讲解的非常详细,对我们的学习或工作有一定的帮助,需要的朋友可以参考下

问题描述

假设有三个表test_gbk,test_utf8,test_latin1,创建的时候字符集分别为gbk,utf8,latin1。表结构为

FieldTypeNullKeyDefaultExtra
namevarchar(512)YESNULL

"中"字的gbk十六进制表示为:0xd6 d0utf8 16进制表示为:0xe4 b8 ad

问题1

执行下列语句:

set names 'latin1'; 
insert into test_latin1 values( '中');   //此处'中'为gbk格式
select name from test_latin1;

结果是乱码,还是正常显示?

问题2

执行下列语句:

set names 'gbk'; 
insert into test_latin1 values( '中');  //此处'中'为gbk格式
select name from test_latin1;

结果是乱码,还是正常显示?

问题3

执行下列语句:

set names 'latin1'; 
insert into test_utf8 values( '中');  //此处'中'为gbk格式
select name from test_utf8;

结果是乱码,还是正常显示?

原理篇

字符集介绍

为了解释上述问题,首先要了解字符集为何物。字符集也叫字符编码,就是将字符集合一一映射成一个数。以下简单介绍一下几种字符集:

基础ASCII编码:

0x00-0x7F表示所有的大写和小写字母,数字0 到9、标点符号, 以及在美式英语中使用的特殊控制字符。

latin1编码:

单字节编码,编码范围是0x00-0xFF0x00-0x7F,和ASCII保持一致,0x80-0x9F之间是控制字符,0xA0-0xFF之间是文字符号。

gbk编码:

使用一字节和双字节编码,0x00–0x7F范围内是一位,和ASCII保持一致。双字节的第一字节范围是0x81-0xFE(不含0x800xFF)。

utf8编码:

使用一至四字节编码,0x00–0x7F范围内是一位,和ASCII保持一致。其它字符用二至四个字节变长表示。

字符集编码转换举例:

0xB1(latin-1) ->'±'-> 0xC2 B1 (utf8)

两个重要的点

  • 0x00-0x7F区间,上述字符集是一致的,也就是说英文字符无需转码。

  • 不同编码,字符集合不完全一样,存在某字符集的字符无法映射到另外一个字符集。

比如gbk编码中的中文字符,转成latin-1编码时,就找不到对应的二进制编码。MySQL做字符集转换的时候,gbk中文字符->latin-1,很多就转成'?'号(0x3f),这种大集合转成小集合,基本是不可逆的。

MySQL执行过程

对一个MySQL的执行过程,字符集转换,一般涉及到一下三个步骤:

  • 收到请求,将请求数据从 character_set_client ->character_set_connection

  • 内部操作,将数据从character_set_connection-> 表创建的字符集。

  • 结果输出,将数据从表创建的字符集 -> character_set_results

当执行set names "charset"; 相当于把character_set_client, character_set_connection,character_set_results 统一设置为"charset"

终端显示字符集

此外如果你用securecrt终端来显示的话,如果不想乱码的话,appearance->character encoding也需要设置成正确的字符集。

问题详解

问题1

执行下列语句:

set names 'latin1'; 
insert into test_latin1 values( '中');   //此处'中'为gbk格式
select name from test_latin1;

结果是乱码,还是正常显示?

答:结果是正常显示。

执行流程如下:

  • set names 'latin1';相当于把character_set_client, character_set_connection,character_set_results 统一设置为'latin1'

  • Character_set_client告诉MySQL Server,传入的是一个latin1编码的,也就是单字节流,'中'这个输入,其实当作了0xD6 D0传入。

  • 因为character_set_client -> character_set_connection-> table charset -> character_set_resultslatin1 ->latin1 -> latin1 -> latin1, 编码完全一致,数据没有做任何转换,所以输入是0xD6 D0,最后的输出也还原为0xD6 D0。

  • 如果你的securecrt的显示字符集设置为gbk,那么最后的输出0xD6 D0就会显示成'中'。

问题2

执行下列语句:

set names 'gbk'; 
insert into test_latin1 values( '中');  //此处'中'为gbk格式
select name from test_latin1;

结果是乱码,还是正常显示?

答:结果是乱码。

执行流程如下:

  • set names 'gbk';相当于把character_set_client, character_set_connection,character_set_results统一设置为'gbk'

  • Character_set_client告诉MySQL Server,传入的是一个gbk编码的,'中'这个输入,当作了0xD6 D0传入。

  • 因为character_set_client -> character_set_connection -> table charset-> character_set_resultsgbk-> gbk-> latin1 -> gbk, 其中gbk-> latin1的时候,因为'中'这个字符在latin1字符集里找不到,就会转换成'?'号(0x3F),然后latin1->gbk,'?'号在gbk字符集里面也是0x3F,最后输出就是0x3F,即'?'号。

问题3

执行下列语句:

set names 'latin1'; 
insert into test_utf8 values( '中');  //此处'中'为gbk格式
select name from test_utf8;

结果是乱码,还是正常显示?

答:正常显示。

执行流程如下:

  • set names 'latin1';相当于把character_set_client, character_set_connection,character_set_results 统一设置为'latin1'

  • Character_set_client告诉MySQL Server,传入的是一个latin1编码的,'中'这个输入,当作了0xD6 D0传入。

  • 因为character_set_client -> character_set_connection -> table charset -> character_set_resultslatin1-> latin1-> utf8 -> latin1, 其中latin1-> utf8的时候,输入'中' (0xD6 D0)会当作两个字符进行utf8转换,转换为0xC3 96 C3 90,然后utf8->latin1的时候,会把0xC3 96转换成0xD6, 0xC3 90转成0x D0,最后输出0xD6 D0。负负得正,之所以数据没有失真的原因是因为小集合往大集合转,再转回来,操作可逆。

  • 如果你的securecrt的显示字符集设置为gbk,那么最后的输出0xD6 D0就会显示成'中'。

终极解决方案

从上面的问题执行流程来看,有没有终极解决方案呢?其实很简单,表创建的字符集和set names都设置成同一个字符集,就基本可以满足输入数据不会在转换过程中失真,也就是说输入是什么,输出就是什么。建议有中文的都设置成utf8字符集,一劳永逸。

以上就是MySQL字符集中文乱码解析的详细内容,更多关于MySQL字符集中文乱码的资料请关注脚本之家其它相关文章!

相关文章

  • Mysql 原生语句中save or update 的写法汇总

    Mysql 原生语句中save or update 的写法汇总

    这篇文章主要介绍了Mysql 原生语句中save or update 的写法汇总,非常详细,需要的朋友可以参考下
    2015-03-03
  • SQL基础的查询语句

    SQL基础的查询语句

    这篇文章主要给大家分享的是SQL基础的查询语句,SQL语句中,查询是使用最多的操作,SQL不仅能够查询表中的数据,还可以返回算术运算、表达式的结果等,接下来就一起了解一下基本的查询语句,需要的朋友可以参考一下
    2021-11-11
  • mysql创建表分区的实现示例

    mysql创建表分区的实现示例

    表分区是指根据一定规则,将数据库中的一张表分解成多个更小的,容易管理的部分,本文主要介绍了mysql创建表分区的实现示例,感兴趣的可以了解一下
    2024-01-01
  • 深入理解MySQL分区表的使用

    深入理解MySQL分区表的使用

    本文主要介绍了深入理解MySQL分区表的使用
    2024-03-03
  • 浅谈mysql8.0新特性的坑和解决办法(小结)

    浅谈mysql8.0新特性的坑和解决办法(小结)

    这篇文章主要介绍了浅谈mysql8.0新特性的坑和解决办法(小结),小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-09-09
  • mysql binlog 回滚示例解析

    mysql binlog 回滚示例解析

    严格来说mysqlbinlog 不能算回滚,他只是将过去的数据修改记录 重新执行一遍,但是从结果上来看,他也算把数据恢复到任意时间点了,这篇文章主要介绍了mysql binlog回滚示例解析,需要的朋友可以参考下
    2023-08-08
  • mysql中关于覆盖索引的知识点总结

    mysql中关于覆盖索引的知识点总结

    在本篇文章里小编给大家整理的是一篇关于mysql中关于覆盖索引的知识点总结内容,有需要的朋友们学习参考下。
    2020-08-08
  • win10下安装两个MySQL5.6.35数据库

    win10下安装两个MySQL5.6.35数据库

    这篇文章主要为大家详细介绍了win10下两个MySQL5.6.35数据库安装教程,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-05-05
  • 同时运行多个MySQL服务器的方法

    同时运行多个MySQL服务器的方法

    在同一台机器上运行多个有些情况下你可能想要在同一台机器上运行多个服务器。例如,你可能想要测试一个新的MySQL版本而让你现有生产系统的设置不受到干扰, 或你可能是想要为不同的客户提供独立的MySQL安装一个因特网服务供应商。
    2008-05-05
  • 深入分析mysql为什么不推荐使用uuid或者雪花id作为主键

    深入分析mysql为什么不推荐使用uuid或者雪花id作为主键

    这篇文章主要介绍了深入分析mysql为什么不推荐使用uuid或者雪花id作为主键,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-09-09

最新评论