HTML汉字编码标准介绍

  发布时间:2021-11-27 22:39:22   作者:佚名   我要评论
这篇文章主要介绍了HTML汉字编码标准介绍,需要的朋友可以参考下

HTML中需要指定网页所使用的编码,一般指定的方式为:

<meta http-equiv="Content-Type" content="text/html;charset=UTF-8">

而在新版本HTML5中,也可以使用更简单的方式:

<meta charset="UTF-8">

因为世界上所用的语言文字很多,为了满足跨语言、跨平台进行文本转换、处理的要求,国际组织研制了Unicode编码,于1994年正式公布,并不断升级,提供了1,114,112个码点,定义了包括古文字符号在内的人类所有可读字符的字符集。但Unicode编码为了表示那么多字符,通常使用32位(即4个字节)来表示一个字符,需要占用比较大的存储空间,对常用的字符(如ASCII)也需要较长的编码,内存使用效率比较低。

为此,定义了一种使用8位编码单元的变宽的编码格式UTF-8。UTF-8编码中,一些常用的字符可以使用较少的字节来表示,而较少使用的字符则使用较多的字节,提高了编码占用空间的效率。如ASCII码仍使用一个字节来表示,这是通过识别编码中一些高位的来实现的,它搭建了ASCII编码和Unicode的桥梁。具体编码方式为:
·0000~007F:0xxxxxxx,存储为一个字节,有7位可表示不同的字符,一般对应ASCII字符
·0080~07FF:110xxxxx,10xxxxxx,存储为两个字节,有11位可表示不同的字符
·0800~FFFF:1110xxxx,10xxxxxx,10xxxxxx,存储为3个字节,有16位用来表示不同的字符
·10000~1FFFFF:11110xxx,10xxxxxx,10xxxxxx,10xxxxxx,存储为4个字节,有21位表示不同的字符
可以看到规律:如果最高位不是0,那么数字中在0前面的数字表示一个序列包括的码元数。一个序列中,第一个码元之后的所有码元都有10前缀。Unicode编码还有UTF-16、UTF-32等其他的编码格式,但UTF-8更采用,同样也可以表示所有的编码集。

过去在计算机中表示汉字最常用的是GB2312编码,1980年发布,全称为《信息交换用汉字编码字符集--基本集》,它使用两个字节来表示一个汉字,共收入6763个汉字和682个非汉字图形字符,兼容于ASCII字符集。但这种编码中包含的汉字比较少,不能表示港台使用的繁体字,一些非常用字及古书中的字也无法表示,实用中会感到很多不便。后来,在GB2312基础上进行了扩展,也就是GBK编码标准,可以表示繁体字及一些异体字,使用范围得到扩展。

为了适合更广范围的应用,又发布了GB18030编码标准,GB18030-2000收录了27533个汉字,GB18030-2005则收录了70244个汉字,并包含了藏、蒙古、傣、彝、朝鲜、维吾尔文等多种少数民族文字。GB18030的总编码空间超过150万个码位,编码采用单字节、双字节和四字节对字符编码,单字节部分采用GB/T11383的编码结构与规则,使用0x00至0x7F码位,对应于ASCII码的相应码位;双字节部分,首字节码位从0x81至0xFE,尾字节码位分别是0x40至0x7E和0x80至0xFE;四字节部分采用GB/T11383未采用的0x30到0x39作为对双字节编码扩充的后缀,这样扩充的四字节编码,其范围为0x81308130到0xFE39FE39。GB18030编码还在不断扩充中。

为了更多地表示汉字及一些特殊符号,也为了未来更好地兼容性,新制作的网页最好使用GB18030标准,也就是使用下面两种方式之一指定编码:

<meta http-equiv="Content-Type" content="text/html;charset=gb18030">
<meta charset="gb18030">

当然,为了显示外国文字方便,也可以使用国际通用的UTF-8编码。

相关文章

  • Html去除a标签的默认样式的操作代码

    在Html中,a标签默认的超链接样式是蓝色字体配下划线,这可能不满足所有设计需求,如需去除这些默认样式,可以通过CSS来实现,本文给大家介绍Html去除a标签的默认样式的操作代码
    2024-09-25
  • HTML文本域如何设置为禁止用户手动拖动

    在HTML中,可以通过设置CSS的resize属性为none,来禁止用户手动拖动文本域(textarea)的大小,这种方法简单有效,适用于大多数现代浏览器,但需要在老旧浏览器中进行测试以确保
    2024-09-25
  • 如何通过HTML/CSS 实现各类进度条的功能

    本文详细介绍了如何利用HTML和CSS实现多种风格的进度条,包括基础的水平进度条、环形进度条以及球形进度条等,还探讨了如何通过动画增强视觉效果,内容涵盖了使用HTML原生标签
    2024-09-19
  • HTML中Canvas关键知识点总结

    Canvas 提供了一套强大的 2D 绘图 API,适用于各种图形绘制、图像处理和动画制作,可以帮助你创建复杂且高效的网页图形应用,这篇文章主要介绍了HTML中Canvas关键知识点总结
    2024-06-03
  • html table+css实现可编辑表格的示例代码

    本文主要介绍了html table+css实现可编辑表格的示例代码,主要使用HTML5的contenteditable属性,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起学习学习
    2024-03-06
  • HTML中使用Flex布局实现双行夹批效果

    本文主要介绍了HTML中使用Flex布局实现双行夹批效果,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习
    2024-02-22
  • HTML+CSS实现炫酷登录切换的项目实践

    在网站开发中,登录页面是必不可少的一部分,本文就来介绍一下HTML+CSS实现登录切换,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需
    2024-02-02
  • HTML+CSS实现全景轮播的示例代码

    本文主要介绍了HTML+CSS实现全景轮播的示例代码,实现了一个简单的网页布局,其中包含了五个不同的盒子,每个盒子都有一个不同的背景图片,并且它们之间有一些间距,下面就
    2024-02-02
  • 圣诞节制作一颗HTML的圣诞树

    来到圣诞节了,那么就可以制作一颗HTML的圣诞树送给朋友,没有编程基础的小白也可以按照步骤操作也可以运行起来代码的,喜欢的朋友快来体验吧
    2023-12-26
  • 如何将html的radio单选框自定义样式为正方形和对号

    如何能把html的<input type="radio" name="option">改成自定义的样式呢?比如想要把他变成正方形,选中的时候是对号,默认的样式太丑了,今天给
    2023-12-14

最新评论