Python中文字符串截取问题

更新时间：2015年06月15日 09:21:03 投稿：hebedich

web应用难免会截取字符串的需求,Python中截取英文很容易，但是截取utf-8的中文机会截取一半导致一些不是乱码的乱码.其实utf8截取很简单,这里记下来分享给大家

先来看个例子：

#-*- coding:utf8 -*-
s = u'中文截取'
s.decode('utf8')[0:3].encode('utf8')
# 结果u'中文截取

延伸阅读：

UTF-8中的汉字占用多少字节？
占2个字节的：〇
占3个字节的：基本等同于GBK，含21000多个汉字
占4个字节的：中日韩超大字符集里面的汉字，有5万多个
一个UTF-8数字占1个字节
一个UTF-8英文字母占1个字节

在查找 UTF-8 编码资料时发现，很多的帖子说的 UTF-8 编码里，一个汉字占用3个字节，有的还做了个证明，大概是这样的，创建一个没有BOM的UTF-8编码的文本文件，里面保存了几个汉字，然后查看文件的大小。我觉得这样的证明没有一点说服力，因为 UTF-8 是变长的，1-6个字节，少量的汉字检测是不能说明所有的汉字都是的。

后来我又查看了字符映射表－汉语，找到了正确的答案，少数是汉字每个占用3个字节，多数占用4个字节。

以上所述就是本文的全部内容了，希望大家能够喜欢。

您可能感兴趣的文章:

python环境路径配置以及命令行运行脚本
这篇文章主要为大家详细介绍了python环境路径配置以及命令行运行脚本，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2019-04-04
python爬虫筛选工作实例讲解
在本篇内容里小编给大家整理的是一篇关于python爬虫筛选工作实例讲解内容，有需要的朋友们可以参考下。
2020-11-11
python 筛选数据集中列中value长度大于20的数据集方法
今天小编就为大家分享一篇python 筛选数据集中列中value长度大于20的数据集方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-06-06
python图片由RGB空间转成LAB空间的实现方式
这篇文章主要介绍了python图片由RGB空间转成LAB空间的实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2023-10-10
Pytorch中expand()的使用(扩展某个维度)
这篇文章主要介绍了Pytorch中expand()的使用(扩展某个维度)，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2022-07-07
Pycharm无法显示动态图片的解决方法
今天小编就为大家分享一篇Pycharm无法显示动态图片的解决方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-10-10
python sort、sorted高级排序技巧
这篇文章主要介绍了python sort、sorted高级排序技巧,本文讲解了基础排序、升序和降序、排序的稳定性和复杂排序、cmp函数排序法等内容,需要的朋友可以参考下
2014-11-11
Python中的random.uniform()函数教程与实例解析
今天小编就为大家分享一篇关于Python中的random.uniform()函数教程与实例解析，小编觉得内容挺不错的，现在分享给大家，具有很好的参考价值，需要的朋友一起跟随小编来看看吧
2019-03-03
django 控制页面跳转的例子
今天小编就为大家分享一篇django 控制页面跳转的例子，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-08-08
pytorch: Parameter 的数据结构实例
今天小编就为大家分享一篇pytorch: Parameter 的数据结构实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-12-12

Python中文字符串截取问题

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具