Python中的字符串编解码

lc_wangchao

浏览: 34165 次
性别:
来自: 北京

最近访客更多访客>>

有生菜有夏天

snail_lzq

lps_683

focus301

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Python

python

unicode和str类型

Python中字符串有两种写法，比如，如果把“中国”这一字符串赋值给变量可以这样写：

str = '中国'

或者

str = u'中国'

前者定义了一个字符串，而后者则定义了一个unicode编码的字符串。

首先说一下第二种形式。在Python中，为了统一不同编码的字符串的表示，同时为简化字符串的处理，其内部提供了一种统一化的文本类型unicode，即第二种形式的字符串。unicode类型的字符串只处理文本，并把文本以unicode形式在内部存储。unicode类型的作用只用于代码内部字符串的处理，而不关心外部文本的具体格式，可以看作是文本的抽象表示。

但是实际上外界文本的不同编码格式众多。比如向一个网站提交数据，其有可能要求utf-8的编码或者gbk的编码，不同的编码类型的内容是不同的，这就需要将我们程序内部字符串转换成可以与外界交互的编码（如：utf-8，ascii，gdb等）。通常我们使用str类型来操作。严格来讲，str并不一定是文本，它也有可能是二进制的内容，它提供的其实是字节的组合（unicode类型提供的是unicode字符即的组合），只是如果str中刚好是某种形式编码的文本，它便可以当做文本处理（print等）。

我们可以通过在Python的命令行中执行以下代码来看到两种格式的不同：

对于str：

>>> str = '中国';
>>> for c in str:
...     c
... <回车>

输出：
'\xe4'
'\xb8'
'\xad'
'\xe5'
'\x9b'
'\xbd'

对于unicode：

>>> str = u'中国'
>>> for c in str:
...     c
... <回车>

输出：
u'\u4e2d'
u'\u56fd'

前者输出了6行，而后者只输出了2行。这是由于两种类型对字符串的不同理解造成的。前者将字符串理解为字节的组合，由于系统默认采用utf-8编码，字符串'中国'其实是有四个字节组合而成的。后者将字符串理解为文本字符的组合，u'中国'被看做“中”和“国”两个字的unicode码组合。

编码的转换

unicode与str的转换

我们用encode方法来对unicode字符串编码成str字符串：

>>> unicode_str = u'中国'
>>> unicode_str
u'\u4e2d\u56fd'
>>> utf8_str = unicode.encode('utf-8');
>>> utf8_str
'\xe4\xb8\xad\xe5\x9b\xbd'

使用decode方法将str转换成unicode:

>>> utf8_str = '中国'
>>> utf8_str
'\xe4\xb8\xad\xe5\x9b\xbd'
>>> unicode_str = utf8_str.decode('utf-8')
>>> unicode_str
u'\u4e2d\u56fd'

在encode或者decode的时候需要手动传入编码方式来指定str字符串的编码

不同编码的转换

有时我们可能需要以一种编码方式从数据源中获取文本，然后以另一种编码方式保存到另外的数据源中。可以利用unicode作为中间变量进行转换:

>>> utf8_str = '中国'
>>> utf8_str
'\xe4\xb8\xad\xe5\x9b\xbd'
>>> unicode_str = utf8_str.decode('utf-8')
>>> gbk_str = unicode_str.encode('gbk')
>>> gbk_str
'\xd6\xd0\xb9\xfa'

由于gbk使用两个字节保存汉字，所以转换后总共是四个字节。

编码检测

有时候，我么可能不知道一个字符串是什么编码，chardet工具可以帮助我们检测未知编码的字符串编码格式。

首先安装chardet，在shell中：

$ sudo easy_install chardet

安装完就可以使用了，进入Python命令行：

>>> import chardet
>>> str = '中国'
>>> chardet.detect(str)
{'confidence': 0.7525, 'encoding': 'utf-8'}

结果中encoding是猜测的编码，confidence是可信度，之后如何处理就看你了。

0
顶

0
踩

分享到：

非栈式编程库stackless

2013-02-20 18:14
浏览 10482
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论