Python学习-字符编码的理解


Unicode编码和ASCII码两者都是机器能够理解的编码,你就是说出现一个码,计算机知道它对应哪种符号。因为这种编码形式将不同的字符全都和电平的高低电位联系在一起。

Unicode,这种编码是全球通用的编码,就是说所有计算机都包含的编码。包含utf-32(占4个字节),utf-16(占两个字节),utf-8(占1-4个字节),这三种形式。

也就是说utf-8,就是一种Unicode的编码。

utf-16就是现在最常用的unicode版本, 不过在文件里存的还是utf-8,因为utf8省空间。

GBK编码就是另一种编码的形式。这是包含中文汉字的一种早期编码形式,但是,没有包含所有的汉字。并且和Unicode的不同。所以如果以gb k编码的形式存储,我们就要专门指定用g b k的形式进行解码。

1.在python2默认编码是ASCII, python3里默认是unicode;另外每个软件通常也会有自己默认的编码形式。

2.在py3中encode,在转码的同时还会把string 变成bytes类型,decode在解码的同时还会把bytes变回string

3.另外,这里非常值得注意的事情是,我们所关心的字符编码,他的对象是字符而不是数字。数字基本上可以看成是直接存储的。

http://www.cnblogs.com/yuanchenqi/articles/5956943.html

优质内容筛选与推荐>>
1、千万级别 的 txt 数据导入 sqlserver2005 方法,可以容错,数据类型自动转化。解决sql2005数据导入难题
2、树莓派 zeroWH 使用笔记
3、整合CVSNT 和 Mantis 缺陷管理系统
4、html5 canvas ( 图形的像素操作 ) getImageData, putImageData, ImgData.data
5、组合模式


长按二维码向我转账

受苹果公司新规定影响,微信 iOS 版的赞赏功能被关闭,可通过二维码转账支持公众号。

    阅读
    好看
    已推荐到看一看
    你的朋友可以在“发现”-“看一看”看到你认为好看的文章。
    已取消,“好看”想法已同步删除
    已推荐到看一看 和朋友分享想法
    最多200字,当前共 发送

    已发送

    朋友将在看一看看到

    确定
    分享你的想法...
    取消

    分享想法到看一看

    确定
    最多200字,当前共

    发送中

    网络异常,请稍后重试

    微信扫一扫
    关注该公众号