博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
bytes与str
阅读量:6827 次
发布时间:2019-06-26

本文共 874 字,大约阅读时间需要 2 分钟。

Python 3最重要的新特性大概要算是对文本和二进制数据作了更为清晰的区分。文本总是Unicode,由str类型表示,二进制数据则由bytes类型表示。Python 3不会以任意隐式的方式混用str和bytes,正是这使得两者的区分特别清晰。你不能拼接字符串和字节包,也无法在字节包里搜索字符串(反之亦然),也不能将字符串传入参数为字节包的函数(反之亦然)。这是件好事

不管怎样,字符串和字节包之间的界线是必然的,下面的图解非常重要,务请牢记于心:

 

字符串可以编码成字节包,而字节包可以解码成字符串。

>>>'€20'.encode('utf-8')b'\xe2\x82\xac20' >>> b'\xe2\x82\xac20'.decode('utf-8') '€20'

 

这个问题要这么来看:字符串是文本的抽象表示。字符串由字符组成,字符则是与任何特定二进制表示无关的抽象实体。在操作字符串时,我们生活在幸福的无知之中。我们可以对字符串进行分割和分片,可以拼接和搜索字符串。我们并不关心它们内部是怎么表示的,字符串里的每个字符要用几个字节保存。只有在将字符串编码成字节包(例如,为了在信道上发送它们)或从字节包解码字符串(反向操作)时,我们才会开始关注这点。

传入encode和decode的参数是编码(或codec)。编码是一种用二进制数据表示抽象字符的方式。目前有很多种编码。上面给出的UTF-8是其中一种,下面是另一种:

>>>'€20'.encode('iso-8859-15')b'\xa420'>>> b'\xa420'.decode('iso-8859-15')'€20'

 

编码是这个转换过程中至关重要的一部分。离了编码,bytes对象b'\xa420'只是一堆比特位而已。编码赋予其含义。采用不同的编码,这堆比特位的含义就会大不同:

>>> b'\xa420'.decode('windows-1255')'₪20'

转载于:https://www.cnblogs.com/alben-cisco/p/6883728.html

你可能感兴趣的文章
使用Java Socket手撸一个http服务器
查看>>
node-sass安装失败的究极解决方法与简单使用
查看>>
单例模式
查看>>
网易云轻舟微服务深度解读:基于开源,强于开源
查看>>
不轻松,服务器部署nginx+uwsgi+djangorestfremework+react
查看>>
亚洲第一届 Rust 大会将于 4 月 20 日在 [北京] 开启
查看>>
AFNetworking2.0
查看>>
TiDB 源码阅读系列文章(二)初识 TiDB 源码
查看>>
七年切图仔如何面试大厂web前端?(沟通软技能总结) | 掘金技术征文
查看>>
Express 实战(七):视图与模板:Pug 和 EJS
查看>>
学习OpenGL ES之透视和正交投影
查看>>
node的process以及child_process
查看>>
推送本地仓库至 GitHub
查看>>
Git 命令小结
查看>>
JavaScript 中的操作符
查看>>
js事件类型中的异类一焦点事件
查看>>
iOS性能优化 - APP启动时间优化
查看>>
MediaCodec 高效解码得到标准 YUV420P 格式帧
查看>>
还欠自己一整套LeetCode 算法题
查看>>
HTML5的特性与发展趋势
查看>>