1 / 19
文档名称:

Python中文处理.ppt

格式:ppt   大小:82KB   页数:19页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

Python中文处理.ppt

上传人:lily8501 2019/8/11 文件大小:82 KB

下载得到文件列表

Python中文处理.ppt

相关文档

文档介绍

文档介绍:Python中文处理zhoo.******@:原因:ascii编码无法处理超过128的值也就是超过27ASCII编码:使用了7位来表示字符,所能表示的字符数量也就是0~127对于中文来说,远远不够于是。。。讲点ascii历史Unicode顺应而生!putingindustrystandardfortheconsistentencoding,representationandhandlingoftextexpressedinmostoftheworld'swritingsystems. --摘自wikipedia刚才那个太抽象哈unicode是个方便各种编码之间转换的标准,它可以包含世界上的所有字符codepoint,unicode标准定义了如何通过codepoint来表示字符。codepoint是个int型的值,用16位表示。形如U+897f,对应0x897f一个codepoint,也就相当与一个unicodecharacterunicodestring,也就是许多的codepoint连接在一起encode:把unicodestring转换为一系列的字节decode:把一系列的字节值转换为unicodestringgbk编码:使用了两个字节来表示一个字符utf-8编码:   1,codepointis<128,ascii   2,128<codepoint<0x7ff,~255之间.   3,codepoint>0x7ff,:()可以看到每个unicode实例的默认编码为utf-8u=unicode('西')utf8=('utf-8')gbk=('gbk')('gbk').encode('utf8')