python,中文,转换,url编码
后端开发-Python教程
微信扫码取号排队源码独立版,ubuntu查看电源状况,梦见爬虫和飞虫,php retoken,贵州seo人员lzw
今天要处理百度贴吧的东西。想要做一个关键词的list,每次需要时,直接添加 到list里面就可以了。但是添加到list里面是中文的情况(比如‘丽江’),url的地址编码却是’%E4%B8%BD%E6%B1%9F’,因此需 要做一个转换。这里我们就用到了模块urllib。建群系统源码,ubuntu配置多vlan,如何防网络爬虫,php转学,灯塔seo优化lzw
>>> import urllib>>> data = '丽江'>>> print data丽江>>> data'\xe4\xb8\xbd\xe6\xb1\x9f'>>> urllib.quote(data)'%E4%B8%BD%E6%B1%9F'
那我们想转回去呢?
网上的微赞源码可以用吗,手机安装了ubuntu,安装tomcat7出现失败,爬虫的行业现状,php工程师驻场开发哪家好,dede 做seolzw
>>> urllib.unquote('%E4%B8%BD%E6%B1%9F')'\xe4\xb8\xbd\xe6\xb1\x9f'>>> print urllib.unquote('%E4%B8%BD%E6%B1%9F')丽江
细心的同学会发现贴吧url中出现的是%C0%F6%BD%AD,而非’%E4%B8%BD%E6%B1%9F’,其实是编码问题。百度的是gbk,其他的一般网站比如google就是utf8的。所以可以用下列语句实现。
>>> import sys,urllib >>> s = '丽江'>>> urllib.quote(s.decode(sys.stdin.encoding).encode('gbk'))'%C0%F6%BD%AD'>>> urllib.quote(s.decode(sys.stdin.encoding).encode('utf8'))'%E4%B8%BD%E6%B1%9F'>>>