urllib

  • urllib是Python自带的爬虫库

  • 常用urllib.reqeust, urllib.parse

使用流程:

  • 指定url

  • 基于urllib的request子模块发起请求

  • 获取响应中的数据值

  • 持久化存储

代理

  • 正向代理:代理客户端获取数据。正向代理是为了保护客户端防止被追究责任。

  • 反向代理:代理服务器提供数据。反向代理是为了保护服务器或负责负载均衡。

from urllib.parse import *

quote('abc def')       --> 'abc%20edf'
unquote('abc%20edf')   --> 'abc def'

# Parse a URL into 6 components
# <scheme>://<netloc>/<path>;<params>?<query>#<fragment>
urlparse(''http://www.baidu.com/path?key=value#comments'') --> ParseResult(scheme='http', netloc='www.baidu.com', path='/path', params='', query='key=value', fragment='comments')
urlunparse(components) --> url

# urlsplit(url) --> Parse a URL into 5 components but params
# urlunsplit(components) --> url


parse_qs(query)   --> obj
parse_qsl(query)  --> dict
urlencode(query_dict) --> query_str

Last updated