requests库和robots.txt标准
requests库(自动爬取HTML页面,自动网络请求提交)
七个主要方法: requests.request() request.get() request.head() request.post()
request.put() request.patch() request.delete()
---------------------------------------------------------------------------------------------------------------------------
五个重要属性: r.status_code r.text r.encoding r.apparent_encoding r.content
----------------------------------------------------------------------------------------------------------------------------
request库的异常: requests.ConnectionError requests.HTTPError requests.URLRequired
requests.TooManyRedirects requests.ConnectTimeout requests.Timeout
-----------------------------------------------------------------------------------------------------------------------------
requests库--------爬取网页,玩转网页-----小规模,数据量小,爬取速度不敏感。
scrapy库----------爬取网站,爬取系列网站----中规模,数据规模较大,爬取速度敏感
定制开发-----------爬取全网,大规模,搜索引擎,爬取速度关键。
------------------------------------------------------------------------------------------------------------------------------
robots.txt标准(网络排重排除标准)
>>>import requests
>>> r = requests.get('http://www.zhidaow.com') # 发送请求
>>> r.status_code # 返回码
200
>>> r.headers['content-type'] # 返回头部信息
'text/html; charset=utf8'
>>> r.encoding # 编码信息
'utf-8'
>>> r.text #内容部分(PS,由于编码问题,建议这里使用r.content)
u'<!DOCTYPE html>\n<html xmlns="http://www.w3.org/1999/xhtml"...'
...
参考博客地址:http://blog.csdn.net/alpha5/article/details/24964009
优质内容筛选与推荐>>