requests库和robots.txt标准

requests库（自动爬取HTML页面，自动网络请求提交）

七个主要方法： requests.request()　　 request.get() 　　 request.head() 　　request.post()

　　　　　　　 request.put()　　　　　request.patch() request.delete()

---------------------------------------------------------------------------------------------------------------------------

五个重要属性： r.status_code　　　　 r.text 　　r.encoding 　　r.apparent_encoding 　　r.content

----------------------------------------------------------------------------------------------------------------------------

request库的异常： requests.ConnectionError　　　　 requests.HTTPError　　　　　　 requests.URLRequired

　　　　　　　　　　 requests.TooManyRedirects　　 requests.ConnectTimeout　　 requests.Timeout

-----------------------------------------------------------------------------------------------------------------------------

requests库--------爬取网页，玩转网页-----小规模，数据量小，爬取速度不敏感。

scrapy库----------爬取网站，爬取系列网站----中规模，数据规模较大，爬取速度敏感

定制开发-----------爬取全网，大规模，搜索引擎，爬取速度关键。

------------------------------------------------------------------------------------------------------------------------------

robots.txt标准（网络排重排除标准）

>>>import requests
>>> r = requests.get('http://www.zhidaow.com')  # 发送请求
>>> r.status_code  # 返回码 
200
>>> r.headers['content-type']  # 返回头部信息
'text/html; charset=utf8'
>>> r.encoding  # 编码信息
'utf-8'
>>> r.text  #内容部分（PS，由于编码问题，建议这里使用r.content）
u'<!DOCTYPE html>\n<html xmlns="http://www.w3.org/1999/xhtml"...'
...

参考博客地址：http://blog.csdn.net/alpha5/article/details/24964009

优质内容筛选与推荐>>
1、[bzoj2463]谁能赢呢
2、[leetcode] 69. x 的平方根(纯int溢出判断实现)
3、[luogu P1352] 没有上司的舞会 (树形dp)
4、20145101《Java程序设计》第一周学习总结
5、数据结构与算法-线性表顺序存储结构删除操作的实现

0 │ 收藏 │ 举报

朋友将在看一看看到

分享想法到看一看