requests库和robots.txt标准


requests库(自动爬取HTML页面,自动网络请求提交)

七个主要方法requests.request()   request.get()     request.head()    request.post()

        request.put()      request.patch() request.delete()

---------------------------------------------------------------------------------------------------------------------------

五个重要属性: r.status_code     r.text    r.encoding   r.apparent_encoding   r.content

----------------------------------------------------------------------------------------------------------------------------

request库的异常requests.ConnectionError     requests.HTTPError       requests.URLRequired

           requests.TooManyRedirects   requests.ConnectTimeout   requests.Timeout

-----------------------------------------------------------------------------------------------------------------------------

requests库--------爬取网页,玩转网页-----小规模,数据量小,爬取速度不敏感。

scrapy库----------爬取网站,爬取系列网站----中规模,数据规模较大,爬取速度敏感

定制开发-----------爬取全网,大规模,搜索引擎,爬取速度关键。

------------------------------------------------------------------------------------------------------------------------------

robots.txt标准(网络排重排除标准)

>>>import requests
>>> r = requests.get('http://www.zhidaow.com')  # 发送请求
>>> r.status_code  # 返回码 
200
>>> r.headers['content-type']  # 返回头部信息
'text/html; charset=utf8'
>>> r.encoding  # 编码信息
'utf-8'
>>> r.text  #内容部分(PS,由于编码问题,建议这里使用r.content)
u'<!DOCTYPE html>\n<html xmlns="http://www.w3.org/1999/xhtml"...'
...

参考博客地址:http://blog.csdn.net/alpha5/article/details/24964009
优质内容筛选与推荐>>
1、[bzoj2463]谁能赢呢
2、[leetcode] 69. x 的平方根(纯int溢出判断实现)
3、[luogu P1352] 没有上司的舞会 (树形dp)
4、20145101《Java程序设计》第一周学习总结
5、数据结构与算法-线性表顺序存储结构删除操作的实现


长按二维码向我转账

受苹果公司新规定影响,微信 iOS 版的赞赏功能被关闭,可通过二维码转账支持公众号。

    阅读
    好看
    已推荐到看一看
    你的朋友可以在“发现”-“看一看”看到你认为好看的文章。
    已取消,“好看”想法已同步删除
    已推荐到看一看 和朋友分享想法
    最多200字,当前共 发送

    已发送

    朋友将在看一看看到

    确定
    分享你的想法...
    取消

    分享想法到看一看

    确定
    最多200字,当前共

    发送中

    网络异常,请稍后重试

    微信扫一扫
    关注该公众号