爬虫:用于搜索,但搜索的内容还在原来的网站上,主动,智能

采集:把别的网站的内容,放到自己网站上

网站首页相当于入口,入口下有很多一级分类,和首页是上下级的关系。分类是有层级关系的

网站的内容架构:

先确定抓取范围:先分析网站内容结构;eg:抓全栈的数据--那就以网站首页作为入口

网站内容架构:首页下是一级分类,一级分类下是二级分类

内容抓取流程:

入口是个列表页,

用java程序解析,先得拿到页面的html代码

想要抓取数据,得先分析url有何规律

关于提取:HTML解析类库:jsoup和jodd

1,jsoup

前提条件:没有任何第三方类库来自动帮助我来做这件事,用纯java系统类库来做?

优质内容筛选与推荐>>
1、BZOJ1337 最小圆覆盖
2、用TCP/IP实现自己简单的应用程序协议:其余部分
3、通信缩略语大全--http://bbs.cnttr.com/thread-22664-1-1.html
4、史上最丑的鼠标终于坏了
5、Http头介绍:Expires,Cache-Control,Last-Modified,ETag


长按二维码向我转账

受苹果公司新规定影响,微信 iOS 版的赞赏功能被关闭,可通过二维码转账支持公众号。

    阅读
    好看
    已推荐到看一看
    你的朋友可以在“发现”-“看一看”看到你认为好看的文章。
    已取消,“好看”想法已同步删除
    已推荐到看一看 和朋友分享想法
    最多200字,当前共 发送

    已发送

    朋友将在看一看看到

    确定
    分享你的想法...
    取消

    分享想法到看一看

    确定
    最多200字,当前共

    发送中

    网络异常,请稍后重试

    微信扫一扫
    关注该公众号