爬取全部的校园新闻


这个作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2941

1.从新闻url获取新闻详情: 字典,anews

2.从列表页的url获取新闻url:列表append(字典) alist

3.生成所页列表页的url并获取全部新闻 :列表extend(列表) allnews

*每个同学爬学号尾数开始的10个列表页

.4.设置合理的爬取间隔

allnews=[]

foriinrange(78,88):
listUrl='http://news.gzcc.cn/html/xiaoyuanxinwen/{}.html'.format(i)
allnews.extend(alist(listUrl))
len(allnews)
pd.Series(anews)
newsdf=pd.DataFrame(allnews)
foriinrange(5):
print(i)
time.sleep(random.random()*3)
print(newsdf)
5.用pandas做简单的数据处理并保存
newsdf.to_csv(r'F:\ccc.csv')

保存到数据库
import sqlite3
with sqlite3.connect('gzccnewsdb12.sqlite') as db:
newsdf.to_sql('gzccnewsdb12',db)



			

                        优质内容筛选与推荐>>
1、SQL Server Management Studio 键盘快捷键
2、百度开户、360开户淘宝客的跳转代码教程
3、mysql5.6.35的安装脚本
4、CentOS 6.8编译安装httpd2.2.31+MySQL5.6.31+PHP5.3.27
5、Itext相关知识


长按二维码向我转账

受苹果公司新规定影响,微信 iOS 版的赞赏功能被关闭,可通过二维码转账支持公众号。

    阅读
    好看
    已推荐到看一看
    你的朋友可以在“发现”-“看一看”看到你认为好看的文章。
    已取消,“好看”想法已同步删除
    已推荐到看一看 和朋友分享想法
    最多200字,当前共 发送

    已发送

    朋友将在看一看看到

    确定
    分享你的想法...
    取消

    分享想法到看一看

    确定
    最多200字,当前共

    发送中

    网络异常,请稍后重试

    微信扫一扫
    关注该公众号





    联系我们

    欢迎来到TinyMind。

    关于TinyMind的内容或商务合作、网站建议,举报不良信息等均可联系我们。

    TinyMind客服邮箱:support@tinymind.net.cn