eight_TinyMind

BeautifulSoup 解析库

https://www.cnblogs.com/kermitjam/p/10863925.html

主要功能：从网页爬取数据

但是这个库需要依赖一个解析器！！！

主要解析器，及其优缺点：

文档树通过下一个标签查找

遍历文档树

返回一个生成器（generator）拿到一个对象从对象里拿到需要的内容比直接拿到内容节省资源

可以驱动js内部还是实现异步（并发）请求

 1 '''
 2 主页:
 3     图标地址、下载次数、大小、详情页地址
 4 
 5 详情页:
 6     游戏名、图标名、好评率、评论数、小编点评、简介、网友评论、1-5张截图链接地址、下载地址
 7 https://www.wandoujia.com/wdjweb/api/category/more?catId=6001&subCatId=0&page=1&ctoken=FRsWKgWBqMBZLdxLaK4iem9B
 8 
 9 https://www.wandoujia.com/wdjweb/api/category/more?catId=6001&subCatId=0&page=2&ctoken=FRsWKgWBqMBZLdxLaK4iem9B
10 
11 https://www.wandoujia.com/wdjweb/api/category/more?catId=6001&subCatId=0&page=3&ctoken=FRsWKgWBqMBZLdxLaK4iem9B
12 
13 32
14 '''
15 import requests
16 from bs4 import BeautifulSoup
17 # 1、发送请求
18 def get_page(url):
19     response = requests.get(url)
20     return response
21 
22 # 2、开始解析
23 # 解析主页
24 def parse_index(data):
25     soup = BeautifulSoup(data, 'lxml')
26 
27     # 获取所有app的li标签
28     app_list = soup.find_all(name='li', attrs={"class": "card"})
29     for app in app_list:
30         # print('tank *' * 1000)
31         # print(app)
32         # 图标地址
33         img = app.find(name='img').attrs['data-original']
34         print(img)
35 
36         # 下载次数
37         down_num = app.find(name='span', attrs={"class": "install-count"}).text
38         print(down_num)
39 
40         import re
41         # 大小
42         size = soup.find(name='span', text=re.compile("\d+MB")).text
43         print(size)
44 
45         # 详情页地址
46         detail_url = soup.find(name='a', attrs={"class": "detail-check-btn"}).attrs['href']
47         print(detail_url)
48 
49 
50 def main():
51     for line in range(1, 33):
52         url = f"https://www.wandoujia.com/wdjweb/api/category/more?catId=6001&subCatId=0&page={line}&ctoken=FRsWKgWBqMBZLdxLaK4iem9B"
53 
54         # 1、往app接口发送请求
55         response = get_page(url)
56         # print(response.text)
57         print('*' * 1000)
58         # 反序列化为字典
59         data = response.json()
60         # 获取接口中app标签数据
61         app_li = data['data']['content']
62         # print(app_li)
63         # 2、解析app标签数据
64         parse_index(app_li)
65 
66 
67 if __name__ == '__main__':
68     main()

爬取豌豆荚app数据（提取游戏主页）

MongoDB 存储库

https://www.cnblogs.com/kermitjam/p/10863933.html#_label1

安装：

https://www.mongodb.com/download-center#community （下载地址）

安装好数据库后添加环境变量 mongodb bin 将bin目录添加到环境变量中

2.数据库操作

python链接MongoDB

pip3installpymongo

Mongobd可视化工具 robt3t

优质内容筛选与推荐>>
1、在 Excel 中使用正则表达式进行查找与替换
2、像不像小羊？
3、最高法院明确反向工程合法腾讯诉PICA恐生变
4、Pycharm安装文档教程
5、C# 创建Excel并写入内容

0 │ 收藏 │ 举报

朋友将在看一看看到

分享想法到看一看