52ky 发表于 2023-11-1 21:33:46

递归算法 百度关键词采集源码 简单粗暴的微信群二维码爬虫采集源码

这段源码虽然简单,但却形象地向大家介绍了一个简单的爬虫和递归算法。

供大家学习、交流

主意:

百度搜索关键词

收集所有页面地址并过滤常见网站(新浪、腾讯、网易等)

@一一遍历获取源码

删除所有链接 删除所有图像链接

根据规则过滤链接(二维码是否准确主要看这个)

对已收集的链接重复以下步骤,直到没有更多可收集的链接。

主要问题出在过滤部分。您可以根据通用规则过滤掉非二维码的图片,然后批量下载。

(仅供学习交流,没有下载功能,可以直接通过HTTP读取文件写出来,也可以复制后用迅雷批量下载)




页: [1]
查看完整版本: 递归算法 百度关键词采集源码 简单粗暴的微信群二维码爬虫采集源码