递归算法 百度关键词采集源码 简单粗暴的微信群二维码爬虫采集源码
这段源码虽然简单,但却形象地向大家介绍了一个简单的爬虫和递归算法。供大家学习、交流
主意:
百度搜索关键词
收集所有页面地址并过滤常见网站(新浪、腾讯、网易等)
@一一遍历获取源码
删除所有链接 删除所有图像链接
根据规则过滤链接(二维码是否准确主要看这个)
对已收集的链接重复以下步骤,直到没有更多可收集的链接。
主要问题出在过滤部分。您可以根据通用规则过滤掉非二维码的图片,然后批量下载。
(仅供学习交流,没有下载功能,可以直接通过HTTP读取文件写出来,也可以复制后用迅雷批量下载)
页:
[1]