1.前端纯HTML+JS+JSON(链接统计除外),后端python生成标准JSON
2.自带30余条常用网站采集规则
3.多线程爬取,5秒可采集30+网站
4.同一个网站放置在一个框架中,可以部分刷新和滚动
5.更新时间显示(根据采集页面内置更新时间或者按时间排序的首次时间,如果没有则为采集完成时间)
6. 内容链接受到保护,防止盗链。链接通过base64+字符倒序+大小写反转+base64进行加密(改变大小写转换顺序或者添加数字替换可以实现不同的密码加密)
7.内容链接点击统计
8. 鼠标悬停提示部分内容(如应用商店排名及更新内容、时间、版本号)
安装:
1.python3 caiji.py集合(请使用screen或nohup保持后台运行)
2.打开首页访问
笔记:
caiji.py是后端采集程序,其余都是前端,必须在同一目录下。
请查看源码中的注释进行相应的设置修改。
admin.php是第三方数据库管理程序,用于查看内容链接统计(默认密码是admin,请在文件中修改)
点击第一次访问内容链接时会生成统计数据库log.db。如果没有创建,请确保主目录可写。
为了安全起见,请将后端程序caiji.py和数据库查看程序admin.php修改为复杂文件名,或者移动到非web目录下(还需要将文件中生成的json保存目录修改为网站根目录,默认为当前目录)
默认情况下,使用多线程爬取。如果有任何问题,请改用单线程抓取。
请将今日头条收集的cookie替换为您自己的cookie。今日头条短时间内采集大量相同内容(目前每分钟采集一次,合并10次)。分段收集同一个cookie后几乎不会出现重复,但收集一段时间后推荐的都是杂七杂八的垃圾内容(请定期更换cookie或添加随机标题cookie生成规则)
采集站的大部分标志都修改为透明图层png,在非白色背景上可能很难看清。
23450187408[下载].rar
|