在互联网上进行自动数据采集这件事和互联网存在的时间差不多一样长。虽然网络数据采集并不是新术语,但是多年以来,这件事更常见的称谓是网页抓屏(srenscxaping)、数据挖掘(darng)、网络收割(Web hanetimg)或其他类似的版本。今天大众好像更倾向于用网络数据采集”,因此我在本书中使用这个术语,不过有时会把网络数据采集程序称为网络机器人(has),
理论上,网络数据采集是一种通过多种手段枚集网络数据的方式,不光是通过与API交互(或者直接与浏览器交互)的方式。最常用的方法是写一个自动化程序向阿络服务器浦求数据〈通常是用HML表单或其他网页文件),然后对数据进行解析,提取需要的信息。
实践中,阿络数据采集涉及非常广泛的编程技术和手段。比如数据分析、信息安全等。本书将在第一部分介绍关于网络数据采集和网络爬行(arwfng)的基础知识,一些高级主题放在第二部分介绍。
Python网络数据采集.pdf
11052652528[下载].rar
|