网络爬虫原理
目录
#1、网络爬虫原理 网络爬虫指按照一定的规则(模拟人工登录网页的方式),自动抓取网络上的程序。简单的说,就是讲你上网所看到页面上的内容获取下来,并进行存储。网络爬虫的爬行策略分为深度优先和广度优先。如下图是深度优先的一种遍历方式是A到B到D 到E 到C到 F(ABDECF)而宽度优先的遍历方式ABCDEF。
#2、写网络爬虫的原因 我将为什么写网络爬虫的原因总结为3点,分别是: (1)互联网中的数据量大,我们不能人工的去收集数据,这样会很浪费时间与金钱。而爬虫有个特点就是能批量、自动化的获取和处理数据。本人写过各大汽车论坛上的爬虫以及大众点评网,tripadvisor(国外网站)的爬虫,爬取的数据已有几千万之多,可想你如果一条条去复制,到老死也完不成吧。 (2)爬虫很酷。前段日子,看到有人利用爬到了腾讯3000万QQ数据,包含(QQ号,昵称,空间名称,会员级别,头像,最新一条说说内容,最新说说的发表时间,空间简介,性别,生日,所在省份,城市,婚姻状况)的详细数据,并绘制了各种有趣的图表。 (3)对于读研、读博,做数据挖掘、数据分析的人而言,没有数据做实验,是一件很蛋疼的事情。你可能每天在各种论坛问这个问那个要数据,是不是很烦呢。
#3、网络爬虫的流程
简单的网络爬虫,通过上述图便可完成。首先是给定一个待爬取的URL队列,然后通过抓包的方式,获取数据的真实请求地址。接着采用httpclient模拟浏览器将相应的数据抓取下来(一般是html文件或者是json数据)。由于网页中的内容很多,很复杂,很多内容并不是我们需要的,所以我们需要对其进行解析。针对html的解析很简单,通过Jsoup(Dom解析工具)、正则表达式便可完成。针对Json数据的解析,这里我建议一款快速解析工具fastjson(阿里开源的一个工具)
#4、网络抓包 ,(packet capture)就是将网络传输发送与接收的数据包进行截获、重发、编辑、转存等操作,经常被用来进行数据截取等。在针对数据响应为Json或者需要针对需要用户名、密码登陆的网站,抓包显得尤为重要,抓包也是编写网络爬虫的第一步。
